
新智元報(bào)道
編輯:編輯部 HXs
【新智元導(dǎo)讀】Figure公司通過(guò)強(qiáng)化學(xué)習(xí),成功實(shí)現(xiàn)機(jī)器人的自然步態(tài)。利用高效物理模擬器,僅用幾小時(shí)完成相當(dāng)于多年訓(xùn)練的數(shù)據(jù),訓(xùn)練出的策略無(wú)需額外調(diào)整即可「零樣本」遷移至真實(shí)機(jī)器人。
現(xiàn)在訓(xùn)練機(jī)器人,都不需要真實(shí)數(shù)據(jù)了?
剛剛,F(xiàn)igure提出了一種全新的基于RL的端到端網(wǎng)絡(luò)。
只需要在純模擬環(huán)境中進(jìn)行訓(xùn)練,用幾個(gè)小時(shí)生成模擬數(shù)據(jù),就能讓Figure 02像人類(lèi)一樣自然行走了!
該方法的亮點(diǎn)如下:
在模擬環(huán)境中運(yùn)用強(qiáng)化學(xué)習(xí),讓機(jī)器人不斷試錯(cuò),學(xué)會(huì)像人類(lèi)一樣走路。
通過(guò)高保真物理模擬器,僅用幾個(gè)小時(shí),就模擬出多年的數(shù)據(jù)。
將模擬中的域隨機(jī)化與機(jī)器人上的高頻扭矩反饋相結(jié)合,無(wú)需微調(diào),就能把模擬環(huán)境中的策略應(yīng)用于真實(shí)機(jī)器人。
更讓人驚喜的是,一個(gè)神經(jīng)網(wǎng)絡(luò)策略就能控制一大批機(jī)器人!
通過(guò)一個(gè)高保真物理模擬器,F(xiàn)igure最新的機(jī)器人僅用幾個(gè)小時(shí),就能模擬出幾年的數(shù)據(jù)。
為了把模擬環(huán)境的訓(xùn)練成果應(yīng)用到真實(shí)機(jī)器人上,團(tuán)隊(duì)采用了兩種辦法。
一是在模擬訓(xùn)練時(shí)進(jìn)行域隨機(jī)化,讓機(jī)器人接觸不同的物理屬性;二是在真實(shí)機(jī)器人上安裝高頻扭矩反饋裝置。
這樣一來(lái),模擬環(huán)境中訓(xùn)練好的策略,無(wú)需任何微調(diào),就可以「零樣本」遷移到真實(shí)硬件上。
在強(qiáng)化學(xué)習(xí)中,控制器通過(guò)不斷試錯(cuò),根據(jù)獎(jiǎng)勵(lì)信號(hào)來(lái)調(diào)整自己的行為。
Figure在高保真模擬環(huán)境中訓(xùn)練RL控制器,運(yùn)行數(shù)千個(gè)具有不同參數(shù)和場(chǎng)景的虛擬人形機(jī)器人。
這種多樣化的訓(xùn)練,使訓(xùn)練出的策略能直接用在真實(shí)的Figure 02機(jī)器人上,走出穩(wěn)健的人類(lèi)步伐。
Figure基于RL的訓(xùn)練方法,大大縮短了開(kāi)發(fā)時(shí)間,在現(xiàn)實(shí)世界中表現(xiàn)也很穩(wěn)定。
強(qiáng)化學(xué)習(xí)訓(xùn)練
用強(qiáng)化學(xué)習(xí)方法,在GPU加速的物理模擬環(huán)境中,訓(xùn)練行走控制器。
這個(gè)模擬環(huán)境效率超高,短短幾個(gè)小時(shí)就能收集到相當(dāng)于數(shù)年的模擬訓(xùn)練數(shù)據(jù)。
在模擬器中,數(shù)千個(gè)Figure 02機(jī)器人并行訓(xùn)練,每個(gè)機(jī)器人的物理參數(shù)都不一樣。
它們會(huì)遇到各種各樣的情況,像不同的地形,執(zhí)行器動(dòng)力學(xué)變化,以及被絆倒、滑倒和推搡等。
這時(shí),一個(gè)神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)控制所有的機(jī)器人。
人形機(jī)器人有個(gè)很大的優(yōu)勢(shì),它的硬件平臺(tái)通用性很強(qiáng),能執(zhí)行類(lèi)似人類(lèi)的任務(wù)。
不過(guò),RL訓(xùn)練出來(lái)的策略,有時(shí)不是最佳的,沒(méi)辦法讓機(jī)器人走出人類(lèi)走路的感覺(jué),比如腳跟先著地、腳尖蹬地,手臂擺動(dòng)和腿部動(dòng)作的配合。
所以,在訓(xùn)練時(shí),會(huì)獎(jiǎng)勵(lì)那些走路軌跡像人的機(jī)器人,把偏好融入學(xué)習(xí)中。
這些軌跡為策略允許生成的行走風(fēng)格建立了先驗(yàn)條件。
除了走路軌跡像人,研究者還設(shè)置了其他獎(jiǎng)勵(lì)條件,比如優(yōu)化機(jī)器人速度跟蹤、功耗更低,更好地應(yīng)對(duì)外界干擾和地形變化。
從模擬到現(xiàn)實(shí)的跨越
最后一步,是把模擬環(huán)境中訓(xùn)練好的策略應(yīng)用到真實(shí)的機(jī)器人上。
模擬機(jī)器人只是高維機(jī)電系統(tǒng)的近似,在模擬環(huán)境中訓(xùn)練的策略只能保證在這些模擬機(jī)器人上有效,不一定能在真實(shí)機(jī)器人上正常工作。
?
為解決這個(gè)問(wèn)題,在模擬訓(xùn)練時(shí),采用域隨機(jī)化技術(shù),隨機(jī)改變每個(gè)機(jī)器人的物理屬性,讓策略能適應(yīng)各種不同的情況。
這有助于策略零樣本泛化到真實(shí)機(jī)器人上,而無(wú)需任何額外的微調(diào)。
同時(shí),在真實(shí)機(jī)器人上,用千赫茲速率扭矩反饋控制,來(lái)修正執(zhí)行器模型的誤差。
這樣,即使機(jī)器人之間有些差異,如地面摩擦力不同,或受到外界推搡,這個(gè)策略都具有魯棒性,能讓Figure 02機(jī)器人像人一樣行走。
可以看到,10個(gè)Figure 02機(jī)器人用得都是同一個(gè)RL神經(jīng)網(wǎng)絡(luò)。
說(shuō)明現(xiàn)有的策略不用再做調(diào)整,就能推廣到大批機(jī)器人,對(duì)未來(lái)的大規(guī)模商業(yè)應(yīng)用是個(gè)好消息。
Fi?gure Robotics

Figure Robotics是一家新興的機(jī)器人公司,專(zhuān)注于開(kāi)發(fā)通用人形機(jī)器人,旨在通過(guò)先進(jìn)的人工智能擴(kuò)展人類(lèi)能力。
公司專(zhuān)注于構(gòu)建像人類(lèi)一樣學(xué)習(xí)和推理的機(jī)器人。
Figure Robotics一開(kāi)始與OpenAI合作,然而在內(nèi)部人工智能(Helix)方面取得「重大突破」后,于2025年2月結(jié)束了合作,F(xiàn)igure Robotics轉(zhuǎn)為自主開(kāi)發(fā)Helix VLA模型。
Figure 02具有肉眼看起來(lái)最接近未來(lái)成熟形態(tài)的外形設(shè)計(jì)。
簡(jiǎn)直和威爾史密斯《I,Robot》中的機(jī)器人如出一轍,渾圓的面罩模型也避免了恐怖谷效應(yīng)。

身高和體重也完美模擬一個(gè)成年男性。
當(dāng)機(jī)器人能像人類(lèi)一樣學(xué)會(huì)自然行走,是否意味著也能像人一樣學(xué)會(huì)其他「自然」動(dòng)作?
更加重要的一個(gè)「隱喻」是,目前所有的人形機(jī)器人都是按照人類(lèi)的形態(tài)打造的。
這更加方便了未來(lái)機(jī)器人與人類(lèi)生活的融合。
除了自然行走,機(jī)器人還有很多「人類(lèi)技能」需要學(xué)習(xí),但他們已經(jīng)在路上了。
參考資料:
https://x.com/Figure_robot/status/1904534311589785885
https://www.figure.ai/news/reinforcement-learning-walking
熱門(mén)跟貼