国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

一套算法控制機(jī)器人軍團(tuán)！純模擬環(huán)境強(qiáng)化學(xué)習(xí)，F(xiàn)igure學(xué)會(huì)像人一樣走路

新智元

2025-04-14 12:46 ·北京 ·《新智元》官方網(wǎng)易號(hào)

新智元報(bào)道

編輯：編輯部 HXs

【新智元導(dǎo)讀】Figure公司通過(guò)強(qiáng)化學(xué)習(xí)，成功實(shí)現(xiàn)機(jī)器人的自然步態(tài)。利用高效物理模擬器，僅用幾小時(shí)完成相當(dāng)于多年訓(xùn)練的數(shù)據(jù)，訓(xùn)練出的策略無(wú)需額外調(diào)整即可「零樣本」遷移至真實(shí)機(jī)器人。

現(xiàn)在訓(xùn)練機(jī)器人，都不需要真實(shí)數(shù)據(jù)了？

剛剛，F(xiàn)igure提出了一種全新的基于RL的端到端網(wǎng)絡(luò)。

只需要在純模擬環(huán)境中進(jìn)行訓(xùn)練，用幾個(gè)小時(shí)生成模擬數(shù)據(jù)，就能讓Figure 02像人類(lèi)一樣自然行走了！

該方法的亮點(diǎn)如下：

在模擬環(huán)境中運(yùn)用強(qiáng)化學(xué)習(xí)，讓機(jī)器人不斷試錯(cuò)，學(xué)會(huì)像人類(lèi)一樣走路。
通過(guò)高保真物理模擬器，僅用幾個(gè)小時(shí)，就模擬出多年的數(shù)據(jù)。
將模擬中的域隨機(jī)化與機(jī)器人上的高頻扭矩反饋相結(jié)合，無(wú)需微調(diào)，就能把模擬環(huán)境中的策略應(yīng)用于真實(shí)機(jī)器人。

更讓人驚喜的是，一個(gè)神經(jīng)網(wǎng)絡(luò)策略就能控制一大批機(jī)器人！

通過(guò)一個(gè)高保真物理模擬器，F(xiàn)igure最新的機(jī)器人僅用幾個(gè)小時(shí)，就能模擬出幾年的數(shù)據(jù)。

為了把模擬環(huán)境的訓(xùn)練成果應(yīng)用到真實(shí)機(jī)器人上，團(tuán)隊(duì)采用了兩種辦法。

一是在模擬訓(xùn)練時(shí)進(jìn)行域隨機(jī)化，讓機(jī)器人接觸不同的物理屬性；二是在真實(shí)機(jī)器人上安裝高頻扭矩反饋裝置。

這樣一來(lái)，模擬環(huán)境中訓(xùn)練好的策略，無(wú)需任何微調(diào)，就可以「零樣本」遷移到真實(shí)硬件上。

在強(qiáng)化學(xué)習(xí)中，控制器通過(guò)不斷試錯(cuò)，根據(jù)獎(jiǎng)勵(lì)信號(hào)來(lái)調(diào)整自己的行為。

Figure在高保真模擬環(huán)境中訓(xùn)練RL控制器，運(yùn)行數(shù)千個(gè)具有不同參數(shù)和場(chǎng)景的虛擬人形機(jī)器人。

這種多樣化的訓(xùn)練，使訓(xùn)練出的策略能直接用在真實(shí)的Figure 02機(jī)器人上，走出穩(wěn)健的人類(lèi)步伐。

Figure基于RL的訓(xùn)練方法，大大縮短了開(kāi)發(fā)時(shí)間，在現(xiàn)實(shí)世界中表現(xiàn)也很穩(wěn)定。

強(qiáng)化學(xué)習(xí)訓(xùn)練

用強(qiáng)化學(xué)習(xí)方法，在GPU加速的物理模擬環(huán)境中，訓(xùn)練行走控制器。

這個(gè)模擬環(huán)境效率超高，短短幾個(gè)小時(shí)就能收集到相當(dāng)于數(shù)年的模擬訓(xùn)練數(shù)據(jù)。

在模擬器中，數(shù)千個(gè)Figure 02機(jī)器人并行訓(xùn)練，每個(gè)機(jī)器人的物理參數(shù)都不一樣。

它們會(huì)遇到各種各樣的情況，像不同的地形，執(zhí)行器動(dòng)力學(xué)變化，以及被絆倒、滑倒和推搡等。

這時(shí)，一個(gè)神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)控制所有的機(jī)器人。

人形機(jī)器人有個(gè)很大的優(yōu)勢(shì)，它的硬件平臺(tái)通用性很強(qiáng)，能執(zhí)行類(lèi)似人類(lèi)的任務(wù)。

不過(guò)，RL訓(xùn)練出來(lái)的策略，有時(shí)不是最佳的，沒(méi)辦法讓機(jī)器人走出人類(lèi)走路的感覺(jué)，比如腳跟先著地、腳尖蹬地，手臂擺動(dòng)和腿部動(dòng)作的配合。

所以，在訓(xùn)練時(shí)，會(huì)獎(jiǎng)勵(lì)那些走路軌跡像人的機(jī)器人，把偏好融入學(xué)習(xí)中。

這些軌跡為策略允許生成的行走風(fēng)格建立了先驗(yàn)條件。

除了走路軌跡像人，研究者還設(shè)置了其他獎(jiǎng)勵(lì)條件，比如優(yōu)化機(jī)器人速度跟蹤、功耗更低，更好地應(yīng)對(duì)外界干擾和地形變化。

從模擬到現(xiàn)實(shí)的跨越

最后一步，是把模擬環(huán)境中訓(xùn)練好的策略應(yīng)用到真實(shí)的機(jī)器人上。

模擬機(jī)器人只是高維機(jī)電系統(tǒng)的近似，在模擬環(huán)境中訓(xùn)練的策略只能保證在這些模擬機(jī)器人上有效，不一定能在真實(shí)機(jī)器人上正常工作。

?

為解決這個(gè)問(wèn)題，在模擬訓(xùn)練時(shí)，采用域隨機(jī)化技術(shù)，隨機(jī)改變每個(gè)機(jī)器人的物理屬性，讓策略能適應(yīng)各種不同的情況。

這有助于策略零樣本泛化到真實(shí)機(jī)器人上，而無(wú)需任何額外的微調(diào)。

同時(shí)，在真實(shí)機(jī)器人上，用千赫茲速率扭矩反饋控制，來(lái)修正執(zhí)行器模型的誤差。

這樣，即使機(jī)器人之間有些差異，如地面摩擦力不同，或受到外界推搡，這個(gè)策略都具有魯棒性，能讓Figure 02機(jī)器人像人一樣行走。

可以看到，10個(gè)Figure 02機(jī)器人用得都是同一個(gè)RL神經(jīng)網(wǎng)絡(luò)。

說(shuō)明現(xiàn)有的策略不用再做調(diào)整，就能推廣到大批機(jī)器人，對(duì)未來(lái)的大規(guī)模商業(yè)應(yīng)用是個(gè)好消息。

Fi?gure Robotics

Figure Robotics是一家新興的機(jī)器人公司，專(zhuān)注于開(kāi)發(fā)通用人形機(jī)器人，旨在通過(guò)先進(jìn)的人工智能擴(kuò)展人類(lèi)能力。

公司專(zhuān)注于構(gòu)建像人類(lèi)一樣學(xué)習(xí)和推理的機(jī)器人。

Figure Robotics一開(kāi)始與OpenAI合作，然而在內(nèi)部人工智能（Helix）方面取得「重大突破」后，于2025年2月結(jié)束了合作，F(xiàn)igure Robotics轉(zhuǎn)為自主開(kāi)發(fā)Helix VLA模型。

Figure 02具有肉眼看起來(lái)最接近未來(lái)成熟形態(tài)的外形設(shè)計(jì)。

簡(jiǎn)直和威爾史密斯《I,Robot》中的機(jī)器人如出一轍，渾圓的面罩模型也避免了恐怖谷效應(yīng)。

身高和體重也完美模擬一個(gè)成年男性。

當(dāng)機(jī)器人能像人類(lèi)一樣學(xué)會(huì)自然行走，是否意味著也能像人一樣學(xué)會(huì)其他「自然」動(dòng)作？

更加重要的一個(gè)「隱喻」是，目前所有的人形機(jī)器人都是按照人類(lèi)的形態(tài)打造的。

這更加方便了未來(lái)機(jī)器人與人類(lèi)生活的融合。

除了自然行走，機(jī)器人還有很多「人類(lèi)技能」需要學(xué)習(xí)，但他們已經(jīng)在路上了。

參考資料：

https://x.com/Figure_robot/status/1904534311589785885

https://www.figure.ai/news/reinforcement-learning-walking

打開(kāi)網(wǎng)易新聞體驗(yàn)更佳

熱搜

熱門(mén)跟貼

打開(kāi)APP發(fā)貼

孟州市| 江安县| 乌兰浩特市| 台州市| 彭州市| 龙里县| 云浮市| 宜章县| 宜兴市| 耒阳市| 白城市| 德保县| 开原市| 乌鲁木齐县| 若尔盖县| 广德县| 铜陵市| 通州市| 泉州市| 隆昌县| 图片| 林西县| 白城市| 仲巴县| 榆中县| 冷水江市| 民县| 盐山县| 乃东县| 育儿| 铜川市| 铁力市| 福贡县| 白山市| 绥江县| 舟山市| 治县。| 汝南县| 保山市| 冀州市| 读书|

<samp id="o88a2"><pre id="o88a2"></pre></samp>

<samp id="o88a2"><pre id="o88a2"></pre></samp>