
機(jī)器人前瞻4月25日消息,具身智能初創(chuàng)公司Physical Intelligence于4月22日重磅發(fā)布了VLA(視覺-語(yǔ)言-動(dòng)作)模型π0.5。這款專為機(jī)器人控制設(shè)計(jì)的模型,能夠在全新環(huán)境中執(zhí)行復(fù)雜家務(wù)任務(wù),比如清潔廚房、整理臥室,展示了領(lǐng)先的開放世界泛化能力。
更讓人眼前一亮的是,π0.5成為首個(gè)通過(guò)端到端學(xué)習(xí),在陌生家庭中完成長(zhǎng)時(shí)段、復(fù)雜家務(wù)任務(wù)的機(jī)器人模型,這標(biāo)志著機(jī)器人技術(shù)從實(shí)驗(yàn)室走向現(xiàn)實(shí)世界的突破。

論文鏈接:https://arxiv.org/abs/2504.16054
一、走進(jìn)陌生新家:π0.5的泛化能力有多強(qiáng)?
機(jī)器人技術(shù)近年來(lái)突飛猛進(jìn),但要讓它們真正走出實(shí)驗(yàn)室,最大的挑戰(zhàn)在于“泛化”:如何在全新的環(huán)境中,面對(duì)未知的物體,依然能完成任務(wù)?
以家庭清潔為例,每個(gè)家庭的布局、物品擺放都不盡相同。傳統(tǒng)機(jī)器人可能在實(shí)驗(yàn)室里表現(xiàn)完美,但到了新環(huán)境就會(huì)“懵圈”。而搭載π0.5的機(jī)器人卻能在多個(gè)層面實(shí)現(xiàn)泛化:
- 基礎(chǔ)操作:它能通過(guò)手柄抓取從未見過(guò)的勺子,或握住盤子的邊緣,即使這些餐具混雜在一堆臟碗盤中。
- 語(yǔ)義理解:它能明白任務(wù)的“潛臺(tái)詞”,比如知道衣物該放進(jìn)洗衣籃而不是床上,或者選擇合適的工具清理液體污漬。
實(shí)驗(yàn)中,π0.5在完全陌生的家庭環(huán)境中成功完成了多種任務(wù)。這種能力不僅依賴于物理操作技巧,還需要對(duì)環(huán)境的“常識(shí)”理解,涵蓋從物體識(shí)別到語(yǔ)義推理的多層次認(rèn)知。
值得一提的是,π0.5的目標(biāo)并不是追求新技能或極高的靈活性,而是強(qiáng)調(diào)在訓(xùn)練數(shù)據(jù)未覆蓋的場(chǎng)景中實(shí)現(xiàn)功能遷移,比如在不同家庭的廚房或臥室中依然游刃有余。
由于機(jī)器人系統(tǒng)的數(shù)據(jù)多樣性有限,這種開放世界的泛化能力顯得尤為關(guān)鍵,而π0.5的表現(xiàn)無(wú)疑推動(dòng)了通用物理智能的發(fā)展。
二、用“雜糅”數(shù)據(jù)喂出來(lái)的聰明機(jī)器人
π0.5之所以能如此“聰明”,秘訣在于它的訓(xùn)練方法——異構(gòu)數(shù)據(jù)協(xié)同訓(xùn)練(co-training)。簡(jiǎn)單來(lái)說(shuō),就是用各種不同來(lái)源的數(shù)據(jù)“喂”模型,讓它既能干活,又能“懂事”。
這種訓(xùn)練的核心在于多樣化的數(shù)據(jù)源。π0.5不僅學(xué)會(huì)了如何抓取物體、移動(dòng)手臂,還能理解任務(wù)的語(yǔ)義背景(比如清理廚房時(shí)該拿什么、放哪兒),分解任務(wù)步驟(整理床鋪時(shí)先拿枕頭再鋪床單),甚至從其他機(jī)器人的經(jīng)驗(yàn)中“偷師”,比如借鑒單臂機(jī)器人或固定底座機(jī)器人在簡(jiǎn)單環(huán)境中的動(dòng)作模式。
為了讓?duì)?.5熟練掌握這些本領(lǐng),Physical Intelligence團(tuán)隊(duì)為它量身打造了一套“定制課程”,包括以下三大類:
- 多模態(tài)任務(wù):比如給圖片寫描述、回答視覺問(wèn)題、識(shí)別物體,這些任務(wù)讓模型學(xué)會(huì)理解圖像和語(yǔ)言。
- 機(jī)器人操作數(shù)據(jù):包括實(shí)際的動(dòng)作演示,以及任務(wù)分解后的關(guān)鍵步驟識(shí)別,比如看到一張亂糟糟的床,模型能判斷“接下來(lái)該拿起枕頭”這一步驟。
- 人類語(yǔ)言指導(dǎo):通過(guò)人類用自然語(yǔ)言一步步教機(jī)器人,比如“先撿起杯子,再放進(jìn)水槽”。
為了搞清楚每種數(shù)據(jù)的作用,Physical Intelligence團(tuán)隊(duì)設(shè)計(jì)了消融實(shí)驗(yàn)(ablation studies),通過(guò)去掉部分?jǐn)?shù)據(jù),訓(xùn)練不同版本的π0.5,并用柱狀圖(見下圖)展示了結(jié)果:
- 完整版π0.5(黃色柱):包含所有數(shù)據(jù),包括移動(dòng)機(jī)械臂數(shù)據(jù)(MM)、非移動(dòng)機(jī)器人數(shù)據(jù)(ME)、實(shí)驗(yàn)室跨平臺(tái)數(shù)據(jù)(CE)和網(wǎng)頁(yè)數(shù)據(jù)(WD)。
- 無(wú)WD(深綠色柱):去掉網(wǎng)頁(yè)數(shù)據(jù),失去問(wèn)答、描述等語(yǔ)義知識(shí);
- 無(wú)CE(綠色柱):去掉實(shí)驗(yàn)室跨平臺(tái)數(shù)據(jù);
- 無(wú)ME(深青色柱):去掉非移動(dòng)機(jī)器人數(shù)據(jù);
- 無(wú)ME和CE(淺綠色柱):只剩移動(dòng)機(jī)械臂數(shù)據(jù)(約400小時(shí))。

▲π0.5模型消融實(shí)驗(yàn)結(jié)果對(duì)比
實(shí)驗(yàn)在全新環(huán)境中展開,任務(wù)分為兩類:常規(guī)任務(wù),例如將餐具放進(jìn)水槽或清理臥室地板上的衣物;以及挑戰(zhàn)任務(wù),也就是分布外測(cè)試,要求根據(jù)語(yǔ)言指令將未見過(guò)的物體放進(jìn)抽屜。
評(píng)估時(shí)采用了兩個(gè)指標(biāo):任務(wù)成功率,即完成任務(wù)的比例;以及語(yǔ)言遵循率,即機(jī)器人是否能準(zhǔn)確理解并執(zhí)行指令。
結(jié)果顯示,完整版π0.5在所有指標(biāo)上表現(xiàn)最佳,證明每種數(shù)據(jù)的不可或缺性。
去掉網(wǎng)頁(yè)數(shù)據(jù)(WD)后,模型在新物體識(shí)別和指令理解上的表現(xiàn)顯著下降,尤其在挑戰(zhàn)任務(wù)中影響最大;而移除其他機(jī)器人數(shù)據(jù)(ME 和 CE)則導(dǎo)致模型在新環(huán)境中的操作能力大幅降低,凸顯了這些數(shù)據(jù)對(duì)整體性能的關(guān)鍵作用。
為了進(jìn)一步驗(yàn)證泛化能力,Physical Intelligence團(tuán)隊(duì)還做了環(huán)境規(guī)模實(shí)驗(yàn),將訓(xùn)練環(huán)境數(shù)量由3個(gè)增加到104個(gè)。實(shí)驗(yàn)還引入了一個(gè)基線模型,該模型直接在測(cè)試環(huán)境數(shù)據(jù)上進(jìn)行訓(xùn)練(以綠色水平線表示),作為泛化挑戰(zhàn)被移除時(shí)的性能參考。
結(jié)果顯示,當(dāng)訓(xùn)練環(huán)境達(dá)到100個(gè)時(shí),π0.5的表現(xiàn)已經(jīng)接近直接用測(cè)試環(huán)境數(shù)據(jù)訓(xùn)練的“作弊”模型,說(shuō)明它能用相對(duì)少的數(shù)據(jù)實(shí)現(xiàn)強(qiáng)大的泛化。

▲π0.5模型環(huán)境擴(kuò)展實(shí)驗(yàn)結(jié)果
三、“想”完再干:π0.5的雙層大腦
π0.5的另一個(gè)亮點(diǎn)在于它的“雙層大腦”設(shè)計(jì)。基于前代π0模型,π0.5通過(guò)協(xié)同訓(xùn)練既能“思考”又能“行動(dòng)”,用同一個(gè)模型完成高層次決策和低層次操作。
運(yùn)行時(shí),π0.5會(huì)先“想”,輸出一個(gè)文本形式的高層次指令,例如“拿起盤子”,然后再“干”,根據(jù)這一指令生成 1 秒 50 步的動(dòng)作塊,控制機(jī)器人手臂的關(guān)節(jié)運(yùn)動(dòng)。
這種“先想后干”的方式類似人類的“思維鏈”(chain-of-thought),靈感來(lái)自Physical Intelligence團(tuán)隊(duì)近期開發(fā)的Hi Robot系統(tǒng)。
模型內(nèi)部包含兩個(gè)解碼路徑:離散解碼負(fù)責(zé)“思考”并生成高層次指令,而連續(xù)解碼通過(guò)流匹配技術(shù)生成低層次動(dòng)作指令。

▲模型首先產(chǎn)生用語(yǔ)言表達(dá)的高級(jí)動(dòng)作,本質(zhì)上是“告訴自己”應(yīng)該采取什么步驟來(lái)完成任務(wù),然后使用其流量匹配動(dòng)作專家選擇電機(jī)命令。
該團(tuán)隊(duì)將 π0.5放入全新家庭進(jìn)行實(shí)際測(cè)試,要求它完成復(fù)雜任務(wù),比如收起餐具、整理床鋪、清理地板。這些任務(wù)不僅需要操作技巧,例如用海綿擦污漬,還得“懂事”——明白任務(wù)的語(yǔ)義,把每一步拆解后與正確物體交互。
更有趣的是,π0.5還能應(yīng)對(duì)干擾:機(jī)器人擦污漬時(shí),有人制造污漬,機(jī)器人能重新調(diào)整,以及在擺放碗時(shí),被人干擾,機(jī)器人也能繼續(xù)完成任務(wù)。
此外,π0.5能聽懂不同級(jí)別的指令,從高層次的“把盤子放進(jìn)水槽”到具體的“拿那個(gè)銀色登山扣”或“撿黃色圓刷”。
▲拿取銀色的登山扣
▲拿取黃色圓刷
當(dāng)然,它也有失誤的時(shí)候。比如在一次實(shí)驗(yàn)中,指令是“把物品放進(jìn)抽屜”,它卻打開了烤箱,鬧了個(gè)笑話。
▲指示為將物品置于抽屜,卻打開烤箱
結(jié)語(yǔ):家庭服務(wù)機(jī)器人離我們還有多遠(yuǎn)?
盡管π0.5仍存在不足,但通過(guò)讓機(jī)器人從多樣化的知識(shí)來(lái)源中學(xué)習(xí),其訓(xùn)練方法讓我們離“靈活的物理智能”更近了一步。
未來(lái)還有許多挑戰(zhàn)待解決:機(jī)器人可以利用自身經(jīng)驗(yàn),在更少人類指導(dǎo)下自我提升;在陌生環(huán)境中,它們可以主動(dòng)求助或請(qǐng)求建議;同時(shí),知識(shí)遷移技術(shù)和數(shù)據(jù)多樣性也需進(jìn)一步改進(jìn),以推動(dòng)機(jī)器人技術(shù)的更廣泛應(yīng)用。
Physical Intelligence還計(jì)劃開源π0.5的代碼和數(shù)據(jù)集,邀請(qǐng)全球機(jī)器人研究社區(qū)一起探索?;蛟S不久的將來(lái),家庭服務(wù)機(jī)器人就能真正走進(jìn)千家萬(wàn)戶!
熱門跟貼