打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

來源:學(xué)術(shù)頭條

【新智元導(dǎo)讀】具身智能最大的挑戰(zhàn)在于泛化能力,即在陌生環(huán)境中正確完成任務(wù)。最近,Physical Intelligence推出全新的π0.5 VLA模型,通過異構(gòu)任務(wù)協(xié)同訓(xùn)練實(shí)現(xiàn)了泛化,各種家務(wù)都能拿捏。

近年來,機(jī)器人取得了顯著進(jìn)展,能表演雜技、跳舞、聽從指令,甚至完成疊衣服、擦桌子等復(fù)雜任務(wù)。但機(jī)器人面臨的最大挑戰(zhàn)并非靈活性,而是泛化能力——在新環(huán)境中正確完成任務(wù)的能力。

想象一個(gè)你家中的清潔機(jī)器人:每個(gè)家庭布局不同,物品擺放各異,機(jī)器人必須在多個(gè)層面上實(shí)現(xiàn)泛化。低層面上,它需學(xué)會(huì)如何抓起未曾見過的勺子或盤子;高層面上,它要理解任務(wù)語(yǔ)義,如衣服應(yīng)放進(jìn)洗衣籃、用何種工具擦拭溢出物。實(shí)現(xiàn)這種能力既依賴強(qiáng)大的操作技能,也需要常識(shí)理解,而現(xiàn)實(shí)中可用于訓(xùn)練的數(shù)據(jù)又極其有限,這進(jìn)一步增加了困難。

即使近年來的機(jī)器人在靈巧性方面有所突破,往往也是基于特定場(chǎng)景和相似數(shù)據(jù)訓(xùn)練出來的。

因此,如果我們希望機(jī)器人成為我們?nèi)粘I畹囊徊糠?,在我們的家中、雜貨店、辦公室、醫(yī)院和其他“雜亂”的環(huán)境中工作,機(jī)器人就必須具備更加強(qiáng)大的泛化能力。

今天,美國(guó)具身智能公司 Physical Intelligence 推出了一個(gè)基于 π0 的視覺-語(yǔ)言-動(dòng)作(VLA)模型 π0.5,其利用異構(gòu)任務(wù)的協(xié)同訓(xùn)練來實(shí)現(xiàn)廣泛的泛化,可以在全新的家中執(zhí)行各種任務(wù)。

實(shí)驗(yàn)表明,這種知識(shí)遷移對(duì)于有效的泛化至關(guān)重要,而且他們首次證明,端到端學(xué)習(xí)型機(jī)器人系統(tǒng)可以在全新的家庭中執(zhí)行長(zhǎng)程靈巧操作技能,例如清潔廚房或臥室。

 AI無師自通,搞定所有家務(wù)!π0.5突破泛化極限,UC伯克利系出品
打開網(wǎng)易新聞 查看更多視頻
AI無師自通,搞定所有家務(wù)!π0.5突破泛化極限,UC伯克利系出品

π0.5是如何工作的?

π0.5 背后的主要原理是異構(gòu)數(shù)據(jù)的共同訓(xùn)練:通過在各種不同的數(shù)據(jù)源上訓(xùn)練 VLA 模型,不僅可以教它如何物理地執(zhí)行不同的技能,還可以教它如何理解每項(xiàng)技能的語(yǔ)義背景,推斷任務(wù)的高級(jí)結(jié)構(gòu),甚至從其他機(jī)器人轉(zhuǎn)移物理行為。

協(xié)同訓(xùn)練的概念很簡(jiǎn)單:由于 VLA 源自通用的視覺語(yǔ)言模型(VLM),因此它們可以在包含動(dòng)作、圖像、文本和其他多模態(tài)標(biāo)注(例如邊界框)的任意組合的示例上進(jìn)行訓(xùn)練。這包括通用的多模態(tài)任務(wù),如圖像字幕、視覺問答或物體檢測(cè);面向機(jī)器人的任務(wù),如帶有動(dòng)作的機(jī)器人演示;以及“高級(jí)”機(jī)器人示例,這些示例由帶有適當(dāng)語(yǔ)義行為標(biāo)記的觀察結(jié)果組成。演示還包含“口頭指令”,即一個(gè)人通過自然語(yǔ)言一步步指導(dǎo)機(jī)器人完成一項(xiàng)復(fù)雜任務(wù)。該模型既可以對(duì)下一步要執(zhí)行的語(yǔ)義步驟進(jìn)行高級(jí)推理(類似于思路鏈推理),也可以進(jìn)行低級(jí)預(yù)測(cè),以向機(jī)器人的關(guān)節(jié)輸出運(yùn)動(dòng)指令。

打開網(wǎng)易新聞 查看精彩圖片

圖|π0.5 的協(xié)同訓(xùn)練任務(wù)示意圖,其中包括來自多種不同機(jī)器人類型的各種機(jī)器人數(shù)據(jù)源,以及包括高級(jí)子任務(wù)指令、指示和網(wǎng)絡(luò)數(shù)據(jù)在內(nèi)的多模態(tài)數(shù)據(jù)。

雖然協(xié)同訓(xùn)練的基本原理并非新事物,但訓(xùn)練一個(gè)能夠廣泛泛化的 VLA 需要合理地組合協(xié)同訓(xùn)練任務(wù)。VLA 需要由多種協(xié)同訓(xùn)練任務(wù)組成的“課程”,以便在所有必要的抽象層次上實(shí)現(xiàn)泛化。在實(shí)驗(yàn)中,他們訓(xùn)練了 π0.5 模型的不同版本,這些版本排除了完整訓(xùn)練混合的不同部分,只留下使用在實(shí)驗(yàn)中使用的相同機(jī)器人收集的移動(dòng)操作數(shù)據(jù)(約 400 小時(shí))。

打開網(wǎng)易新聞 查看精彩圖片

圖|評(píng)估完整的 π0.5 訓(xùn)練混合與排除各種數(shù)據(jù)源的消減相比。網(wǎng)絡(luò)數(shù)據(jù)(WD)在泛化到分布外對(duì)象方面的差異最大,而來自其他機(jī)器人(ME 和 CE)的數(shù)據(jù)在所有評(píng)估條件下都很重要。

他們?cè)u(píng)估了兩種實(shí)驗(yàn)條件:全面清潔任務(wù);以及分布外泛化(OOD)評(píng)估,要求機(jī)器人將提示中指示的特定物體移入抽屜。對(duì)于這兩種評(píng)估,都測(cè)量了成功率和語(yǔ)言理解率。在所有情況下,來自其他機(jī)器人(ME 和 CE)的數(shù)據(jù)對(duì)策略性能產(chǎn)生了巨大影響。在 OOD 案例中,他們還發(fā)現(xiàn)與包含網(wǎng)絡(luò)數(shù)據(jù)(WD)的策略性能存在差異,這提高了機(jī)器人正確識(shí)別數(shù)據(jù)中未包含的新物體類別的能力。

為了更好地量化 π0.5 能夠?qū)崿F(xiàn)的泛化程度,他們進(jìn)行了一項(xiàng)擴(kuò)展研究,其中改變了訓(xùn)練數(shù)據(jù)中不同環(huán)境的數(shù)量。他們還在比較中加入了基線模型,該模型使用所有其他數(shù)據(jù)源的數(shù)據(jù)外,還直接使用來自測(cè)試環(huán)境的數(shù)據(jù)進(jìn)行訓(xùn)練。該模型(用水平綠線表示)可以直觀地了解,如果消除了泛化到新環(huán)境的挑戰(zhàn),VLA 在該場(chǎng)景中的表現(xiàn)如何。

打開網(wǎng)易新聞 查看精彩圖片

圖|評(píng)估在與訓(xùn)練混合中的其他數(shù)據(jù)集共同訓(xùn)練時(shí),性能如何隨訓(xùn)練環(huán)境的數(shù)量而變化。當(dāng)使用所有可用的訓(xùn)練環(huán)境時(shí)(圖中最右邊一點(diǎn)),π0.5(黃色)與直接在測(cè)試環(huán)境(綠色)中訓(xùn)練的基線模型性能相似。

這些結(jié)果不僅表明,π0.5 的泛化性能會(huì)隨著訓(xùn)練集中不同環(huán)境數(shù)量的增加而穩(wěn)步提升,而且僅僅經(jīng)過大約 100 個(gè)訓(xùn)練環(huán)境,它的性能就接近了直接在測(cè)試環(huán)境中訓(xùn)練的基線模型。

訓(xùn)練和推理

π0.5 構(gòu)建于 π0 VLA 基礎(chǔ)之上,經(jīng)過聯(lián)合訓(xùn)練,能同時(shí)輸出動(dòng)作和文本標(biāo)簽,因此可在高層和低層控制機(jī)器人。在運(yùn)行時(shí),它先生成一個(gè)文本形式的“高級(jí)”動(dòng)作,再細(xì)化為一組連續(xù)的低級(jí)關(guān)節(jié)動(dòng)作(每組稱為一個(gè) 50 步的“動(dòng)作塊”)來執(zhí)行該動(dòng)作。

這一流程延續(xù)了他們此前的 Hi Robot 系統(tǒng)思路,不同之處在于 π0.5 將高級(jí)決策與低級(jí)控制統(tǒng)一由同一模型完成,類似于“思維鏈”模式。

模型本身包含離散自回歸 token 解碼和通過流匹配進(jìn)行的連續(xù)解碼,例如 π0。離散解碼路徑用于推斷高級(jí)動(dòng)作,而連續(xù)流匹配路徑用于推斷低級(jí)運(yùn)動(dòng)命令。

打開網(wǎng)易新聞 查看精彩圖片

圖|π0.5 使用的高層/低層推理程序。該模型首先生成一個(gè)用語(yǔ)言表達(dá)的高級(jí)動(dòng)作,基本上是“告訴自己”應(yīng)該采取什么步驟來完成任務(wù),然后利用其流程匹配動(dòng)作專家來選擇運(yùn)動(dòng)指令。

如果換個(gè)房子試試呢?

他們通過讓 π0.5 控制機(jī)械手,在訓(xùn)練數(shù)據(jù)中從未見過的新房屋中完成清潔任務(wù),以評(píng)估其泛化能力。對(duì) VLA 來說,這是極具挑戰(zhàn)的測(cè)試。盡管 VLA 曾展現(xiàn)出出色的泛化能力,如理解語(yǔ)義指令、與人互動(dòng)、組合技能等,但這些能力多在與訓(xùn)練環(huán)境相似的場(chǎng)景中實(shí)現(xiàn)。

此前,他們的 π0-FAST 雖能通過 DROID 系統(tǒng)推廣到新環(huán)境,但僅限于如移動(dòng)物體等簡(jiǎn)單任務(wù)。而此次實(shí)驗(yàn)中,π0.5 被放入全新家庭,需完成收拾碗碟、整理床鋪、清潔地板等復(fù)雜任務(wù)。這些任務(wù)不僅耗時(shí),還要求機(jī)器人執(zhí)行如用海綿擦拭等復(fù)雜動(dòng)作,理解任務(wù)語(yǔ)義,并將其拆解為多個(gè)環(huán)節(jié),每步都需與正確的物體互動(dòng)。

 AI無師自通,搞定所有家務(wù)!π0.5突破泛化極限,UC伯克利系出品
打開網(wǎng)易新聞 查看更多視頻
AI無師自通,搞定所有家務(wù)!π0.5突破泛化極限,UC伯克利系出品

最后,π0.5 模型可以接受不同粒度的語(yǔ)言命令,從“把盤子放進(jìn)水槽”這樣的高級(jí)提示,到指示模型拾取特定物體或朝特定方向移動(dòng)的詳細(xì)單個(gè)命令。他們?cè)谙路揭曨l中展示了一些語(yǔ)言跟隨的示例。

下一步:更泛化的物理智能

這項(xiàng)工作表明,VLA 能夠?qū)崿F(xiàn)出色的泛化能力,即便面對(duì)如清潔廚房或臥室這樣復(fù)雜且多變的機(jī)器人任務(wù),也能有效應(yīng)對(duì)。π0.5 能夠讓機(jī)器人完成在訓(xùn)練數(shù)據(jù)中從未遇到過的新家庭環(huán)境的清潔任務(wù)。

盡管 π0.5 還不夠完美,常在高級(jí)語(yǔ)義推理和動(dòng)作執(zhí)行指令方面出現(xiàn)錯(cuò)誤,但研究人員希望,通過讓機(jī)器人從多樣的知識(shí)來源中學(xué)習(xí),π0.5 能夠幫助我們更接近實(shí)現(xiàn)廣泛泛化、靈活應(yīng)變的物理智能。

目前,這些機(jī)器人可以通過語(yǔ)言反饋進(jìn)行改進(jìn);未來,它們還可能借助自主經(jīng)驗(yàn),在更少監(jiān)督的情況下不斷優(yōu)化,或在不熟悉的情境中主動(dòng)請(qǐng)求幫助和建議。盡管如此,在知識(shí)遷移、模型構(gòu)建技術(shù),以及數(shù)據(jù)來源的多樣性等方面,仍有大量進(jìn)步空間。

參考資料:

https://mp.weixin.qq.com/s/T3sufjvlfjW5oFtWhCf9-g

本文轉(zhuǎn)自學(xué)術(shù)頭條,若二次轉(zhuǎn)載請(qǐng)聯(lián)系原作者