打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:澤正

【新智元導讀】如何讓機器人擁有人一樣的協(xié)調(diào)行動能力是具身智能不可避免的挑戰(zhàn),而李飛飛團隊在CoRL-LEAP研討會獲得最佳論文獎的ReKep對于這一挑戰(zhàn)交出了一張亮眼的答卷。

AI發(fā)展如火如荼的今天,機器人距離人類的協(xié)調(diào)行動能力還有多遠?

近日,李飛飛團隊發(fā)布關(guān)于機器人操控的最新研究「關(guān)系關(guān)鍵點約束ReKep」(Relational Keypoint Constraints),其基于視覺的環(huán)境自適應的操縱表現(xiàn)讓人眼前一亮!

 李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!
打開網(wǎng)易新聞 查看更多視頻
李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!

這項研究也獲得了CoRL 2024-Learning Effective Abstractions for Planning (LEAP)的最佳論文獎。

打開網(wǎng)易新聞 查看精彩圖片

簡要來講,團隊通過ReKep研究證明,通過將不同的操作行為指定為一系列對語義關(guān)鍵點進行操作的可優(yōu)化時空約束函數(shù),就可以采用分層優(yōu)化程序,以實時頻率解決機器人動作與感知-動作循環(huán)的問題。

此外,為了避免為每個新任務(wù)手動指定ReKep,他們設(shè)計了一個自動化程序,利用預訓練的LVM(large vision models)和VLM(vision-language models),從語言指令和RGB-D觀察結(jié)果中生成ReKep。

研究介紹了在輪式單臂平臺和固定雙臂平臺上的系統(tǒng)實現(xiàn)情況,這些平臺可以執(zhí)行各種操作任務(wù),例如下列視頻中所展示的打包鞋子、雙臂協(xié)同折疊衣物、開放環(huán)境放置書籍、茶壺倒水任務(wù),所有這些都不需要特定任務(wù)數(shù)據(jù)或環(huán)境模型。

 李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!
打開網(wǎng)易新聞 查看更多視頻
李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!

打包鞋子

 李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!
打開網(wǎng)易新聞 查看更多視頻
李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!

折疊衣物

 李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!
打開網(wǎng)易新聞 查看更多視頻
李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!

放置書籍

 李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!
打開網(wǎng)易新聞 查看更多視頻
李飛飛團隊ReKep榮獲CoRL-LEAP研討會最佳論文獎,具身智能又下一城!

茶壺倒水

機器人操縱涉及與環(huán)境中物體的復雜交互,這些交互通常可以用空間和時間領(lǐng)域的約束條件來表示。

請看上列視頻中將茶倒入杯中的任務(wù):機器人首先必須抓住茶壺柄,在運輸過程中保持茶壺水平,接著將茶壺嘴對準目標容器,然后將其傾斜到正確的角度倒茶。

在這里,約束條件不僅包括中間子目標(例如,將壺嘴對準茶杯),還包括過渡行為(例如,在運輸過程中保持茶壺水平),這些約束共同決定了機器人在與環(huán)境互動時的空間、時間和其他組合要求。

然而,如何有效地為現(xiàn)實世界中的各種任務(wù)制定這些約束條件是一個巨大的挑戰(zhàn)。

雖然使用機器人與物體之間的相對姿勢來表示約束是一種直接且廣泛使用的方法,但涉及到剛體變換,這種方法便無法描述幾何細節(jié),而且也無法用于可形變物體。

另一方面,數(shù)據(jù)驅(qū)動方法可以直接在視覺空間中學習約束。雖然這種方法更加靈活,但由于約束條件的數(shù)量隨著對象和任務(wù)的組合而不斷增加,如何有效地收集訓練數(shù)據(jù)仍是一個未知數(shù)。

因此,研究團隊提出了這樣一個問題:如何才能讓操縱符合以下三條特性?

  • 廣泛適用性:可適應需要多階段、野外、雙臂和反應行為的任務(wù);

  • 可擴展性:通過基礎(chǔ)模型的進步,有可能實現(xiàn)完全自動化;

  • 實時優(yōu)化性:可通過現(xiàn)成的求解器有效求解,以產(chǎn)生復雜的操縱行為

團隊還證明了ReKep的特定形式具有獨特的優(yōu)勢,因為它們可以通過預先訓練的大型視覺模型(LVM)和視覺語言模型(VLM)實現(xiàn)自動化,從而能夠根據(jù)RGB-D觀察結(jié)果和自由形式的語言指令對ReKep在大約10Hz的時間內(nèi)進行實時調(diào)控。

具體方法

什么是關(guān)鍵點約束?為清楚起見,研究者假設(shè)已經(jīng)指定了一組K個關(guān)鍵點。具體來說,每個關(guān)鍵點指的是場景表面上的一個3D點,其相應的笛卡爾坐標依賴于任務(wù)語義和環(huán)境(例如,手柄上的抓取點)。

接著,ReKep將約束表示為Python函數(shù),這些函數(shù)將一組關(guān)鍵點映射到一個數(shù)值,其中每個關(guān)鍵點是場景中一個任務(wù)特定的、語義上有意義的3D點。

每個函數(shù)由對關(guān)鍵點的(可能是非線性的)算術(shù)操作組成,這些操作可能是非線性和非凸的。本質(zhì)上,這些函數(shù)是編碼了關(guān)鍵點之間對應的「空間關(guān)系」,這些關(guān)鍵點可能屬于環(huán)境中的不同實體,例如機器人手臂、物體部件和其他對象。

雖然每個關(guān)鍵點僅由其在世界坐標系中的3D笛卡爾坐標組成,但如果對關(guān)鍵點施加剛性約束,多個關(guān)鍵點就可以共同指定線條、表面以及3D旋轉(zhuǎn)。

ReKep在序列操作問題的背景下進行研究,其中每個任務(wù)涉及多個具有時空依賴關(guān)系的階段(例如,在前述示例中的「抓取」「對齊」和「倒水」)。

然而,一個操作任務(wù)通常涉及多個空間關(guān)系,并且可能有多個時間上依賴的階段,每個階段包含不同的空間關(guān)系。

為此,研究團隊將任務(wù)分解為N個階段,并使用ReKep為每個階段 指定兩種類型的約束:

一組子目標約束 和一組路徑約束 ,其中 編碼了在第i階段結(jié)束時需要實現(xiàn)的關(guān)鍵點關(guān)系,而 編碼了在第i階段內(nèi)每個狀態(tài)下需要滿足的關(guān)鍵點關(guān)系。

以下圖中的倒茶任務(wù)為例,該任務(wù)由三個階段組成:抓取、對齊和倒水。

階段1的子目標約束將末端執(zhí)行器拉向茶壺把手。然后,階段2的子目標約束指定茶壺的嘴部需要位于杯口上方。此外,階段2的路徑約束確保在運輸過程中茶壺保持直立,以防止溢出。最后,階段3的子目標約束指定了所需的倒水角度。

打開網(wǎng)易新聞 查看精彩圖片

ReKep概覽

如何使用ReKep將操作表述為約束優(yōu)化問題

為了執(zhí)行操作任務(wù),我們的目標是通過如下方式將控制問題進行公式化,從而獲得整體的離散時間軌跡。

打開網(wǎng)易新聞 查看精彩圖片

其中, 表示時間t時的末端執(zhí)行器姿態(tài), 表示從階段i轉(zhuǎn)換到階段i+1的時間點,這些也是輔助決策變量, 是 時間t時的關(guān)鍵點位置數(shù)組,h是關(guān)鍵點的前向模型, 和 分別是子 目標和路徑規(guī)劃的輔助代價函數(shù)(例如,避免碰撞)。

具體而言,對于每個階段i,優(yōu)化過程將尋找滿足下一個子目標的末端執(zhí)行器姿態(tài)及其對應的計劃時間序列,并找到一個能夠?qū)崿F(xiàn)子目標的姿態(tài)序列 , 并滿足給定的ReKep約束和輔助代價。 該公式化方法可以視為軌跡優(yōu)化中的direct shooting。

實時解決優(yōu)化問題的算法實例化

為了能夠?qū)崟r求解上面的公式,作者將問題進行分解并只將下一個子目標和達到它的相應路徑作為優(yōu)化對象。

所有優(yōu)化問題都使用SciPy實現(xiàn)和求解,決策變量歸一化為[0,1]。它們最初是用Dual Annealing和SLSQP作為局部優(yōu)化器(大約1秒)來解決的,隨后僅根據(jù)前一個解在大約10Hz下使用局部優(yōu)化器來解決。

子目標問題

為了知道當前階段i對應的末端執(zhí)行器姿態(tài) , 首先應該求解如下公式對應的子目標問題:

打開網(wǎng)易新聞 查看精彩圖片

其中 包含輔助控制成本: 場景碰撞避免、可達性、姿勢正則化、解一致性和用于雙臂設(shè)置的自碰撞功能。 如果某個階段與抓取有關(guān),則還要包括grasp指標。

也就是說,上述方程試圖找到一個滿足 的子目標,同時最小化輔助成本。 作者團隊通過利用AnyGrasp求解這個問題。

路徑問題

在獲得子目標 后,研究者繼續(xù)求解從當前末端執(zhí)行器姿態(tài) 到子目標 的軌跡 :

打開網(wǎng)易新聞 查看精彩圖片

其中, 包含以下輔助控制代價: 場景碰撞規(guī)避、可達性、路徑長度、解的一致性,以及用于雙臂設(shè)置的自碰撞功能。 如果到子目標 的距離在較小的容差 范圍內(nèi),這時才可以進入下一個階段i+1。

回溯

盡管在解決了子目標和路徑問題后,已經(jīng)可以在每個階段內(nèi)對于外部干擾做到實時反應。但若上一階段的任意子目標約束條件受到影響而變得不再成立,依然無法完成整個工作任務(wù)。

為了避免這樣的情況,研究團隊讓整體系統(tǒng)都可以進行跨階段規(guī)劃。具體來說,在每個控制流程中,系統(tǒng)都需要檢查是否違反了 ,如果發(fā)現(xiàn)了這種情況,就需要回溯到之前滿足條件的那個階段去重新進行迭代。

對于關(guān)鍵點的前向模型

為了求解前述兩個公式,在優(yōu)化過程中必須使用前向模型h,以估計從末端執(zhí)行器姿態(tài)變化 到關(guān)鍵點位置變化 。

作者對末端執(zhí)行器與「抓取關(guān)鍵點」(屬于同一物體或部件的剛性關(guān)鍵點組)之間做出剛性假設(shè)。 也就是說,給定末端執(zhí)行器姿態(tài)的變化 ,就可以通過應用相同的剛性變換來計算關(guān)鍵點位置的變化: , 同時假設(shè)其他關(guān)鍵點保持靜止。

如何從RGB-D觀測數(shù)據(jù)和語言指令中自動獲取ReKep

為了使系統(tǒng)能夠在給定自由格式任務(wù)指令的情況下在開放環(huán)境執(zhí)行任務(wù),團隊設(shè)計了一個使用大型視覺模型和視覺語言模型的pipeline,用于生成關(guān)鍵點proposal和ReKep,分別討論如下:

獲得候選關(guān)鍵點

給定一個RGB圖像,首先從DINOv2中提取特征patch。然后執(zhí)行雙線性插值,將特征上采樣到原始圖像大小。為了確保候選關(guān)鍵點的范圍可以涵蓋場景中的所有相關(guān)對象,作者利用Segment Anything(SAM)提取場景中的所有掩碼。對于每個掩碼j,作者結(jié)合了k=5的k-means和余弦相似度指標,對掩碼特征進行聚類。

再將每個聚類的質(zhì)心用作關(guān)鍵點候選項,并使用校準的RGB-D將其投影到世界坐標。與其他候選項目相距不遠的候選項目將被篩掉。

總之,這一流程能夠很好地識別出一個較大比例的細粒度和有語義意義的對象區(qū)域。

ReKep生成

獲得候選關(guān)鍵點后,就可以將它們用數(shù)字標記疊加在原始RGB圖像上。接著結(jié)合任務(wù)的語言指令,使用visualprompt來對GPT-4o進行提問,以生成所需的階段數(shù)以及每個階段i相應的子目標約束和路徑約束。

值得注意的是,這些函數(shù)不直接參與關(guān)鍵點位置的數(shù)值運算。相反,作者利用VLM的優(yōu)勢將空間關(guān)系指定為算術(shù)運算,例如關(guān)鍵點之間的L2距離或點積,這些運算只有在被調(diào)用時才實例化,并與專門的3D跟蹤器跟蹤的實際關(guān)鍵點位置一起使用。

此外,使用一組關(guān)鍵點位置進行算術(shù)運算的一個重要優(yōu)勢是,當提供足夠的點并強制執(zhí)行相關(guān)點之間的剛性時,它可以指定完整的三維旋轉(zhuǎn),但僅在任務(wù)語義需要時才這樣做。這使得VLM能夠使用三維笛卡爾空間中的算術(shù)運算來推理三維旋轉(zhuǎn),有效地避免了處理替代的三維旋轉(zhuǎn)表示和執(zhí)行數(shù)值計算的需求。

實驗

作者將實驗的目標設(shè)定為回答并驗證以下研究問題:

  • 我們的框架自動制定操作策略和對應綜合操作行為的能力如何?

  • 我們的系統(tǒng)能否推廣到新對象和操作策略?

  • 在一個輪式單臂平臺和一個固定式雙臂平臺,各個組件如何導致系統(tǒng)的故障情況?


衡量標準和基準

作者設(shè)定了對于倒茶、放置書籍、回收罐子、打包盒子、折疊衣物、打包鞋子以及協(xié)作折疊七項任務(wù)的實驗評估,并且還通過在執(zhí)行過程中改變?nèi)蝿?wù)對象的姿態(tài)位置,對其中三個任務(wù)進行了外部干擾評估。

這七個任務(wù)旨在驗證這個系統(tǒng)的不同方面,包括具有常識性知識的野外規(guī)范、具有時空依賴性的多階段任務(wù)、具有幾何意識的雙臂協(xié)調(diào)以及在與人類協(xié)作和受到干擾時的反應能力。

打開網(wǎng)易新聞 查看精彩圖片

實驗任務(wù)和可視化優(yōu)化結(jié)果

作者評估了該系統(tǒng)的兩個變體:「Auto」使用基礎(chǔ)模型去自動生成ReKep,而「Annot」使用人工標注的ReKep。

每個任務(wù)評估有10次試驗,其中物體的姿勢是隨機的。成功率見下表,作者將VoxPoser作為基準進行比較。

可以看出ReKep大幅領(lǐng)先VoxPoser,并且「Annot」也大幅領(lǐng)先「Auto」。

打開網(wǎng)易新聞 查看精彩圖片

下表則是顯示了系統(tǒng)兩個變體「Auto」、「Annot」對于倒茶、打包盒子、協(xié)作折疊三個任務(wù)受到外部干擾時的具體表現(xiàn),同樣地也是ReKep大幅領(lǐng)先VoxPoser,并且「Annot」也大幅領(lǐng)先「Auto」。

綜上則說明了,人工標注的ReKep「Auto」的綜合性能最好。

打開網(wǎng)易新聞 查看精彩圖片

操作策略中的泛化

作者系統(tǒng)地評估了如何通過專注于一項任務(wù)來發(fā)展出新穎的操作策略。

對于服裝折疊這個單一任務(wù),其中包含8個獨特的服裝類別,每個類別都需要獨特的折疊方式,并且需要幾何與常識推理。評估是在雙臂平臺上完成的,這給雙臂協(xié)調(diào)帶來了更進一步的挑戰(zhàn)。

對于操作策略的泛化,作者依然采用了獲得候選關(guān)鍵點部分的方案,即為使用visual prompt來對GPT-4o進行提問,其提示詞僅包含一般說明,沒有上下文示例?!覆呗猿晒β省购饬可傻腞eKep是否可行,這同時測試了關(guān)鍵點建議模塊和VLM,而「執(zhí)行成功率」衡量的是給定每件服裝可行策略的系統(tǒng)成功率。每種方法都要進行10次試驗。

有趣的是,結(jié)果是不同類別的策略截然不同,其中許多策略與人類折疊每件衣服的方式一致。例如,它可以識別出兩個袖子經(jīng)常在完全折疊衣服之前折疊在一起。

在不需要使用兩只手臂的情況下,類似于人類折疊衣服的方式,只使用一只手臂。

然而,我們確實觀察到VLM可能會錯過某些步驟,無法按照操作員的預期完成折疊,但我們認識到,這本質(zhì)上是一個開放式問題,通?;趥€人的喜好。

ReKep用于折疊不同類別服裝的新型雙臂策略及其成功率

成功率。由于ReKep在這項任務(wù)中總是一次關(guān)聯(lián)兩個點,因此如果兩個關(guān)鍵點需要對齊,則會用箭頭將其連接起來。

連接。關(guān)鍵點的顏色表示順序。在毛衣任務(wù)中,兩個袖子

首先用兩只手臂同時折疊,然后兩只手臂抓住圓領(lǐng)對齊到底部。

打開網(wǎng)易新聞 查看精彩圖片

結(jié)論和不足

在這項工作中,作者介紹了關(guān)系關(guān)鍵點約束(ReKep),這是一種使用約束的結(jié)構(gòu)任務(wù)表示法,它通過語義關(guān)鍵點來指定機器人手臂、物體(部件)和環(huán)境中其他代理之間的預期關(guān)系。

結(jié)合點跟蹤器,我們證明了ReKep約束條件可以在分層優(yōu)化框架中重復有效地求解,從而作為閉環(huán)策略以實時頻率運行。我們還展示了ReKep的獨特優(yōu)勢,即它可以由大型視覺模型和視覺語言模型自動合成。我們在兩個機器人平臺和各種任務(wù)上展示了結(jié)果,這些任務(wù)具有多階段、野外、雙臂和反應行為等特點,所有這些都不需要特定任務(wù)數(shù)據(jù)、額外訓練或環(huán)境模型。

盡管前景看好,但仍存在一些局限性。首先,優(yōu)化框架依賴于基于剛性假設(shè)的關(guān)鍵點前向模型,盡管高頻反饋回路放寬了對模型準確性的要求。其次,ReKep依靠精確的點跟蹤來正確優(yōu)化閉環(huán)行動,而由于間歇性遮擋嚴重,這本身就是一項具有挑戰(zhàn)性的3D視覺任務(wù)。

最后,目前的方案假設(shè)每個任務(wù)都有固定的階段序列(即骨架)。使用不同的骨架重新規(guī)劃需要高頻率地運行關(guān)鍵點建議和VLM,這給計算帶來了相當大的挑戰(zhàn)。

參考資料:

https://rekep-robot.github.io/

https://leap-workshop.github.io/