打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究團(tuán)隊(duì)由來(lái)自北京通用人工智能研究院(BIGAI)、清華大學(xué)和北京大學(xué)的跨專業(yè)研究者組成,致力于具身智能領(lǐng)域的前沿研究。團(tuán)隊(duì)成員在開(kāi)發(fā)高效、智能的通用機(jī)器人技術(shù),特別是機(jī)械靈巧手操作方面,擁有豐富的研究經(jīng)驗(yàn)。一作為北京通用人工智能研究院研究員李?lèi)鹆?,其它作者為清華大學(xué)博士生李浦豪、北京通用人工智能研究院研究員劉騰宇、北京大學(xué)博士生李宇飏;通訊作者為北京通用人工智能研究院研究員黃思遠(yuǎn)。

近年來(lái),具身智能領(lǐng)域發(fā)展迅猛,使機(jī)器人在復(fù)雜任務(wù)中擁有接近人類(lèi)水平的雙手操作能力,不僅具有重要的研究與應(yīng)用價(jià)值,也是邁向通用人工智能的關(guān)鍵一步。

目前,數(shù)據(jù)驅(qū)動(dòng)的具身智能算法仍需要精確、大規(guī)模且高度靈活的靈巧手動(dòng)作序列。然而,傳統(tǒng)的強(qiáng)化學(xué)習(xí)或真機(jī)遙操作方法通常難以高效獲取此類(lèi)數(shù)據(jù)。

為了解決這一問(wèn)題,北京通用人工智能研究院聯(lián)合清華大學(xué)、北京大學(xué)的研究人員提出了一種兩階段方法——ManipTrans,可在仿真環(huán)境中高效地將人類(lèi)雙手操作技能遷移至機(jī)器人靈巧手。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 論文地址:MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
  • 論文鏈接:https://arxiv.org/pdf/2503.21860
  • 項(xiàng)目主頁(yè):https://maniptrans.github.io
  • 代碼與數(shù)據(jù)集:https://github.com/ManipTrans/ManipTrans

ManipTrans首先利用通用軌跡模仿器的預(yù)訓(xùn)練模型模仿人類(lèi)手部動(dòng)作;然后針對(duì)不同的操作技能,引入殘差學(xué)習(xí)模塊,結(jié)合基于物理的交互約束進(jìn)行精細(xì)調(diào)整(如圖 1 所示)。該方法將動(dòng)作模仿與物理約束分離,使復(fù)雜的雙手任務(wù)學(xué)習(xí)更加高效,執(zhí)行更加精準(zhǔn)。

基于ManipTrans,研究團(tuán)隊(duì)同時(shí)發(fā)布了大規(guī)模靈巧手操作數(shù)據(jù)集DexManipNet,涵蓋了如蓋筆帽、擰瓶蓋等此前未曾深入探索的任務(wù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖1. 基于ManipTrans實(shí)現(xiàn)相同操作技能的跨型號(hào)靈巧手技能遷移

研究背景

人類(lèi)雙手在與環(huán)境交互中發(fā)揮著關(guān)鍵作用,這激發(fā)了對(duì)機(jī)器人靈巧手操作的廣泛研究。如何快速獲取大規(guī)模、精確且接近人類(lèi)水平的靈巧手操作數(shù)據(jù),已成為亟待解決的問(wèn)題。

現(xiàn)有的基于強(qiáng)化學(xué)習(xí)的方法需要精心設(shè)計(jì)針對(duì)特定任務(wù)的獎(jiǎng)勵(lì)函數(shù),這通常限制了任務(wù)的復(fù)雜性,并可能導(dǎo)致機(jī)器人動(dòng)作的不自然;另一類(lèi)基于遙操作的方法成本高昂、效率低下,且所采集的數(shù)據(jù)通常針對(duì)特定的本體,缺乏通用性。

目前,一種有潛力的解決方案是通過(guò)模仿學(xué)習(xí),將人類(lèi)的操作動(dòng)作遷移到仿真環(huán)境中的靈巧手上,以生成自然的「手-物交互」。然而,實(shí)現(xiàn)精確且高效的遷移并非易事。由于人手和機(jī)器人手在形態(tài)上的差異,直接進(jìn)行姿態(tài)重定向的效果并不理想。并且,盡管動(dòng)作捕捉得到的數(shù)據(jù)相對(duì)準(zhǔn)確,但在高精度任務(wù)中,誤差的累積仍可能導(dǎo)致任務(wù)失敗。此外,雙手操作引入了高維度的動(dòng)作空間,顯著增加了高效策略學(xué)習(xí)的難度,因此,先前的大多數(shù)工作通常止步于單手的抓取任務(wù)。

研究方法

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖2. 本文提出的ManipTrans方法框架圖

針對(duì)上述挑戰(zhàn),本文提出了一種簡(jiǎn)潔而有效的方法——ManipTrans(如圖 2 所示),旨在實(shí)現(xiàn)操作技能,特別是雙手協(xié)同技能,在仿真環(huán)境下從人手向機(jī)械靈巧手的遷移。核心思想是將遷移過(guò)程劃分為兩個(gè)階段:第一階段,實(shí)現(xiàn)手部運(yùn)動(dòng)的軌跡模仿;第二階段,在滿足物理交互約束的前提下,對(duì)動(dòng)作進(jìn)行微調(diào)。

具體而言,首先預(yù)訓(xùn)練一個(gè)通用模型,以準(zhǔn)確模仿人類(lèi)手指的運(yùn)動(dòng);在此基礎(chǔ)上,引入殘差學(xué)習(xí)模塊,對(duì)靈巧手的動(dòng)作進(jìn)行微調(diào),著重針對(duì)以下兩點(diǎn):1)確保手指與物體表面的穩(wěn)定接觸;2)協(xié)調(diào)雙手,保證復(fù)雜情況下雙手操作的高精度和高保真執(zhí)行。

本文將該問(wèn)題建模為隱式馬爾可夫決策過(guò)程(MDP),在兩個(gè)階段均采用 PPO 算法以最大化折扣回報(bào)。在第一階段,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),約束靈巧手跟隨參考的人手軌跡,同時(shí)確保動(dòng)作的穩(wěn)定性和平滑性。其中,手指模仿獎(jiǎng)勵(lì)函數(shù)「鼓勵(lì)」靈巧手的關(guān)鍵點(diǎn)位置與人手保持一致,特別是與物體接觸最頻繁的拇指、食指和中指的指尖位置是否對(duì)齊,此設(shè)計(jì)有效解決了形態(tài)不一致的問(wèn)題。

在第二階段,殘差模塊輸出動(dòng)作的補(bǔ)償項(xiàng),通過(guò)與第一階段的動(dòng)作相加,實(shí)現(xiàn)微調(diào)。該模塊額外考慮了以下信息:1)物體的質(zhì)心位置和所受重力,以增強(qiáng)對(duì)力矩的感知;2)基于空間基點(diǎn)集(BPS)表示的物體形狀;3)靈巧手關(guān)鍵點(diǎn)與物體的空間位置關(guān)系;4)仿真環(huán)境提供的指尖接觸力。第二階段特別加入了接觸力獎(jiǎng)勵(lì)函數(shù),鼓勵(lì)更加穩(wěn)定的手物接觸。在訓(xùn)練過(guò)程中,引入了隨機(jī)參考狀態(tài)初始化和課程學(xué)習(xí)策略,提高了收斂速度和訓(xùn)練穩(wěn)定性。

綜上,ManipTrans的設(shè)計(jì)在第一階段緩解人手與靈巧手之間的形態(tài)差異,在第二階段捕捉細(xì)微的交互動(dòng)作。通過(guò)將手指模仿與物理交互約束解耦,顯著降低了動(dòng)作空間的復(fù)雜度,同時(shí)提升了訓(xùn)練效率。本文在一系列復(fù)雜的單手和雙手操作任務(wù)中,驗(yàn)證了該方法的有效性和高效性,任務(wù)甚至涵蓋了鉸鏈物體的操作。為評(píng)估該方法的泛化能力,本文進(jìn)行了跨本體的實(shí)驗(yàn),驗(yàn)證了ManipTrans可應(yīng)用于具有不同自由度和形態(tài)的靈巧手,無(wú)需額外參數(shù)調(diào)節(jié)。此外,基于ManipTrans方法得到的雙手操作數(shù)據(jù),也在真機(jī)部署中得到了驗(yàn)證。

DexManipNet 數(shù)據(jù)集

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖3. 靈巧手白板寫(xiě)字

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖4. 雙手舀取物體

基于ManipTrans方法,本研究將兩個(gè)大型「手-物交互」數(shù)據(jù)集(OakInk V2 和 FAVOR)遷移至靈巧手,構(gòu)建了DexManipNet數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了 61 種具有挑戰(zhàn)性的任務(wù),包含對(duì) 1200 多件物體的 3300 條靈巧手操作序列,總計(jì)約 134 萬(wàn)幀的數(shù)據(jù)量。其中,約有 600 個(gè)序列涉及復(fù)雜的雙手操作任務(wù)(如圖 3、圖 4 所示),充分展示了機(jī)器人在高難度操作場(chǎng)景下的能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖5. 靈巧手撥開(kāi)牙膏蓋

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖6. 雙手協(xié)同完成傾倒入試管操作

此外,研究人員在真機(jī)平臺(tái)上重放(replay)了DexManipNet的數(shù)據(jù)軌跡,使用了兩臺(tái)有 7 個(gè)自由度的機(jī)械臂和一對(duì)靈巧手,部署結(jié)果展示了此前未曾實(shí)現(xiàn)的精細(xì)靈巧操作能力。例如,在「撥開(kāi)牙膏蓋」的任務(wù)中,左手穩(wěn)固握持牙膏管,右手的拇指和食指靈巧地?fù)荛_(kāi)小巧的牙膏蓋,這些細(xì)微而復(fù)雜的動(dòng)作往往難以通過(guò)遙操作精確捕捉(如圖 5、圖 6 所示)。

實(shí)驗(yàn)結(jié)果

打開(kāi)網(wǎng)易新聞 查看精彩圖片

表1.ManipTrans與基線方法定量對(duì)比

本文將ManipTrans與兩大類(lèi)現(xiàn)有方法——基于強(qiáng)化學(xué)習(xí)的方法和基于優(yōu)化的方法,進(jìn)行了對(duì)比評(píng)估。結(jié)果顯示,ManipTrans在各項(xiàng)指標(biāo)上均優(yōu)于基線方法,展現(xiàn)了在單手和雙手操作任務(wù)中的高精度(如表 1 所示)。定性和定量分析證實(shí)了,ManipTrans的兩階段遷移框架能夠有效捕捉手指的細(xì)微運(yùn)動(dòng)并與物體的交互,提高了任務(wù)成功率和運(yùn)動(dòng)的真實(shí)感。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖7. 跨本體遷移實(shí)驗(yàn)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖8. 雙手操作鉸鏈物體

此外,研究展示了ManipTrans不同型號(hào)靈巧手上的可擴(kuò)展性。該框架僅依賴人類(lèi)手指與靈巧手關(guān)鍵點(diǎn)之間的對(duì)應(yīng)關(guān)系,無(wú)需過(guò)多參數(shù)調(diào)整即可適配不同形態(tài)和自由度的靈巧手(如圖 7 所示)。文章還在鉸鏈物體操作數(shù)據(jù)集 ARCTIC 上進(jìn)行了驗(yàn)證。通過(guò)對(duì)獎(jiǎng)勵(lì)函數(shù)的微調(diào),添加鉸鏈物體運(yùn)動(dòng)角度獎(jiǎng)勵(lì),成功實(shí)現(xiàn)了靈巧手對(duì)鉸鏈物體的指定角度旋轉(zhuǎn)操作(如圖 8 所示),展現(xiàn)了ManipTrans方法在復(fù)雜操作任務(wù)中的潛力。