
研究團隊由來自北京通用人工智能研究院(BIGAI)、清華大學(xué)和北京大學(xué)的跨專業(yè)研究者組成,致力于具身智能領(lǐng)域的前沿研究。團隊成員在開發(fā)高效、智能的通用機器人技術(shù),特別是機械靈巧手操作方面,擁有豐富的研究經(jīng)驗。一作為北京通用人工智能研究院研究員李愷林,其它作者為清華大學(xué)博士生李浦豪、北京通用人工智能研究院研究員劉騰宇、北京大學(xué)博士生李宇飏;通訊作者為北京通用人工智能研究院研究員黃思遠。
近年來,具身智能領(lǐng)域發(fā)展迅猛,使機器人在復(fù)雜任務(wù)中擁有接近人類水平的雙手操作能力,不僅具有重要的研究與應(yīng)用價值,也是邁向通用人工智能的關(guān)鍵一步。
目前,數(shù)據(jù)驅(qū)動的具身智能算法仍需要精確、大規(guī)模且高度靈活的靈巧手動作序列。然而,傳統(tǒng)的強化學(xué)習(xí)或真機遙操作方法通常難以高效獲取此類數(shù)據(jù)。
為了解決這一問題,北京通用人工智能研究院聯(lián)合清華大學(xué)、北京大學(xué)的研究人員提出了一種兩階段方法——ManipTrans,可在仿真環(huán)境中高效地將人類雙手操作技能遷移至機器人靈巧手。

- 論文地址:MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
- 論文鏈接:https://arxiv.org/pdf/2503.21860
- 項目主頁:https://maniptrans.github.io
- 代碼與數(shù)據(jù)集:https://github.com/ManipTrans/ManipTrans
ManipTrans首先利用通用軌跡模仿器的預(yù)訓(xùn)練模型模仿人類手部動作;然后針對不同的操作技能,引入殘差學(xué)習(xí)模塊,結(jié)合基于物理的交互約束進行精細調(diào)整(如圖 1 所示)。該方法將動作模仿與物理約束分離,使復(fù)雜的雙手任務(wù)學(xué)習(xí)更加高效,執(zhí)行更加精準。
基于ManipTrans,研究團隊同時發(fā)布了大規(guī)模靈巧手操作數(shù)據(jù)集DexManipNet,涵蓋了如蓋筆帽、擰瓶蓋等此前未曾深入探索的任務(wù)。
圖1. 基于ManipTrans實現(xiàn)相同操作技能的跨型號靈巧手技能遷移
研究背景
人類雙手在與環(huán)境交互中發(fā)揮著關(guān)鍵作用,這激發(fā)了對機器人靈巧手操作的廣泛研究。如何快速獲取大規(guī)模、精確且接近人類水平的靈巧手操作數(shù)據(jù),已成為亟待解決的問題。
現(xiàn)有的基于強化學(xué)習(xí)的方法需要精心設(shè)計針對特定任務(wù)的獎勵函數(shù),這通常限制了任務(wù)的復(fù)雜性,并可能導(dǎo)致機器人動作的不自然;另一類基于遙操作的方法成本高昂、效率低下,且所采集的數(shù)據(jù)通常針對特定的本體,缺乏通用性。
目前,一種有潛力的解決方案是通過模仿學(xué)習(xí),將人類的操作動作遷移到仿真環(huán)境中的靈巧手上,以生成自然的「手-物交互」。然而,實現(xiàn)精確且高效的遷移并非易事。由于人手和機器人手在形態(tài)上的差異,直接進行姿態(tài)重定向的效果并不理想。并且,盡管動作捕捉得到的數(shù)據(jù)相對準確,但在高精度任務(wù)中,誤差的累積仍可能導(dǎo)致任務(wù)失敗。此外,雙手操作引入了高維度的動作空間,顯著增加了高效策略學(xué)習(xí)的難度,因此,先前的大多數(shù)工作通常止步于單手的抓取任務(wù)。
研究方法

圖2. 本文提出的ManipTrans方法框架圖
針對上述挑戰(zhàn),本文提出了一種簡潔而有效的方法——ManipTrans(如圖 2 所示),旨在實現(xiàn)操作技能,特別是雙手協(xié)同技能,在仿真環(huán)境下從人手向機械靈巧手的遷移。核心思想是將遷移過程劃分為兩個階段:第一階段,實現(xiàn)手部運動的軌跡模仿;第二階段,在滿足物理交互約束的前提下,對動作進行微調(diào)。
具體而言,首先預(yù)訓(xùn)練一個通用模型,以準確模仿人類手指的運動;在此基礎(chǔ)上,引入殘差學(xué)習(xí)模塊,對靈巧手的動作進行微調(diào),著重針對以下兩點:1)確保手指與物體表面的穩(wěn)定接觸;2)協(xié)調(diào)雙手,保證復(fù)雜情況下雙手操作的高精度和高保真執(zhí)行。
本文將該問題建模為隱式馬爾可夫決策過程(MDP),在兩個階段均采用 PPO 算法以最大化折扣回報。在第一階段,設(shè)計獎勵函數(shù),約束靈巧手跟隨參考的人手軌跡,同時確保動作的穩(wěn)定性和平滑性。其中,手指模仿獎勵函數(shù)「鼓勵」靈巧手的關(guān)鍵點位置與人手保持一致,特別是與物體接觸最頻繁的拇指、食指和中指的指尖位置是否對齊,此設(shè)計有效解決了形態(tài)不一致的問題。
在第二階段,殘差模塊輸出動作的補償項,通過與第一階段的動作相加,實現(xiàn)微調(diào)。該模塊額外考慮了以下信息:1)物體的質(zhì)心位置和所受重力,以增強對力矩的感知;2)基于空間基點集(BPS)表示的物體形狀;3)靈巧手關(guān)鍵點與物體的空間位置關(guān)系;4)仿真環(huán)境提供的指尖接觸力。第二階段特別加入了接觸力獎勵函數(shù),鼓勵更加穩(wěn)定的手物接觸。在訓(xùn)練過程中,引入了隨機參考狀態(tài)初始化和課程學(xué)習(xí)策略,提高了收斂速度和訓(xùn)練穩(wěn)定性。
綜上,ManipTrans的設(shè)計在第一階段緩解人手與靈巧手之間的形態(tài)差異,在第二階段捕捉細微的交互動作。通過將手指模仿與物理交互約束解耦,顯著降低了動作空間的復(fù)雜度,同時提升了訓(xùn)練效率。本文在一系列復(fù)雜的單手和雙手操作任務(wù)中,驗證了該方法的有效性和高效性,任務(wù)甚至涵蓋了鉸鏈物體的操作。為評估該方法的泛化能力,本文進行了跨本體的實驗,驗證了ManipTrans可應(yīng)用于具有不同自由度和形態(tài)的靈巧手,無需額外參數(shù)調(diào)節(jié)。此外,基于ManipTrans方法得到的雙手操作數(shù)據(jù),也在真機部署中得到了驗證。
DexManipNet 數(shù)據(jù)集
圖3. 靈巧手白板寫字
圖4. 雙手舀取物體
基于ManipTrans方法,本研究將兩個大型「手-物交互」數(shù)據(jù)集(OakInk V2 和 FAVOR)遷移至靈巧手,構(gòu)建了DexManipNet數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了 61 種具有挑戰(zhàn)性的任務(wù),包含對 1200 多件物體的 3300 條靈巧手操作序列,總計約 134 萬幀的數(shù)據(jù)量。其中,約有 600 個序列涉及復(fù)雜的雙手操作任務(wù)(如圖 3、圖 4 所示),充分展示了機器人在高難度操作場景下的能力。
圖5. 靈巧手撥開牙膏蓋
圖6. 雙手協(xié)同完成傾倒入試管操作
此外,研究人員在真機平臺上重放(replay)了DexManipNet的數(shù)據(jù)軌跡,使用了兩臺有 7 個自由度的機械臂和一對靈巧手,部署結(jié)果展示了此前未曾實現(xiàn)的精細靈巧操作能力。例如,在「撥開牙膏蓋」的任務(wù)中,左手穩(wěn)固握持牙膏管,右手的拇指和食指靈巧地撥開小巧的牙膏蓋,這些細微而復(fù)雜的動作往往難以通過遙操作精確捕捉(如圖 5、圖 6 所示)。
實驗結(jié)果

表1.ManipTrans與基線方法定量對比
本文將ManipTrans與兩大類現(xiàn)有方法——基于強化學(xué)習(xí)的方法和基于優(yōu)化的方法,進行了對比評估。結(jié)果顯示,ManipTrans在各項指標上均優(yōu)于基線方法,展現(xiàn)了在單手和雙手操作任務(wù)中的高精度(如表 1 所示)。定性和定量分析證實了,ManipTrans的兩階段遷移框架能夠有效捕捉手指的細微運動并與物體的交互,提高了任務(wù)成功率和運動的真實感。

圖7. 跨本體遷移實驗

圖8. 雙手操作鉸鏈物體
此外,研究展示了ManipTrans在不同型號靈巧手上的可擴展性。該框架僅依賴人類手指與靈巧手關(guān)鍵點之間的對應(yīng)關(guān)系,無需過多參數(shù)調(diào)整即可適配不同形態(tài)和自由度的靈巧手(如圖 7 所示)。文章還在鉸鏈物體操作數(shù)據(jù)集 ARCTIC 上進行了驗證。通過對獎勵函數(shù)的微調(diào),添加鉸鏈物體運動角度獎勵,成功實現(xiàn)了靈巧手對鉸鏈物體的指定角度旋轉(zhuǎn)操作(如圖 8 所示),展現(xiàn)了ManipTrans方法在復(fù)雜操作任務(wù)中的潛力。
熱門跟貼