人類的雙手是自然界演化的奇跡,其無與倫比的靈巧性、精確度和適應(yīng)性使我們能夠與物理世界進(jìn)行復(fù)雜而細(xì)致的交互。在機(jī)器人學(xué)領(lǐng)域,復(fù)現(xiàn)這種能力,特別是需要雙手協(xié)同配合的復(fù)雜操作,一直是科學(xué)家和工程師們追求的“圣杯”之一。盡管在單臂操作和基礎(chǔ)抓取方面已取得長足進(jìn)步,但要讓機(jī)器人擁有媲美人類的雙手操作能力,仍面臨巨大挑戰(zhàn)。近期,由北京通用人工智能研究院(BIGAI,Beijing Institute for General Artificial Intelligence)、清華大學(xué)和北京大學(xué)的聯(lián)合團(tuán)隊(duì)共同開發(fā)了一種名為 MANIPTRANS 的方法,成功實(shí)現(xiàn)了人類雙手操作技能向仿真環(huán)境中機(jī)器人靈巧手的高效遷移,為解決這一難題提供了全新思路。

“先模仿,后精調(diào)”: MANIPTRANS 的兩階段技能遷移框架
“人手在與環(huán)境交互中扮演核心角色,這自然激發(fā)了對(duì)靈巧機(jī)器人操作的廣泛研究?!痹撗芯康牡谝蛔髡?、BIGAI 研究員李愷林解釋道,“然而,如何快速獲取大規(guī)模、精確且接近人類水平的靈巧操作數(shù)據(jù),用于訓(xùn)練 AI 智能體,仍然是一個(gè)亟待解決的關(guān)鍵問題。”
項(xiàng)目自 2024 年 8 月啟動(dòng),最初的目標(biāo)是訓(xùn)練通用的靈巧手技能模型,但很快便遇到了數(shù)據(jù)稀缺的瓶頸。傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)方法通常需要復(fù)雜的獎(jiǎng)勵(lì)設(shè)計(jì)且效率低下,而遙操作(Teleoperation)成本高昂且數(shù)據(jù)通用性差。

面對(duì)困境,團(tuán)隊(duì)將目光轉(zhuǎn)向了相對(duì)豐富的人類手-物交互 MoCap 數(shù)據(jù)集,萌生了設(shè)計(jì)算法工具將其轉(zhuǎn)化為可在仿真環(huán)境中執(zhí)行的靈巧手動(dòng)作的想法?;?Isaac Gym 仿真平臺(tái),他們開始了探索。初期,簡單的抓取任務(wù)進(jìn)展順利,但隨著任務(wù)難度提升,尤其是在需要雙手協(xié)作和高技巧的動(dòng)作上,簡單的強(qiáng)化學(xué)習(xí)方法暴露出訓(xùn)練時(shí)間長、難以獲得理想姿態(tài)的問題。
正是在攻克這些難題的過程中,團(tuán)隊(duì)意識(shí)到必須將復(fù)雜的遷移問題進(jìn)行分解,決定不再試圖一步到位地同時(shí)學(xué)習(xí)模仿運(yùn)動(dòng)和處理復(fù)雜的物理交互,而是將其拆解為兩個(gè)循序漸進(jìn)的階段。

首先,針對(duì)直接遷移中形態(tài)差異和運(yùn)動(dòng)誤差累積的問題,研究團(tuán)隊(duì)設(shè)計(jì)了第一階段的核心——第一階段的核心——通用的“軌跡模仿器”()。此階段的目標(biāo)被限定為:只學(xué)習(xí)模仿人類手部的運(yùn)動(dòng)軌跡,暫時(shí)忽略與物體的交互。通過利用大規(guī)模的 MoCap 手部運(yùn)動(dòng)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練(采用強(qiáng)化學(xué)習(xí) PPO 算法,獎(jiǎng)勵(lì)側(cè)重于跟蹤精度和平滑性),這個(gè)模仿器能夠?qū)W習(xí)到一種“理解”人類手部運(yùn)動(dòng)模式的能力,有效地將人類的運(yùn)動(dòng)意圖映射到不同形態(tài)的機(jī)械手上,從而在很大程度上克服了形態(tài)差異帶來的障礙,并為后續(xù)任務(wù)提供了一個(gè)平滑、自然的運(yùn)動(dòng)基線。這個(gè)階段的成功,意味著機(jī)器人“看懂”了人類是怎么動(dòng)的。
第一階段解決了“形似”的問題,但生成的動(dòng)作可能還不滿足物理規(guī)律或無法有效操作物體。因此,第二階段的關(guān)鍵任務(wù)是引入物理世界的約束,實(shí)現(xiàn)精確、穩(wěn)定的交互。為了應(yīng)對(duì)物理交互的復(fù)雜性和高維動(dòng)作空間的挑戰(zhàn),MANIPTRANS 采用了殘差學(xué)習(xí)(Residual Learning)的策略。它不再學(xué)習(xí)完整的動(dòng)作,而是訓(xùn)練一個(gè)“殘差模塊”R來學(xué)習(xí)一個(gè)微小的修正量()。這個(gè)模塊會(huì)接收更豐富的狀態(tài)信息,包括物體的實(shí)時(shí)狀態(tài)(姿態(tài)、速度、形狀等)以及至關(guān)重要的模擬指尖接觸力?;谶@些交互信息,殘差模塊計(jì)算出對(duì)第一階段模仿動(dòng)作的必要微調(diào)。最終輸出的動(dòng)作()既保留了第一階段模仿動(dòng)作的自然流暢性,又確保了動(dòng)作滿足物理約束,能夠穩(wěn)定地抓握物體、施加合適的力并實(shí)現(xiàn)雙手協(xié)同。這種增量式的學(xué)習(xí)方式極大地簡化了學(xué)習(xí)復(fù)雜物理動(dòng)態(tài)和高維協(xié)調(diào)的難度。
“當(dāng)我們持續(xù)改進(jìn)殘差策略時(shí),終于成功地讓左右靈巧手實(shí)現(xiàn)了協(xié)同操作:左手抓取筆帽,右手握住筆身,并將筆身自然、流暢地插入筆帽中。這個(gè)動(dòng)作不僅需要精準(zhǔn)的抓握能力,更要求雙手之間高度的協(xié)同配合。當(dāng)時(shí),團(tuán)隊(duì)的每一個(gè)人都感到非常有成就感。這次成功證明了我們的 MANIPTRANS 方法在解決遷移過程中問題的有效性,是項(xiàng)目的一個(gè)重要里程碑?!崩類鹆只貞浀?。
MANIPTRANS 這種將“運(yùn)動(dòng)模仿”與“交互精調(diào)”解耦的兩階段設(shè)計(jì),正是其成功的關(guān)鍵。它巧妙地將原本高度復(fù)雜的學(xué)習(xí)問題分解為兩個(gè)難度相對(duì)較低的子問題。通過首先建立良好的運(yùn)動(dòng)基礎(chǔ),再專注于物理交互的精調(diào),極大地降低了學(xué)習(xí)所需探索的動(dòng)作空間維度,顯著提升了訓(xùn)練效率和最終的性能。這使得 MANIPTRANS 能夠高效地將復(fù)雜的人類技能,特別是以前難以處理的雙臂操作技能,成功遷移到靈巧機(jī)械手上。
基于 MANIPTRANS,研究團(tuán)隊(duì)構(gòu)建了 DexManipNet 數(shù)據(jù)集,將多個(gè)代表性手-物交互數(shù)據(jù)集(包括 FAVOR 和 OakInk-V2)遷移到靈巧手上。目前該數(shù)據(jù)集包含 3.3K 個(gè)機(jī)器人手操作片段,涵蓋 1.2K 個(gè)物體,總計(jì) 134 萬幀,其中約 600 個(gè)序列涉及復(fù)雜雙手任務(wù),覆蓋了 61 種不同任務(wù)類型,如筆帽插入、瓶蓋擰開和化學(xué)實(shí)驗(yàn)操作等。
“DexManipNet 作為當(dāng)前靈巧手操作領(lǐng)域支持復(fù)雜雙手任務(wù)最多、數(shù)據(jù)量最大的數(shù)據(jù)集之一,我們有理由相信,基于該數(shù)據(jù)集可以訓(xùn)練出多種機(jī)器人操作技能模型,在仿真或真實(shí)環(huán)境中實(shí)現(xiàn)更通用、更靈巧、雙手協(xié)作程度更高的靈巧手操作?!崩類鹆直硎?。

成功率、精度與效率全面領(lǐng)先現(xiàn)有方法
為了驗(yàn)證 MANIPTRANS 的有效性,研究團(tuán)隊(duì)在 OakInk-V2 的驗(yàn)證集上進(jìn)行了嚴(yán)格的定量評(píng)估,并與幾種基線方法進(jìn)行了比較,包括僅使用強(qiáng)化學(xué)習(xí)從頭訓(xùn)練(RL-Only),以及先進(jìn)行姿態(tài)重定向再應(yīng)用殘差學(xué)習(xí)(Retarget+Residual)。
實(shí)驗(yàn)結(jié)果顯示,在任務(wù)成功率方面,MANIPTRANS 表現(xiàn)最佳,對(duì)于單手任務(wù)和更具挑戰(zhàn)性的雙手任務(wù),其成功率分別達(dá)到了 58.1% 和 39.5%,顯著高于 RL-Only 方法(34.3%/12.1%)和 Retarget+Residual 方法(47.8%/13.9%),證明了其在可靠完成復(fù)雜模仿任務(wù)方面的能力。

在模仿精度方面,MANIPTRANS 同樣全面領(lǐng)先。對(duì)于成功完成的任務(wù),其平均物體旋轉(zhuǎn)誤差()低至 8.60 度,位移誤差()僅為 0.49 厘米。手部動(dòng)作的模仿精度也更高,平均關(guān)節(jié)位置誤差()為 2.15 厘米,關(guān)鍵的指尖位置誤差()則為 1.36 厘米。這些數(shù)據(jù)均優(yōu)于所有對(duì)比的基線方法,例如,其指尖位置誤差相較于 Retarget+Residual 方法降低了約 22%。
除了精度和成功率,MANIPTRANS 在訓(xùn)練效率上也表現(xiàn)突出。在與另一先進(jìn)方法 QuasiSim 的對(duì)比中(針對(duì)特定任務(wù)),MANIPTRANS 僅需約 15 分鐘的微調(diào)即可達(dá)到穩(wěn)健結(jié)果,遠(yuǎn)快于 QuasiSim 所需的數(shù)十小時(shí)優(yōu)化時(shí)間。
此外,研究團(tuán)隊(duì)還測試了 MANIPTRANS 在不同形態(tài)機(jī)械手(如 Shadow Hand, Allegro Hand 等)上的通用性,結(jié)果顯示無需特殊調(diào)整即可獲得一致、流暢且精確的性能。
為了測試其能力,研究團(tuán)隊(duì)還將 DexManipNet 中的雙手軌跡在真實(shí)硬件上成功重放,展示了靈活自然的靈巧操作能力,包括擰開牙膏蓋、向試管傾倒試劑等高精度任務(wù)。

通往通用靈巧操作之路
盡管能力領(lǐng)先,但研究團(tuán)隊(duì)也表示當(dāng)前的 MANIPTRANS 還存在一些局限性。MANIPTRANS 雖然對(duì)中等噪聲具有一定的魯棒性,但如果輸入的 MoCap 數(shù)據(jù)噪聲過大,或者仿真中使用的物體模型不夠精確(尤其是對(duì)于鉸接物體),其性能可能會(huì)受到影響。
更重要的是,雖然 MANIPTRANS 在技能遷移方面取得了重大進(jìn)展,但要實(shí)現(xiàn)真正的人類水平靈巧性,仍需進(jìn)一步突破。研究團(tuán)隊(duì)表示,當(dāng)前系統(tǒng)與人類手部操作相比仍有較大差距,主要體現(xiàn)在缺乏主動(dòng)規(guī)劃和調(diào)整力度以適應(yīng)不同物體的能力(泛化性不足),以及缺乏基于物理常識(shí)對(duì)復(fù)雜任務(wù)進(jìn)行自主分析、推理和規(guī)劃的能力。要達(dá)到人類水平,未來的研究需要在更大規(guī)模的數(shù)據(jù)學(xué)習(xí)(融合視覺與觸覺)和對(duì)物理世界的更深層理解(實(shí)現(xiàn)自主規(guī)劃與調(diào)整)兩方面取得突破。
團(tuán)隊(duì)正在積極規(guī)劃未來的研究方向。他們期待開發(fā)出更具泛化性的算法,例如從互聯(lián)網(wǎng)海量的操作視頻中學(xué)習(xí)新技能,以提升靈巧手在更復(fù)雜任務(wù)上的表現(xiàn)。集成更先進(jìn)的觸覺感知也是一個(gè)重要的方向,盡管目前觸覺傳感器的硬件設(shè)計(jì)和算法融合仍是挑戰(zhàn),但其對(duì)于實(shí)現(xiàn)更精細(xì)、更魯棒的操作至關(guān)重要。此外,將 MANIPTRANS 應(yīng)用于改進(jìn)實(shí)時(shí)遙操作,實(shí)現(xiàn)“AI 輔助遙操作”,也是一個(gè)充滿潛力的探索方向。
研究團(tuán)隊(duì)已將 MANIPTRANS 的代碼、訓(xùn)練好的模型以及 DEXMANIPNET 數(shù)據(jù)集全部開源,希望能以此推動(dòng)整個(gè)領(lǐng)域的進(jìn)步(項(xiàng)目地址:https://maniptrans.github.io/)。他們真誠地希望學(xué)術(shù)界和工業(yè)界的同行能夠參與進(jìn)來,利用 MANIPTRANS 遷移更多數(shù)據(jù),并將更先進(jìn)的靈巧手設(shè)計(jì)適配到該框架中,通過集思廣益、協(xié)同合作,共同促進(jìn)靈巧機(jī)器人操作技術(shù)的發(fā)展。

相關(guān)論文已被 2025 年計(jì)算機(jī)視覺和模式識(shí)別會(huì)議(CVPR,Conference on Computer Vision and Pattern Recognition)接收,并以《MANIPTRANS:通過殘差學(xué)習(xí)實(shí)現(xiàn)高效靈巧的雙手操作遷移》(MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning)為題發(fā)表在預(yù)印本平臺(tái)arXiv上。北京通用人工智能研究院研究科學(xué)家李愷林是第一作者,北京通用人工智能研究院研究科學(xué)家、通用視覺實(shí)驗(yàn)室負(fù)責(zé)人黃思遠(yuǎn)擔(dān)任通訊作者。
參考資料:
1.https://arxiv.org/abs/2503.21860
運(yùn)營/排版:何晨龍
熱門跟貼