本文是對發(fā)表于計算機人工智能領(lǐng)域頂級會議 CVPR 2025 的論文 OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 的解讀。該論文由北京大學(xué)董豪課題組完成,共同第一作者為北京大學(xué)計算機學(xué)院博士生潘銘杰和張繼耀。
本文提出了一種基于多模態(tài)大模型的開放詞匯操作方法,通過以物體為中心的 3D 交互基元,賦能 VLM(視覺語言模型)3D 理解與推理能力,使機器人能夠免訓(xùn)練、零樣本地執(zhí)行多項操作任務(wù)。與先前基于關(guān)鍵點、線、面等交互基元的工作不同,OmniManip 能夠通過物體 3D 渲染和姿態(tài)跟蹤達成規(guī)劃-執(zhí)行層面的雙閉環(huán),實現(xiàn)了操作性能的顯著突破。文章在 CVPR 2025 中作為 Highlight 發(fā)表。

論文標(biāo)題: OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 論文地址: https://arxiv.org/abs/2501.03841 文章代碼: https://github.com/pmj110119/OmniManip 項目主頁: https://omnimanip.github.io一、研究背景
近年來視覺語言基礎(chǔ)模型(Vision Language Models, VLMs)在多模態(tài)理解和高層次常識推理上?放異彩,如何將其應(yīng)用于機器?以實現(xiàn)通用操作是具身智能領(lǐng)域的?個核心問題。這?目標(biāo)的實現(xiàn)受兩?關(guān)鍵挑戰(zhàn)制約:
VLM 缺少精確的 3D 理解能力:通過對比學(xué)習(xí)范式訓(xùn)練、僅以 2D 圖像 / 文本作為輸?的 VLM 的天然局限;
無法輸出低層次動作:將 VLM 在機器?數(shù)據(jù)上進行微調(diào)以得到視覺 - 語言 - 動作(VLA)模型是?種有前景的解決方案,但目前仍受到數(shù)據(jù)收集成本和泛化能力的限制。
針對上述難題,OmniManip 基于以對象為中心的 3D 交互基元,賦能 VLM 3D 理解與規(guī)劃能力,并通過創(chuàng)新性的規(guī)劃-執(zhí)行雙閉環(huán)設(shè)計實現(xiàn)了操作性能的顯著突破。
實驗結(jié)果表明,OmniManip 作為?種免訓(xùn)練的開放詞匯操作方法,在各種機器人操作任務(wù)中具備強大的零樣本泛化能?。
二、技術(shù)方案解析 2.1 方法概述
OmniManip 的關(guān)鍵設(shè)計包括:
基于 VLM 的任務(wù)解析:利用 VLM 強?的常識推理能力,將任務(wù)分解為多個結(jié)構(gòu)化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。
以物體為中心的交互基元作為空間約束:通過 3D 基座模型生成任務(wù)相關(guān)物體的 3D 模型和規(guī)范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從而優(yōu)化求解出 Active 物體在 Passive 物體規(guī)范坐標(biāo)系下的目標(biāo)交互姿態(tài)。
閉環(huán) VLM 規(guī)劃:將目標(biāo)交互姿態(tài)下的 Active/Passive 物體渲染成圖像,由 VLM 評估與重采樣,實現(xiàn) VLM 對自身規(guī)劃結(jié)果的閉環(huán)調(diào)整。
閉環(huán)機器人執(zhí)行:通過物體 6D 姿態(tài)跟蹤器實時更新 Active/Passive 物體的位姿,轉(zhuǎn)換為機械臂末端執(zhí)行器的操作軌跡,實現(xiàn)閉環(huán)執(zhí)行。

2.2 以物體為中心的交互基元
物體的交互基元通過其在標(biāo)準空間中的交互點和方向來表征。交互點 p∈R3 表示物體上關(guān)鍵的交互位置,而交互方向 v∈R3 代表與任務(wù)相關(guān)的主要軸。這兩者共同構(gòu)成交互基元 O={p,v},封裝了滿足任務(wù)約束所需的基本幾何和功能屬性。這些標(biāo)準交互基元相對于其標(biāo)準空間定義,能夠在不同場景中保持?致,實現(xiàn)更通用和可重用的操作策略。

對于通用物體的交互點提取,OmniManip 利用視覺語?模型(VLM)在原圖(當(dāng)部件可見且實體存在時)或在正交視圖中渲染的 3D 網(wǎng)格(當(dāng)部件不可見或?qū)嶓w不存在時)上進行定位。
與 CoPa 和 ReKep 等方法不同,OmniManip 直接讓 VLM 進行 grounding,不會受限于不穩(wěn)定的 part 分割或聚類結(jié)果。
在交互方向的采樣方面,由于物體的規(guī)范化空間通過 Omni6DPose 錨定,軸的方向與語義對齊,該團隊讓 VLM 直接對物體標(biāo)準空間的軸進行語義描述,并根據(jù)操作任務(wù)進行匹配度排序,以獲得交互方向的候選。
2.3 雙閉環(huán)系統(tǒng)設(shè)計
作為最新的 SOTA 工作,李飛飛團隊的 ReKep 通過關(guān)鍵點跟蹤巧妙地實現(xiàn)了機械臂的閉環(huán)執(zhí)行,但其 VLM 規(guī)劃過程是開環(huán)的。OmniManip 則更進?步,得益于以物體為中心的設(shè)計理念,首次在 VLM 規(guī)劃和機械臂執(zhí)?層?實現(xiàn)了雙閉環(huán)系統(tǒng):
閉環(huán)規(guī)劃:在實驗中,VLM 推理很容易出現(xiàn)幻覺,導(dǎo)致錯誤的規(guī)劃結(jié)果(尤其是在涉及 3D 旋轉(zhuǎn)的任務(wù)中,如倒水、插筆)。OmniManip 賦予 VLM 閉環(huán)規(guī)劃能?,通過渲染物體的三維模型,幫助 VLM 「腦補」出規(guī)劃結(jié)果后的物體樣貌,再判斷其合理性。
這?功能賦予了 VLM 空間反思能力,使其能夠在測試時進行推理,類似于 OpenAI 的 O1,大大提高了操作成功率。為了保持框架的簡潔性,研究團隊沒有設(shè)計復(fù)雜的測試時推理流程,僅作?輪校驗就已明顯提高了 VLM 的規(guī)劃準確率。

閉環(huán)執(zhí)行:OmniManip 提取的交互基元位于物體的規(guī)范空間中,只需引入?個 6D 位姿跟蹤器即可輕松實現(xiàn)閉環(huán)操作。與 ReKep 使用的關(guān)鍵點跟蹤器相比,基于物體的 6D 位姿跟蹤方式更為穩(wěn)定,并對遮擋具有更強的魯棒性。(缺點則是不如關(guān)鍵點靈活、無法建模柔性物體操作。)
三、實驗結(jié)果 3.1 強大的開放詞匯操作性能
在12個真機短程任務(wù)上,OmniManip 均展現(xiàn)出卓越的性能。

雙閉環(huán)系統(tǒng)設(shè)計為 OmniManip 帶來了約 17% 的性能提升,這證明了 RRC 在有效減少?模型幻覺影響??的作用。
3.2 交互基元的魯棒性
VLM 需要基于交互基元對機器?操作進行規(guī)劃,如果交互基元本身存在問題,VLM 就會陷入「巧婦難為無米之炊」的困境。因此,可靠的交互基元至關(guān)重要。以往的方法通常是讓 VLM 直接在相機拍攝的 2D 圖像上采樣交互基元,然后通過相機的內(nèi)外參數(shù)轉(zhuǎn)換到 3D 空間。
然而,由于 2D 圖像存在空間歧義,采樣效果對相機視?、圖像紋理和部件形狀等因素極為敏感(例如,當(dāng)相機平視杯子時,之前的方法只能對準杯子的側(cè)壁、而不是開口)。而 OmniManip 則是在物體的 3D 規(guī)范空間中進行采樣,能夠輕松克服 2D 圖像的局限性,實現(xiàn)可靠的 3D 交互基元提取。

3.3 強大的拓展性與潛力
OmniManip 能夠與 high-level 任務(wù)規(guī)劃器結(jié)合,實現(xiàn)長程任務(wù)操作。
作為?種以物體為中心的算法,OmniManip 與機械臂本體解耦,能夠零成本遷移至不同形態(tài)的本體(例如雙臂?形機器?)。
OmniManip 具有強?的通用泛化能力,不受特定場景和物體限制,可用作數(shù)字資產(chǎn)?動標(biāo)注 / 合成管道。作為核心的數(shù)據(jù)生成引擎,OmniManip 已被應(yīng)用于最近開源的 AgibotDigitalWorld 數(shù)據(jù)集[1],實現(xiàn)大規(guī)模的機器人軌跡自動采集。
四、總結(jié)
本文提出了一種基于多模態(tài)大模型的開放詞匯操作方法 OmniManip,通過以物體為中心的 3D 交互基元,創(chuàng)新性的規(guī)劃-執(zhí)行雙閉環(huán)設(shè)計,使機器人能夠免訓(xùn)練、零樣本地執(zhí)行多項操作任務(wù)。
OmniManip 在多個任務(wù)上超越了現(xiàn)有方法,展現(xiàn)出了強大的泛化性和穩(wěn)定性,為未來的機器人自主操作提供了一種強大的工具。
[1] AgibotDigitalWorld 數(shù)據(jù)集: https://huggingface.co/datasets/agibot-world/AgiBotDigitalWorld
作者:潘銘杰、張繼耀 來源:公眾號【北京大學(xué)前沿計算研究中心】
llustration From IconScout By IconScout Store
-The End-
本周上新!
掃碼觀看!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
熱門跟貼