2025年02月14日,中國人形機(jī)器人公司「逐際動(dòng)力LimX Dynamics」公布具身智能操作最新突破,發(fā)布基于視頻生成大模型的具身操作算法(VideoGenMotion),簡稱LimX VGM。

LimX VGM通過人類操作視頻數(shù)據(jù)對(duì)現(xiàn)有的視頻生成大模型進(jìn)行后訓(xùn)練,僅需將場景圖片和操作任務(wù)指令作為提示Prompts,即可實(shí)現(xiàn)任務(wù)理解與拆分、物體操作軌跡生成以及機(jī)器人操作執(zhí)行的全流程,全過程零真機(jī)樣本數(shù)據(jù),并且可實(shí)現(xiàn)多平臺(tái)泛化。這是國內(nèi)首次實(shí)現(xiàn)將人類操作數(shù)據(jù)直接應(yīng)用于機(jī)器人操作。

具身智能的目標(biāo)是替代人類完成改變物理世界的任務(wù),為此需要大量、多樣化且高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)來源包括真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)。

相較于需要耗費(fèi)巨額成本獲取的真機(jī)及仿真數(shù)據(jù),互聯(lián)網(wǎng)及視頻大模型中已有海量的人類操作視頻,獲取成本最低,且包含豐富的物理常識(shí)、行為軌跡及操作決策路徑。

然而,如何把這些數(shù)據(jù)用起來,行業(yè)仍然在尋找行之有效的方法。主要挑戰(zhàn)包括:人類操作視頻無法直接應(yīng)用于機(jī)器人操作;大模型雖然能夠根據(jù)這些視頻生成行為軌跡和操作數(shù)據(jù),但往往存在精度不足、偏離物理規(guī)律、存在幻覺等缺陷,即使數(shù)據(jù)準(zhǔn)確,仍然無法直接應(yīng)用于機(jī)器人操作。

通過LimX VGM,逐際動(dòng)力實(shí)現(xiàn)了對(duì)人類操作視頻中操作任務(wù)本質(zhì)的理解和信息提取,從而彌合了人類操作與機(jī)器人操作之間的巨大差異,并創(chuàng)造性地提出了「數(shù)據(jù)-性能ROI」這一數(shù)據(jù)效率評(píng)估方法。

LimX VGM的工作流程包括三個(gè)關(guān)鍵步驟:

LimX VGM的工作流程包括三個(gè)關(guān)鍵步驟:

1. 訓(xùn)練階段:采集若干真實(shí)人類操作的視頻,對(duì)現(xiàn)有的視頻生成大模型進(jìn)行后訓(xùn)練。

2. 推理階段:以初始場景結(jié)合任務(wù)操作指令作為提示Prompts,利用經(jīng)過后訓(xùn)練的視頻生成大模型生成帶深度信息的人類操作視頻,進(jìn)而根據(jù)人類操作視頻,生成機(jī)器人操作的行為。

3. 執(zhí)行階段:算法輸出符合機(jī)器人操作邏輯的行為解算,由機(jī)器人執(zhí)行相應(yīng)的操作軌跡。

LimX VGM背后是逐際動(dòng)力三大具身技術(shù)核心創(chuàng)新點(diǎn):人類操作視頻到機(jī)器人操作策略及行為的橋接、空間智能的引入、算法與機(jī)器人本體的解耦。

打開網(wǎng)易新聞 查看精彩圖片

人類操作視頻到機(jī)器人操作策略及行為的橋接

人類操作視頻到機(jī)器人操作策略及行為的橋接

LimX VGM不做視頻生成大模型,而是利用當(dāng)前已有的大模型框架,極其豐富的知識(shí)和超越人類的智力。因?yàn)橐曨l生成大模型本質(zhì)是歷史數(shù)據(jù)的壓縮,包括視頻、圖像、文本、合成等數(shù)據(jù),其中包含的人類操作行為數(shù)據(jù)規(guī)模巨大、內(nèi)容豐富。通過有效訓(xùn)練,LimX VGM能夠從中提取對(duì)執(zhí)行操作任務(wù)有用的關(guān)鍵信息,轉(zhuǎn)化為機(jī)器人操作策略及行為。

具備這一能力后,LimX VGM只需額外采集少量的人類操作視頻數(shù)據(jù),即可用于機(jī)器人操作,全程零真機(jī)數(shù)據(jù),讓數(shù)據(jù)采集工作變得簡單、成本低,且效率高。隨著大模型這個(gè)“知識(shí)庫”的不斷升級(jí),LimX VGM將具備更加豐富、全面的操作知識(shí),生成更有效的操作策略,進(jìn)一步提升算法的泛化性。

引入空間智能,突破2D生成視頻的局限

引入空間智能,突破2D生成視頻的局限

通過引入空間智能Spatial Intelligence模塊,LimX VGM對(duì)視頻生成大模型進(jìn)行后訓(xùn)練時(shí),引入深度信息,讓生成的操作視頻直接包含三維空間數(shù)據(jù),這是讓機(jī)器人能夠進(jìn)行物理空間操作的關(guān)鍵。LimX VGM深度信息的采集過程簡單、易得且高效,僅需通過深度相機(jī)捕捉人手真實(shí)的操作過程即可。

算法與機(jī)器人本體的解耦,可跨平臺(tái)部署

LimX VGM的整個(gè)訓(xùn)練過程僅依靠人類操作視頻,不涉及任何機(jī)器人本體;算法的真機(jī)部署僅需進(jìn)行簡單適配,便可實(shí)現(xiàn)跨硬件平臺(tái)的直接操作執(zhí)行。LimX VGM實(shí)現(xiàn)了算法與執(zhí)行器的解耦,從根本上解決了算法與機(jī)器人本體耦合才能發(fā)揮作用的局限。

打開網(wǎng)易新聞 查看精彩圖片

本次演示使用了KUKA、UR和求之三種機(jī)械臂,它們?cè)跇?gòu)型、參數(shù)、能力等方面的差異巨大。對(duì)于同類的場景和操作,比如演示中的疊積木,同一個(gè)算法在三個(gè)機(jī)械臂上都能簡單快速部署,并實(shí)現(xiàn)了一致的操作效果。

LimX VGM與機(jī)器本體解耦,即使機(jī)器人硬件不斷推陳出新,也無需再對(duì)算法進(jìn)行大幅調(diào)整及數(shù)據(jù)重新采集,實(shí)現(xiàn)操作能力在設(shè)備上的泛化性。

以數(shù)據(jù)驅(qū)動(dòng)為核心,關(guān)注數(shù)據(jù)效能提升

以數(shù)據(jù)驅(qū)動(dòng)為核心,關(guān)注數(shù)據(jù)效能提升

數(shù)據(jù)是具身智能廣泛應(yīng)用的最大壁壘。依賴真機(jī)或仿真數(shù)據(jù)采集這一方法,雖然獲取的數(shù)據(jù)質(zhì)量較高,但是效率低、成本高,同時(shí)需要解決場景固定、物體類別單一、Sim2Real差距大、本體耦合等多重挑戰(zhàn)。因此,實(shí)現(xiàn)具身智能不僅需要找到采集有效數(shù)據(jù)的方法,數(shù)據(jù)利用率也是一個(gè)不可忽視的重要問題。

打開網(wǎng)易新聞 查看精彩圖片

通過增加數(shù)據(jù)規(guī)模來提升泛化性能是行業(yè)的共識(shí),逐際動(dòng)力則更進(jìn)一步,聚焦于數(shù)據(jù)成本到操作性能轉(zhuǎn)化率的提升,不單一追求數(shù)據(jù)規(guī)模,或者數(shù)據(jù)質(zhì)量,創(chuàng)造性地提出了「數(shù)據(jù)-性能ROI」這一評(píng)估方法,提升「數(shù)據(jù)-性能ROI」是具身操作大模型算法領(lǐng)先性的關(guān)鍵評(píng)價(jià)標(biāo)準(zhǔn)。

視頻生成大模型本身是巨量人類操作數(shù)據(jù)的壓縮和物理知識(shí)的儲(chǔ)存和擴(kuò)展,LimX VGM能夠把視頻數(shù)據(jù)應(yīng)用在機(jī)器人操作上,等同于僅用極低成本,就擁有了海量的操作數(shù)據(jù)和一流的操作決策能力。

生成的視頻帶有深度信息,能夠直接在三維物理空間應(yīng)用??臻g智能的引入,不僅讓數(shù)據(jù)更容易獲取,也進(jìn)一步拓寬了操作自由度。

LimX VGM率先將人類的操作從三維空間抽象為機(jī)器人操作,讓算法原本只能使用機(jī)器人操作數(shù)據(jù)拓寬到人類操作數(shù)據(jù)。