

機(jī)器人界的“Sora”來了?
作者 |許麗思
編輯 |漠影
機(jī)器人前瞻5月8日報道,昨天,星動紀(jì)元宣布開源首個AIGC生成式機(jī)器人大模型VPP(Video Prediction Policy)。該模型由清華大學(xué)交叉信息學(xué)院的ISRLab和星動紀(jì)元共同研發(fā),還入選了ICML 2025 Spotlight高分作品。
論文作者郭彥東解釋,在這之前,機(jī)器人大模型普遍都是基于VLM(Vision-Language Model)模型的VLA模型(Vision-Language-Action Model)。而VPP則是基于類似Sora這樣的AIGC生成式模型,它在訓(xùn)練過程中運用了海量互聯(lián)網(wǎng)視頻數(shù)據(jù),可以根據(jù)當(dāng)前場景生成視頻,并讓機(jī)器人執(zhí)行物理動作。

比如,當(dāng)機(jī)器人面對實驗臺上的燒杯、移液管時,VPP會生成使用移液管的動作視頻,然后機(jī)器人就可以將溶液移動至目標(biāo)燒杯中。
VPP將AIGC視頻擴(kuò)散模型的泛化能力轉(zhuǎn)移到通用機(jī)器人操作策略中,解決了diffusion推理速度的問題,在底層的感知和控制有獨特的優(yōu)勢,讓機(jī)器人可以實時進(jìn)行未來預(yù)測和動作執(zhí)行。
VPP可分為兩階段的學(xué)習(xí)框架:第一階段,VPP利用機(jī)器人及互聯(lián)網(wǎng)操作數(shù)據(jù)集,將通用視頻基礎(chǔ)模型微調(diào)為專注于操作的文本引導(dǎo)視頻預(yù)測(TVP)模型;第二階段,通過Video Former和DiT擴(kuò)散策略進(jìn)行動作學(xué)習(xí)。
VPP具備以下顯著特性:
1、精準(zhǔn)預(yù)知未來場景,預(yù)測與執(zhí)行高度契合
傳統(tǒng)機(jī)器人策略(如VLA模型)通常僅能依據(jù)當(dāng)前觀測數(shù)據(jù)開展動作學(xué)習(xí),機(jī)器人需先行理解指令及場景,而后實施執(zhí)行動作。
與之不同,VPP能夠提前預(yù)知未來場景,且VPP的視頻預(yù)測結(jié)果與機(jī)器人實際物理執(zhí)行結(jié)果近乎一致,凡是能夠被視頻生成的動作,機(jī)器人均可順利執(zhí)行。

2、摒棄像素級精確預(yù)測,大幅提升預(yù)測效能
盡管VPP具備預(yù)測未來場景的能力,但它并不會對未來每一像素進(jìn)行精確預(yù)測,而是通過高效提取視頻模型中間層表征,單步去噪預(yù)測便可蘊含豐富的未來信息。
單步視頻擴(kuò)散模型預(yù)測所蘊含的大量未來信息,足以支撐高頻次預(yù)測(規(guī)劃)與執(zhí)行任務(wù)。

3、跨本體視頻數(shù)據(jù)學(xué)習(xí),拓展數(shù)據(jù)獲取邊界
VPP能夠直接對各種形態(tài)機(jī)器人的視頻數(shù)據(jù)進(jìn)行學(xué)習(xí),如果將人類本體視為一種特殊的機(jī)器本體,VPP 同樣能夠直接學(xué)習(xí)人類操作數(shù)據(jù),降低了數(shù)據(jù)獲取成本。
同時,視頻數(shù)據(jù)相較于低維度動作數(shù)據(jù)蘊含更為豐富的信息,有助于提升模型的泛化能力。

4、具備舉一反三能力,實現(xiàn)多任務(wù)高效學(xué)習(xí)
在星動紀(jì)元單臂+仿人五指靈巧手靈巧手XHAND平臺,VPP能使用一個網(wǎng)絡(luò)完成100+種復(fù)雜靈巧操作任務(wù),包括放置、杯子扶正、重新定位、堆疊、傳遞、按壓、拔插、開啟以及復(fù)雜工具使用等任務(wù)。
在雙臂人形機(jī)器人平臺上,它還能完成50+種復(fù)雜靈巧操作任務(wù),展現(xiàn)出卓越的多任務(wù)處理能力。

5、依托預(yù)測視頻優(yōu)化策略,提升任務(wù)執(zhí)行成功率
VPP的預(yù)測視覺表示在一定程度上具備可解釋性,開發(fā)者無需借助真實世界測試,便能通過預(yù)測視頻提前洞察可能失敗的場景與任務(wù),進(jìn)而開展針對性調(diào)試與優(yōu)化工作。

此外,在Calvin ABC-D基準(zhǔn)測試中,VPP達(dá)成了4.33的任務(wù)完成平均長度。較此前的先進(jìn)方法,VPP實現(xiàn)了18.6%的相對性能提升;在真實場景的復(fù)雜靈巧操作任務(wù)中,其成功率提高了31.6%。
總的來看,VPP打破了傳統(tǒng)機(jī)器人對真機(jī)數(shù)據(jù)的過度依賴,為數(shù)據(jù)獲取開辟了新路徑,加速模型迭代優(yōu)化。其在不同本體間的切換能力以及高效的預(yù)測和執(zhí)行機(jī)制,為機(jī)器人的通用性與實時決策能力注入了新活力,將推動機(jī)器人從特定場景應(yīng)用向更復(fù)雜、多元的實際場景邁進(jìn)。
論文地址:https://arxiv.org/pdf/2412.14803
項目地址:https://video-prediction-policy.github.io
開源代碼:https://github.com/roboterax/video-prediction-policy
熱門跟貼