機器人前瞻(公眾號:robot_pro)作者許麗思編輯漠影
打開網易新聞 查看精彩圖片
機器人前瞻(公眾號:robot_pro)作者許麗思編輯漠影

機器人前瞻5月8日報道,昨天,星動紀元宣布開源首個AIGC生成式機器人大模型VPP(Video Prediction Policy)。該模型由清華大學交叉信息學院的ISRLab和星動紀元共同研發(fā),還入選了ICML 2025 Spotlight高分作品。

論文作者郭彥東解釋,在這之前,機器人大模型普遍都是基于VLM(Vision-Language Model)模型的VLA模型(Vision-Language-Action Model)。而VPP則是基于類似Sora這樣的AIGC生成式模型,它在訓練過程中運用了海量互聯(lián)網視頻數(shù)據(jù),可以根據(jù)當前場景生成視頻,并讓機器人執(zhí)行物理動作。

比如,當機器人面對實驗臺上的燒杯、移液管時,VPP會生成使用移液管的動作視頻,然后機器人就可以將溶液移動至目標燒杯中。

打開網易新聞 查看精彩圖片

VPP將視頻擴散模型的泛化能力轉移到了通用機器人操作策略中,解決了diffusion推理速度的問題,讓機器人可以實時進行未來預測和動作執(zhí)行,提升了機器人策略泛化性。

VPP可分為兩階段的學習框架:第一階段,VPP利用機器人及互聯(lián)網操作數(shù)據(jù)集,將通用視頻基礎模型微調為專注于操作的文本引導視頻預測(TVP)模型;第二階段,通過Video Former和DiT擴散策略進行動作學習。

打開網易新聞 查看精彩圖片

VPP具備以下顯著特性:

1、精準預知未來場景,預測與執(zhí)行高度契合?
傳統(tǒng)機器人策略(如VLA模型)通常僅能依據(jù)當前觀測數(shù)據(jù)開展動作學習,機器人需先行理解指令及場景,而后實施執(zhí)行動作。

與之不同,VPP能夠提前預知未來場景,且VPP的視頻預測結果與機器人實際物理執(zhí)行結果近乎一致,凡是能夠被視頻生成的動作,機器人均可順利執(zhí)行。

打開網易新聞 查看精彩圖片

2、摒棄像素級精確預測,大幅提升預測效能?

盡管VPP具備預測未來場景的能力,但它并不會對未來每一像素進行精確預測,而是通過高效提取視頻模型中間層表征,單步去噪預測便可蘊含豐富的未來信息。

單步視頻擴散模型預測所蘊含的大量未來信息,足以支撐高頻次預測(規(guī)劃)與執(zhí)行任務。

打開網易新聞 查看精彩圖片

3、跨本體視頻數(shù)據(jù)學習,拓展數(shù)據(jù)獲取邊界?
VPP能夠直接對各種形態(tài)機器人的視頻數(shù)據(jù)進行學習,如果將人類本體視為一種特殊的機器本體,VPP 同樣能夠直接學習人類操作數(shù)據(jù),顯著降低了數(shù)據(jù)獲取成本。

同時,視頻數(shù)據(jù)相較于低維度動作數(shù)據(jù)蘊含更為豐富的信息,有助于提升模型的泛化能力。

打開網易新聞 查看精彩圖片

4、具備舉一反三能力,實現(xiàn)多任務高效學習?

在星動紀元單臂+仿人五指靈巧手靈巧手XHAND平臺,VPP能使用一個網絡完成100+種復雜靈巧操作任務,包括放置、杯子扶正、重新定位、堆疊、傳遞、按壓、拔插、開啟以及復雜工具使用等任務。

打開網易新聞 查看精彩圖片

在雙臂人形機器人平臺上,它還能完成50+種復雜靈巧操作任務,展現(xiàn)出卓越的多任務處理能力。

5、依托預測視頻優(yōu)化策略,提升任務執(zhí)行成功率?
打開網易新聞 查看精彩圖片
5、依托預測視頻優(yōu)化策略,提升任務執(zhí)行成功率?

VPP的預測視覺表示在一定程度上具備可解釋性,開發(fā)者無需借助真實世界測試,便能通過預測視頻提前洞察可能失敗的場景與任務,進而開展針對性調試與優(yōu)化工作。?

打開網易新聞 查看精彩圖片

此外,在Calvin ABC-D基準測試中,VPP達成了4.33的任務完成平均長度,接近任務滿分5.0。較此前的先進方法,VPP實現(xiàn)了18.6%的相對性能提升;在真實場景的復雜靈巧操作任務中,其成功率提高了 31.6%。

總的來看,VPP打破了傳統(tǒng)機器人對真機數(shù)據(jù)的過度依賴,為數(shù)據(jù)獲取開辟了新路徑,加速模型迭代優(yōu)化。其在不同本體間的切換能力以及高效的預測和執(zhí)行機制,為機器人的通用性與實時決策能力注入了新活力,將推動機器人從特定場景應用向更復雜、多元的實際場景邁進。

  • 論文地址:https://arxiv.org/pdf/2412.14803
  • 項目地址:https://video-prediction-policy.github.io
  • 開源代碼:https://github.com/roboterax/video-prediction-policy