打開(kāi)網(wǎng)易新聞 查看精彩圖片

本文的作者均來(lái)自新加坡國(guó)立大學(xué) LinS Lab。本文第一作者為新加坡國(guó)立大學(xué)博士生高崇凱,其余作者為北京大學(xué)實(shí)習(xí)生張浩卓,新加坡國(guó)立大學(xué)博士生徐志軒,新加坡國(guó)立大學(xué)碩士生蔡哲豪。本文的通訊作者為新加坡國(guó)立大學(xué)助理教授邵林。

人類具有通用的、解決長(zhǎng)時(shí)序復(fù)雜任務(wù)的規(guī)劃能力,這在我們處理生活中的復(fù)雜操作任務(wù)時(shí)很有用。這種能力可以被描述為這樣的過(guò)程:首先,人們會(huì)在面臨一個(gè)任務(wù)時(shí)思考當(dāng)前可能的動(dòng)作,然后通過(guò)想象能力預(yù)測(cè)這些步驟可能帶來(lái)的結(jié)果,最后基于常識(shí)對(duì)這些結(jié)果進(jìn)行打分,選擇最佳動(dòng)作來(lái)執(zhí)行并完成任務(wù)。這種基于世界模型的搜索算法是人類解決開(kāi)放世界操作任務(wù)的能力基礎(chǔ)。這種能力背后的核心在于,人類大腦構(gòu)建了一個(gè)關(guān)于物理世界的 “世界模型” 和一個(gè)通用的價(jià)值函數(shù),他們模型賦予了我們對(duì)于物體未來(lái)狀態(tài)的想象能力和規(guī)劃能力。那么,機(jī)器人能否也具備這樣的對(duì)物理世界的理解和想像能力,使得能夠在執(zhí)行任務(wù)之前就能規(guī)劃好未來(lái)的步驟?

近年來(lái),機(jī)器人技術(shù)飛速發(fā)展,我們見(jiàn)證了越來(lái)越多智能化機(jī)器人的出現(xiàn)。然而,與人類相比,現(xiàn)有機(jī)器人在處理復(fù)雜、多階段任務(wù)時(shí)仍顯得力不從心。它們往往依賴于特定任務(wù)的數(shù)據(jù)和預(yù)設(shè)指令,或者借助大模型在簡(jiǎn)單的抓取技能上進(jìn)行規(guī)劃,難以像人類一樣靈活地規(guī)劃和執(zhí)行復(fù)雜通用的操作任務(wù)。如何為機(jī)器人構(gòu)建類似于人類的 “世界模型”,從而實(shí)現(xiàn)通用任務(wù)規(guī)劃能力,一直是機(jī)器人研究中的核心挑戰(zhàn)。

近日,來(lái)自新加坡國(guó)立大學(xué)的邵林團(tuán)隊(duì)提出了 FLIP:一種基于世界模型的視頻空間任務(wù)搜索和規(guī)劃框架。該方法能夠適用于通用的機(jī)器人操作任務(wù)上,包括可行變物體操作和靈巧手操作任務(wù)。該方法直接基于機(jī)器人視覺(jué)空間進(jìn)行任務(wù)規(guī)劃,通過(guò)特殊設(shè)計(jì)的動(dòng)作提出模塊、動(dòng)力學(xué)預(yù)測(cè)模塊、和價(jià)值函數(shù)預(yù)測(cè)模塊進(jìn)行基于世界模型的任務(wù)規(guī)劃,且具有模型參數(shù)量的可擴(kuò)展性。該論文已發(fā)表在 ICLR 2025 上,并在 CoRL 2024 LEAP Workshop 中被選為 Oral Presentation。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:FLIP : Flow-Centric Generative Planning as General-Purpose Manipulation World Model
  • 項(xiàng)目主頁(yè):https://nus-lins-lab.github.io/flipweb/
  • 論文鏈接:https://arxiv.org/abs/2412.08261
  • 代碼鏈接:https://github.com/HeegerGao/FLIP

世界模型在機(jī)器人任務(wù)規(guī)劃中的全新范式
打開(kāi)網(wǎng)易新聞 查看更多視頻
世界模型在機(jī)器人任務(wù)規(guī)劃中的全新范式

一、引言

世界模型(World Models)指的是基于學(xué)習(xí)的方法,用于模擬環(huán)境的表示或模型。借助世界模型,智能體可以在模型內(nèi)部進(jìn)行想象、推理和規(guī)劃,從而更加安全且高效地完成任務(wù)。近期生成模型的進(jìn)展,特別是在視頻生成領(lǐng)域,展示了利用互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù)生成高質(zhì)量視頻,以作為世界模擬器的應(yīng)用潛力。世界模型在多個(gè)領(lǐng)域開(kāi)辟了新途徑,尤其是在機(jī)器人操縱任務(wù)方面,這也是本文的研究重點(diǎn)。

通用機(jī)器人的智能主要分為兩個(gè)層次:第一,通過(guò)多模態(tài)輸入對(duì)任務(wù)進(jìn)行高層次的抽象規(guī)劃;第二,通過(guò)與現(xiàn)實(shí)環(huán)境交互實(shí)現(xiàn)計(jì)劃的具體執(zhí)行。設(shè)計(jì)良好的世界模型能夠有效地實(shí)現(xiàn)第一個(gè)功能,即實(shí)現(xiàn)基于模型的規(guī)劃。這種模型需要具備交互性,能夠根據(jù)給定的動(dòng)作來(lái)模擬環(huán)境狀態(tài)??蚣艿暮诵脑谟谡业揭环N通用且可擴(kuò)展的動(dòng)作表示,連接高層規(guī)劃和低層執(zhí)行。這種動(dòng)作表示需滿足兩個(gè)要求:一是能表達(dá)場(chǎng)景中不同物體、機(jī)器人及任務(wù)的多種運(yùn)動(dòng);二是容易獲得大量的訓(xùn)練數(shù)據(jù)以支持?jǐn)U展?,F(xiàn)有方法或是依賴語(yǔ)言描述作為高層動(dòng)作,或是直接采用底層的機(jī)器人動(dòng)作與世界模型互動(dòng),但這些方法存在一些限制,比如需要額外的數(shù)據(jù)或標(biāo)注過(guò)程,或者無(wú)法描述精細(xì)復(fù)雜的動(dòng)作細(xì)節(jié),例如靈巧手的精細(xì)動(dòng)作。這些限制激勵(lì)我們探索其他更有效的動(dòng)作表示。同時(shí),現(xiàn)有的世界模型缺乏合適的價(jià)值函數(shù)作為結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn),對(duì)未來(lái)的規(guī)劃常常限制在貪心搜索層面,難以實(shí)現(xiàn)真正的任務(wù)空間的搜索能力。

圖像流是一種描述圖像中像素隨時(shí)間變化的動(dòng)態(tài)表示,能夠通用且簡(jiǎn)潔地表示不同機(jī)器人和物體的運(yùn)動(dòng),比語(yǔ)言更加精細(xì)和準(zhǔn)確。此外,圖像流可以直接通過(guò)已有的視頻追蹤工具從視頻數(shù)據(jù)中獲取。同時(shí),已有研究表明,圖像流對(duì)于訓(xùn)練低層次的操控策略也具有很高的有效性。因此,圖像流非常適合作為世界模型的動(dòng)作表示。然而,目前如何使用圖像流來(lái)規(guī)劃?rùn)C(jī)器人操控任務(wù)仍有待探索。

在本文中,我們提出了以圖像流為中心的通用機(jī)器人操控規(guī)劃方法(FLIP)。具體而言,我們從帶有語(yǔ)言標(biāo)注的視頻數(shù)據(jù)中訓(xùn)練出以圖像流為核心的世界模型。該世界模型包括三個(gè)模塊:一是負(fù)責(zé)動(dòng)作生成的圖像流生成網(wǎng)絡(luò);二是根據(jù)圖像流生成視頻的動(dòng)力學(xué)模型;三是進(jìn)行視覺(jué)語(yǔ)言評(píng)估的價(jià)值模型。我們?cè)O(shè)計(jì)了一種新的訓(xùn)練方式,用于整合這三個(gè)模塊,以實(shí)現(xiàn)基于模型的規(guī)劃:給定初始圖像和任務(wù)目標(biāo),動(dòng)作模塊生成多個(gè)圖像流方案,動(dòng)力學(xué)模型預(yù)測(cè)短期視頻結(jié)果,價(jià)值模塊評(píng)估視頻生成結(jié)果的優(yōu)劣,通過(guò)樹搜索方法合成長(zhǎng)期規(guī)劃。

實(shí)驗(yàn)結(jié)果表明,F(xiàn)LIP 方法不僅可以成功解決模擬和真實(shí)環(huán)境下的多種機(jī)器人操控任務(wù),如布料折疊、展開(kāi)等,還能生成高質(zhì)量的長(zhǎng)期視頻結(jié)果。同時(shí),這些圖像流和視頻規(guī)劃也能用于指導(dǎo)低層次策略的訓(xùn)練。此外,我們還證明了 FLIP 的三個(gè)模塊均優(yōu)于現(xiàn)有相關(guān)方法。進(jìn)一步的實(shí)驗(yàn)也顯示,F(xiàn)LIP 能有效模擬各種復(fù)雜的機(jī)器人操控任務(wù),展現(xiàn)了其良好的交互性、零樣本遷移和可擴(kuò)展能力。本文的主要貢獻(xiàn)如下:

  • 提出了以圖像流為中心的通用機(jī)器人操控規(guī)劃方法(FLIP),實(shí)現(xiàn)了交互式的世界模型。
  • 設(shè)計(jì)了圖像流生成網(wǎng)絡(luò)、流條件視頻生成網(wǎng)絡(luò),以及一種新的視覺(jué)語(yǔ)言表示模型訓(xùn)練方法作為 FLIP 的核心模塊。
  • 通過(guò)實(shí)驗(yàn)驗(yàn)證了 FLIP 方法在多種任務(wù)上的通用性與優(yōu)越性,展現(xiàn)了出色的長(zhǎng)期規(guī)劃能力、視頻生成質(zhì)量和策略指導(dǎo)能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 1 FLIP 框架介紹

二、FLIP 的三個(gè)模塊

我們把機(jī)器人操作任務(wù)建模為 MDP,我們旨在通過(guò)學(xué)習(xí)一個(gè)世界模型和一個(gè)低層策略來(lái)解決這一問(wèn)題。世界模型在圖像和圖像流空間上進(jìn)行基于模型的規(guī)劃,以最大化回報(bào),合成長(zhǎng)時(shí)程的規(guī)劃方案;而低層策略則負(fù)責(zé)在真實(shí)環(huán)境中執(zhí)行這些規(guī)劃。我們計(jì)劃僅使用帶有語(yǔ)言標(biāo)注的視頻數(shù)據(jù)集來(lái)訓(xùn)練世界模型,使其具備通用性和可擴(kuò)展性,而低層策略則利用少量帶有動(dòng)作標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練。為了實(shí)現(xiàn)基于模型的規(guī)劃,我們的世界模型包含以下三個(gè)關(guān)鍵模塊,具體將在接下來(lái)的章節(jié)中介紹。

2.1 圖像流生成作為通用的動(dòng)作模塊

FLIP 的動(dòng)作模塊是一個(gè)圖像流生成網(wǎng)絡(luò),其作用是生成圖像流(即查詢點(diǎn)在未來(lái)時(shí)刻的軌跡)作為規(guī)劃的動(dòng)作。我們之所以使用生成模型而非預(yù)測(cè)模型,是因?yàn)樵诨谀P偷囊?guī)劃過(guò)程中,動(dòng)作模塊需要提供多種不同的動(dòng)作候選,以用于基于采樣的規(guī)劃方法。具體來(lái)說(shuō),給定時(shí)刻 t 之前 h 步的圖像觀測(cè)歷史、語(yǔ)言目標(biāo),以及一組二維查詢點(diǎn)坐標(biāo),圖像流生成網(wǎng)絡(luò)會(huì)生成未來(lái) L 個(gè)時(shí)間步內(nèi)(含當(dāng)前時(shí)間步)的查詢點(diǎn)坐標(biāo)。

一個(gè)關(guān)鍵的問(wèn)題是訓(xùn)練數(shù)據(jù)標(biāo)注。查詢點(diǎn)的圖像流可以直接使用現(xiàn)有的視頻點(diǎn)跟蹤模型(例如 CoTracker)從純視頻數(shù)據(jù)中提取。然而,如何選取查詢點(diǎn)成為問(wèn)題。以往的方法或是使用自動(dòng)分割模型在感興趣區(qū)域選取查詢點(diǎn),或是按照預(yù)定義的比例在運(yùn)動(dòng)和靜止區(qū)域選取查詢點(diǎn)。這些方法存在兩個(gè)問(wèn)題:一是現(xiàn)代分割模型(例如 SAM)很難在復(fù)雜場(chǎng)景下準(zhǔn)確無(wú)誤地分割出目標(biāo)區(qū)域;二是在長(zhǎng)時(shí)間的視頻中,可能出現(xiàn)物體的進(jìn)入或離開(kāi),僅使用初始幀的查詢點(diǎn)會(huì)產(chǎn)生問(wèn)題。因此,我們?cè)诿總€(gè)時(shí)間步對(duì)整幅圖像均勻采樣密集的網(wǎng)格查詢點(diǎn),以解決第一個(gè)問(wèn)題;同時(shí),僅對(duì)短時(shí)程的視頻片段進(jìn)行跟蹤,即從長(zhǎng)視頻的每一幀開(kāi)始進(jìn)行短時(shí)程跟蹤,以緩解第二個(gè)問(wèn)題。這樣,即便有物體進(jìn)出,其影響也被限制在短時(shí)程內(nèi)。具體來(lái)說(shuō),對(duì)數(shù)據(jù)集中每一幀,我們均勻采樣一個(gè)候選點(diǎn)網(wǎng)格,并利用現(xiàn)有的 Co-Tracker 工具生成未來(lái) L 步的視頻片段中的圖像流。

如圖 2 所示,我們?cè)O(shè)計(jì)了一個(gè)以 Transformer 架構(gòu)為基礎(chǔ)的條件變分自編碼器(VAE)進(jìn)行圖像流生成。與之前預(yù)測(cè)絕對(duì)坐標(biāo)的方法不同,我們發(fā)現(xiàn)預(yù)測(cè)相對(duì)位移的表現(xiàn)更好,即預(yù)測(cè)每個(gè)查詢點(diǎn)的坐標(biāo)變化量。在 VAE 編碼器端,我們對(duì)真實(shí)圖像流進(jìn)行編碼,將觀測(cè)歷史轉(zhuǎn)換成圖像區(qū)塊(patches),并利用語(yǔ)言模型 Llama 進(jìn)行語(yǔ)言嵌入編碼成 token,將它們與一個(gè)用于信息匯聚的 CLS token 拼接后送入 Transformer 編碼器,將 CLS 位置的輸出提取為 VAE 的隱變量。在 VAE 解碼器端,我們首先將當(dāng)前時(shí)刻 t 的查詢點(diǎn)編碼成查詢 token,將它們與圖像和語(yǔ)言 token 以及重參數(shù)化采樣出的隱變量 z 拼接后送入另一個(gè) Transformer 編碼器,提取查詢 token 位置的輸出,通過(guò)兩個(gè) MLP 網(wǎng)絡(luò)預(yù)測(cè)未來(lái) L 步的位移幅度和位移方向,從而逐步重構(gòu)完整的未來(lái)圖像流。同時(shí),我們還對(duì)圖像 token 位置的輸出進(jìn)行圖像重建任務(wù)的輔助訓(xùn)練,這被證明對(duì)提高模型訓(xùn)練的準(zhǔn)確性有幫助。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 2 動(dòng)作模塊和動(dòng)力學(xué)模塊

2.2 基于圖像流的視頻生成模型作為動(dòng)力學(xué)模塊

我們的第二個(gè)模塊是一個(gè)動(dòng)力學(xué)模塊,是以圖像流為條件的視頻生成網(wǎng)絡(luò),根據(jù)當(dāng)前的圖像觀測(cè)歷史、語(yǔ)言目標(biāo)和預(yù)測(cè)的圖像流生成后續(xù) L 幀視頻,以實(shí)現(xiàn)下一步的迭代規(guī)劃。

我們?cè)O(shè)計(jì)了一種新的基于潛在空間的視頻擴(kuò)散模型,能夠有效地接受多種條件輸入,如圖像、圖像流和語(yǔ)言。該模型基于 DiT 架構(gòu)構(gòu)建,并結(jié)合了空間 - 時(shí)間注意力機(jī)制。在此我們著重介紹多模態(tài)條件處理機(jī)制的設(shè)計(jì)。在原始的 DiT 及之前基于軌跡條件的視頻擴(kuò)散模型中,通常使用自適應(yīng)層歸一化(AdaLN-Zero)處理?xiàng)l件輸入(例如擴(kuò)散步驟和類別標(biāo)簽),其通過(guò)零初始化的 MLP 網(wǎng)絡(luò)回歸出層歸一化的縮放和平移參數(shù)。然而,這種機(jī)制會(huì)將所有條件信息壓縮為標(biāo)量,無(wú)法實(shí)現(xiàn)條件與輸入之間更精細(xì)的交互,因此不適用于圖像與圖像流等復(fù)雜條件。為了解決這一問(wèn)題,我們提出了一種混合條件處理機(jī)制,用于多模態(tài)條件生成。

具體而言,我們使用交叉注意力機(jī)制,使圖像流條件(表示為目標(biāo)點(diǎn)的 tokens)與觀測(cè)條件及帶噪幀之間進(jìn)行細(xì)粒度的交互。對(duì)于歷史圖像觀測(cè)條件,我們將其直接拼接到高斯噪聲幀上。此外,我們?nèi)匀皇褂?AdaLN-Zero 機(jī)制處理全局條件,包括擴(kuò)散步驟和語(yǔ)言指令,以整體指導(dǎo)擴(kuò)散過(guò)程。為了保證觀測(cè)條件的清晰性,在擴(kuò)散過(guò)程中我們既不向觀測(cè)歷史添加噪聲,也不對(duì)其進(jìn)行去噪處理。

2.3 視覺(jué) - 語(yǔ)言表征學(xué)習(xí)作為價(jià)值函數(shù)模塊

FLIP 的價(jià)值模塊基于語(yǔ)言目標(biāo)對(duì)當(dāng)前圖像進(jìn)行評(píng)估,從而生成一個(gè)價(jià)值函數(shù)估計(jì) V?t,用于在圖像空間進(jìn)行基于模型的規(guī)劃:V?t = V (ot, g)。在本研究中,我們采用了 LIV 模型作為價(jià)值函數(shù)。LIV 首先從帶語(yǔ)言標(biāo)注的無(wú)動(dòng)作視頻中學(xué)習(xí)語(yǔ)言 - 視覺(jué)的共享表示,隨后基于當(dāng)前圖像與目標(biāo)語(yǔ)言的相似度計(jì)算價(jià)值。具體而言,LIV 計(jì)算圖像與語(yǔ)言表示的加權(quán)余弦相似度,作為價(jià)值的衡量標(biāo)準(zhǔn)。預(yù)訓(xùn)練的 LIV 模型在應(yīng)用于新任務(wù)時(shí)需要進(jìn)行微調(diào)以獲得良好的價(jià)值表示。原始的微調(diào)損失包括圖像損失和語(yǔ)言圖像損失,前者通過(guò)時(shí)間對(duì)比學(xué)習(xí)增加起始幀與結(jié)束幀的相似性,同時(shí)將相鄰幀的嵌入距離維持為(經(jīng)過(guò)折扣的)固定值;后者則鼓勵(lì)目標(biāo)圖像與目標(biāo)語(yǔ)言的相似性提升。

然而,我們發(fā)現(xiàn)該原始的微調(diào)方法對(duì)于長(zhǎng)時(shí)程且不完美的視頻數(shù)據(jù)表現(xiàn)不佳,微調(diào)后的價(jià)值曲線呈現(xiàn)明顯的劇烈波動(dòng),這對(duì)基于采樣的規(guī)劃

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 3 價(jià)值函數(shù)模塊

三、基于流的世界模型規(guī)劃算法

3.1 基于模型的圖像流、視頻與價(jià)值函數(shù)規(guī)劃

直接以自回歸方式生成長(zhǎng)時(shí)程視頻通常不夠準(zhǔn)確。因此,我們采用基于模型的規(guī)劃方法,使用圖像流動(dòng)作模塊和視頻生成模塊,通過(guò)最大化累積折扣回報(bào)來(lái)規(guī)劃未來(lái)視頻幀,公式表示為:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

根據(jù)貝爾曼方程,這等效于每一步選擇使即時(shí)獎(jiǎng)勵(lì)與未來(lái)狀態(tài)價(jià)值之和最大的下一狀態(tài)。我們?cè)O(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制也鼓勵(lì)找到最短的規(guī)劃路徑。我們使用爬山法(Hill Climbing)解決該問(wèn)題,具體操作是首先初始化 B 個(gè)規(guī)劃束(beam)。在每個(gè)時(shí)刻 t,根據(jù)當(dāng)前的圖像觀測(cè)歷史和語(yǔ)言目標(biāo),動(dòng)作模塊生成多個(gè)圖像流動(dòng)作候選方案;然后動(dòng)力學(xué)模塊基于這些圖像流生成若干個(gè)短期未來(lái)視頻片段。接著,通過(guò)價(jià)值模塊評(píng)估生成的視頻,選擇 A 個(gè)視頻中具有最高獎(jiǎng)勵(lì)的視頻,以進(jìn)行下一輪迭代。為了防止規(guī)劃過(guò)程過(guò)于依賴某些異常狀態(tài),我們周期性地將具有最低價(jià)值的規(guī)劃束替換為最高價(jià)值的規(guī)劃束。該算法總結(jié)在圖 4 中。

3.2 下層策略的實(shí)現(xiàn)

FLIP 的低層策略負(fù)責(zé)具體執(zhí)行規(guī)劃好的動(dòng)作。在給定當(dāng)前圖像歷史、語(yǔ)言目標(biāo)、圖像流動(dòng)作,以及視頻生成模塊生成的短時(shí)程視頻后,該策略預(yù)測(cè)具體的低層機(jī)器人動(dòng)作,從而引導(dǎo)機(jī)器人在真實(shí)環(huán)境中進(jìn)行操作。我們訓(xùn)練了多個(gè)策略,每個(gè)策略輸入不同類型的條件信息,所有策略都僅需使用少量的示范數(shù)據(jù)進(jìn)行訓(xùn)練。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 4 基于世界模型的規(guī)劃算法流程

四、實(shí)驗(yàn)結(jié)果

4.1 基于模型的機(jī)器人操控任務(wù)規(guī)劃結(jié)果

在本節(jié)中,我們首先展示 FLIP 能夠:1)實(shí)現(xiàn)不同機(jī)器人操控任務(wù)的基于模型的規(guī)劃;2)合成長(zhǎng)時(shí)程視頻(≥ 200 幀);3)指導(dǎo)低層策略在模擬和真實(shí)環(huán)境中執(zhí)行任務(wù)。我們也分別評(píng)估動(dòng)作模塊、動(dòng)態(tài)模塊和價(jià)值模塊,并展示 FLIP 的交互性、零樣本轉(zhuǎn)移能力和擴(kuò)展性。

實(shí)驗(yàn)設(shè)置。在本節(jié)中,我們使用四個(gè)基準(zhǔn)測(cè)試 FLIP 的規(guī)劃能力。模型以初始圖像和語(yǔ)言指令為輸入,搜索圖像流和視頻空間合成任務(wù)規(guī)劃方案。第一個(gè)基準(zhǔn)是 LIBERO-LONG,一個(gè)包含 10 個(gè)長(zhǎng)時(shí)程桌面操控任務(wù)的仿真基準(zhǔn),我們使用分辨率為 128×128×3 的 50×10 個(gè)視頻進(jìn)行訓(xùn)練,并在新的 50×10 個(gè)隨機(jī)初始化上測(cè)試。第二個(gè)基準(zhǔn)是 FMB,包含物體操作和裝配任務(wù),我們使用 1,000 個(gè)單物體多階段視頻和 100 個(gè)多物體多階段視頻(分辨率 128×128×3)訓(xùn)練,在 50 個(gè)新初始化上測(cè)試。第三和第四個(gè)基準(zhǔn)是布料折疊和展開(kāi)任務(wù),我們使用各 40 個(gè)不同視角的視頻進(jìn)行訓(xùn)練,在 10 個(gè)新視角上測(cè)試(分辨率 96×128×3)。評(píng)估方式為人工檢查生成視頻是否成功解決任務(wù),我們與兩個(gè)基準(zhǔn)方法進(jìn)行比較:1)UniPi,一種基于文本的視頻生成方法;2)FLIP-NV,即移除價(jià)值模塊的 FLIP 版本。

結(jié)果。實(shí)驗(yàn)結(jié)果如圖 5 所示,顯示 UniPi 的成功率較低,表明直接生成長(zhǎng)視頻有較大難度。FLIP-NV 表現(xiàn)優(yōu)于 UniPi,說(shuō)明圖像流能有效指導(dǎo)視頻生成。FLIP 的表現(xiàn)超過(guò)了所有基準(zhǔn),體現(xiàn)了價(jià)值模塊對(duì)基于模型規(guī)劃的重要性。

4.2 長(zhǎng)時(shí)程視頻生成評(píng)估

實(shí)驗(yàn)設(shè)置。本節(jié)我們定量評(píng)估 FLIP 生成長(zhǎng)時(shí)程視頻的質(zhì)量,與其它視頻生成模型進(jìn)行對(duì)比。我們選擇 LIBERO-LONG、FMB、布料折疊 / 展開(kāi),以及 Bridge-V2 基準(zhǔn)進(jìn)行評(píng)估,視頻長(zhǎng)度普遍超過(guò) 200 幀(Bridge-V2 除外)。我們選擇的基準(zhǔn)方法包括 LVDM(一種先進(jìn)的文本到視頻方法)和 IRASim(一種以機(jī)械臂末端軌跡為條件的視頻生成方法)。評(píng)估指標(biāo)包括潛在空間的 L2 距離、像素空間的 PSNR 和 FVD 視頻質(zhì)量評(píng)估指標(biāo)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 5 定量實(shí)驗(yàn)結(jié)果

結(jié)果如圖 5 所示。FLIP 在所有數(shù)據(jù)集上表現(xiàn)均優(yōu)于基準(zhǔn)方法。LVDM 在較短的 Bridge-V2 上表現(xiàn)尚可,但在長(zhǎng)視頻基準(zhǔn)(如 LIBERO-LONG 和 FMB)表現(xiàn)不佳。IRASim 表現(xiàn)優(yōu)于 LVDM,說(shuō)明軌跡引導(dǎo)的重要性,但由于其自回歸生成方式,仍不及 FLIP 通過(guò)模型規(guī)劃和短視頻片段拼接的方式生成高質(zhì)量視頻。FMB 的表現(xiàn)普遍較差,原因在于訓(xùn)練視頻包含大量瞬時(shí)跳躍行為,而 FLIP 依靠歷史觀測(cè)的方式在一定程度上克服了這一問(wèn)題。我們還定性展示了 FLIP 在 ALOHA 任務(wù)、轉(zhuǎn)筆、機(jī)器人取藥、系塑料袋、人類剝雞蛋等復(fù)雜長(zhǎng)視頻任務(wù)上的應(yīng)用,如圖 6 所示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 6 基于世界模型的任務(wù)規(guī)劃結(jié)果

4.3 上層規(guī)劃引導(dǎo)的下層策略實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置。本節(jié)我們探討生成的圖像流和視頻規(guī)劃如何作為條件,用于訓(xùn)練操控策略完成任務(wù)。主要問(wèn)題是確定圖像流或視頻(或二者結(jié)合)哪個(gè)更適合指導(dǎo)策略學(xué)習(xí)。我們使用 LIBERO-LONG 基準(zhǔn)進(jìn)行評(píng)估,每個(gè)任務(wù)使用 10 個(gè)帶動(dòng)作標(biāo)注和 50 個(gè)無(wú)動(dòng)作標(biāo)注的視頻示范進(jìn)行訓(xùn)練。推理階段,F(xiàn)LIP 作為閉環(huán)策略,每執(zhí)行一段動(dòng)作后重新規(guī)劃。我們與 ATM 及其擴(kuò)散策略版本,以及 OpenVLA(零樣本和微調(diào)版)進(jìn)行比較。

結(jié)果分析如圖 7 所示。我們可以發(fā)現(xiàn),相比擴(kuò)散策略和 ATM-DP,我們提出的計(jì)劃引導(dǎo)策略表現(xiàn)出更高的成功率,這表明密集的圖像流信息和高質(zhì)量的未來(lái)視頻作為條件要優(yōu)于稀疏的圖像流信息。其中,圖像流與視頻共同引導(dǎo)的策略(Ours-FV)表現(xiàn)最佳,說(shuō)明結(jié)合圖像流和視頻作為條件信息有助于提升策略成功率。此外,僅用視頻引導(dǎo)的策略(Ours-V)雖然表現(xiàn)尚可,但在機(jī)器人偏離訓(xùn)練軌跡時(shí)生成的視頻質(zhì)量會(huì)降低,導(dǎo)致較大的表現(xiàn)波動(dòng);而加入圖像流作為額外條件后,成功率的方差明顯減小,體現(xiàn)了圖像流預(yù)測(cè)的穩(wěn)定性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 7 基于圖像流的下層模型的成功率,和 FLIP 的價(jià)值函數(shù)模塊效果

4.4 FLIP 基礎(chǔ)特性的實(shí)驗(yàn)驗(yàn)證

為展示 FLIP 的幾個(gè)關(guān)鍵特性,我們?cè)?LIBERO-LONG 等基準(zhǔn)數(shù)據(jù)集上進(jìn)行了額外的實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果展示在圖 8 中。

交互式世界模型能力。我們驗(yàn)證了訓(xùn)練好的動(dòng)力學(xué)模塊的交互性,即能夠根據(jù)人為指定的圖像流生成相應(yīng)的視頻。實(shí)驗(yàn)表明,該模塊能夠準(zhǔn)確響應(yīng)用戶指定的圖像流,生成對(duì)應(yīng)的視頻。

零樣本遷移能力。我們展示了預(yù)訓(xùn)練的 FLIP 模型無(wú)需額外微調(diào),即可有效處理未見(jiàn)過(guò)的任務(wù)數(shù)據(jù),成功生成自然的機(jī)器人動(dòng)作,表明 FLIP 具備一定的知識(shí)遷移能力。

可擴(kuò)展性。通過(guò)在大規(guī)模視頻數(shù)據(jù)集上訓(xùn)練,F(xiàn)LIP 顯示出較好的擴(kuò)展能力。即使面對(duì)大量復(fù)雜任務(wù)和視頻數(shù)據(jù),模型依然能穩(wěn)定地實(shí)現(xiàn)有效的規(guī)劃和視頻生成。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 8 FLIP 的三個(gè)特性

五、結(jié)語(yǔ)

在本研究中,我們提出了 FLIP,一種以圖像流為核心的通用機(jī)器人操控任務(wù)生成規(guī)劃方法。FLIP 通過(guò)圖像流和視頻生成實(shí)現(xiàn)對(duì)多種操控任務(wù)的通用規(guī)劃。盡管 FLIP 表現(xiàn)出色,但仍存在一些局限性:首先是規(guī)劃速度較慢,主要由于規(guī)劃階段需要進(jìn)行大量的視頻生成過(guò)程,限制了該方法在準(zhǔn)靜態(tài)操控任務(wù)中的應(yīng)用。其次,F(xiàn)LIP 未使用場(chǎng)景的物理屬性和三維信息。未來(lái)的研究可以考慮開(kāi)發(fā)結(jié)合物理性質(zhì)與三維場(chǎng)景信息的世界模型,以進(jìn)一步擴(kuò)展 FLIP 的適用范圍。