欧美老头操老妇xxbb,一区二区三区欧美精品中 ,午夜福利日韩在线观看,黄色网线在线看,高清国产成人亚洲综合91精品

本文的作者均來自新加坡國立大學(xué) LinS Lab。本文第一作者為新加坡國立大學(xué)博士生高崇凱，其余作者為北京大學(xué)實習(xí)生張浩卓，新加坡國立大學(xué)博士生徐志軒，新加坡國立大學(xué)碩士生蔡哲豪。本文的通訊作者為新加坡國立大學(xué)助理教授邵林。

人類具有通用的、解決長時序復(fù)雜任務(wù)的規(guī)劃能力，這在我們處理生活中的復(fù)雜操作任務(wù)時很有用。這種能力可以被描述為這樣的過程：首先，人們會在面臨一個任務(wù)時思考當(dāng)前可能的動作，然后通過想象能力預(yù)測這些步驟可能帶來的結(jié)果，最后基于常識對這些結(jié)果進行打分，選擇最佳動作來執(zhí)行并完成任務(wù)。這種基于世界模型的搜索算法是人類解決開放世界操作任務(wù)的能力基礎(chǔ)。這種能力背后的核心在于，人類大腦構(gòu)建了一個關(guān)于物理世界的 “世界模型” 和一個通用的價值函數(shù)，他們模型賦予了我們對于物體未來狀態(tài)的想象能力和規(guī)劃能力。那么，機器人能否也具備這樣的對物理世界的理解和想像能力，使得能夠在執(zhí)行任務(wù)之前就能規(guī)劃好未來的步驟？

近年來，機器人技術(shù)飛速發(fā)展，我們見證了越來越多智能化機器人的出現(xiàn)。然而，與人類相比，現(xiàn)有機器人在處理復(fù)雜、多階段任務(wù)時仍顯得力不從心。它們往往依賴于特定任務(wù)的數(shù)據(jù)和預(yù)設(shè)指令，或者借助大模型在簡單的抓取技能上進行規(guī)劃，難以像人類一樣靈活地規(guī)劃和執(zhí)行復(fù)雜通用的操作任務(wù)。如何為機器人構(gòu)建類似于人類的 “世界模型”，從而實現(xiàn)通用任務(wù)規(guī)劃能力，一直是機器人研究中的核心挑戰(zhàn)。

近日，來自新加坡國立大學(xué)的邵林團隊提出了 FLIP：一種基于世界模型的視頻空間任務(wù)搜索和規(guī)劃框架。該方法能夠適用于通用的機器人操作任務(wù)上，包括可行變物體操作和靈巧手操作任務(wù)。該方法直接基于機器人視覺空間進行任務(wù)規(guī)劃，通過特殊設(shè)計的動作提出模塊、動力學(xué)預(yù)測模塊、和價值函數(shù)預(yù)測模塊進行基于世界模型的任務(wù)規(guī)劃，且具有模型參數(shù)量的可擴展性。該論文已發(fā)表在 ICLR 2025 上，并在 CoRL 2024 LEAP Workshop 中被選為 Oral Presentation。

論文標(biāo)題：FLIP : Flow-Centric Generative Planning as General-Purpose Manipulation World Model
項目主頁：https://nus-lins-lab.github.io/flipweb/
論文鏈接：https://arxiv.org/abs/2412.08261
代碼鏈接：https://github.com/HeegerGao/FLIP

一、引言

世界模型（World Models）指的是基于學(xué)習(xí)的方法，用于模擬環(huán)境的表示或模型。借助世界模型，智能體可以在模型內(nèi)部進行想象、推理和規(guī)劃，從而更加安全且高效地完成任務(wù)。近期生成模型的進展，特別是在視頻生成領(lǐng)域，展示了利用互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù)生成高質(zhì)量視頻，以作為世界模擬器的應(yīng)用潛力。世界模型在多個領(lǐng)域開辟了新途徑，尤其是在機器人操縱任務(wù)方面，這也是本文的研究重點。

通用機器人的智能主要分為兩個層次：第一，通過多模態(tài)輸入對任務(wù)進行高層次的抽象規(guī)劃；第二，通過與現(xiàn)實環(huán)境交互實現(xiàn)計劃的具體執(zhí)行。設(shè)計良好的世界模型能夠有效地實現(xiàn)第一個功能，即實現(xiàn)基于模型的規(guī)劃。這種模型需要具備交互性，能夠根據(jù)給定的動作來模擬環(huán)境狀態(tài)?？蚣艿暮诵脑谟谡业揭环N通用且可擴展的動作表示，連接高層規(guī)劃和低層執(zhí)行。這種動作表示需滿足兩個要求：一是能表達場景中不同物體、機器人及任務(wù)的多種運動；二是容易獲得大量的訓(xùn)練數(shù)據(jù)以支持擴展。現(xiàn)有方法或是依賴語言描述作為高層動作，或是直接采用底層的機器人動作與世界模型互動，但這些方法存在一些限制，比如需要額外的數(shù)據(jù)或標(biāo)注過程，或者無法描述精細復(fù)雜的動作細節(jié)，例如靈巧手的精細動作。這些限制激勵我們探索其他更有效的動作表示。同時，現(xiàn)有的世界模型缺乏合適的價值函數(shù)作為結(jié)果的評價標(biāo)準(zhǔn)，對未來的規(guī)劃常常限制在貪心搜索層面，難以實現(xiàn)真正的任務(wù)空間的搜索能力。

圖像流是一種描述圖像中像素隨時間變化的動態(tài)表示，能夠通用且簡潔地表示不同機器人和物體的運動，比語言更加精細和準(zhǔn)確。此外，圖像流可以直接通過已有的視頻追蹤工具從視頻數(shù)據(jù)中獲取。同時，已有研究表明，圖像流對于訓(xùn)練低層次的操控策略也具有很高的有效性。因此，圖像流非常適合作為世界模型的動作表示。然而，目前如何使用圖像流來規(guī)劃機器人操控任務(wù)仍有待探索。

在本文中，我們提出了以圖像流為中心的通用機器人操控規(guī)劃方法（FLIP）。具體而言，我們從帶有語言標(biāo)注的視頻數(shù)據(jù)中訓(xùn)練出以圖像流為核心的世界模型。該世界模型包括三個模塊：一是負責(zé)動作生成的圖像流生成網(wǎng)絡(luò)；二是根據(jù)圖像流生成視頻的動力學(xué)模型；三是進行視覺語言評估的價值模型。我們設(shè)計了一種新的訓(xùn)練方式，用于整合這三個模塊，以實現(xiàn)基于模型的規(guī)劃：給定初始圖像和任務(wù)目標(biāo)，動作模塊生成多個圖像流方案，動力學(xué)模型預(yù)測短期視頻結(jié)果，價值模塊評估視頻生成結(jié)果的優(yōu)劣，通過樹搜索方法合成長期規(guī)劃。

實驗結(jié)果表明，F(xiàn)LIP 方法不僅可以成功解決模擬和真實環(huán)境下的多種機器人操控任務(wù)，如布料折疊、展開等，還能生成高質(zhì)量的長期視頻結(jié)果。同時，這些圖像流和視頻規(guī)劃也能用于指導(dǎo)低層次策略的訓(xùn)練。此外，我們還證明了 FLIP 的三個模塊均優(yōu)于現(xiàn)有相關(guān)方法。進一步的實驗也顯示，F(xiàn)LIP 能有效模擬各種復(fù)雜的機器人操控任務(wù)，展現(xiàn)了其良好的交互性、零樣本遷移和可擴展能力。本文的主要貢獻如下：

提出了以圖像流為中心的通用機器人操控規(guī)劃方法（FLIP），實現(xiàn)了交互式的世界模型。
設(shè)計了圖像流生成網(wǎng)絡(luò)、流條件視頻生成網(wǎng)絡(luò)，以及一種新的視覺語言表示模型訓(xùn)練方法作為 FLIP 的核心模塊。
通過實驗驗證了 FLIP 方法在多種任務(wù)上的通用性與優(yōu)越性，展現(xiàn)了出色的長期規(guī)劃能力、視頻生成質(zhì)量和策略指導(dǎo)能力。

圖 1 FLIP 框架介紹

二、FLIP 的三個模塊

我們把機器人操作任務(wù)建模為 MDP，我們旨在通過學(xué)習(xí)一個世界模型和一個低層策略來解決這一問題。世界模型在圖像和圖像流空間上進行基于模型的規(guī)劃，以最大化回報，合成長時程的規(guī)劃方案；而低層策略則負責(zé)在真實環(huán)境中執(zhí)行這些規(guī)劃。我們計劃僅使用帶有語言標(biāo)注的視頻數(shù)據(jù)集來訓(xùn)練世界模型，使其具備通用性和可擴展性，而低層策略則利用少量帶有動作標(biāo)注的數(shù)據(jù)集進行訓(xùn)練。為了實現(xiàn)基于模型的規(guī)劃，我們的世界模型包含以下三個關(guān)鍵模塊，具體將在接下來的章節(jié)中介紹。

2.1 圖像流生成作為通用的動作模塊

FLIP 的動作模塊是一個圖像流生成網(wǎng)絡(luò)，其作用是生成圖像流（即查詢點在未來時刻的軌跡）作為規(guī)劃的動作。我們之所以使用生成模型而非預(yù)測模型，是因為在基于模型的規(guī)劃過程中，動作模塊需要提供多種不同的動作候選，以用于基于采樣的規(guī)劃方法。具體來說，給定時刻 t 之前 h 步的圖像觀測歷史、語言目標(biāo)，以及一組二維查詢點坐標(biāo)，圖像流生成網(wǎng)絡(luò)會生成未來 L 個時間步內(nèi)（含當(dāng)前時間步）的查詢點坐標(biāo)。

一個關(guān)鍵的問題是訓(xùn)練數(shù)據(jù)標(biāo)注。查詢點的圖像流可以直接使用現(xiàn)有的視頻點跟蹤模型（例如 CoTracker）從純視頻數(shù)據(jù)中提取。然而，如何選取查詢點成為問題。以往的方法或是使用自動分割模型在感興趣區(qū)域選取查詢點，或是按照預(yù)定義的比例在運動和靜止區(qū)域選取查詢點。這些方法存在兩個問題：一是現(xiàn)代分割模型（例如 SAM）很難在復(fù)雜場景下準(zhǔn)確無誤地分割出目標(biāo)區(qū)域；二是在長時間的視頻中，可能出現(xiàn)物體的進入或離開，僅使用初始幀的查詢點會產(chǎn)生問題。因此，我們在每個時間步對整幅圖像均勻采樣密集的網(wǎng)格查詢點，以解決第一個問題；同時，僅對短時程的視頻片段進行跟蹤，即從長視頻的每一幀開始進行短時程跟蹤，以緩解第二個問題。這樣，即便有物體進出，其影響也被限制在短時程內(nèi)。具體來說，對數(shù)據(jù)集中每一幀，我們均勻采樣一個候選點網(wǎng)格，并利用現(xiàn)有的 Co-Tracker 工具生成未來 L 步的視頻片段中的圖像流。

如圖 2 所示，我們設(shè)計了一個以 Transformer 架構(gòu)為基礎(chǔ)的條件變分自編碼器（VAE）進行圖像流生成。與之前預(yù)測絕對坐標(biāo)的方法不同，我們發(fā)現(xiàn)預(yù)測相對位移的表現(xiàn)更好，即預(yù)測每個查詢點的坐標(biāo)變化量。在 VAE 編碼器端，我們對真實圖像流進行編碼，將觀測歷史轉(zhuǎn)換成圖像區(qū)塊（patches），并利用語言模型 Llama 進行語言嵌入編碼成 token，將它們與一個用于信息匯聚的 CLS token 拼接后送入 Transformer 編碼器，將 CLS 位置的輸出提取為 VAE 的隱變量。在 VAE 解碼器端，我們首先將當(dāng)前時刻 t 的查詢點編碼成查詢 token，將它們與圖像和語言 token 以及重參數(shù)化采樣出的隱變量 z 拼接后送入另一個 Transformer 編碼器，提取查詢 token 位置的輸出，通過兩個 MLP 網(wǎng)絡(luò)預(yù)測未來 L 步的位移幅度和位移方向，從而逐步重構(gòu)完整的未來圖像流。同時，我們還對圖像 token 位置的輸出進行圖像重建任務(wù)的輔助訓(xùn)練，這被證明對提高模型訓(xùn)練的準(zhǔn)確性有幫助。

圖 2 動作模塊和動力學(xué)模塊

2.2 基于圖像流的視頻生成模型作為動力學(xué)模塊

我們的第二個模塊是一個動力學(xué)模塊，是以圖像流為條件的視頻生成網(wǎng)絡(luò)，根據(jù)當(dāng)前的圖像觀測歷史、語言目標(biāo)和預(yù)測的圖像流生成后續(xù) L 幀視頻，以實現(xiàn)下一步的迭代規(guī)劃。

我們設(shè)計了一種新的基于潛在空間的視頻擴散模型，能夠有效地接受多種條件輸入，如圖像、圖像流和語言。該模型基于 DiT 架構(gòu)構(gòu)建，并結(jié)合了空間 - 時間注意力機制。在此我們著重介紹多模態(tài)條件處理機制的設(shè)計。在原始的 DiT 及之前基于軌跡條件的視頻擴散模型中，通常使用自適應(yīng)層歸一化（AdaLN-Zero）處理條件輸入（例如擴散步驟和類別標(biāo)簽），其通過零初始化的 MLP 網(wǎng)絡(luò)回歸出層歸一化的縮放和平移參數(shù)。然而，這種機制會將所有條件信息壓縮為標(biāo)量，無法實現(xiàn)條件與輸入之間更精細的交互，因此不適用于圖像與圖像流等復(fù)雜條件。為了解決這一問題，我們提出了一種混合條件處理機制，用于多模態(tài)條件生成。

具體而言，我們使用交叉注意力機制，使圖像流條件（表示為目標(biāo)點的 tokens）與觀測條件及帶噪幀之間進行細粒度的交互。對于歷史圖像觀測條件，我們將其直接拼接到高斯噪聲幀上。此外，我們?nèi)匀皇褂?AdaLN-Zero 機制處理全局條件，包括擴散步驟和語言指令，以整體指導(dǎo)擴散過程。為了保證觀測條件的清晰性，在擴散過程中我們既不向觀測歷史添加噪聲，也不對其進行去噪處理。

2.3 視覺 - 語言表征學(xué)習(xí)作為價值函數(shù)模塊

FLIP 的價值模塊基于語言目標(biāo)對當(dāng)前圖像進行評估，從而生成一個價值函數(shù)估計 V?t，用于在圖像空間進行基于模型的規(guī)劃：V?t = V (ot, g)。在本研究中，我們采用了 LIV 模型作為價值函數(shù)。LIV 首先從帶語言標(biāo)注的無動作視頻中學(xué)習(xí)語言 - 視覺的共享表示，隨后基于當(dāng)前圖像與目標(biāo)語言的相似度計算價值。具體而言，LIV 計算圖像與語言表示的加權(quán)余弦相似度，作為價值的衡量標(biāo)準(zhǔn)。預(yù)訓(xùn)練的 LIV 模型在應(yīng)用于新任務(wù)時需要進行微調(diào)以獲得良好的價值表示。原始的微調(diào)損失包括圖像損失和語言圖像損失，前者通過時間對比學(xué)習(xí)增加起始幀與結(jié)束幀的相似性，同時將相鄰幀的嵌入距離維持為（經(jīng)過折扣的）固定值；后者則鼓勵目標(biāo)圖像與目標(biāo)語言的相似性提升。

然而，我們發(fā)現(xiàn)該原始的微調(diào)方法對于長時程且不完美的視頻數(shù)據(jù)表現(xiàn)不佳，微調(diào)后的價值曲線呈現(xiàn)明顯的劇烈波動，這對基于采樣的規(guī)劃