
基于當(dāng)前觀察,預(yù)測鉸鏈物體的的運動,尤其是 part-level 級別的運動,是實現(xiàn)世界模型的關(guān)鍵一步。盡管現(xiàn)在基于 diffusion 的方法取得了很多進展,但是這些方法存在處理效率低,同時缺乏三維感知等問題,難以投入真實環(huán)境中使用。
清華大學(xué)聯(lián)合北京大學(xué)提出了第一個基于重建模型的 part-level 運動的建模——PartRM。用戶給定單張輸入圖像和對應(yīng)的 drag ,PartRM 能生成觀測物體未來狀態(tài)的三維表征,使得生成數(shù)據(jù)能夠真正服務(wù)于機器人操縱等任務(wù)。實驗證明 PartRM 在生成結(jié)果上都取得了顯著的提升。該研究已入選CVPR 2025。

- 論文題目:PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model
- 論文主頁:https://partrm.c7w.tech/
- 論文鏈接:https://arxiv.org/abs/2503.19913
- 代碼鏈接:https://github.com/GasaiYU/PartRM
研究動機
世界模型是一種基于當(dāng)前觀察和動作來預(yù)測未來狀態(tài)的函數(shù)。該模型的研發(fā)使得計算機能夠理解物理世界中的復(fù)雜規(guī)律,在機器人等領(lǐng)域得到了廣泛應(yīng)用。近期,對 part-level 的動態(tài)建模的興趣日益增長,給定當(dāng)前時刻的觀察并給與用戶給定的拖拽,預(yù)測下一時刻的鉸鏈物體各個部件的運動受到越來越多的關(guān)注,這種類型的世界模型對于需要高精度的任務(wù),例如機器人的操縱任務(wù)等,具有重要的意義。
然而,我們對這個充滿前景的領(lǐng)域的調(diào)研表明,目前的前沿研究(如 Puppet-Master)通過對預(yù)訓(xùn)練的 大規(guī)模視頻擴散模型進行微調(diào),以實現(xiàn)增加拖拽控制的功能。盡管這種方法有效地利用了預(yù)訓(xùn)練過程中 學(xué)習(xí)到的豐富運動模式,但在實際應(yīng)用中仍顯不足。其中一個主要局限是它僅輸出單視角視頻作為表示,而模擬器需要三維表示來從多個視角渲染場景。此外,擴散去噪過程可能需要幾分鐘來模擬單個拖 拽交互,這與為操作策略(Manipulation Policies)提供快速試錯反饋的目標(biāo)相悖。
因此,我們需要采用三維表征,為了實現(xiàn)從輸入單視角圖像的快速三維重建,我們利用基于三維高斯?jié)姙R(3DGS)的大規(guī)模重建模型,這些模型能以前饋方式從輸入圖像預(yù)測三維高斯潑濺,使重建時間從傳 統(tǒng)優(yōu)化方法所需的幾分鐘減少到僅需幾秒鐘。同時,通過將用戶指定的拖拽信息加入到大規(guī)模三維重建 網(wǎng)絡(luò)中,我們實現(xiàn)了部件級別的動態(tài)建模。在這個問題中,我們認為聯(lián)合建模運動和幾何是至關(guān)重要的,因為部件級運動本質(zhì)上與每個部件的幾何特性相關(guān)聯(lián)(例如,抽屜在打開時通常沿其法線方向滑動)。這種集成使我們能夠?qū)崿F(xiàn)更真實和可解釋的部件級動態(tài)表示。
同時,由于我們是第一個做這個任務(wù)的,在這個任務(wù)上缺少相關(guān)的數(shù)據(jù)集,因此我們基于 PartNet- Mobility 構(gòu)建了PartDrag-4D數(shù)據(jù)集,并在這個數(shù)據(jù)集上建立了衡量對部件級別動態(tài)建模的基準(zhǔn)(Benchmark),實驗結(jié)果表明,我們的方法在定量和定性上都取得了最好的效果。

PartDrag-4D 數(shù)據(jù)集的構(gòu)建

PartRM 方法
方法概覽


圖像和拖拽的預(yù)處理
圖像預(yù)處理:由于我們的主網(wǎng)絡(luò)是基于 LGM 設(shè)計的, LGM 需要多視角的圖像作為輸入,所以我們需要將 輸入的單視角圖像變成多視角,我們利用多視角圖像生成網(wǎng)絡(luò) Zero123++,為了使得 Zero123++ 生成的 圖像質(zhì)量更高,我們會在訓(xùn)練集上對其進行微調(diào)。

拖拽傳播:如果用戶只輸入一個拖拽,后續(xù)網(wǎng)絡(luò)可能會對拖拽的區(qū)域產(chǎn)生幻覺從而出錯,因此我們需要 對拖拽進行傳播到需要被拖拽部分的各個區(qū)域,使得后續(xù)網(wǎng)絡(luò)感知到需要被拖拽的區(qū)域,為此我們設(shè)計了一個拖拽傳播策略。如圖所示,我們首先拿用戶給定的拖拽的起始點輸入進 Segment Anything 模型中得到對應(yīng)的被拖拽區(qū)域的掩碼,然后在這個掩碼區(qū)域內(nèi)采樣一些點作為被傳播拖拽的起始點,這些被傳播的拖拽的強度和用戶給定的拖拽的強度一樣。盡管在拖動強度大小的估計上可能存在不準(zhǔn)確性,我們后續(xù)的模型仍然足夠穩(wěn)健,能夠以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)生成預(yù)期的輸出。
拖拽嵌入



實驗結(jié)果
實驗設(shè)置
我們在兩個數(shù)據(jù)集上來衡量我們提出的 PartRM 方法,這兩個數(shù)據(jù)集包括我們提出的 PartDrag-4D 數(shù)據(jù)集 以及通用數(shù)據(jù)集 Objaverse-Animation-HQ。因為 Objaverse-Animation-HQ 數(shù)據(jù)量比較大,我們只從其中采樣 15000 條數(shù)據(jù),然后手動拆分訓(xùn)練集和測試集。驗證時,我們對輸出的 3D 高斯渲染 8 個不同的視角,在這 8 個視角上算 PSNR ,SSIM 和 LPIPS 指標(biāo)。
我們選用 DragAPart , DiffEditor 和 Puppet-Master 作為我們的 baseline。對于不需要訓(xùn)練的 DiffEditor 方法,我們直接拿它官方的訓(xùn)練權(quán)重進行推理。對于需要訓(xùn)練的 DragAPart 和 Puppet-Master,我們在訓(xùn)練 集上對他們進行微調(diào)。
由于現(xiàn)有的方法只能輸出 2D 圖像,不能輸出 3D 表征,為了和我們的任務(wù)對齊,我們設(shè)計了兩種方法。第一種稱為NVS-First,即我們首先對輸入的單視角圖像利用 Zero123++ 生成多視角圖像,再分別對每個視角結(jié)合每個視角對應(yīng)的拖拽進行推理,生成對應(yīng)的圖像后再進行 3D 高斯重建;第二種稱為 Drag-First,
即我們首先先對輸入視角進行拖拽,然后對生成的結(jié)果利用 Zero123++ 進行多視角生成,最后進行 3D 高斯重建。我們采用了兩種 3D 高斯重建方法,第一種為直接用 LGM (下圖中兩個時間的第一個)進行重建,第二種利用基于優(yōu)化的 3D 高斯?jié)姙R進行重建(下圖中兩個時間的第二個)。
定性比較


在視覺效果方面, PartRM 通過對外觀,幾何和運動的聯(lián)合建模,能夠在抽屜開合等場景中生成物理合理的三維表征。相比之下, DiffEditor 由于缺乏三維感知,導(dǎo)致部件形變錯位; DragAPart 雖然能夠處理簡 單的關(guān)節(jié)運動,但在生成微波門板時出現(xiàn)了明顯的偽影等問題,同時在通用數(shù)據(jù)集上表現(xiàn)不佳;Puppet- Master 在外觀的時間連續(xù)性和運動部分的建模方面表現(xiàn)不佳。

在 in the wild 質(zhì)量方面,我們從互聯(lián)網(wǎng)上采了一些數(shù)據(jù),手動設(shè)置拖拽,利用我們在 PartDrag-4D 上訓(xùn)練 好的 PartRM 進行推理。圖中可以看到,我們的方法在一些和訓(xùn)練數(shù)據(jù)分布差別不大的數(shù)據(jù)上可以取得較 好的效果;但是在一些分布差別較大的數(shù)據(jù)上效果欠佳。
定量比較

定量評估中, PartRM 在 PSNR、SSIM、 LPIPS 指標(biāo)上較基線模型均有提升;同時大幅提升了生成效率, PartRM 僅需 4 秒即可完成單次生成,而傳統(tǒng)方案需分步執(zhí)行 2D 形變與三維重建。
總結(jié)
本文介紹了 PartRM ,一種同時建模外觀、幾何和部件級運動的新方法。為了解決 4D 部件級運動學(xué)習(xí)中的數(shù)據(jù)稀缺問題,我們提出了 PartDrag-4D 數(shù)據(jù)集,提供了部件級動態(tài)的多視角圖像。實驗結(jié)果表明,我們的方法在部件運動學(xué)習(xí)上優(yōu)于以往的方法,并且可應(yīng)用于具身 AI 任務(wù)。然而,對于與訓(xùn)練分布差異較大的關(guān)節(jié)數(shù)據(jù),可能會遇到挑戰(zhàn)。
熱門跟貼