
PhysGen3D 實(shí)現(xiàn)了對(duì)靜態(tài)圖像中物體的三維重建、物理屬性估計(jì)和用戶驅(qū)動(dòng)的動(dòng)態(tài)模擬。
作者丨陳博遠(yuǎn)
你是否曾看著一張照片,想象“如果推一下這個(gè)蘋(píng)果,它會(huì)怎么滾動(dòng)?”或“如果捏一下這些毛絨玩具,它們會(huì)如何變形?”人類(lèi)天生具備從靜態(tài)圖像推理物理動(dòng)態(tài)的能力,但AI卻長(zhǎng)期難以實(shí)現(xiàn)這一認(rèn)知飛躍。清華大學(xué)、伊利諾伊大學(xué)香檳分校和哥倫比亞大學(xué)的研究團(tuán)隊(duì)提出PhysGen3D,首個(gè)從單張圖像構(gòu)建可交互物理3D世界的通用框架。該框架通過(guò)整合幾何重建、物理推理與仿真、真實(shí)感渲染等技術(shù),實(shí)現(xiàn)了對(duì)靜態(tài)圖像中物體的三維重建、物理屬性估計(jì)和用戶驅(qū)動(dòng)的動(dòng)態(tài)模擬,在物理合理性、用戶控制靈活性和渲染質(zhì)量上超越現(xiàn)有圖像到視頻生成模型。
技術(shù)亮點(diǎn):
單圖輸入:僅需一張RGB照片。
物理參數(shù)控制:調(diào)節(jié)彈性、摩擦系數(shù)、初始速度,兼顧自動(dòng)推理和用戶指定。
多材質(zhì)仿真:支持不同軟硬物體(如毛絨玩具和蘋(píng)果)、顆粒(如沙子)。
靈活應(yīng)用:支持更換場(chǎng)景

論文題目:
PhysGen3D: Crafting a Miniature Interactive World from a Single Image
論文主頁(yè):
https://by-luckk.github.io/PhysGen3D/
論文鏈接:
https://arxiv.org/abs/2503.20746
代碼鏈接:
https://github.com/by-luckk/PhysGen3D
1
研究動(dòng)機(jī):突破靜態(tài)圖像理解的物理交互瓶頸
想象一下,當(dāng)你看到一張靜物的照片時(shí),是否曾好奇:推一下這個(gè)物體它會(huì)怎么運(yùn)動(dòng)?按一下這個(gè)物體它會(huì)怎么變形?這些"假設(shè)性"問(wèn)題背后,是人類(lèi)對(duì)物理世界的直覺(jué)推演能力。然而,當(dāng)前AI生成技術(shù)卻面臨兩難困境——基于擴(kuò)散模型的圖像轉(zhuǎn)視頻(I2V)雖能生成逼真的視覺(jué)效果,卻缺乏物理規(guī)律約束;而物理數(shù)字孿生技術(shù)雖能精確模擬交互,又受限于多視角數(shù)據(jù)采集的嚴(yán)苛要求。
現(xiàn)有AIGC視頻模型(如Sora、Pika、Kling等)雖能生成驚艷的視覺(jué)效果,但用戶無(wú)法精準(zhǔn)控制物體的運(yùn)動(dòng)軌跡和物理屬性,導(dǎo)致"所想未必所得"。另一方面,單圖像物理建模方法常局限于剛體運(yùn)動(dòng)或特定物體類(lèi)型,難以實(shí)現(xiàn)復(fù)雜場(chǎng)景的普適性交互。這種技術(shù)斷層阻礙了AI對(duì)物理世界的深度理解與創(chuàng)造性應(yīng)用。
為此,我們提出PhysGen3D,致力于突破單圖像重建的物理交互瓶頸。通過(guò)融合視覺(jué)大模型的幾何理解能力與物質(zhì)點(diǎn)法(MPM)的物理仿真引擎,僅憑單張圖像即可構(gòu)建可交互的3D數(shù)字孿生場(chǎng)景。這不僅讓用戶能自由設(shè)定初速度、材質(zhì)屬性等物理參數(shù),更通過(guò)物理約束保證動(dòng)態(tài)演化的真實(shí)性,在虛擬世界中重建符合直覺(jué)的"因果律"。這項(xiàng)研究為連接計(jì)算機(jī)視覺(jué)與物理仿真開(kāi)辟了新路徑,讓AI生成的動(dòng)態(tài)內(nèi)容真正扎根于物理現(xiàn)實(shí)的土壤。
2
方法概述
我們的目標(biāo)是從單張輸入圖像重建一個(gè)微型的3D可交互世界。該任務(wù)面臨的核心挑戰(zhàn)在于單視角觀測(cè)的局限性,以及在缺乏動(dòng)態(tài)觀測(cè)數(shù)據(jù)時(shí)物理推理的欠定性。針對(duì)這些挑戰(zhàn),我們提出了一種整體重建方法,利用預(yù)訓(xùn)練視覺(jué)模型從單張圖像聯(lián)合推斷幾何結(jié)構(gòu)、動(dòng)態(tài)材質(zhì)、光照和基于物理的渲染(PBR)材質(zhì)參數(shù)。重建后的場(chǎng)景將被輸入物質(zhì)點(diǎn)法(MPM)仿真器,以生成逼真的物理現(xiàn)象。最后,我們基于仿真結(jié)果渲染動(dòng)態(tài)物體行為,并將其重新整合到場(chǎng)景中,從而生成具有真實(shí)運(yùn)動(dòng)和視覺(jué)表現(xiàn)的視頻。整體流程由下圖展示。

1、多模態(tài)聯(lián)合重建
本框架采用多模態(tài)協(xié)同推理,突破幾何重建、位姿估計(jì)、物理和渲染參數(shù)優(yōu)化三大核心技術(shù)瓶頸,實(shí)現(xiàn)從單視角圖像到物理可交互數(shù)字孿生的轉(zhuǎn)化。
a) 幾何解耦與重建
實(shí)例感知分割:利用GPT-4o的zero-shot能力識(shí)別獲取物體語(yǔ)義標(biāo)簽,結(jié)合Grounded-SAM實(shí)現(xiàn)開(kāi)放詞匯實(shí)例分割,生成物體的掩碼。三維幾何生成:采用與InstantMesh相同的框架實(shí)現(xiàn)單物體三維重建。對(duì)每個(gè)分割出的物體,利用Zero123++生成多視角圖像,重建出每個(gè)物體的3D mesh模型。場(chǎng)景建模:采用Dust3R預(yù)測(cè)相機(jī)坐標(biāo)系下的單目深度 ,使其盡可能地接近人類(lèi)的注視軌跡S。利用LaMA模型補(bǔ)全被物體遮擋的空洞區(qū)域,構(gòu)建完整的3D背景模型。對(duì)于相互遮擋的物體,采用迭代補(bǔ)全的修復(fù)策略恢復(fù)各自物體的完整幾何。
b) 物理約束的位姿估計(jì)
為解決生成的物體模型與恢復(fù)出的場(chǎng)景之間空間對(duì)齊的難題,提出兩階段優(yōu)化策略。粗對(duì)齊:對(duì)每個(gè)生成的物體模型渲染多視角的圖片,通過(guò)SuperGlue匹配渲染圖和原圖的特征點(diǎn),采用PnP算法求解物體模型的初始位姿參數(shù)。精調(diào)優(yōu):建立多模態(tài)聯(lián)合損失函數(shù):

其中
Mr、Zr為渲染結(jié)果,
Mg、Zg為觀測(cè)值。使用可微分渲染,精確對(duì)齊物體姿態(tài)。
c) 物理和渲染參數(shù)優(yōu)化
物理參數(shù)推理:使用GPT-4o估計(jì)每個(gè)物體的密度、楊氏模量
E等先驗(yàn)分布。同時(shí)為了統(tǒng)一仿真器的尺寸,使用了無(wú)量綱化的方法,利用特征長(zhǎng)度消除尺度上的歧義。逆向材質(zhì)優(yōu)化:為實(shí)現(xiàn)光影一致性,使用Mitsuba渲染器構(gòu)建可微分的渲染優(yōu)化物體材質(zhì)。首先基于DiffusionLight估計(jì)環(huán)境光照的球諧系數(shù)。然后在估計(jì)的環(huán)境光中,針對(duì)物體優(yōu)化物理渲染(PBR)材質(zhì)參數(shù),包括反照率、金屬度和粗糙度等。本框架通過(guò)幾何-材質(zhì)-物理的協(xié)同優(yōu)化,在單圖重建中實(shí)現(xiàn)了多模態(tài)的聯(lián)合重建,確保物理模擬的穩(wěn)定性。
2、物理仿真引擎
在動(dòng)力學(xué)仿真部分,我們使用已推理出物理屬性和比例因子的3D資產(chǎn),采用使用Taichi實(shí)現(xiàn)的物質(zhì)點(diǎn)法(MPM)物理引擎。該仿真器具有強(qiáng)大的多材質(zhì)支持能力,能夠準(zhǔn)確模擬剛性體、軟體和顆粒物質(zhì)等多種材質(zhì)的物理行為。
a) 粒子表示
我們首先將3D資產(chǎn)轉(zhuǎn)換為適合仿真的粒子表示。在這一過(guò)程中,我們?nèi)コ龜?shù)值不穩(wěn)定的浮點(diǎn)、填充實(shí)體內(nèi)部以確保物質(zhì)連續(xù)性。我們還根據(jù)仿真器網(wǎng)格尺寸進(jìn)行自適應(yīng)的體素降采樣處理。為了在保證仿真精度的同時(shí)優(yōu)化渲染效果,我們優(yōu)先保留表面的特征點(diǎn)。
b) 物理參數(shù)
為了確保仿真系統(tǒng)的穩(wěn)定性,我們創(chuàng)新性地采用了對(duì)物理參數(shù)施加比例因子而非直接縮放資產(chǎn)尺寸的方法。具體而言,我們修正了重力加速度、彈性模量等關(guān)鍵材料參數(shù),使用比例因子同步縮放。這種無(wú)量綱化處理使得系統(tǒng)能夠在不損失物理真實(shí)性的前提下,適應(yīng)不同尺度的仿真需求。在交互控制方面,系統(tǒng)支持根據(jù)用戶輸入的初始速度參數(shù),為場(chǎng)景中的每個(gè)物體設(shè)置差異化的運(yùn)動(dòng)狀態(tài),從而實(shí)現(xiàn)精確的運(yùn)動(dòng)軌跡控制。
c)特效模擬
除了基礎(chǔ)的物理仿真功能外,我們的系統(tǒng)還具備豐富的特效模擬能力。通過(guò)動(dòng)態(tài)調(diào)整楊氏模量參數(shù),可以逼真地模擬不同材質(zhì)物體碰撞的效果;將材料類(lèi)型切換為流體,則能實(shí)現(xiàn)物質(zhì)熔融的視覺(jué)效果。這種靈活的參數(shù)調(diào)整機(jī)制賦予了用戶極大的創(chuàng)作自由度,使其能夠通過(guò)簡(jiǎn)單的參數(shù)修改,就實(shí)現(xiàn)多樣化的物理效果模擬,大大拓展了系統(tǒng)的場(chǎng)景。
3、動(dòng)態(tài)渲染合成
在完成動(dòng)力學(xué)仿真后,我們獲取了物體點(diǎn)的運(yùn)動(dòng)軌跡,并通過(guò)運(yùn)動(dòng)插值技術(shù)實(shí)現(xiàn)對(duì)三維mesh模型的動(dòng)態(tài)形變處理?;趦?yōu)化后的基于物理的渲染(PBR)材質(zhì)參數(shù),我們采用Mitsuba3渲染引擎在環(huán)境光照條件下進(jìn)行物理渲染。借鑒前人在場(chǎng)景合成渲染領(lǐng)域的研究成果,我們創(chuàng)新性地避免了將整個(gè)靜態(tài)背景導(dǎo)入渲染管線這一傳統(tǒng)做法,而是通過(guò)背景深度圖構(gòu)建出一個(gè)專(zhuān)門(mén)用于捕捉陰影的三維表面。在具體渲染過(guò)程中,采用陰影映射技術(shù)來(lái)精確提取動(dòng)態(tài)物體投射的陰影和全局光照效果。
最終,我們將經(jīng)過(guò)物理仿真變形的前景物體與計(jì)算得到的陰影效果,通過(guò)圖像合成融合到經(jīng)過(guò)修復(fù)處理的背景圖像上,從而生成具有真實(shí)光影表現(xiàn)力的最終視頻輸出。這種方法不僅提升了渲染效率,更確保了動(dòng)態(tài)物體與靜態(tài)場(chǎng)景在光照交互方面的物理一致性,使得合成結(jié)果在視覺(jué)上達(dá)到高度逼真的效果。
3
實(shí)驗(yàn)
1、實(shí)驗(yàn)設(shè)置
本研究的測(cè)試數(shù)據(jù)集涵蓋多種圖像來(lái)源,包括自主拍攝、網(wǎng)絡(luò)圖庫(kù)及生成模型輸出,主要是包含單個(gè)或少量物體的中心化場(chǎng)景。出于方法的局限性,我們排除了物體數(shù)量過(guò)多、深度交疊遮擋或表面幾何劇烈起伏的復(fù)雜場(chǎng)景。在后處理環(huán)節(jié),我們引入VEnhancer增強(qiáng)模塊作為可選流程,該模塊能對(duì)生成的視頻進(jìn)行修復(fù),可以部分提升畫(huà)面的細(xì)節(jié)表現(xiàn)力,但定量實(shí)驗(yàn)也表明其可能引入非物理的偽影。在基準(zhǔn)選擇上,由于現(xiàn)有物理仿真方案均需多視角輸入或特殊場(chǎng)景配置,我們主要與主流的圖像轉(zhuǎn)視頻(I2V)模型進(jìn)行對(duì)比:開(kāi)源運(yùn)動(dòng)控制模型DragAnything、MOFA-Video及商業(yè)級(jí)模型Kling 1.0通過(guò)人工標(biāo)定運(yùn)動(dòng)軌跡實(shí)現(xiàn)精準(zhǔn)控制;Gen-3與Pika 1.5則采用文本描述驅(qū)動(dòng),其中Pika 1.5額外支持"融化""收縮"等特效。
2、定性結(jié)果
我們的系統(tǒng)能夠從單張圖像生成微型交互世界,實(shí)現(xiàn)多樣化物理現(xiàn)象的仿真模擬。下圖中,系統(tǒng)成功處理了包含單物體、多物體以及剛體/軟體等不同材質(zhì)類(lèi)型的輸入圖像,并生成相應(yīng)動(dòng)態(tài)視頻。
對(duì)比實(shí)驗(yàn):我們從運(yùn)動(dòng)控制與物理材質(zhì)兩個(gè)維度進(jìn)行對(duì)比分析。下圖對(duì)比了我們的模型和兩個(gè)閉源的視頻生成模型,本系統(tǒng)在物理真實(shí)性與可控性方面展現(xiàn)出顯著優(yōu)勢(shì)?;趯W(xué)習(xí)的模型即使經(jīng)過(guò)提示詞調(diào)優(yōu),仍常出現(xiàn)違背物理規(guī)律或用戶意圖的虛假生成現(xiàn)象。
動(dòng)態(tài)調(diào)控:下圖展示了同一輸入圖像在不同參數(shù)配置下的多樣化動(dòng)態(tài)生成效果。左側(cè)三組實(shí)驗(yàn)保持物體初始位姿與速度一致,僅調(diào)整兩個(gè)物體的彈性參數(shù),呈現(xiàn)出從剛性碰撞到彈性振蕩的連續(xù)變化;右側(cè)三組則固定物理參數(shù),通過(guò)改變速度方向產(chǎn)生截然不同的運(yùn)動(dòng)軌跡,驗(yàn)證了系統(tǒng)對(duì)動(dòng)力學(xué)參數(shù)的高精度控制能力。
場(chǎng)景編輯:如下圖所示,本方法支持對(duì)生成視頻進(jìn)行物體移除、添加與替換等編輯操作。得益于顯式三維表征,重建的3D資產(chǎn)可被靈活操控。例如將兩個(gè)場(chǎng)景中的物體互換,保持了物理交互的連貫性。
運(yùn)動(dòng)追蹤:基于顯式三維表征與粒子物理模擬器的協(xié)同工作,本框架可生成附帶精準(zhǔn)三維運(yùn)動(dòng)追蹤數(shù)據(jù)的視頻。下圖中的兩個(gè)案例分別展示了剛體旋轉(zhuǎn)軌跡與軟體形變場(chǎng)的追蹤結(jié)果。
3、定量結(jié)果
為評(píng)估生成視頻的質(zhì)量,我們構(gòu)建了人工評(píng)測(cè)、GPT-4o自動(dòng)評(píng)估與VBench標(biāo)準(zhǔn)化指標(biāo)復(fù)合評(píng)價(jià)體系。針對(duì)人工與GPT-4o評(píng)估,我們制定了三項(xiàng)核心指標(biāo):(1)物理真實(shí)感(PhysReal):衡量視頻是否符合物理規(guī)律,以及彈性、摩擦等材料屬性的真實(shí)表現(xiàn);(2)照片真實(shí)感(Photoreal):評(píng)估視頻的視覺(jué)質(zhì)量,包括光影連貫性、材質(zhì)細(xì)節(jié)還原度與偽影控制;(3)語(yǔ)義一致性(Align):檢驗(yàn)生成內(nèi)容與文本提示的意圖匹配程度。此外,我們選取VBench中的運(yùn)動(dòng)平滑度與成像質(zhì)量作為量化指標(biāo)。我們?cè)O(shè)計(jì)了包含27個(gè)場(chǎng)景的視頻評(píng)測(cè)集,涵蓋不同運(yùn)動(dòng)條件與特效類(lèi)型。

如上表展示的,本方法在物理真實(shí)感(PhysReal)與語(yǔ)義一致性(Align)指標(biāo)上均顯著優(yōu)于所有商業(yè)模型,其中GPT-4o評(píng)估結(jié)果與人工評(píng)測(cè)趨勢(shì)一致。本方法在物理合理性維度領(lǐng)先開(kāi)源模型達(dá)37.5%。VBench數(shù)據(jù)顯示,本方法的運(yùn)動(dòng)平滑度(0.82)與成像質(zhì)量(0.79)均達(dá)到SOTA水平。在基線模型中,Kling 1.0憑借"運(yùn)動(dòng)筆刷"的軌跡控制功能表現(xiàn)最佳,但其物理真實(shí)感得分(3.12)仍低于本方法,凸顯了物理仿真引擎的獨(dú)特優(yōu)勢(shì)。
4
局限性和總結(jié)
本文提出的PhysGen3D框架主要適用于以物體為主的圖片,且要求場(chǎng)景空間結(jié)構(gòu)相對(duì)簡(jiǎn)單,對(duì)于包含復(fù)雜幾何關(guān)系與多重交互的全局場(chǎng)景重建仍存在理論瓶頸。
我們實(shí)現(xiàn)了從靜態(tài)圖像到可交互物理場(chǎng)景的跨維度轉(zhuǎn)化,通過(guò)三維重建、動(dòng)態(tài)仿真與物理渲染的三元協(xié)同,形成了物理規(guī)律驅(qū)動(dòng)的可控視頻生成新范式。我們的研究在運(yùn)動(dòng)真實(shí)性與材質(zhì)多樣性方面實(shí)現(xiàn)顯著提升,期待后續(xù)研究在復(fù)雜場(chǎng)景重建、多物體交互等方向取得突破,推動(dòng)數(shù)字孿生技術(shù)的縱深發(fā)展。

更多內(nèi)容,點(diǎn)擊下方關(guān)注:
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

UCL強(qiáng)化學(xué)習(xí)派:汪軍與他的學(xué)生們

為什么中國(guó)只有一個(gè) DeepSeek?

關(guān)于 DeepSeek 一體機(jī)落地真相,我們調(diào)研了 12 家上市公司
熱門(mén)跟貼