DP-Recon團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI
你是否設(shè)想過,僅憑幾張隨手拍攝的照片,就能重建出一個(gè)完整、細(xì)節(jié)豐富且可自由交互的3D場景?
在傳統(tǒng)方法中,這幾乎是不可能完成的任務(wù),稀少的拍攝視角往往導(dǎo)致模型無法還原被遮擋的區(qū)域,生成的場景要么殘缺不全,要么細(xì)節(jié)模糊。更令人困擾的是,傳統(tǒng)的重建算法無法解耦場景中的獨(dú)立物體,重建結(jié)果無法交互,嚴(yán)重限制了在具身智能、元宇宙和影視游戲等領(lǐng)域的應(yīng)用前景。
近期,北京通用人工智能研究院聯(lián)合清華大學(xué)、北京大學(xué)的研究團(tuán)隊(duì)提出了名為DP-Recon的創(chuàng)新方法。該方法通過在組合式3D場景重建中,引入生成式擴(kuò)散模型作為先驗(yàn),即便只有寥寥數(shù)張圖像輸入,也能智能“腦補(bǔ)”出隱藏在視野之外的場景細(xì)節(jié),分別重建出場景中的每個(gè)物體和背景。
值得一提的是,該方法還創(chuàng)新性地提出了一套可見性建模技術(shù),通過動(dòng)態(tài)調(diào)節(jié)擴(kuò)散先驗(yàn)和輸入圖片約束的損失權(quán)重,巧妙地解決了生成內(nèi)容與真實(shí)場景不一致的難題。在應(yīng)用層面,DP-Recon不僅支持從稀疏圖像中恢復(fù)場景,還能實(shí)現(xiàn)基于文本的場景編輯,并導(dǎo)出帶紋理的高質(zhì)量模型,為具身智能、影視游戲制作、AR/VR內(nèi)容創(chuàng)作等領(lǐng)域,帶來了全新的可能性。

研究概述

圖1. 重建結(jié)果、基于文本編輯和影視特效展示
3D場景重建一直是計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的核心挑戰(zhàn),其目標(biāo)是從多視角圖像中恢復(fù)場景的完整幾何和逼真紋理。近年來,NeRF和3DGS等神經(jīng)隱式表示方法在多視角充足時(shí)表現(xiàn)出色,但在稀疏視角下卻捉襟見肘。更重要的是,這些方法將整個(gè)場景作為一個(gè)整體重建,無法解耦獨(dú)立物體,這嚴(yán)重制約了下游應(yīng)用的發(fā)展。
現(xiàn)有的組合式場景重建方法同樣面臨稀疏視角帶來的的嚴(yán)峻挑戰(zhàn)。視角稀少會(huì)導(dǎo)致大面積區(qū)域缺乏觀測數(shù)據(jù),模型在這些區(qū)域容易崩塌;同時(shí),物體間的相互遮擋使得某些部分在所有輸入圖像中都不可見,最終導(dǎo)致重建結(jié)果出現(xiàn)畸形或遺漏。
那么,如何為這些“看不見”的區(qū)域補(bǔ)充合理信息,讓重建模型既忠實(shí)于輸入圖像,又能在空白處有所依據(jù)?DP-Recon給出了令人振奮的解決方案,該方法巧妙地將生成式擴(kuò)散模型作為先驗(yàn)引入組合式場景重建,通過Score Distillation Sampling(SDS)技術(shù),將擴(kuò)散模型對(duì)物體概念的“理解”蒸餾到3D重建過程中。例如,當(dāng)輸入照片只拍到桌子的一面時(shí),擴(kuò)散模型可以基于對(duì)“桌子”這一概念的認(rèn)知,智能推斷出桌子背面的可能形狀和紋理。這種方式為重建提供了寶貴的信息補(bǔ)充,極大提升了在稀疏視角和遮擋場景下的重建效果。
需要注意的是,直接將擴(kuò)散先驗(yàn)硬套用到重建上并非易事。如果處理不當(dāng),生成模型可能會(huì)“過度想象”,產(chǎn)生與輸入圖像矛盾的內(nèi)容,反而干擾基于真實(shí)照片的重建過程。為此,DP-Recon精心設(shè)計(jì)了一套基于可見性的平衡機(jī)制,巧妙協(xié)調(diào)重建信號(hào)(來自輸入圖像的監(jiān)督)和生成引導(dǎo)(來自擴(kuò)散模型的先驗(yàn)),通過動(dòng)態(tài)調(diào)整擴(kuò)散先驗(yàn)的作用范圍,確保模型在已有照片信息處保持忠實(shí),在空白區(qū)域合理發(fā)揮想象力。
下面將深入解析DP-Recon的核心技術(shù)細(xì)節(jié)。
關(guān)鍵技術(shù)

圖2. DP-Recon的算法框架
DP-Recon的技術(shù)創(chuàng)新主要體現(xiàn)在以下三個(gè)關(guān)鍵方面:
1. 組合式場景重建:
與傳統(tǒng)整體式重建不同,DP-Recon采用組合式重建策略。具體來說,模型會(huì)利用多種模態(tài)的重建損失(包括:RGB圖像、深度圖、法向量圖和實(shí)例分割圖),為每個(gè)對(duì)象分別建立隱式場(SDF),初步構(gòu)建幾何輪廓和外觀表征,便于后續(xù)對(duì)每個(gè)物體加入基于文本的先驗(yàn)信息。
2. 幾何和外觀的分階段優(yōu)化:
DP-Recon將重建過程分為了幾何和外觀兩個(gè)階段,分別針對(duì)物體的形狀和紋理進(jìn)行優(yōu)化。
在幾何優(yōu)化階段,基于初步重建的基礎(chǔ),通過對(duì)法向量圖引入Stable Diffusion的SDS損失,進(jìn)一步優(yōu)化物體在欠缺觀察區(qū)域的細(xì)節(jié),顯著提升幾何完整度。此階段結(jié)束后,將輸出每個(gè)物體和背景的Mesh結(jié)構(gòu)。
在外觀優(yōu)化階段,使用Nvdiffrast渲染生成的Mesh,巧妙融合輸入圖像的顏色信息和擴(kuò)散先驗(yàn),對(duì)物體表面紋理進(jìn)行優(yōu)化。為便于后續(xù)渲染和編輯,DP-Recon在此階段還會(huì)為每個(gè)對(duì)象生成精細(xì)的UV貼圖。
經(jīng)過以上兩個(gè)階段的處理,最終,場景中每個(gè)對(duì)象的高質(zhì)量網(wǎng)格模型及其紋理貼圖,均具有精準(zhǔn)幾何和逼真外觀。
3. 可見性引導(dǎo)的SDS權(quán)重機(jī)制:
針對(duì)擴(kuò)散先驗(yàn)可能帶來的不一致問題,DP-Recon提出了創(chuàng)新的可見性引導(dǎo)解決方案。該方法在計(jì)算SDS損失時(shí)引入可見性權(quán)重,根據(jù)每個(gè)像素在輸入視角中的可見程度,動(dòng)態(tài)調(diào)節(jié)擴(kuò)散模型的引導(dǎo)強(qiáng)度。
具體而言,DP-Recon在重建過程中構(gòu)建了一個(gè)可見性網(wǎng)格,通過輸入視角體渲染過程中積累的透射率,來優(yōu)化這個(gè)網(wǎng)格。當(dāng)需要計(jì)算參與SDS視角的可見性圖時(shí),直接查詢該網(wǎng)格即可。對(duì)于輸入照片中高度可見的區(qū)域,系統(tǒng)會(huì)自動(dòng)降低SDS損失權(quán)重,避免擴(kuò)散模型“喧賓奪主”;而對(duì)于未被拍攝到或被遮擋的區(qū)域,則賦予更高的SDS權(quán)重,鼓勵(lì)網(wǎng)絡(luò)借助擴(kuò)散先驗(yàn)補(bǔ)全細(xì)節(jié)。這種精細(xì)的可見性引導(dǎo)機(jī)制,完美平衡了重建的真實(shí)性與完整性。
實(shí)驗(yàn)結(jié)果
在Replica和ScanNet++等權(quán)威數(shù)據(jù)集上的系統(tǒng)性評(píng)估表明,DP-Recon在稀疏視角下的整體場景重建和分解式物體重建兩方面都實(shí)現(xiàn)了顯著突破。

表1. 整場景重建定量結(jié)果對(duì)比
1. 整體場景重建:
量化結(jié)果(見表1)清晰顯示,DP-Recon方法在重建指標(biāo)和渲染指標(biāo)上與所有基線模型相比,均展現(xiàn)出明顯優(yōu)勢。
△圖3. 場景重建結(jié)果對(duì)比
如圖3所示,通過將生成式先驗(yàn)融入重建流程,DP-Recon在拍攝不足的區(qū)域,實(shí)現(xiàn)了更精準(zhǔn)的幾何重建和顏色還原,以及更平滑的背景重建和更少的偽影漂浮物。如圖4所示,在相同條件下,DP-Recon的渲染結(jié)果質(zhì)量明顯更高,而基線方法則出現(xiàn)明顯偽影。
圖4. 新視角合成結(jié)果對(duì)比
2. 分解式物體重建:
如表2和圖3所示,生成式先驗(yàn)的引入極大改善了遮擋區(qū)域的重建效果,被遮擋物體的結(jié)構(gòu)和背景都能更加精確地還原,DP-Recon顯著減少遮擋區(qū)域的偽影漂浮物。在遮擋嚴(yán)重的復(fù)雜大場景測試中(見圖1),DP-Recon僅用10個(gè)視角就超越了基線方法使用100個(gè)視角的重建效果,這一突破性成果充分證明了該方法在真實(shí)場景中的實(shí)用價(jià)值。

表2. 物體和背景重建結(jié)果對(duì)比
應(yīng)用價(jià)值
1. 智能家居重建:
DP-Recon對(duì)室內(nèi)場景展現(xiàn)出了卓越的魯棒性。實(shí)驗(yàn)表明,僅需從YouTube看房視頻中提取15張圖像,配合Colmap標(biāo)注相機(jī)位姿和SAM2物體分割,就能重建出高質(zhì)量的帶紋理場景模型,如圖5所示。
△圖5. YouTube看房視頻重建結(jié)果
2. 賦能3D AIGC:
借助DP-Recon的生成式先驗(yàn),用戶可以輕松實(shí)現(xiàn)基于文本的場景編輯,如圖6所示。就像為3D世界接入了AI想象力,用一句“將花瓶變成泰迪熊”或是“換成太空風(fēng)格”,就能實(shí)現(xiàn)傳統(tǒng)方法需要數(shù)日才能完成的修改。這種無縫融合重建與創(chuàng)作的能力,將大幅提升AIGC生產(chǎn)效率。

圖6. 基于文本的場景幾何和外觀編輯
3. 影視游戲工業(yè)化:
DP-Recon輸出的每個(gè)對(duì)象都是帶有精細(xì)UV貼圖的獨(dú)立網(wǎng)格模型,如圖7所示,這為影視特效(VFX)和游戲開發(fā)帶來了極大便利。創(chuàng)作者可以輕松將模型導(dǎo)入Blender等3D軟件,進(jìn)行光照、動(dòng)畫和特效制作,或?qū)鼍爸苯咏尤胗螒蛞骈_發(fā)交互內(nèi)容。
圖7. 影視特效展示
團(tuán)隊(duì)介紹
研究團(tuán)隊(duì)由來自北京通用人工智能研究院(BIGAI)、清華大學(xué)和北京大學(xué)的跨學(xué)科研究者組成,致力于通用人工智能領(lǐng)域的前沿研究。團(tuán)隊(duì)成員在三維場景理解、重建和生成等方面,擁有豐富的研究經(jīng)驗(yàn)。一作為清華大學(xué)博士生倪俊鋒,其它作者為清華大學(xué)博士生劉宇、北京大學(xué)博士生陸睿杰、清華大學(xué)本科生周子睿;通訊作者為北京通用人工智能研究院研究員陳以新、北京通用人工智能研究院研究員黃思遠(yuǎn)。
論文鏈接: https://arxiv.org/abs/2503.14830
項(xiàng)目主頁: https://dp-recon.github.io/
代碼倉庫: https://github.com/DP-Recon/DP-Recon
熱門跟貼