MultiGO團(tuán)隊(duì) 投稿量子位 | 公眾號 QbitAI
從人體單圖變身高保真3D模型,不知道傷害了多少程序猿頭發(fā)的行業(yè)難題,竟然被港科廣團(tuán)隊(duì)一招破解了!

團(tuán)隊(duì)最新提出的MultiGO創(chuàng)新方案,借助分層建模思路——將人體分解為不同精度層級,從基礎(chǔ)體型到衣物褶皺逐級細(xì)化。
這有點(diǎn)像在搭樂高積木:先大模塊構(gòu)建整體輪廓,再用小零件補(bǔ)充細(xì)節(jié),最后再處理材質(zhì)紋理。
相關(guān)研究成果目前已入選CVPR 2025,項(xiàng)目代碼也在加緊開源的路上。

更多詳情,讓我們接著繼續(xù)看~
技術(shù)改進(jìn)路在何方?
傳統(tǒng)方法的瓶頸
基于單目圖像的三維人體重建存在固有深度歧義性,現(xiàn)有方法通常依賴SMPL-X等人體輪廓的預(yù)訓(xùn)練模板提供幾何先驗(yàn),但依然難以捕捉細(xì)節(jié)特征和特定解剖學(xué)結(jié)構(gòu)。
這些方法往往聚焦于人體整體幾何建模,而忽視了多層次結(jié)構(gòu)(如骨骼、關(guān)節(jié),以及手指、面部等部位的細(xì)密皺紋)。這種過度簡化的建模方式導(dǎo)致骨骼重建不準(zhǔn)確、關(guān)節(jié)位置偏差,以及衣物皺紋等細(xì)節(jié)模糊不清。
MultiGO創(chuàng)新框架
該研究提出三級幾何學(xué)習(xí)框架實(shí)現(xiàn)突破:
- 骨架增強(qiáng)模塊:通過將3D傅里葉特征投影到2D空間,結(jié)合SMPL-X人體網(wǎng)格作為幾何先驗(yàn),增強(qiáng)人體骨架建模。傅里葉空間位置編碼提升了3D模型與2D圖像的語義對齊能力。
- 關(guān)節(jié)增強(qiáng)策略:在訓(xùn)練時對關(guān)節(jié)點(diǎn)位置施加擾動,提升模型對深度估計(jì)誤差的魯棒性。通過重點(diǎn)調(diào)整影響深度感知的參數(shù),使模型能更好適應(yīng)實(shí)際觀測中的結(jié)構(gòu)偏差。
- 皺紋優(yōu)化模塊:采用類似擴(kuò)散模型去噪的方法,將表面皺紋視為可優(yōu)化的噪聲模式。從粗糙的人體網(wǎng)格中,恢復(fù)出更精細(xì)化的高頻細(xì)節(jié)。

MultiGO技術(shù)解剖
MultiGO方法的核心在于通過多層次幾何學(xué)習(xí)框架全面提升單目紋理3D人體重建的質(zhì)量。該方法基于現(xiàn)有物體高斯重建預(yù)訓(xùn)練模型,針對人體幾何的不同粒度層級(骨骼、關(guān)節(jié)、皺紋)設(shè)計(jì)了協(xié)同優(yōu)化的三重機(jī)制:
- 骨骼層級:骨架增強(qiáng)模塊通過將3D傅里葉特征投影到輸入圖像一致的2D空間,使高斯重建模型能夠充分融合先驗(yàn)的人體形態(tài)知識,從而精準(zhǔn)捕捉人體姿態(tài)特征。這種特征投影機(jī)制有效解決了單目視角下3D結(jié)構(gòu)信息缺失的問題。

- 關(guān)節(jié)層級:關(guān)節(jié)增強(qiáng)策略在訓(xùn)練階段對真實(shí)的SMPL(X)模型的關(guān)節(jié)參數(shù)進(jìn)行擾動。通過模擬深度不確定性,增強(qiáng)模型對推理過程中關(guān)節(jié)深度誤差的魯棒性。這種數(shù)據(jù)增強(qiáng)方式使模型能夠?qū)W習(xí)更穩(wěn)定的關(guān)節(jié)空間關(guān)系,避免因深度歧義導(dǎo)致的肢體位置重建不準(zhǔn)。

- 微觀幾何細(xì)節(jié)層面:皺紋優(yōu)化模塊創(chuàng)新性地借鑒擴(kuò)散理論思想。該模塊將粗糙網(wǎng)格視為高斯噪聲,而以重建的高質(zhì)量高斯紋理作為條件輸入,通過類似擴(kuò)散模型去噪的過程逐步優(yōu)化皺紋等細(xì)微幾何特征。這種紋理引導(dǎo)的細(xì)化機(jī)制實(shí)現(xiàn)了亞毫米級表面細(xì)節(jié)的生成,彌補(bǔ)了傳統(tǒng)方法在衣物褶皺等高頻細(xì)節(jié)上的不足。

三個層級模塊并非孤立運(yùn)作,而是形成從宏觀姿態(tài)到微觀特征的遞進(jìn)式優(yōu)化鏈條:骨架增強(qiáng)模塊建立的準(zhǔn)確骨骼框架為關(guān)節(jié)定位提供基礎(chǔ),關(guān)節(jié)增強(qiáng)策略穩(wěn)定的關(guān)節(jié)預(yù)測又為皺紋細(xì)化創(chuàng)造了低噪聲的幾何環(huán)境。整個框架通過端到端訓(xùn)練實(shí)現(xiàn)多層次幾何信號的聯(lián)合優(yōu)化,最終輸出兼具準(zhǔn)確拓?fù)浣Y(jié)構(gòu)和豐富表面細(xì)節(jié)的高保真3D人體模型。
效果show time
所提出的多層級幾何學(xué)習(xí)框架在CustomHumanTHuman3.0兩個測試集上實(shí)現(xiàn)了最先進(jìn)的性能表現(xiàn),在人體幾何重建任務(wù)中顯著優(yōu)于其他現(xiàn)有技術(shù):
在CustomHuman數(shù)據(jù)集上,倒角距離(CD)提升0.180/0.406,法向一致性(NC)提高0.034,f-score增加6.277;在THuman3.0數(shù)據(jù)集上,CD指標(biāo)提升0.355/0.369,NC提高0.047,f-score大幅提升9.861。
這種性能突破源于我們提出的創(chuàng)新性解決方案——通過三級分層建模策略(而非傳統(tǒng)單一層次建模)精細(xì)化處理人體幾何特征,從多層次協(xié)同優(yōu)化人體重建效果,從而實(shí)現(xiàn)了更精準(zhǔn)的幾何細(xì)節(jié)復(fù)原。



多場景應(yīng)用
MultiGO的分層高斯建模技術(shù)通過將人體分解為不同精度層級(從基礎(chǔ)體型到衣物褶皺和材質(zhì)紋理逐級細(xì)化),并利用高斯濺射點(diǎn)作為3D基元實(shí)現(xiàn)高效、高保真的單圖重建,使其在虛擬試衣與時尚電商(實(shí)時生成可動態(tài)調(diào)整的3D人體與服裝模型)游戲與元宇宙(快速創(chuàng)建個性化虛擬角色并支持細(xì)節(jié)編輯)以及影視特效(高精度動態(tài)人體重建與后期分層調(diào)整)等領(lǐng)域具有突出優(yōu)勢,尤其適合需要快速生成且對真實(shí)感和多尺度細(xì)節(jié)還原要求高的應(yīng)用場景。
虛擬試衣與時尚電商
消費(fèi)者上傳一張全身照片即可生成高保真3D人體模型,系統(tǒng)能自動模擬不同服裝的穿著效果(包括衣物褶皺和材質(zhì)細(xì)節(jié)),支持360度查看,提升在線購物體驗(yàn)。結(jié)合分層建模能力,可區(qū)分用戶體型(基礎(chǔ)層)與服裝細(xì)節(jié)(精細(xì)層),實(shí)現(xiàn)動態(tài)布料仿真。
游戲與元宇宙角色生成
通過單張照片快速創(chuàng)建個性化的3D虛擬形象,分層結(jié)構(gòu)支持靈活調(diào)整(如更換發(fā)型、配飾等)。高斯濺射點(diǎn)的特性可保留皮膚紋理和光影細(xì)節(jié),增強(qiáng)虛擬角色的真實(shí)感。適用于社交元宇宙、NPC批量生成等場景,顯著降低美術(shù)資源生產(chǎn)成本。
影視特效與虛擬制作
在特效制作中,僅需演員的單視角照片即可重建高精度3D模型,用于動作捕捉或替身合成。分層設(shè)計(jì)允許后期單獨(dú)編輯特定層級(如調(diào)整肌肉線條或添加傷痕特效)。結(jié)合動態(tài)高斯濺射點(diǎn)技術(shù),可進(jìn)一步實(shí)現(xiàn)毛發(fā)、濕潤皮膚等細(xì)微效果的實(shí)時渲染。
論文鏈接:https://arxiv.org/pdf/2412.03103
項(xiàng)目鏈接:https://multigohuman.github.io/
熱門跟貼