• OctGPT 團(tuán)隊(duì) 投稿
  • 量子位 | 公眾號(hào) QbitAI

近年來,智能三維形狀生成(3D AIGC)技術(shù)迅速崛起,正成為推動(dòng)數(shù)字內(nèi)容創(chuàng)作革新的關(guān)鍵力量,特別是在游戲、影視、虛擬現(xiàn)實(shí)和工業(yè)設(shè)計(jì)等領(lǐng)域表現(xiàn)出巨大的應(yīng)用潛力。

隨著技術(shù)的不斷進(jìn)步,三維內(nèi)容的生成質(zhì)量與效率持續(xù)提升,成為業(yè)界與學(xué)界廣泛關(guān)注的焦點(diǎn)。

最近,北京大學(xué)陳寶權(quán)教授帶領(lǐng)團(tuán)隊(duì)在三維形狀生成三維數(shù)據(jù)對(duì)齊方面取得新的突破。

在三維數(shù)據(jù)生成方面,團(tuán)隊(duì)提出了3D自回歸模型新范式,有望打破3D擴(kuò)散模型在三維生成方面的壟斷地位。

該論文已被SIGGRAPH 2025接收,合作者為王鵬帥助理教授,以及博士生魏斯桐和本科生王瑞環(huán)、周傳智。

在三維數(shù)據(jù)對(duì)齊方面,團(tuán)隊(duì)設(shè)計(jì)了一種僅需單個(gè)先驗(yàn)即可實(shí)現(xiàn)同類物體對(duì)齊的框架,并構(gòu)建了當(dāng)前類別覆蓋最廣的規(guī)范化3D數(shù)據(jù)集,為三維形狀生成提供了數(shù)據(jù)基礎(chǔ)。

該論文已被CVPR 2025接收,合作者為陳文拯助理教授、王玉潔博士、高慶哲博士和秦學(xué)英教授,以及博士生金立、戴啟宇。

SIGGRAPH 2025:OctGPT:3D自回歸模型新范式

SIGGRAPH 2025:OctGPT:3D自回歸模型新范式

打開網(wǎng)易新聞 查看精彩圖片

一、AIGC:從圖像生成到3D生成

一、AIGC:從圖像生成到3D生成

近年來,基于自回歸范式的GPT模型在語(yǔ)言、圖像和視頻生成領(lǐng)域取得了一系列突破。

例如,最新的GPT-4o憑借其原生多模態(tài)架構(gòu),在圖像生成方面掀起了轟動(dòng):它不僅延續(xù)了前代卓越的語(yǔ)言理解能力,還通過跨模態(tài)協(xié)同,輕松產(chǎn)出高質(zhì)量、多風(fēng)格的視覺內(nèi)容。

然而,現(xiàn)有的自回歸模型尚不能很好地完成高質(zhì)量的三維生成任務(wù),這一技術(shù)缺口恰恰對(duì)應(yīng)著虛擬現(xiàn)實(shí)、電影工業(yè)及游戲開發(fā)等場(chǎng)景中快速增長(zhǎng)的3D內(nèi)容需求。

隨著生成式AI技術(shù)的持續(xù)演進(jìn),如何將多模態(tài)理解能力延伸至三維空間,已成為推動(dòng)下一代AI生成系統(tǒng)發(fā)展的關(guān)鍵命題。

打開網(wǎng)易新聞 查看精彩圖片

OctGPT能實(shí)現(xiàn)高質(zhì)量三維形狀生成和場(chǎng)景級(jí)別生成

二、3D自回歸生成模型的挑戰(zhàn)

二、3D自回歸生成模型的挑戰(zhàn)

當(dāng)前主流的三維生成技術(shù)雖已取得顯著突破,但高度依賴擴(kuò)散模型的生成范式仍存在顯著局限。

盡管擴(kuò)散模型在連續(xù)空間建模方面表現(xiàn)優(yōu)異,其與GPT類離散序列生成模型在架構(gòu)設(shè)計(jì)上的本質(zhì)差異,導(dǎo)致二者難以實(shí)現(xiàn)技術(shù)融合。

近年來,學(xué)術(shù)界雖已涌現(xiàn)出多項(xiàng)基于GPT的三維生成成果,但這一領(lǐng)域仍面臨諸多挑戰(zhàn)。

首先,GPT的預(yù)測(cè)機(jī)制依賴于序列建模,而現(xiàn)有的三維數(shù)據(jù)序列化方案往往忽略物體的層次結(jié)構(gòu)與局部關(guān)聯(lián)性,導(dǎo)致模型收斂緩慢、生成質(zhì)量受限。

針對(duì)這一問題,我們提出了一種全新的序列化方法,顯著提升了生成效果。

此外,以往方法的序列長(zhǎng)度通常只有約1K,難以捕捉復(fù)雜的局部細(xì)節(jié)。

我們將序列長(zhǎng)度擴(kuò)展近50倍,使模型能夠精準(zhǔn)地建模大尺度、高分辨率的三維形狀。

現(xiàn)有的3D自回歸生成模型受限于有限的序列長(zhǎng)度,細(xì)節(jié)質(zhì)量不足
打開網(wǎng)易新聞 查看精彩圖片
現(xiàn)有的3D自回歸生成模型受限于有限的序列長(zhǎng)度,細(xì)節(jié)質(zhì)量不足

三、新解決方案:OctGPT

三、新解決方案:OctGPT

OctGPT探索了基于八叉樹Octree和GPT架構(gòu)的三維生成路徑。

用戶可以通過多種條件進(jìn)行控制,比如文本、圖像、草圖等等,驅(qū)動(dòng)模型進(jìn)行高質(zhì)量的三維場(chǎng)景和物體的生成。

這一成果不僅有望打破擴(kuò)散模型在三維生成領(lǐng)域的技術(shù)壟斷,更開辟了多模態(tài)原生模型向三維空間拓展的新范式。

OctGPT使用一種基于八叉樹的多尺度三維序列化形狀表達(dá)。

八叉樹的遞歸分裂機(jī)制自然地表達(dá)了多尺度層次特征,其Z型曲線排序策略有效保留空間局部性,為GPT的自回歸預(yù)測(cè)提供理想的序列化基礎(chǔ)。

OctGPT的模型框架
打開網(wǎng)易新聞 查看精彩圖片
OctGPT的模型框架

四、OctGPT的核心技術(shù)架構(gòu)

四、OctGPT的核心技術(shù)架構(gòu)

OctGPT的整體框架包括一個(gè)基于八叉樹的多尺度序列化表達(dá)和基于窗口注意力機(jī)制的高效自回歸模型。

1)八叉樹多尺度序列化表達(dá)

八叉樹結(jié)構(gòu)和Z字形序列
打開網(wǎng)易新聞 查看精彩圖片
八叉樹結(jié)構(gòu)和Z字形序列

首先,根據(jù)輸入的三維形狀構(gòu)建八叉樹。八叉樹的節(jié)點(diǎn)狀態(tài)被編碼為0/1信號(hào):0代表空節(jié)點(diǎn),1代表細(xì)分節(jié)點(diǎn),如上圖(a)的淺色和深色節(jié)點(diǎn)所示。

然后按照Z(yǔ)字形進(jìn)行多尺度序列化,如上圖(b)和(c)Z字形序列所示。我們將不同層次的序列結(jié)構(gòu)由淺到深拼接成多尺度的0/1序列

隨后,使用了基于八叉樹的VQVAE,用于將八叉樹表達(dá)轉(zhuǎn)為完整、光滑的三維模型。

最后,GPT則是逐步生成多尺度的0/1序列。這一類似于二分查找的方式逐層的推理空間結(jié)構(gòu),極大地簡(jiǎn)化了建模目標(biāo),加速了收斂。

2)多尺度自回歸模型

多尺度自回歸模型
打開網(wǎng)易新聞 查看精彩圖片
多尺度自回歸模型

為了表達(dá)復(fù)雜的三維形狀,OctGPT將序列長(zhǎng)度拓展至50k的量級(jí)。為了加速訓(xùn)練,模型采用了基于八叉樹的Transformer(OctFormer,SIGGRAPH 2023),并通過交替使用膨脹注意力(如上圖b)與移位窗口注意力模塊(如上圖c),實(shí)現(xiàn)跨窗口的Token交互,并將訓(xùn)練速度加速13倍。

OctGPT設(shè)計(jì)了尺度敏感的Teacher Forcing Mask(如上圖a),在序列生成過程中,按深度層級(jí)從淺至深順序預(yù)測(cè),同一八叉樹層內(nèi)允許Token按照隨機(jī)順序并行生成,同時(shí)確保深層Token的預(yù)測(cè)能夠得到已生成的淺層Token信息。

在推理時(shí),OctGPT采用了多個(gè)token并行預(yù)測(cè)的策略,將推理速度加速69倍?;谏鲜鰟?chuàng)新,OctGPT能夠使用4個(gè)4090 GPU在三天內(nèi)完成訓(xùn)練。

五、結(jié)果展示

五、結(jié)果展示

此處展示了OctGPT在ShapeNet和Objverse上的生成結(jié)果。OctGPT能夠生成高質(zhì)量的三維模型,展現(xiàn)出強(qiáng)大的生成能力。

打開網(wǎng)易新聞 查看精彩圖片

Objaverse上文本條件生成結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

ShapeNet上無條件生成結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

Objaverse上無條件生成結(jié)果

在ShapeNet上與現(xiàn)有SOTA方法的定性對(duì)比
打開網(wǎng)易新聞 查看精彩圖片
在ShapeNet上與現(xiàn)有SOTA方法的定性對(duì)比
在ShapeNet上與現(xiàn)有SOTA方法的定量對(duì)比
打開網(wǎng)易新聞 查看精彩圖片
在ShapeNet上與現(xiàn)有SOTA方法的定量對(duì)比

六、總結(jié)與展望

OctGPT探索了基于八叉樹結(jié)構(gòu)的GPT模型在三維數(shù)據(jù)生成任務(wù)中的應(yīng)用潛力。

具體創(chuàng)新體現(xiàn)在以下三個(gè)方面:其一,通過八叉樹結(jié)構(gòu)對(duì)稀疏三維數(shù)據(jù)進(jìn)行編碼,有效提升了計(jì)算效率;其二,基于八叉樹構(gòu)建了具有層次性和局部性的多尺度0/1序列,確保序列化過程中空間特征的完整保留;其三,采用Transformer架構(gòu)直接進(jìn)行序列化預(yù)測(cè),實(shí)現(xiàn)了對(duì)三維空間特性的端到端建模。

盡管三維數(shù)據(jù)的稀疏性、層次性與序列性看似相互獨(dú)立甚至存在矛盾,但本研究成功證明在八叉樹神經(jīng)網(wǎng)絡(luò)框架下,三者能夠有機(jī)統(tǒng)一。

這一突破性成果不僅有望打破擴(kuò)散模型在三維生成任務(wù)中的壟斷地位,更為原生多模態(tài)三維建模技術(shù)開辟了創(chuàng)新路徑。

論文地址:
https://arxiv.org/abs/2504.09975
項(xiàng)目主頁(yè):
https://github.com/octree-nn/octgpt

CVPR 2025 Highlight:大規(guī)模三維數(shù)據(jù)對(duì)齊

CVPR 2025 Highlight論文: 基于幾何和語(yǔ)義一致性的One-shot 3D物體規(guī)范化,為三維生成技術(shù)和具身智能的快速發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。

CVPR 2025 Highlight論文: 基于幾何和語(yǔ)義一致性的One-shot 3D物體規(guī)范化,為三維生成技術(shù)和具身智能的快速發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。

該工作由北京大學(xué)陳寶權(quán)研究團(tuán)隊(duì)主導(dǎo),山東大學(xué)合作完成。

打開網(wǎng)易新聞 查看精彩圖片

一、3D物體對(duì)齊及其重要性

一、3D物體對(duì)齊及其重要性

在三維世界里,“對(duì)齊”一個(gè)物體,意味著將它擺放到一個(gè)標(biāo)準(zhǔn)的姿態(tài)——不歪、不倒、朝向統(tǒng)一。

就像我們看到一個(gè)歪著的杯子,腦海中會(huì)自動(dòng)將它“扶正”來理解它此時(shí)的朝向、把手、底部位置。

這樣的對(duì)齊操作看似簡(jiǎn)單,卻是讓AI真正“看懂”3D物體的關(guān)鍵一步。

隨著具身智能和3D生成技術(shù)的快速發(fā)展,AI不僅要“看見”物體,還要“理解”它們的位置、朝向和語(yǔ)義。

比如,下圖中的機(jī)械臂之所以能成功倒出一杯咖啡,正是因?yàn)樗鼫?zhǔn)確理解了杯子的朝向和語(yǔ)義功能部位。

另一方面,在3D內(nèi)容生成領(lǐng)域,研究也表明:如果訓(xùn)練時(shí)使用了規(guī)范化的3D數(shù)據(jù),可以顯著提高生成物體的一致性和質(zhì)量

從機(jī)器人操作到三維生成,物體對(duì)齊都在背后發(fā)揮著基礎(chǔ)而關(guān)鍵的作用

然而,如何實(shí)現(xiàn)任意類別、任意初始位姿3D物體的高效對(duì)齊,仍然十分具有挑戰(zhàn)性。

打開網(wǎng)易新聞 查看精彩圖片

3D對(duì)齊數(shù)據(jù)在具身智能和3D生成的作用,素材來自Youtube

二、3D物體對(duì)齊的挑戰(zhàn)

二、3D物體對(duì)齊的挑戰(zhàn)

在現(xiàn)實(shí)世界中,要讓智能體真正理解和操作三維物體,一個(gè)帶有朝向、位置和尺寸標(biāo)注的規(guī)范3D數(shù)據(jù)集至關(guān)重要。

它不僅讓模型能統(tǒng)一學(xué)習(xí)標(biāo)準(zhǔn)姿態(tài),還能支持類別識(shí)別、語(yǔ)義分析等下游任務(wù)。

然而,獲取這樣的數(shù)據(jù)極具挑戰(zhàn):

1)人工標(biāo)注嚴(yán)重依賴經(jīng)驗(yàn),流程繁瑣且易出錯(cuò)。在使用計(jì)算機(jī)輔助3D標(biāo)注時(shí),通常需通過2D界面對(duì)3D物體手動(dòng)調(diào)整,交互效率依然不高;

2)基于學(xué)習(xí)的自動(dòng)化對(duì)齊方法本身也依賴充足的先驗(yàn)樣本才能訓(xùn)練,而現(xiàn)實(shí)中的物體分布呈嚴(yán)重長(zhǎng)尾——例如在Objaverse-LVIS中,超93%的類別樣本不足100個(gè),遠(yuǎn)遠(yuǎn)滿足不了現(xiàn)有方法所需的充足先驗(yàn)樣本。

因此,無論是人工流程,還是基于學(xué)習(xí)的自動(dòng)化方法,目前都難以支撐對(duì)大規(guī)模、任意類別3D物體進(jìn)行高效高質(zhì)量規(guī)范化。這也讓如何高效對(duì)齊三維物體成為當(dāng)前研究的核心挑戰(zhàn)之一。

長(zhǎng)尾分布問題:對(duì)Objaverse-LVIS類別物體數(shù)量統(tǒng)計(jì)
打開網(wǎng)易新聞 查看精彩圖片
長(zhǎng)尾分布問題:對(duì)Objaverse-LVIS類別物體數(shù)量統(tǒng)計(jì)

三、提出的解決方法

三、提出的解決方法

為突破上述3D物體規(guī)范化中“標(biāo)注難、樣本少”的雙重困境,我們提出了一種全新的One-shot物體對(duì)齊方法:只需一個(gè)規(guī)范化物體作為先驗(yàn),結(jié)合2D基礎(chǔ)模型的語(yǔ)義能力,即可自動(dòng)對(duì)任意姿態(tài)下的同類3D物體進(jìn)行高質(zhì)量規(guī)范化。

相比以往依賴大量訓(xùn)練數(shù)據(jù)或手工操作的方案,我們的方法無需繁瑣流程,也不怕長(zhǎng)尾類別,在樣本稀缺的場(chǎng)景下表現(xiàn)尤為出色

實(shí)驗(yàn)結(jié)果顯示,我們的方法顯著提升了3D物體規(guī)劃化的精度和魯棒性。進(jìn)一步地,我們將該方法應(yīng)用于Objaverse-LVIS數(shù)據(jù)集,并通過渲染進(jìn)行清洗和挑選,構(gòu)建了目前已知覆蓋類別最廣的規(guī)范化3D物體數(shù)據(jù)集——Canonical Objaverse Dataset(COD),涵蓋1,054個(gè)類別、32,000個(gè)對(duì)齊物體,現(xiàn)已開放下載。

同時(shí),我們會(huì)持續(xù)擴(kuò)大規(guī)范數(shù)據(jù)集的規(guī)模。

one-shot方法(左圖),Objaverse數(shù)據(jù)集(右圖)
打開網(wǎng)易新聞 查看精彩圖片
one-shot方法(左圖),Objaverse數(shù)據(jù)集(右圖)

打開網(wǎng)易新聞 查看精彩圖片

規(guī)范化的3D物體數(shù)據(jù),來自COD數(shù)據(jù)集。

四、 方法簡(jiǎn)介

四、 方法簡(jiǎn)介

如圖所示,我們希望以一個(gè)同類的物體作為先驗(yàn)?zāi)P?,其他物體作為測(cè)試物體和先驗(yàn)?zāi)P瓦M(jìn)行對(duì)齊。

算法的核心思想是,結(jié)合2D基礎(chǔ)模型提供的語(yǔ)義信息和3D物體的幾何信息進(jìn)行規(guī)范化。

整個(gè)框架由三個(gè)主要階段組成:zero-shot物體語(yǔ)義對(duì)應(yīng)關(guān)系建立(左圖)、規(guī)范化位姿假設(shè)生成(中圖)以及最終標(biāo)準(zhǔn)位姿選擇(右圖)。

算法框架
打開網(wǎng)易新聞 查看精彩圖片
算法框架

算法框架設(shè)計(jì)時(shí),我們面臨兩個(gè)主要難點(diǎn):

1)2D基礎(chǔ)模型在處理任意姿態(tài)下的物體時(shí)易出現(xiàn)檢測(cè)錯(cuò)誤,導(dǎo)致3D語(yǔ)義信息獲取不穩(wěn)定;

2)同類物體間存在顯著幾何差異,僅依賴語(yǔ)義或幾何信息進(jìn)行對(duì)齊均存在局限,因此亟需設(shè)計(jì)一種能夠有效聯(lián)合利用稀疏語(yǔ)義與幾何信息的對(duì)齊機(jī)制。

為此,我們提出:

1)基于支撐面的初始化策略:利用算法自動(dòng)檢測(cè)物體的多個(gè)支撐面,并以其在水平面上穩(wěn)定靜止的狀態(tài)作為初始化位姿,顯著提高了語(yǔ)義分割模塊的的穩(wěn)定性與準(zhǔn)確性。

2)語(yǔ)義-幾何聯(lián)合能量函數(shù):我們?cè)O(shè)計(jì)了結(jié)合語(yǔ)義置信度與幾何一致性的能量函數(shù),在對(duì)齊過程中實(shí)現(xiàn)了語(yǔ)義主導(dǎo)大致朝向、幾何引導(dǎo)細(xì)節(jié)對(duì)齊的協(xié)同優(yōu)化機(jī)制,從而更有效地完成物體規(guī)范化。

最終,在Objaverse和ShapeNet等數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了我們方法在對(duì)齊精度與魯棒性方面的顯著優(yōu)勢(shì),較現(xiàn)有主流方法表現(xiàn)更優(yōu),并展現(xiàn)出良好的泛化能力。

打開網(wǎng)易新聞 查看精彩圖片

3D物體規(guī)范化過程,來自COD數(shù)據(jù)集。

五、總結(jié)及展望

五、總結(jié)及展望

我們提出了一種新穎的one-shot三維物體規(guī)范化框架,只需一個(gè)先驗(yàn)?zāi)P?,即可完成?duì)同類別中其他物體的規(guī)范化對(duì)齊。

通過引入大型語(yǔ)言模型(LLMs)與視覺-語(yǔ)言模型(VLMs),結(jié)合提出的支撐面的位姿采樣策略,我們實(shí)現(xiàn)了對(duì)物體的zero-shot語(yǔ)義感知,并通過將語(yǔ)義引導(dǎo)的粗對(duì)齊與幾何驅(qū)動(dòng)的精細(xì)對(duì)齊相結(jié)合,實(shí)現(xiàn)了3D物體的自動(dòng)化高效對(duì)齊。

在多個(gè)模擬與真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法不僅精度優(yōu)于現(xiàn)有方法,還能有效處理長(zhǎng)尾類別,具備強(qiáng)大的泛化能力。

基于這一方法,我們進(jìn)一步構(gòu)建了COD數(shù)據(jù)集(Canonical Objaverse Dataset),涵蓋1054個(gè)類別、超過3萬(wàn)個(gè)規(guī)范化物體,展現(xiàn)了我們框架在大規(guī)模3D數(shù)據(jù)集構(gòu)建中的可擴(kuò)展性。

為滿足不同任務(wù)對(duì)3D數(shù)據(jù)的多樣化需求,無論是3D生成任務(wù)對(duì)高質(zhì)量網(wǎng)格和材質(zhì)的要求,還是藝術(shù)創(chuàng)作類應(yīng)用對(duì)平整面片和可拆解部件的偏好,我們將持續(xù)擴(kuò)展標(biāo)注數(shù)據(jù)規(guī)模,豐富標(biāo)注維度,并歡迎更多研究者加入,共同打造更豐富、更高質(zhì)量、更貼近社區(qū)實(shí)際需求的三維物體數(shù)據(jù)集。

項(xiàng)目主頁(yè):
https://jinli998.github.io/One-shot_3D_Object_Canonicalization/
規(guī)范數(shù)據(jù)集鏈接:
https://github.com/JinLi998/CanonObjaverseDataset