在不久之前機器之心報道文章《3D領(lǐng)域DeepSeek「源神」啟動!國產(chǎn)明星創(chuàng)業(yè)公司,一口氣開源八大項目》中,我們曾介紹到,國內(nèi)專注于構(gòu)建通用 3D 大模型的創(chuàng)業(yè)公司 VAST 將持續(xù)開源一系列 3D 生成項目。

近日,新的開源項目它來了,包括針對任意三維模型生成完整可編輯部件的HoloPart與通用自動綁定框架UniRig。

今天,就讓我們一起圍觀下這兩個新的3D開源項目。

HoloPart:為任意三維模型生成完整、可編輯的部件

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標題:HoloPart: Generative 3D Part Amodal Segmentation
  • 論文地址: https://arxiv.org/abs/2504.07943
  • 項目主頁: https://vast-ai-research.github.io/HoloPart
  • 代碼地址: https://github.com/VAST-AI-Research/HoloPart
  • Demo: https://huggingface.co/spaces/VAST-AI/HoloPart
  • huggingface daily paper:https://huggingface.co/papers/2504.07943

3D 內(nèi)容生產(chǎn)面臨的一個關(guān)鍵痛點,是三維模型的部件及編輯挑戰(zhàn)

你是否曾嘗試編輯網(wǎng)上下載的、掃描得到的、或是 AI 生成的三維模型?它們往往是「一整坨」的幾何體,想要調(diào)整、驅(qū)動或重新賦予某個獨立部件(比如椅子腿、角色眼鏡)不同的材質(zhì)都極其困難。

打開網(wǎng)易新聞 查看精彩圖片

現(xiàn)有的三維部件分割技術(shù)能識別出屬于不同部件的可見表面塊,但往往得到的是破碎、不完整的碎片,這極大地限制了它們在實際內(nèi)容創(chuàng)作中的應(yīng)用價值。

HoloPart 引入了一項新任務(wù):三維部件完整語義分割(3D Part Amodal Segmentation)——它不僅是將三維形狀分解為可見的表面塊,而是分解成其背后完整的、包含語義信息的部件,甚至能推斷出被遮擋部分的幾何結(jié)構(gòu),即使部分被遮擋也能生成完整部件。

3D領(lǐng)域「源神」又開了兩個新項目
打開網(wǎng)易新聞 查看更多視頻
3D領(lǐng)域「源神」又開了兩個新項目

開發(fā)者可以在huggingface上試玩。

3D領(lǐng)域「源神」又開了兩個新項目
打開網(wǎng)易新聞 查看更多視頻
3D領(lǐng)域「源神」又開了兩個新項目

「看見」完整部件

HoloPart是一種新型擴散模型,由 VAST 和港大聯(lián)合研發(fā)。受到非模式化感知(Amodal Perception,即人類即使在物體部分被遮擋時也能感知到完整物體的能力)的啟發(fā),研究團隊通過一個實用的兩階段方法來實現(xiàn):

  • 初始分割:首先,利用現(xiàn)有的先進方法(如 SAMPart3D)獲得初始的表面塊(即不完整的部件)。
  • HoloPart 部件補全:這是關(guān)鍵所在。將不完整的部件塊,連同整個形狀的上下文信息一起,輸入到新穎的 HoloPart 模型中。HoloPart 基于強大的擴散變換器(Diffusion Transformer)架構(gòu),能夠生成該部件完整且合理的 3D 幾何形狀。

打開網(wǎng)易新聞 查看精彩圖片

HoloPart 工作原理

HoloPart 不僅僅是「填補空洞」。它基于 TripoSG 三維生成基礎(chǔ)模型的生成先驗構(gòu)建,通過在大型數(shù)據(jù)集(如 Objaverse)上進行廣泛預(yù)訓練,并在部件 - 整體數(shù)據(jù)上進行專門微調(diào),從而獲得了對三維幾何的深刻理解。

針對部件補全這一特定任務(wù),HoloPart 對 TripoSG 的擴散變換器架構(gòu)進行了適配。其關(guān)鍵創(chuàng)新在于雙重注意力機制

  • 局部注意力(Local Attention):聚焦于輸入表面塊的精細幾何細節(jié),確保補全后的部件與可見幾何無縫銜接。
  • 上下文感知注意力(Context - Aware Attention):關(guān)注整體形狀以及該部件在其中的位置。這一關(guān)鍵步驟確保補全的部件在全局上是合理的——保持比例、語義和整體形狀的一致性。

這使得 HoloPart 能夠智能地重建隱藏的幾何細節(jié),即使對于復(fù)雜部件或存在嚴重遮擋的情況,也能尊重物體的整體結(jié)構(gòu)。

在該項目中,研究團隊還利用 ABO 和 PartObjaverse - Tiny 數(shù)據(jù)集建立了新的基準測試來評估這項新任務(wù)。實驗證明,在處理這種具有挑戰(zhàn)性的部件補全任務(wù)時,HoloPart 的性能顯著優(yōu)于現(xiàn)有的各種先進形狀補全方法。

從效果上看,差異是肉眼可見的:其他方法在處理復(fù)雜結(jié)構(gòu)時常常失敗或產(chǎn)生不連貫的結(jié)果,而 HoloPart 則能持續(xù)生成高質(zhì)量、高保真的完整部件,并與原始形狀完美契合。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

解鎖下游應(yīng)用

通過生成完整的部件,HoloPart 解鎖了一系列以前難以甚至無法自動實現(xiàn)的強大應(yīng)用:

  • 直觀編輯:輕松抓取、縮放、移動或替換完整部件(如圖中的戒指、圖中的汽車編輯)。
  • 便捷的材質(zhì)分配:將紋理或材質(zhì)清晰地賦予給完整的組件。
  • 適用于動畫的資產(chǎn):生成適合綁定和動畫制作的部件。
  • 更智能的幾何處理:通過處理連貫的部件,實現(xiàn)更魯棒的網(wǎng)格重劃分 (Remeshing) 等幾何操作。
  • 部件感知的生成:這項工作為未來能夠在部件層面創(chuàng)建或操縱三維形狀的生成模型奠定了基礎(chǔ)。
  • 幾何超分辨率:HoloPart 甚至展示了通過用高數(shù)量的 token 來表征部件,從而提升部件細節(jié)的潛力。

打開網(wǎng)易新聞 查看精彩圖片

統(tǒng)一模型綁定萬物:UniRig 通用自動綁定框架

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

  • 論文標題:One Model to Rig Them All: Diverse Skeleton Rigging with UniRig
  • 論文鏈接:https://zjp-shadow.github.io/works/UniRig/static/supp/UniRig.pdf
  • 代碼地址:https://github.com/VAST-AI-Research/UniRig
  • 項目主頁:https://zjp-shadow.github.io/works/UniRig/
  • HuggingFace 主頁:https://huggingface.co/VAST-AI/UniRig

核心方法:自回歸預(yù)測與創(chuàng)新的 Tokenization

UniRig 的核心在于借鑒了驅(qū)動語言和圖像生成領(lǐng)域進步的大型自回歸模型的力量。

但 UniRig 預(yù)測的不是像素或文字,而是 3D 骨骼的結(jié)構(gòu)——逐個關(guān)節(jié)地進行預(yù)測。這種序列化的預(yù)測過程是確保生成拓撲結(jié)構(gòu)有效骨骼的關(guān)鍵。

實現(xiàn)這一目標的關(guān)鍵創(chuàng)新是骨骼樹 Tokenization (Skeleton Tree Tokenization)方法。

將具有復(fù)雜關(guān)節(jié)相互依賴關(guān)系的層級化骨骼結(jié)構(gòu),表示為適合 Transformer 處理的線性序列并非易事。UniRig 的方案高效地編碼了:

  • 關(guān)節(jié)坐標:骨骼關(guān)節(jié)的離散化空間位置。
  • 層級結(jié)構(gòu):明確的父子關(guān)系,確保生成有效的樹狀結(jié)構(gòu)。
  • 骨骼語義:使用特殊 Token 標識骨骼類型(例如,Mixamo 等標準模板骨骼,用于頭發(fā) / 布料模擬的動態(tài)彈簧骨骼),這對于下游任務(wù)和實現(xiàn)逼真動畫至關(guān)重要。

這種優(yōu)化的 Tokenization 方案,與樸素方法相比,序列長度減少約 30%,使得基于 OPT 架構(gòu)的自回歸模型能夠有效地學習骨骼結(jié)構(gòu)的內(nèi)在模式,并以形狀編碼器處理后的輸入模型幾何信息作為條件。

打開網(wǎng)易新聞 查看精彩圖片

不止骨骼:精準蒙皮與屬性預(yù)測

在預(yù)測出有效的骨骼后,UniRig 采用骨骼 - 表面交叉注意力 (Bone - Point Cross Attention)機制來預(yù)測每個頂點的蒙皮權(quán)重。該模塊有效地捕捉了每根骨骼對其周圍模型表面的復(fù)雜影響,融合了來自模型和骨骼的幾何特征,并通過關(guān)鍵的測地線距離信息增強了空間感知能力。

此外,UniRig 還能預(yù)測骨骼特定屬性(如彈簧骨骼的剛度和重力影響),使得基于學習參數(shù)的、更符合物理規(guī)律的次級運動成為可能。研究團隊在訓練中通過可微分的物理模擬對此進行了評估,以增強最終結(jié)果的真實感。

打開網(wǎng)易新聞 查看精彩圖片

3D領(lǐng)域「源神」又開了兩個新項目
打開網(wǎng)易新聞 查看更多視頻
3D領(lǐng)域「源神」又開了兩個新項目

Rig - XL 數(shù)據(jù)集:以數(shù)據(jù)驅(qū)動泛化能力

強大的模型離不開高質(zhì)量數(shù)據(jù)的支撐。為了訓練 UniRig 以獲得廣泛的適用性,研究團隊還整理構(gòu)建了Rig-XL——一個全新的、包含超過 14000 個多樣化已綁定 3D 模型的大規(guī)模數(shù)據(jù)集。

Rig - XL 源自 Objaverse - XL 等資源并經(jīng)過精心清洗,涵蓋多個類別(雙足、四足、鳥類、昆蟲、靜態(tài)物體等),為訓練一個真正具備泛化能力的綁定模型提供了必要的規(guī)模和多樣性。研究團隊還利用 VRoid 數(shù)據(jù)集進一步優(yōu)化模型在處理包含彈簧骨骼的精細動漫風格角色上的性能。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

業(yè)界最優(yōu)的性能表現(xiàn)

UniRig 顯著提升了自動綁定技術(shù)的現(xiàn)有水平:

  • 高精度:在多個關(guān)鍵指標上遠超現(xiàn)有學術(shù)界和商業(yè)方法,在具有挑戰(zhàn)性數(shù)據(jù)集上,綁定精度(關(guān)節(jié)預(yù)測)提升 215%,動畫精度(動畫下的網(wǎng)格變形)提升 194%。
  • 強通用性:在廣泛的模型類別上展現(xiàn)出魯棒性能——精細角色、動物、復(fù)雜的有機和無機形態(tài)——這些都是以往方法經(jīng)常遇到困難的領(lǐng)域。
  • 高魯棒性:生成拓撲合理的骨骼和真實的蒙皮權(quán)重,在動畫驅(qū)動下產(chǎn)生優(yōu)于先前學術(shù)方法及常用商業(yè)工具的變形效果。
  • 高效率:優(yōu)化的 Tokenization 和模型架構(gòu)帶來了實用的推理速度(1-5 秒)。

打開網(wǎng)易新聞 查看精彩圖片