打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:LRST

【新智元導(dǎo)讀】4D LangSplat通過結(jié)合多模態(tài)大語言模型和動態(tài)三維高斯?jié)姙R技術(shù),成功構(gòu)建了動態(tài)語義場,能夠高效且精準地完成動態(tài)場景下的開放文本查詢?nèi)蝿?wù)。該方法利用多模態(tài)大模型生成物體級的語言描述,并通過狀態(tài)變化網(wǎng)絡(luò)實現(xiàn)語義特征的平滑建模,顯著提升了動態(tài)語義場的建模能力。

構(gòu)建支持開放詞匯查詢的語言場在機器人導(dǎo)航、3D場景編輯和交互式虛擬環(huán)境等眾多應(yīng)用領(lǐng)域展現(xiàn)出巨大的潛力。

盡管現(xiàn)有方法在靜態(tài)語義場重建方面已取得顯著成果,但如何建模4D語言場(4D language fields)以實現(xiàn)動態(tài)場景中時間敏感且開放式的語言查詢,仍面臨諸多挑戰(zhàn),動態(tài)世界的語義建模對于推動許多實際應(yīng)用的落地至關(guān)重要。

近日,來自清華大學(xué)、哈佛大學(xué)等機構(gòu)的研究團隊提出了一種創(chuàng)新方法4D LangSplat,基于動態(tài)三維高斯?jié)姙R技術(shù),成功重建了動態(tài)語義場,能夠高效且精準地完成動態(tài)場景下的開放文本查詢?nèi)蝿?wù)。這一突破為相關(guān)領(lǐng)域的研究與應(yīng)用提供了新的可能性, 該工作目前已經(jīng)被CVPR2025接收。

打開網(wǎng)易新聞 查看精彩圖片

Project Page:https://4d-langsplat.github.io/

Paper:https://arxiv.org/pdf/2503.10437

Video:https://www.youtube.com/watch?v=L2OzQ91eRG4

Code: https://github.com/zrporz/4DLangSplat

Data:https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

將現(xiàn)有靜態(tài)語義場重建方法直接遷移到動態(tài)場景中,一種直觀的思路是沿用CLIP提取靜態(tài)的、物體級語義特征,并借鑒4D-GS等工作的思路,通過訓(xùn)練變形高斯場來建模隨時間變化的語義。

然而,這種簡單的遷移存在兩個關(guān)鍵問題:首先,CLIP最初是為圖-文對齊任務(wù)設(shè)計的,其在動態(tài)語義場中的感知和理解能力存在局限性;其次,基于輸入時間信息預(yù)測特征變化量的方法缺乏對特征變化的有效約束,導(dǎo)致動態(tài)語義場建模的學(xué)習成本顯著增加。

針對上述問題,4D LangSplat框架核心創(chuàng)新在于:利用視頻分割模型和多模態(tài)大模型生成物體級的語言描述,并通過大語言模型提取高質(zhì)量的句子特征(sentence feature),以替代傳統(tǒng)靜態(tài)語義場重建方法(如LERF、LangSplat)中直接使用CLIP提取的語義特征。在動態(tài)語義特征建模方面,4D LangSplat引入了狀態(tài)變化網(wǎng)絡(luò)(Status Deformable Network),通過先驗壓縮語義特征的學(xué)習空間,實現(xiàn)了更加穩(wěn)定和準確的語義特征建模,同時確保了特征隨時間的平滑變化。

4D LangSplat的提出顯著拓展了語義高斯場建模的應(yīng)用場景,為動態(tài)語義場的實際落地提供了一種極具前景的解決方案。目前,該工作已在X(Twitter)平臺上引發(fā)廣泛關(guān)注,并得到AK、MrNeRF等大V轉(zhuǎn)載,論文的代碼和數(shù)據(jù)已全面開源。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

方法論

打開網(wǎng)易新聞 查看精彩圖片

多模態(tài)對象級視頻提示技術(shù)(流程圖中上半部分的紅色區(qū)域)

研究人員結(jié)合了SAM(Segment Anything Model)和DEVA tracking技術(shù),對物體進行分割,并在時間維度上保持物體身份的一致性。

為了使多模態(tài)大模型能夠更專注于已有物體的描述,首先為目標物體生成視覺提示。具體而言,視覺提示包括輪廓線(Contour)、背景虛化(Blur)和單色調(diào)整(Gray)。這一過程可以形式化地定義為:

打開網(wǎng)易新聞 查看精彩圖片

在加入視覺提示后,首先利用多模態(tài)大模型(Qwen-Instrution-7B)生成視頻級的語言描述,隨后逐幀將圖片和視頻描述再次輸入到大模型中,提示其生成特定時間步驟下的物體狀態(tài)變化的自然語言描述。生成視頻-物體級語言描述和圖片-物體級語言描述的過程可以形式化地定義為:

對于每一條生成的圖片-物體級描述,使用在sentence-embedding任務(wù)上經(jīng)過微調(diào)的LLM模型(e5-mistral-7b)將其轉(zhuǎn)化為語義特征,并通過分割掩碼生成最終的語義特征圖。

此外,參考LangSplat的做法,研究人員訓(xùn)練了一個自動編碼器,將高維特征壓縮到低維空間,從而降低高斯場訓(xùn)練的復(fù)雜度和計算成本。

狀態(tài)變化場(流程圖中下半部分的綠區(qū)域)

通過對語義特征的觀察,可以發(fā)現(xiàn)現(xiàn)實中的大部分變形和運動都可以分解為一系列狀態(tài)及其之間的過渡。

例如,人的運動可以分解為站立、行走、跑步等狀態(tài)的組合。在特定時間點,物體要么處于某種狀態(tài),要么處于從一個狀態(tài)到另一個狀態(tài)的過渡中。

基于這一觀察,研究人員提出了狀態(tài)變化網(wǎng)絡(luò)(Status Deformable Network),將特定時間步下的變化狀態(tài)分解為若干狀態(tài)的線性組合,網(wǎng)絡(luò)以Hexplane提取的時空特征作為輸入,專注于預(yù)測指定時間步下的線性組合系數(shù)。數(shù)學(xué)上,其建模方式如下:

打開網(wǎng)易新聞 查看精彩圖片

其中,w代表模型預(yù)測的系數(shù),S代表狀態(tài)特征。在訓(xùn)練過程中,狀態(tài)特征和預(yù)測系數(shù)的狀態(tài)變化網(wǎng)絡(luò)聯(lián)合優(yōu)化,以確保對變化語義特征的準確和平滑建模。

4D開放詞匯查詢

研究人員將4D開放詞匯查詢?nèi)蝿?wù)定義為兩個子任務(wù):時間無關(guān)的查詢和時間敏感的查詢。時間無關(guān)的查詢主要考驗語義場的靜態(tài)語義建模能力,目標是根據(jù)指定的查詢詞,給出物體在每一幀的查詢結(jié)果掩碼,類似于物體追蹤檢測任務(wù)。

而時間敏感查詢則更注重動態(tài)語義建模能力,不僅需要給出查詢物體的掩碼,還需要精確到具體的時間步(例如動作發(fā)生的幀范圍)。

為了完成這兩個子任務(wù),研究人員同時渲染了時間無關(guān)的語義場和時間敏感的語義場,前者基于CLIP提取語義特征,且不對語義特征的變化進行建模;后者則采用該方法提取時間敏感語義,并利用狀態(tài)變化網(wǎng)絡(luò)對語義特征進行建模。

在進行時間敏感查詢時,首先通過時間無關(guān)場生成對應(yīng)物體的查詢掩碼,然后計算掩碼內(nèi)時間敏感場的平均相關(guān)系數(shù),并給出預(yù)測幀的結(jié)果。

通過結(jié)合這兩個場,該方法能夠同時勝任時間敏感查詢和時間無關(guān)查詢?nèi)蝿?wù)。

實驗

實驗設(shè)置

由于目前缺乏針對4D語義查詢的標注數(shù)據(jù),研究人員在HyperNeRF和Neu3D這兩個數(shù)據(jù)集上進行了手工標注,構(gòu)建了一個專門用于4D語義查詢的數(shù)據(jù)集。

在評估指標方面,針對不同的查詢?nèi)蝿?wù)設(shè)計了相應(yīng)的衡量標準:

  • 時間無關(guān)查詢:使用平均準確率(mACC)和平均交并比(mIoU)作為查詢結(jié)果的評估指標。

  • 時間敏感查詢:使用幀級別的預(yù)測準確率(ACC)和像素級別的平均交并比(vIoU)作為評估指標

結(jié)果:該方法在時間敏感和時間無關(guān)查詢兩個子任務(wù)上都顯著優(yōu)于最先進的方法。在時間敏感查詢上,與基于CLIP特征的方法相比,該方法在幀級別準確率(ACC)和像素級別平均交并比(vIoU)上分別提升了29.03%和27.54%。

時間無關(guān)查詢方面,在HyperNeRF和Neu3D兩個場景中,該方法在平均交并比(mIoU)上分別比基線方法提升了7.56%和23.62%

打開網(wǎng)易新聞 查看精彩圖片

消融實驗

為了驗證該方法中各個組件的有效性,研究人員在論文中進行了詳細的消融實驗。實驗結(jié)果表明,每個組件都對最終性能的提升起到了重要作用。

貢獻

  1. 使用MLLM生成的對象文本描述構(gòu)建4D語言特征。

  2. 為了對4D場景中對象的狀態(tài)間平滑過渡進行建模,進一步提出了一個狀態(tài)可變形網(wǎng)絡(luò)來捕捉連續(xù)的時間變化。

  3. 實驗結(jié)果表明,該方法在時間無關(guān)和時間敏感的開放詞匯查詢中都達到了最先進的性能。

  4. 通過人工標注,研究人員構(gòu)建了一個用于4D開放詞匯查詢的數(shù)據(jù)集,為未來相關(guān)方向的研究提供了定量化的指標。

參考資料:

https://4d-langsplat.github.io/