當(dāng)人形機(jī)器人能夠辨識身邊的一切,VR/AR 設(shè)備呈現(xiàn)出定制化的虛擬世界,自動駕駛汽車實時捕捉路面狀況,這一切都依賴于對 3D 場景的精確理解。然而,這種精準(zhǔn)的 3D 理解往往需要大量詳細(xì)標(biāo)注的 3D 數(shù)據(jù),極大推高了時間成本和資源消耗,而每當(dāng)出現(xiàn)新場景或特定目標(biāo)時,又不得不重復(fù)這一繁重過程。

Few-shot 學(xué)習(xí)是一種有效的解決思路——通過極少量標(biāo)注樣本,讓模型迅速掌握新類別,從而大幅改善了這一局限性。但當(dāng)前研究都局限于單模態(tài)點云數(shù)據(jù),忽略了多模態(tài)信息的潛在價值。對此,University of Copenhagen、ETH Zurich 等團(tuán)隊填補了這一空白,提出了一個全新的多模態(tài) Few-shot 3D 分割設(shè)定和創(chuàng)新方法:在無需額外標(biāo)注成本的前提下,融合了文本,2D,3D 信息,助力模型更好地適應(yīng)到新類別

打開網(wǎng)易新聞 查看精彩圖片

論文: Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation 論文鏈接: https://arxiv.org/abs/2410.22489 代碼鏈接: https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot

打開網(wǎng)易新聞 查看精彩圖片

3D Few-shot 分割結(jié)果示例 一、引言

3D 場景理解在具身智能、VR/AR 等領(lǐng)域至關(guān)重要,幫助設(shè)備準(zhǔn)確感知和解讀三維世界。然而,傳統(tǒng)全監(jiān)督模型雖在特定類別上表現(xiàn)出色,但其能力局限于預(yù)定義類別。每當(dāng)需要識別新類別時,必須重新收集并標(biāo)注大量 3D 數(shù)據(jù)以及重新訓(xùn)練模型,這一過程既耗時又昂貴,極大地制約了模型的應(yīng)用廣度。

3D Few-shot 學(xué)習(xí)旨在利用極少量的示例樣本以適應(yīng)模型來有效的識別任意的全新類別,大大降低了新類適應(yīng)的開銷,使得傳統(tǒng)的 3D 場景理解模型不再局限于訓(xùn)練集中有限的類別標(biāo)簽,對廣泛的應(yīng)用場景有重要的價值。

具體而言,對于 Few-shot 3D 點云語義分割(FS-PCS)任務(wù),模型的輸入包括少量支持樣本(包含點云及對應(yīng)新類標(biāo)簽)和查詢點云。模型需要通過利用支持樣本獲得關(guān)于新類別的知識并應(yīng)用于分割查詢點云,預(yù)測出查詢點云中關(guān)于新類別的標(biāo)簽。在模型訓(xùn)練和測試時使用的目標(biāo)類別無重合,以保證測試時使用的類均為新類,未被模型在訓(xùn)練時見過。

目前,該領(lǐng)域涌現(xiàn)出的工作 [1,2] 都只利用點云單模態(tài)的輸入,忽略了利用多模態(tài)信息的潛在的益處。對此,這篇文章提出一個全新的多模態(tài) Few-shot 3D 分割設(shè)定,利用了文本和 2D 模態(tài)且沒有引入額外的標(biāo)注開銷。在這一設(shè)定下,他們推出了創(chuàng)新模型——MultiModal Few-Shot SegNet (MM-FSS)。該模型通過充分整合多模態(tài)信息,有效提升小樣本上新類別的學(xué)習(xí)與泛化能力,證明了利用普遍被忽略的多模態(tài)信息對于實現(xiàn)更好的小樣本新類泛化的重要性,為未來研究開辟了全新方向。

二、Multimodal FS-PCS Setup

打開網(wǎng)易新聞 查看精彩圖片

圖 1. 多模態(tài) FS-PCS 設(shè)定

為便于討論,以下都將 Few-shot 3D 點云語義分割簡稱為 FS-PCS。

傳統(tǒng)的 FS-PCS 任務(wù):模型的輸入包含少量的支持點云以及對應(yīng)的新類別的標(biāo)注(support point cloud & support mask)。此外,輸入還包括查詢點云(query point cloud)。模型需借助 support 樣本中關(guān)于新類別的知識,在 query 點云中完成新類別分割。

多模態(tài) FS-PCS 任務(wù):作者引入的多模態(tài) FS-PCS 包括了除 3D 點云之外的兩個額外模態(tài):文本和 2D。文本模態(tài)相應(yīng)于支持樣本中的目標(biāo)類別 / 新類的名稱。2D 模態(tài)相應(yīng)于 2D 圖片,往往伴隨 3D 場景采集同步獲得。值得注意的是,2D 模態(tài)僅用于模型預(yù)訓(xùn)練,不要求在 meta-learning 和測試時作為輸入,保證了其 Few-shot 輸入形式與傳統(tǒng) FS-PCS 對齊,僅需要相同的數(shù)據(jù)且無需額外標(biāo)注。

圖 2. MM-FSS 架構(gòu) 3.2 關(guān)鍵模塊解析
打開網(wǎng)易新聞 查看精彩圖片
圖 2. MM-FSS 架構(gòu) 3.2 關(guān)鍵模塊解析

MM-FSS 在 Backbone 后引入兩個特征提取分支:

  • Intermodal Feature (IF) Head(跨模態(tài)特征頭):學(xué)習(xí)與 2D 視覺特征對齊的 3D 點云特征。

  • Unimodal Feature (UF) Head(單模態(tài)特征頭):提取 3D 點云本身的特征。

3.2.1 預(yù)訓(xùn)練階段

MM-FSS 先進(jìn)行跨模態(tài)對齊預(yù)訓(xùn)練,通過利用 3D 點云和 2D 圖片數(shù)據(jù)對,使用 2D 視覺 - 語言模型(VLM)輸出的 2D 特征監(jiān)督 IF head 輸出的 3D 特征,使得 IF Head 學(xué)習(xí)到與2D 視覺 - 語言模型對齊的 3D 特征。這一階段完成后:

  • Backbone 和 IF Head 保持凍結(jié),確保模型在 Few-shot 學(xué)習(xí)時能利用其預(yù)訓(xùn)練學(xué)到的 Intermodal 特征。這樣,在 Few-shot 任務(wù)中無需額外的 2D 輸入,僅依賴 Intermodal 特征即可獲益于多模態(tài)信息。

  • 此外,該特征也隱式對齊了 VLM 的文本特征,為后續(xù)階段利用重要的文本引導(dǎo)奠定基礎(chǔ)。

3.2.2 Meta-learning 階段

在 Few-shot 訓(xùn)練(稱為 meta-learning)時,給定輸入的 support 和 query 點云,MM-FSS 分別將 IF Head 和 UF Head 輸出的兩套特征計算出對應(yīng)的兩套 correlations(correlations 表示每個 query 點和目標(biāo)類別 prototypes 之間的特征相似度)。

  • 兩套 correlations 會通過 Multimodal Correlation Fusion (MCF) 進(jìn)行融合,生成初始多模態(tài) correlations,包含了 2D 和 3D 的視覺信息。這個過程可以表示為:

打開網(wǎng)易新聞 查看精彩圖片

其中 和 分別表示用 IF Head 和 UF Head 特征算得的 correlations。 為 MCF 輸出的初始多模態(tài) correlations。

  • 當(dāng)前獲得的多模態(tài) correlations 融合了不同的視覺信息源,但文本模態(tài)中的語義信息尚未被利用,因此設(shè)計了 Multimodal Semantic Fusion (MSF) 模塊,進(jìn)一步利用文本模態(tài)特征作為語義引導(dǎo),提升多模態(tài) correlations:

打開網(wǎng)易新聞 查看精彩圖片

其中 為文本模態(tài)的語義引導(dǎo), 為文本和視覺模態(tài)間的權(quán)重(會動態(tài)變化以考慮不同模態(tài)間變化的相對重要性), 為多模態(tài) correlations。

3.2.3 測試階段

為緩解 Few-shot 模型對于訓(xùn)練類別的 training bias(易被測試場景中存在的訓(xùn)練類別干擾,影響新類分割),MM-FSS 在測試時引入 Test-time Adaptive Cross-modal Calibration (TACC) :利用跨模態(tài)的語義引導(dǎo)(由 IF Head 生成)適應(yīng)性地修正預(yù)測結(jié)果,實現(xiàn)更好的泛化。

跨模態(tài)的語義引導(dǎo)未經(jīng) meta-learning 訓(xùn)練,有更少的 training bias。為了有效的執(zhí)行測試時修正,作者提出基于支持樣本及其標(biāo)簽估算可靠性指標(biāo),用于自動調(diào)整修正程度(當(dāng)該語義引導(dǎo)可靠性更高時,分配更大的修正權(quán)重,否則分配更小的權(quán)重):

打開網(wǎng)易新聞 查看精彩圖片

為模型的預(yù)測, 為跨模態(tài)語義引導(dǎo), 為適應(yīng)性指標(biāo)。通過借助 support point cloud 以及可用的 support mask 可以如下計算 作為修正可靠程度的估計:

打開網(wǎng)易新聞 查看精彩圖片

四、實驗結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

表1 實驗結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

表2 實驗結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

圖 3. MM-FSS 的可視化對比結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

圖 4. MM-FSS 的可視化消融實驗結(jié)果

實驗在兩個標(biāo)準(zhǔn)的 FS-PCS 數(shù)據(jù)集上進(jìn)行,證明了 MM-FSS 在各類 few-shot 任務(wù)中都實現(xiàn)了最佳性能??梢暬睬宄砻髁四P湍軌?qū)崿F(xiàn)更優(yōu)的新類分割,展示了更強(qiáng)的新類泛化能力。更多詳細(xì)實驗和分析內(nèi)容請參見論文。

五、總結(jié)

這項工作首次探索了融合多模態(tài)以提升 FS-PCS 任務(wù)的可能性。文中首先提出了全新的多模態(tài) FS-PCS 設(shè)定,無額外開銷地融合文本和 2D 模態(tài)。在該設(shè)定下,作者提出首個多模態(tài) FS-PCS 模型 MM-FSS,顯式的利用文本模態(tài),隱式的利用 2D 模態(tài),最大化其靈活性和各場景下的應(yīng)用性。

MM-FSS 包含了 MCF 和 MSF 來有效的從視覺線索和語義信息雙重角度高效聚合多模態(tài)知識,增強(qiáng)對新類概念的全面理解。此外,為了協(xié)調(diào) few-shot 模型的 training bias,作者設(shè)計了 TACC 技術(shù),在測試時動態(tài)的修正預(yù)測。

綜合來看,該工作展示了過往被普遍忽略的「免費」多模態(tài)信息對于小樣本適應(yīng)的重要性,為未來的研究提供了寶貴的新視野且開放了更多有趣的潛在方向??蓞⒖嫉姆较虬ㄐ阅艿奶嵘?[2,3],訓(xùn)練和推理效率的優(yōu)化 [4],更深入的模態(tài)信息利用等。

引用

[1] Zhao, Na, et al. "Few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[2] An, Zhaochong, et al. "Rethinking few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

[3] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031.

[4] Wu, Xiaoyang, et al. "Point transformer v3: Simpler faster stronger." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

作者:安照崇 來源:公眾號【機(jī)器之心 】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

打開網(wǎng)易新聞 查看精彩圖片

點擊右上角,把文章分享到朋友圈