打開(kāi)網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】華中科技大學(xué)研發(fā)的UniSeg3D算法,能一次性完成三維場(chǎng)景中的六項(xiàng)分割任務(wù),提升了場(chǎng)景理解的全面性和效率。通過(guò)任務(wù)間的信息共享,優(yōu)化了性能,為虛擬現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域帶來(lái)新的解決方案。

三維場(chǎng)景理解在虛擬現(xiàn)實(shí)和具身智能等技術(shù)中具有廣泛應(yīng)用,吸引了研究者們的極大關(guān)注。

3D點(diǎn)云分割任務(wù)是三維場(chǎng)景理解中的重要組成部分,涵蓋了實(shí)例分割、語(yǔ)義分割和全景分割,以及交互式分割、參考分割和開(kāi)放詞匯分割等子任務(wù)。

盡管針對(duì)相關(guān)任務(wù)的研究已經(jīng)取得引人注目的進(jìn)展,但現(xiàn)有研究往往聚焦于單一任務(wù)領(lǐng)域,從而導(dǎo)致三維場(chǎng)景理解局限于單一任務(wù)視角,忽視了不同任務(wù)之間的內(nèi)在關(guān)聯(lián)性。

這種局限性為實(shí)現(xiàn)全面的三維場(chǎng)景理解帶來(lái)了顯著的挑戰(zhàn)。

為了解決上述問(wèn)題,華中科技大學(xué)的研究人員提出了一種統(tǒng)一的三維場(chǎng)景理解算法UniSeg3D,通過(guò)一次推理完成六項(xiàng)3D點(diǎn)云分割任務(wù),并通過(guò)構(gòu)建任務(wù)間的顯式關(guān)聯(lián)來(lái)促進(jìn)信息共享,從而增強(qiáng)性能表現(xiàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文地址:https://arxiv.org/abs/2407.03263

項(xiàng)目地址:https://dk-liang.github.io/UniSeg3D/

代碼地址:https://github.com/dk-liang/UniSeg3D

實(shí)驗(yàn)結(jié)果表明,UniSeg3D在多個(gè)3D點(diǎn)云分割數(shù)據(jù)集上均取得了SOTA結(jié)果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖1:3D點(diǎn)云分割領(lǐng)域的單一任務(wù)方法與統(tǒng)一多任務(wù)方法

其主要包含如下的優(yōu)勢(shì):

1. 多任務(wù)統(tǒng)一:當(dāng)前的3D點(diǎn)云分割方法通常為單一任務(wù)設(shè)計(jì),不同于現(xiàn)有的研究工作,UniSeg3D通過(guò)一次推理能夠支持六種3D點(diǎn)云分割任務(wù);

2. 性能優(yōu)異:通過(guò)建立任務(wù)間的顯式關(guān)聯(lián),UniSeg3D在全景分割、語(yǔ)義分割、實(shí)例分割、交互式分割、參考分割和開(kāi)放詞匯語(yǔ)義分割六個(gè)任務(wù)中均展現(xiàn)出SOTA性能;

3. 可擴(kuò)展性:采用query統(tǒng)一表征多種點(diǎn)云分割任務(wù)的信息與特征,結(jié)構(gòu)簡(jiǎn)潔有效。且通過(guò)輸入新增任務(wù)的query表征,可將UniSeg3D拓展至更多任務(wù),展現(xiàn)了框架的可擴(kuò)展性和靈活性。

動(dòng)機(jī)

三維場(chǎng)景理解已成為機(jī)器人技術(shù)、自主導(dǎo)航和混合現(xiàn)實(shí)等各類(lèi)現(xiàn)實(shí)應(yīng)用的基礎(chǔ)。近年來(lái),構(gòu)建高效、精確的三維場(chǎng)景理解算法成為熱門(mén)研究課題,但現(xiàn)有方法通常專(zhuān)注于單一子任務(wù),并為特定任務(wù)場(chǎng)景進(jìn)行定制化模型設(shè)計(jì)。

然而,由于單一任務(wù)算法只能實(shí)現(xiàn)單一任務(wù)預(yù)測(cè),在應(yīng)用于多任務(wù)場(chǎng)景時(shí),需要運(yùn)行多種單一任務(wù)方法以實(shí)現(xiàn)多任務(wù)預(yù)測(cè),帶來(lái)了較高的算力需求。且單一任務(wù)方法缺乏其他子任務(wù)算法的場(chǎng)景理解知識(shí),阻礙了全面的三維場(chǎng)景理解。為了解決這一問(wèn)題,一些研究者探索構(gòu)建統(tǒng)一三維場(chǎng)景理解算法,并取得了一定的成果。

但當(dāng)前方法不具備對(duì)用戶(hù)提示信息的理解能力,不支持交互式分割、參考分割、開(kāi)放詞匯分割任務(wù),限制其人機(jī)交互潛力;且用戶(hù)提示信息包含三維場(chǎng)景先驗(yàn)信息,可有效提高三維場(chǎng)景理解算法的可靠性,缺乏對(duì)用戶(hù)提示信息的理解能力將限制算法的有效性。

針對(duì)上述問(wèn)題,文章提出了一種統(tǒng)一三維場(chǎng)景理解算法UniSeg3D,用于提高多任務(wù)應(yīng)用場(chǎng)景中的場(chǎng)景理解效率。

方法

UniSeg3D主要由三個(gè)模塊組成:點(diǎn)云Backbone、Prompt編碼器和掩膜解碼器。其中,點(diǎn)云Backbone提取輸入三維場(chǎng)景的點(diǎn)云特征;

Prompt編碼器包含文本提示編碼器與視覺(jué)提示編碼器,文本提示編碼器提取文本特征,而視覺(jué)交互分割中的Prompt特征通過(guò)采樣點(diǎn)云特征獲取,將提取后的特征信息送入掩膜解碼器中獲取不同任務(wù)的分割結(jié)果。

模型整體結(jié)構(gòu)如下圖所示:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖2:UniSeg3D整體框架圖

算法采用Query統(tǒng)一表征三維場(chǎng)景信息、視覺(jué)提示信息和文本提示信息。

編碼自不同信息的Query攜帶差異性的場(chǎng)景知識(shí),將其不加區(qū)分地送入掩膜解碼器會(huì)削弱掩膜解碼器對(duì)差異性場(chǎng)景信息的感知能力,因此UniSeg3D根據(jù)信息來(lái)源不同為Query疊加不同的Embedding,從而促進(jìn)掩膜解碼器對(duì)三維場(chǎng)景信息、視覺(jué)提示信息和文本提示信息的信息提取性能。

掩膜生成過(guò)程對(duì)六個(gè)任務(wù)采用統(tǒng)一的掩膜解碼器以及輸出Head,未對(duì)特定任務(wù)進(jìn)行定制化的模塊設(shè)計(jì),整體流程簡(jiǎn)潔有效。

在之前的研究工作中,忽略了各個(gè)任務(wù)間的關(guān)聯(lián),導(dǎo)致每個(gè)任務(wù)只關(guān)注其任務(wù)特定的知識(shí),缺乏對(duì)其他任務(wù)信息的感知能力,限制了全面而深入的三維場(chǎng)景理解。

為克服以上缺陷,本研究采用對(duì)比學(xué)習(xí)和知識(shí)蒸餾建立了不同任務(wù)間的顯式聯(lián)系,促進(jìn)深層次的三維場(chǎng)景理解。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖3:任務(wù)間知識(shí)蒸餾方向以及顯式關(guān)聯(lián)關(guān)系

對(duì)比學(xué)習(xí):對(duì)于參考分割任務(wù),當(dāng)多個(gè)形狀相同的物體相鄰排列時(shí),容易出現(xiàn)歧義問(wèn)題,如上圖(a)所示。因此引入基于ranking的對(duì)比學(xué)習(xí)方式,即利用交互式分割的特征與參考分割任務(wù)的特征進(jìn)行對(duì)比學(xué)習(xí)從而建立顯式關(guān)聯(lián),如上圖(b)所示。

知識(shí)蒸餾:鑒于視覺(jué)交互式分割所展現(xiàn)出的優(yōu)異性能,如上圖(c)所示,利用交互式分割任務(wù)的預(yù)測(cè)mask和分類(lèi)logits分別對(duì)全景分割任務(wù)的預(yù)測(cè)mask和參考分割任務(wù)輸出的類(lèi)別logits進(jìn)行監(jiān)督約束,從而實(shí)現(xiàn)性能優(yōu)化。

實(shí)驗(yàn)結(jié)果

打開(kāi)網(wǎng)易新聞 查看精彩圖片

表1:多任務(wù)統(tǒng)一的挑戰(zhàn)性

研究人員首先討論在單一模型中統(tǒng)一多任務(wù)所面臨的挑戰(zhàn)。全景分割、語(yǔ)義分割、實(shí)例分割、開(kāi)放詞匯分割、參考分割、交互式分割分別由Pan.、Sem.、Inst.、OV、Ref.、Inter.表示。

如表1所示,依次將交互式分割、參考分割和開(kāi)放詞匯分割簡(jiǎn)單地加入到框架中構(gòu)建統(tǒng)一模型基線時(shí),會(huì)觀察到算法在全景分割、實(shí)例分割任務(wù)上呈現(xiàn)性能下降。這表明平衡多任務(wù)性能具有顯著挑戰(zhàn)性。

盡管如此,研究人員認(rèn)為在單一模型中實(shí)現(xiàn)多任務(wù)具有重要研究?jī)r(jià)值,因?yàn)檫@能夠減少計(jì)算資源消耗,有利于現(xiàn)實(shí)應(yīng)用。

因此,UniSeg3D提出通過(guò)建立任務(wù)間顯示關(guān)聯(lián)來(lái)實(shí)現(xiàn)多任務(wù)聯(lián)合優(yōu)化,緩解多任務(wù)統(tǒng)一帶來(lái)的性能下降,后續(xù)實(shí)驗(yàn)表明這是一個(gè)有價(jià)值的探索方向。

研究人員在ScanNet20、ScanRefer和ScanNet200數(shù)據(jù)集上進(jìn)行評(píng)估測(cè)試,在全景分割、語(yǔ)義分割、實(shí)例分割、開(kāi)放詞匯分割、交互式分割和參考分割任務(wù)中,UniSeg3D均取得SOTA表現(xiàn),這表明UniSeg3D在統(tǒng)一3D點(diǎn)云分割任務(wù)上的有效性:

表2:3D點(diǎn)云分割任務(wù)上性能對(duì)比
打開(kāi)網(wǎng)易新聞 查看精彩圖片
表2:3D點(diǎn)云分割任務(wù)上性能對(duì)比

下圖展示了UniSeg3D在六種3D點(diǎn)云分割任務(wù)上的可視化結(jié)果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

總結(jié)

UniSeg3D作為首個(gè)在三維場(chǎng)景理解中集成六大分割任務(wù)的模型,為三維場(chǎng)景理解提供了一個(gè)靈活而高效的解決方案。以前的特定任務(wù)的方法難以提取跨任務(wù)信息,阻礙了全面的三維場(chǎng)景理解。

相比之下,UniSeg3D充分利用了支持多任務(wù)的結(jié)構(gòu)特點(diǎn),通過(guò)建立任務(wù)間的關(guān)聯(lián)來(lái)提高模型性能,從而在各種基準(zhǔn)任務(wù)中取得優(yōu)異表現(xiàn)。UniSeg3D為高效、精確的三維場(chǎng)景理解提供新的解決方案和可能思路。

參考資料:

https://dk-liang.github.io/UniSeg3D/