機(jī)器之心報(bào)道
機(jī)器之心編輯部
你說(shuō)不出來(lái)的話,大模型替你說(shuō)了。
圖像描述(image captioning)生成一直是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域面臨的長(zhǎng)期挑戰(zhàn),因?yàn)樗婕袄斫夂陀米匀徽Z(yǔ)言描述視覺(jué)內(nèi)容。
雖然近期的視覺(jué)語(yǔ)言模型 (VLM) 在圖像級(jí)描述生成方面取得了令人矚目的成果,但如何為圖像中的特定區(qū)域生成詳細(xì)準(zhǔn)確的描述仍然是一個(gè)懸而未決的問(wèn)題。
這一挑戰(zhàn)在視頻領(lǐng)域尤為突出,因?yàn)槟P捅仨氼~外捕捉動(dòng)態(tài)視覺(jué)內(nèi)容,例如人類動(dòng)作、物體運(yùn)動(dòng)以及人與物體的交互。
為了解決上述問(wèn)題,來(lái)自英偉達(dá)、UC 伯克利等機(jī)構(gòu)的研究者推出了「描述一切模型」 (DAM,Describe Anything Model)。這是一個(gè)強(qiáng)大的多模態(tài)大語(yǔ)言模型,可以生成圖像或視頻中特定區(qū)域的詳細(xì)描述。用戶可以使用點(diǎn)、框、涂鴉或蒙版來(lái)指定區(qū)域,DAM 將提供這些區(qū)域豐富的上下文描述。

- 論文標(biāo)題: Describe Anything: Detailed Localized Image and Video Captioning
- 論文地址:https://arxiv.org/pdf/2504.16072
- 論文主頁(yè):https://describe-anything.github.io/

我們先來(lái)看效果。
DAM 對(duì)視頻中指定對(duì)象的描述:「一頭身披深棕色皮毛、臀部有一塊淺色斑塊的母牛,正以一系列動(dòng)作展現(xiàn)其姿態(tài)。起初,母牛略微低著頭,展現(xiàn)出平靜的神態(tài)。隨著畫面的推進(jìn),母牛開(kāi)始向前移動(dòng),雙腿舒展,步態(tài)穩(wěn)健而有節(jié)奏。其尾端有簇毛,每走一步都會(huì)輕輕擺動(dòng),為其動(dòng)作增添一絲流暢感。母牛的身體基本保持直立,背部略微拱起,展現(xiàn)出一種放松的姿態(tài)。結(jié)實(shí)而輪廓分明的雙腿,帶著母牛堅(jiān)定地向前邁進(jìn)。在整個(gè)畫面中,母牛保持著均勻的步伐,動(dòng)作流暢而從容,展現(xiàn)出一種寧?kù)o沉穩(wěn)的氣質(zhì)?!?/p>
「一只淺棕色皮毛、面部稍深的猴子在一系列動(dòng)態(tài)動(dòng)作中被捕捉到。最初,它似乎用右手伸進(jìn)一個(gè)容器中,手里拿著一塊黃色的食物。猴子的姿勢(shì)稍微前傾,表明它在與食物互動(dòng)時(shí)的專注和意圖。隨著動(dòng)作的進(jìn)行,猴子將食物靠近嘴邊,用雙手操作。它的面部表情顯示出專注和享受,眼睛半閉。猴子的身體輕微移動(dòng),保持平衡,繼續(xù)進(jìn)食。在整個(gè)過(guò)程中,猴子的動(dòng)作流暢而有目的,展示了它的靈巧和敏捷。最后的畫面描繪了猴子用雙手拿著食物,將其靠近臉部,然后稍微降低,可能準(zhǔn)備再咬一口?!?/p>
DAM 對(duì)圖片的描述「一只白色的貓,有著淺橙色的耳朵和粉紅色的鼻子。這只貓表情放松,眼睛微微閉合,身上覆蓋著柔軟的白色毛發(fā)?!?/p>
機(jī)器之心也上手測(cè)試了一下,看起來(lái)是鼠標(biāo)指到哪個(gè)對(duì)象,該對(duì)象就會(huì)被自動(dòng)分割,最后我們選擇了拉布拉多幼犬,模型回答的快且準(zhǔn)確,
測(cè)試地址:https://huggingface.co/spaces/nvidia/describe-anything-model-demo
詳細(xì)局部描述
DLC(Detailed Localized Captioning)與傳統(tǒng)圖像描述不同,傳統(tǒng)圖像描述對(duì)整個(gè)場(chǎng)景的總結(jié)比較粗略,而 DLC 則更深入地挖掘用戶指定區(qū)域的細(xì)微細(xì)節(jié)。其目標(biāo)不僅是捕捉對(duì)象的名稱或類別,還包括微妙的屬性,如紋理、顏色圖案、形狀、特點(diǎn)以及任何視覺(jué)上獨(dú)特的特征。

不僅是圖片,DLC 可以自然地?cái)U(kuò)展到視頻領(lǐng)域,描述特定區(qū)域的外觀和上下文如何隨時(shí)間變化。達(dá)到這種目的,模型必須跨幀跟蹤目標(biāo),捕捉不斷變化的屬性、交互和細(xì)微的變化。
DAM 比較擅長(zhǎng)生成圖像和視頻中物體的詳細(xì)描述。通過(guò)平衡焦點(diǎn)區(qū)域的清晰度和全局上下文,該模型可以突出細(xì)微的特征(例如復(fù)雜的圖案或變化的紋理),這遠(yuǎn)遠(yuǎn)超出了一般圖像級(jí)描述所能提供的范圍。

用戶還可以引導(dǎo)模型生成不同細(xì)節(jié)和風(fēng)格的描述。無(wú)論是簡(jiǎn)短的摘要,還是冗長(zhǎng)復(fù)雜的敘述,模型都能調(diào)整輸出。這種靈活性使其適用于各種用例,從快速標(biāo)記任務(wù)到深入的專家分析。

除了生成描述之外, DAM 模型無(wú)需額外的訓(xùn)練數(shù)據(jù)即可回答有關(guān)特定區(qū)域的問(wèn)題。例如用戶可以詢問(wèn)該區(qū)域的屬性,模型會(huì)利用其對(duì)局部區(qū)域的理解,提供準(zhǔn)確的、基于上下文的答案。

方法介紹
為了解決指定區(qū)域特征中細(xì)節(jié)丟失問(wèn)題,本文提出了 DAM,該模型既保留了局部細(xì)節(jié)也保留了全局上下文。DAM 通過(guò)兩個(gè)關(guān)鍵創(chuàng)新實(shí)現(xiàn)這一點(diǎn):
1)焦點(diǎn)提示(focal prompt),它對(duì)感興趣區(qū)域進(jìn)行編碼;
2)局部視覺(jué)骨干網(wǎng)絡(luò)(localized vision backbone),它確保精確定位的同時(shí)整合全局上下文。
這些組件使 DAM 能夠生成詳細(xì)準(zhǔn)確的描述,即使是對(duì)于復(fù)雜場(chǎng)景中的小物體。

具體而言:
焦點(diǎn)提示,可以提供完整圖像和目標(biāo)區(qū)域的放大視圖。這種方法確保模型能夠捕捉精細(xì)細(xì)節(jié),同時(shí)保留全局背景。最終呈現(xiàn)的描述細(xì)致準(zhǔn)確,既能反映全局,又能捕捉細(xì)微之處。

局部視覺(jué)主干網(wǎng)絡(luò),引入了一個(gè)集成全局特征和局部特征的局部視覺(jué)主干網(wǎng)絡(luò)。圖像和掩碼在空間上對(duì)齊,門控交叉注意力層將局部細(xì)節(jié)線索與全局上下文融合。此外,新參數(shù)初始化為零,從而保留預(yù)訓(xùn)練的能力。這種設(shè)計(jì)能夠產(chǎn)生更豐富、更具有上下文感知能力的描述。

此外,由于現(xiàn)有的數(shù)據(jù)集缺乏詳細(xì)的局部化描述,該研究設(shè)計(jì)了一個(gè)兩階段流程。
- 首先,他們使用視覺(jué)語(yǔ)言模型(VLM)將數(shù)據(jù)集中的簡(jiǎn)短類別標(biāo)簽擴(kuò)展為豐富的描述。
- 其次,在未標(biāo)記的圖像上應(yīng)用自訓(xùn)練,作為一種半監(jiān)督學(xué)習(xí)方法,并使用 DAM 模型生成和優(yōu)化新的描述。
這種可擴(kuò)展的方法可以在不依賴大量人工注釋的情況下構(gòu)建大型、高質(zhì)量的訓(xùn)練數(shù)據(jù)集。

實(shí)驗(yàn)及結(jié)果
DAM 在局部圖像與視頻描述任務(wù)中表現(xiàn)卓越,能夠支持多粒度輸出(包括關(guān)鍵詞、短語(yǔ)及詳細(xì)描述),并在 7 個(gè)領(lǐng)域內(nèi)基準(zhǔn)測(cè)試和零樣本基準(zhǔn)測(cè)試中均達(dá)到 SOTA。
在 object-level LVIS 和 part-level PACO 數(shù)據(jù)集上進(jìn)行測(cè)試,本文方法取得了最佳性能。

在表 4 中的 Ref-L4 基準(zhǔn)測(cè)試中,本文方法在基于短語(yǔ)言的描述指標(biāo)上平均比之前的最好方法相對(duì)提高了 33.4% ,在基于長(zhǎng)語(yǔ)言的描述指標(biāo)上平均比之前的最好方法相對(duì)提高了 13.1%。

如表 5 所示,DAM 顯著優(yōu)于現(xiàn)有的通用和基于特定區(qū)域的 VLM。

在表 6 中, DAM 在 HC-STVG 上比之前的最佳成績(jī)相對(duì)提升了 19.8%。在表 7 中, DAM 在零樣本和域內(nèi)設(shè)置中均超越了之前的最佳成績(jī)。


了解更多內(nèi)容,請(qǐng)參考原論文。
熱門跟貼