
機(jī)器之心報道
編輯:蛋醬、杜偉
擴(kuò)展無語言的視覺表征學(xué)習(xí)。
在視覺問題解答(VQA)等多模態(tài)環(huán)境中,當(dāng)前視覺自監(jiān)督學(xué)習(xí)(SSL)的表現(xiàn)還比不上語言圖像預(yù)訓(xùn)練(CLIP)。這種差距通常歸因于語言監(jiān)督引入的語義,盡管視覺 SSL 模型和 CLIP 模型通常在不同的數(shù)據(jù)上進(jìn)行訓(xùn)練。
在最近的一項(xiàng)研究中,Yann LeCun、謝賽寧等研究者探討了一個基本問題: 語言監(jiān)督對于多模態(tài)建模的視覺表征預(yù)訓(xùn)練是否必要?

- 論文標(biāo)題:Scaling Language-Free Visual Representation Learning
- 論文鏈接:https://arxiv.org/pdf/2504.01017
- 項(xiàng)目地址:https://davidfan.io/webssl/
「我們的目的不是要取代語言監(jiān)督方法,而是要了解視覺自監(jiān)督在多模態(tài)應(yīng)用中的內(nèi)在能力和局限性。為了進(jìn)行公平的比較,我們在與最先進(jìn)的 CLIP 模型相同的數(shù)十億規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)(特別是 MetaCLIP 數(shù)據(jù)集)上訓(xùn)練 SSL 模型。在比較視覺 SSL 和 CLIP 時,這種方法可以控制數(shù)據(jù)的分布差異?!寡芯空弑硎尽?/p>
論文共同一作 David Fan 表示,「視覺 SSL 終于可以在 VQA 任務(wù)上與 CLIP 匹敵了,即使在 OCR & Chart VQA 上也非常具有競爭力。我們的全新 Web-SSL 模型系列證明了這一點(diǎn),并且僅僅基于網(wǎng)絡(luò)圖像訓(xùn)練,沒有進(jìn)行任何語言監(jiān)督?!?/p>
在評估方面,研究者主要使用視覺問題解答(VQA)作為框架,大規(guī)模評估 SSL 模型的各種能力。具體來說,采用了 Cambrian-1 中提出的評估套件,跨越 4 個不同 VQA 類別的 16 項(xiàng)任務(wù)的性能: 通用、知識、OCR & 圖表以及 Vision-Centric。
然后,他們使用上述設(shè)置訓(xùn)練了 Web-SSL,這是一個視覺 SSL 模型系列,參數(shù)范圍從 10 億到 70 億不等,以便與 CLIP 進(jìn)行直接和可控的比較。
通過實(shí)證研究,研究者提出了一些見解:
- 視覺 SSL 可以在廣泛的 VQA 任務(wù)中,甚至在 OCR & 圖表理解等語言相關(guān)任務(wù)中,匹配甚至超越語言監(jiān)督的視覺預(yù)訓(xùn)練方法(圖 3);
- 視覺 SSL 在模型容量(圖 3)和數(shù)據(jù)(圖 4)方面都有很好的擴(kuò)展性,這表明 SSL 還有巨大的潛力有待挖掘;
- 視覺 SSL 可以在分類和分割方面保持傳統(tǒng)視覺性能的競爭力,同時在 VQA 方面也有所改進(jìn)(圖 7);
- 對包含文本的圖像進(jìn)行更高比例的訓(xùn)練對于提高 OCR 和圖表性能尤為有效(問題 4)。探索數(shù)據(jù)構(gòu)成是一個很有前景的方向。

隨后,研究者介紹了本文的實(shí)驗(yàn)設(shè)置,它通過以下方式擴(kuò)展了之前的 SSL 工作:
(1)將數(shù)據(jù)集規(guī)模擴(kuò)展到十億級圖像(第 2.1 節(jié));
(2)將模型規(guī)模擴(kuò)展到 1B 參數(shù)以上(第 2.2 節(jié));
(3)除了 ImageNet-1k 和 ADE20k 等經(jīng)典視覺基準(zhǔn)之外,還使用開放式 VQA 任務(wù)(第 2.3 節(jié))評估視覺模型。
擴(kuò)展 Visual SSL
研究者也探討了視覺 SSL 模型在模型和數(shù)據(jù)大小方面的擴(kuò)展行為,這是僅對 MC-2B 圖像進(jìn)行訓(xùn)練的結(jié)果。這一部分重點(diǎn)討論 DINOv2 作為視覺 SSL 方法,下一部分會重點(diǎn)討論 MAE。
- 擴(kuò)展模型大小:研究者將模型大小從 1B 增加到 7B,同時將訓(xùn)練數(shù)據(jù)固定為 20 億張 MC2B 圖像。他們對每種方法都使用了現(xiàn)成的訓(xùn)練代碼和配方,為了控制混雜變量,沒有因模型規(guī)模不同而改變配方。
- 擴(kuò)展所見樣本:研究者將重點(diǎn)轉(zhuǎn)移到對固定模型大小的總數(shù)據(jù)進(jìn)行縮放,并分析當(dāng)訓(xùn)練過程中看到的圖像數(shù)量從 10 億增加到 80 億時,性能是如何變化的。
擴(kuò)展模型大小
研究者使用來自 MC-2B 的 20 億張 224×224 分辨率的未標(biāo)記圖像,并且沒有進(jìn)行高分辨率適應(yīng),對 DINOv2 ViT 模型進(jìn)行了預(yù)訓(xùn)練,參數(shù)范圍從 1B 到 7B,以確保與 CLIP 的公平比較。他們使用 VQA 來評估每個模型,結(jié)果如下圖 3 所示,包含了整體性能趨勢和特定類別性能。
研究者表示,這是僅使用視覺自監(jiān)督訓(xùn)練的視覺 encoder 第一次在 VQA 上取得與語言監(jiān)督 encoder 相當(dāng)?shù)男阅?,即使是傳統(tǒng)上被認(rèn)為高度依賴文本的 OCR 和 Chart 類別也是如此。
關(guān)于性能變化趨勢,圖 3 還比較了模型容量增加時的性能趨勢。WebDINO’s Average、DINOOCR & Chart 和 Vision-Centric VQA 的性能隨著模型大小的增加幾乎呈現(xiàn)對數(shù)線性提升,而通用(General)和知識(Knowledge)的提升程度較小。
相比之下,CLIP 在所有 VQA 類別中的表現(xiàn)在 3B 參數(shù)后基本飽和。這表明了,雖然較小規(guī)模的 CLIP 模型可以更高效地利用數(shù)據(jù),但較大規(guī)模的 CLIP 模型基本喪失了這一優(yōu)勢。
Web-DINO 模型增加帶來的持續(xù)性能提升表明了,視覺 SSL 會從更大規(guī)模的模型中受益,并且繼續(xù)將視覺 SSL 擴(kuò)展到 7B 以上是一個有潛力的方向。
關(guān)于特定類別的性能,隨著模型大小的增加,DINO 在 Vision-Centric VQA 上的表現(xiàn)越來越優(yōu)于 CLIP,在 OCR & Chart 和 Average VQA 上與 CLIP 的差距也大大縮小。

擴(kuò)展所見樣本
研究者探究了訓(xùn)練 Web-DINO ViT-7B 過程中增加所見樣本的數(shù)量對性能變化有哪些影響,并將來自 MC-2B 中的圖像數(shù)量從 1B 增加到 8B。
隨著所見樣本的增加,General 和 Knowledge VQA 的性能逐漸提升,并分別在 4B 和 2B 樣本時達(dá)到飽和。Vision-Centric VQA 的性能在樣本從 1B 增加到 2B 過程中急劇提升,并在 2B 以上達(dá)到飽和。相比之下,OCR & Chart 是唯一一個隨著所見樣本增加而持續(xù)改進(jìn)的類別。
這表明了,隨著模型所見樣本的增加,它會學(xué)習(xí)到一種越來越適合文本任務(wù)的表征,而其他能力不會明顯下降。

總的來說,上圖 3 和圖 4 的結(jié)果表明,隨著模型大小和樣本的增加,視覺 SSL 學(xué)習(xí)到的特征對于 VQA 越來越有效,尤其是在 OCR & Chart 類別。并且,基于 CLIP 的模型相較于視覺 SSL 沒有絕對的優(yōu)勢。
Web-SSL 模型系列
研究者使用 VQA 和經(jīng)典視覺基準(zhǔn)分析了整體性能最佳的視覺編碼器。表 3 展示了視覺編碼器在 VQA 和經(jīng)典視覺任務(wù)方面與近期現(xiàn)成的視覺編碼器相比所取得的最佳結(jié)果。

在 VQA 和傳統(tǒng)視覺任務(wù)中,Web-DINO 的表現(xiàn)都優(yōu)于現(xiàn)成的 MetaCLIP。在 VQA 上,Web-DINO 的性能甚至可以與 SigLIP 和 SigLIP2 相媲美,盡管它看到的數(shù)據(jù)少了 5 倍,而且沒有語言監(jiān)督??傮w而言,Web-DINO 在傳統(tǒng)視覺基準(zhǔn)測試中的表現(xiàn)優(yōu)于所有現(xiàn)成的語言監(jiān)督 CLIP 模型。
在所有 VQA 類別中,Web-DINO 也優(yōu)于現(xiàn)成的視覺 SSL 方法,包括 DINOv2。在傳統(tǒng)的視覺基準(zhǔn)測試中,Web-DINO 也具有很強(qiáng)的競爭力。
從 224 分辨率到 378 分辨率再到 518 分辨率,Web-DINO 在平均 VQA 上穩(wěn)步提升,在 OCR 和圖表性能方面也有顯著提高。傳統(tǒng)視覺性能隨著分辨率的提高而略有提高。在 384 分辨率下,Web-DINO 落后于 SigLIP。在 518 分辨率下,Web-DINO 在很大程度上彌補(bǔ)了這一差距。結(jié)果表明,Web-DINO 可從進(jìn)一步提高高分辨率適應(yīng)性中獲益。
更多研究細(xì)節(jié),可參考原論文。
熱門跟貼