
新智元報道
編輯:犀牛
【新智元導讀】LeCun謝賽寧等研究人員通過新模型Web-SSL驗證了SSL在多模態(tài)任務中的潛力,證明其在擴展模型和數(shù)據(jù)規(guī)模后,能媲美甚至超越CLIP。這項研究為無語言監(jiān)督的視覺預訓練開辟新方向,并計劃開源模型以推動社區(qū)探索。
最近AI圈最火的模型非GPT-4o莫屬,各種風格圖片持續(xù)火爆全網(wǎng)。
如此強悍的圖片生成能力,得益于GPT-4o本身是一個原生多模態(tài)模型。
從最新發(fā)布的LLM來看,多模態(tài)已經(jīng)成為絕對的主流。
在多模態(tài)領域,視覺表征學習正沿著兩條采用不同訓練方法的路徑發(fā)展。
其中語言監(jiān)督方法,如對比語言-圖像預訓練(CLIP),利用成對的圖像-文本數(shù)據(jù)來學習富含語言語義的表示。
自監(jiān)督學習(SSL)方法則僅從圖像中學習,不依賴語言。
在剛剛發(fā)布的一項研究中,楊立昆、謝賽寧等研究人員探討了一個基本問題:語言監(jiān)督對于多模態(tài)建模的視覺表征預訓練是否必須?

論文地址:https://arxiv.org/pdf/2504.01017
研究團隊表示,他們并非試圖取代語言監(jiān)督方法,而是希望理解視覺自監(jiān)督方法在多模態(tài)應用上的內(nèi)在能力和局限性。
盡管SSL模型在傳統(tǒng)視覺任務(如分類和分割)上表現(xiàn)優(yōu)于語言監(jiān)督模型,但在最近的多模態(tài)大語言模型(MLLMs)中,它們的應用卻較少。
部分原因是這兩種方法在視覺問答(VQA)任務中的性能差距(圖1),特別是在光學字符識別(OCR)和圖表解讀任務中。
除了方法上的差異,兩者在數(shù)據(jù)規(guī)模和分布上也存在不同(圖1)。
CLIP模型通常在網(wǎng)絡上收集的數(shù)十億級圖像-文本對上進行訓練,而SSL方法則使用百萬級數(shù)據(jù)集,如ImageNet,或具有類似ImageNet分布的數(shù)億規(guī)模數(shù)據(jù)。

圖1結(jié)果表明,通過適當擴展模型和數(shù)據(jù)規(guī)模,視覺SSL能夠在所有評估領域(甚至包括OCR和圖表任務)中匹配語言監(jiān)督模型的性能
作為本文共同一作的David Fan興奮的表示,他們的研究表明,即便在OCR/Chart VQA上,視覺SSL也能具有競爭力!
正如他們新推出的完全在網(wǎng)頁圖像上訓練、沒有任何語言監(jiān)督的Web-SSL模型系列(1B-7B參數(shù))所展示的。

為了進行公平比較,研究團隊在數(shù)十億級規(guī)模網(wǎng)絡數(shù)據(jù)上訓練SSL模型,與最先進的CLIP模型相同。
在評估方面,主要使用VQA作為框架,采用了Cambrian-1提出的評估套件,該套件評估了16個任務,涵蓋4個不同的VQA類別:通用、知識、OCR和圖表、以及Vision-Centric。
研究團隊使用上述設置訓練了一系列參數(shù)從1B到7B的視覺SSL模型Web-SSL,以便在相同設置下與CLIP進行直接且受控的比較。
通過實證研究,研究團隊得出了以下幾點見解:
視覺SSL在廣泛的VQA任務中能夠達到甚至超越語言監(jiān)督方法進行視覺預訓練,甚至在與語言相關的任務(如OCR和圖表理解)上也是如此(圖3)。
視覺SSL在模型容量(圖3)和數(shù)據(jù)規(guī)模(圖4)上的擴展性良好,表明SSL具有巨大的開發(fā)潛力。
視覺SSL在提升VQA性能的同時,仍能保持在分類和分割等傳統(tǒng)視覺任務上的競爭力。
在包含更多文本的圖像上進行訓練尤其能有效提升OCR和圖表任務的性能。探索數(shù)據(jù)構(gòu)成是一個有前景的方向。
研究人員計劃開源Web-SSL視覺模型,希望激勵更廣泛的社區(qū)在多模態(tài)時代充分釋放視覺SSL的潛力。
視覺SSL 1.0到2.0
研究人員介紹了本文的實驗設置。相比之前的研究,他們做了以下擴展:
(1) 把數(shù)據(jù)集規(guī)模擴展到十億級別;
(2) 把模型參數(shù)規(guī)模擴展到超過1B;
(3) 除了用經(jīng)典的視覺基準測試(比如ImageNet-1k和ADE20k)來評估模型外,還加入了開放式的VQA任務。

這些變化能在大規(guī)模上研究視覺SSL,觀察到之前小規(guī)模實驗看不到的規(guī)模效應趨勢
擴展視覺SSL
研究團隊探討了視覺SSL模型在模型規(guī)模和數(shù)據(jù)規(guī)模上的擴展表現(xiàn),這些模型只用MC-2B的圖片數(shù)據(jù)來訓練。
擴展模型規(guī)模:研究團隊把模型規(guī)模從10億參數(shù)增加到70億參數(shù),同時保持訓練數(shù)據(jù)固定為20億張MC-2B圖片。他們用現(xiàn)成的訓練代碼和方法配方,不因模型大小不同而調(diào)整配方,以控制其他變量的影響。
擴展看到的數(shù)據(jù)量:研究團隊把焦點轉(zhuǎn)向固定模型規(guī)模下增加總數(shù)據(jù)量,分析訓練時看到的圖片數(shù)量從10億增加到80億時,性能如何變化。
擴展模型規(guī)模
擴展模型規(guī)模的目的有兩個:一是找出在這種新數(shù)據(jù)模式下視覺SSL的性能上限,二是看看大模型會不會表現(xiàn)出一些獨特的行為。
為此,研究團隊用20億張無標簽的MC-2B圖片(224×224分辨率)預訓練了DINOv2 ViT模型,參數(shù)從10億到70億不等。沒有用高分辨率適配,以便能和CLIP公平比較。
研究團隊把這些模型稱為Web-DINO。為了對比,他們還用同樣數(shù)據(jù)訓練了相同規(guī)模的CLIP模型。
他們用VQA評估每個模型,結(jié)果展示在圖3中。
研究團隊表示,據(jù)他們所知,這是首次僅用視覺自監(jiān)督訓練的視覺編碼器,在VQA上達到與語言監(jiān)督編碼器相當?shù)男阅堋踔猎趥鹘y(tǒng)上高度依賴文字的OCR & 圖表類別上也是如此。
Web-DINO在平均VQA、OCR & 圖表、以及Vision-Centric VQA上的表現(xiàn),隨著模型規(guī)模增加幾乎呈對數(shù)線性提升,但在通用和知識類VQA的提升幅度較小。
相比之下,CLIP在所有VQA類別的表現(xiàn)到30億參數(shù)后基本飽和。
這說明,小規(guī)模CLIP模型可能更擅長利用數(shù)據(jù),但這種優(yōu)勢在大規(guī)模CLIP模型上基本消失。
Web-DINO隨著模型規(guī)模增加持續(xù)提升,也表明視覺SSL能從更大的模型規(guī)模中獲益,超過70億參數(shù)的擴展是個有前景的方向。
在具體類別上,隨著模型規(guī)模增加,DINO在Vision-Centric VQA上越來越超過CLIP,在OCR & 圖表和平均VQA上也基本追平差距(圖3)。
到了50億參數(shù)及以上,DINO的平均VQA表現(xiàn)甚至超過CLIP,盡管它只用圖片訓練,沒有語言監(jiān)督。
這表明,僅用視覺訓練的模型在CLIP分布的圖片上也能發(fā)展出強大的視覺特征,媲美語言監(jiān)督的視覺編碼器。

Web-DINO模型在所有類別上都展現(xiàn)出新的「擴展行為」,尤其在OCR & 圖表和Vision-Centric領域,CLIP模型的擴展收益有限,性能在中等規(guī)模時就飽和了
擴展所見數(shù)據(jù)量
研究團隊研究了增加看到的數(shù)據(jù)量會怎樣影響性能,在MC-2B的10億到80億張圖片上訓練Web-DINO ViT-7B模型。
如圖4所示,通用和知識類VQA性能隨著看到的數(shù)據(jù)量增加逐步提升,分別在40億和20億張時飽和。
Vision-Centric VQA 性能從10億到20億張時提升明顯,超過20億張后飽和。
相比之下,OCR & 圖表是唯一隨著數(shù)據(jù)量增加持續(xù)提升的類別。
這說明,模型看到更多數(shù)據(jù)后,學到的表征越來越適合文字相關任務,同時其他能力也沒明顯下降。
另外,和同規(guī)模的CLIP模型(ViT-7B)相比,Web-DINO在相同數(shù)據(jù)量下的平均VQA表現(xiàn)始終更強(圖 4)。
尤其在看到80億張樣本后,Web-DINO在OCR & 圖表VQA任務上追平了CLIP的表現(xiàn)差距。
這進一步證明,視覺SSL模型可能比語言監(jiān)督模型有更好的擴展?jié)摿Α?/p>
隨著訓練數(shù)據(jù)從10億增至80億張圖片,Web-DINO-7B在OCR和圖表任務中持續(xù)提升,而通用和視覺任務在20億張后收益遞減??傮w上,Web-DINO在平均性能上穩(wěn)步提高,并始終優(yōu)于同規(guī)模的CLIP模型
Web-SSL系列模型
研究團隊在表3里展示了他們的視覺編碼器跟經(jīng)典視覺編碼器對比所取得的最佳結(jié)果,涉及VQA和經(jīng)典視覺任務。
Web-DINO在VQA和經(jīng)典視覺任務上都能超越現(xiàn)成的MetaCLIP。
即便數(shù)據(jù)量比SigLIP和SigLIP2少5倍,也沒語言監(jiān)督,Web-DINO在VQA上的表現(xiàn)還是能跟它們打平手。
總體來看,Web-DINO在傳統(tǒng)視覺基準測試中碾壓了所有現(xiàn)成的語言監(jiān)督CLIP模型。
雖然研究人員最好的Web-DINO模型有70億參數(shù),但結(jié)果表明,CLIP模型在中等規(guī)模的模型和數(shù)據(jù)量后就飽和了,而視覺SSL的性能隨著模型和數(shù)據(jù)規(guī)模的增加會逐步提升。
Web-DINO在所有VQA類別中也超過了現(xiàn)成的視覺SSL方法,包括DINOv2,在傳統(tǒng)視覺基準上也很有競爭力。

Web-DINO ViT-7B在沒有語言監(jiān)督的情況下,在VQA任務上與CLIP模型表現(xiàn)相當,在傳統(tǒng)視覺任務上超過了它們
研究人員還額外對Web-DINO微調(diào)了2萬步,分別測試了378和518分辨率,以便跟更高分辨率的現(xiàn)成SigLIP和DINO版本對比。
從224到378再到518分辨率,Web-DINO在平均VQA表現(xiàn)上穩(wěn)步提升,尤其在OCR和圖表任務上有明顯進步。
經(jīng)典視覺任務的表現(xiàn)隨著分辨率提高略有提升。在384分辨率下,Web-DINO稍微落后于SigLIP;到了518分辨率,差距基本被抹平。
結(jié)果表明,Web-DINO可能還能從進一步的高分辨率適配中獲益。
作者介紹
David Fan

David Fan是Meta FAIR的高級研究工程師,研究方向是自監(jiān)督學習和視頻表征。
曾在亞馬遜Prime Video擔任應用科學家,從事視頻理解和多模態(tài)表征學習的研究,重點關注自監(jiān)督方法。
此前,他在普林斯頓大學以優(yōu)異成績(Magna Cum Laude)獲得計算機科學理學工程學士學位,導師是Jia Deng教授。
Shengbang Tong

Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,導師是Yann LeCun教授和謝賽寧教授。研究興趣是世界模型、無監(jiān)督/自監(jiān)督學習、生成模型和多模態(tài)模型。
此前,他在加州大學伯克利分校主修計算機科學、應用數(shù)學(榮譽)和統(tǒng)計學(榮譽)。并曾是伯克利人工智能實驗室(BAIR)的研究員,導師是馬毅教授和Jacob Steinhardt教授。
參考資料:
https://x.com/DavidJFan/status/1907448092204380630
https://arxiv.org/abs/2504.01017
熱門跟貼