這項(xiàng)研究題為《I-Con: A Unifying Framework for Representation Learning》(I-Con:統(tǒng)一表示學(xué)習(xí)的框架),由麻省理工學(xué)院的Shaden Alshammari、谷歌的John Hershey、麻省理工學(xué)院的Axel Feldmann、麻省理工學(xué)院和谷歌的William T. Freeman以及麻省理工學(xué)院和微軟的Mark Hamilton共同完成。該論文發(fā)表于2025年國際學(xué)習(xí)表示會議(ICLR 2025),論文鏈接為https://aka.ms/i-con,預(yù)印本編號為arXiv:2504.16929v1。

一、表示學(xué)習(xí)的"元素周期表"

想象一下,化學(xué)家們在發(fā)現(xiàn)元素時的混亂狀態(tài):各種元素看似毫無關(guān)聯(lián),直到門捷列夫提出了元素周期表,突然間,所有元素之間的關(guān)系變得清晰可見。在機(jī)器學(xué)習(xí)領(lǐng)域,我們正處于類似的狀態(tài)——各種表示學(xué)習(xí)方法如雨后春筍般涌現(xiàn),卻缺乏一個統(tǒng)一的理論框架來理解它們之間的聯(lián)系。

I-Con(Information Contrastive Learning,信息對比學(xué)習(xí))就像是機(jī)器學(xué)習(xí)領(lǐng)域的"元素周期表",首次將23種常見的表示學(xué)習(xí)方法統(tǒng)一到一個簡單而優(yōu)雅的數(shù)學(xué)公式中。從聚類到降維,從有監(jiān)督學(xué)習(xí)到無監(jiān)督學(xué)習(xí),從單模態(tài)到多模態(tài)方法,I-Con展示了這些看似不同的方法實(shí)際上是同一個基本原理的變體。

傳統(tǒng)上,機(jī)器學(xué)習(xí)中的表示學(xué)習(xí)方法被劃分為不同的類別,研究人員在各自的"孤島"上工作,很少有跨領(lǐng)域的交流。例如,t-SNE是用于可視化的降維方法,而SimCLR是用于對比學(xué)習(xí)的方法,兩者看似風(fēng)馬牛不相及。但研究團(tuán)隊(duì)發(fā)現(xiàn),這些方法實(shí)際上都在優(yōu)化同一個目標(biāo):最小化兩個條件概率分布之間的KL散度。

二、一個公式統(tǒng)治所有方法

I-Con的核心思想非常簡潔:所有表示學(xué)習(xí)方法都可以歸結(jié)為一個單一的信息論方程。這個方程是什么呢?想象你有一堆數(shù)據(jù)點(diǎn),比如一組圖片。對于每一張圖片,你都想知道它與其他圖片之間的"鄰居關(guān)系"。

在I-Con框架中,有兩種分布來描述這種鄰居關(guān)系:

一個"監(jiān)督分布",告訴我們理想情況下哪些數(shù)據(jù)點(diǎn)應(yīng)該被視為鄰居(例如,同一類別的圖片或同一圖片的不同增強(qiáng)版本)。
一個"學(xué)習(xí)分布",基于當(dāng)前學(xué)到的特征表示來判斷哪些數(shù)據(jù)點(diǎn)應(yīng)該被視為鄰居。

I-Con的核心公式非常簡單:

L(θ, φ) = 對所有數(shù)據(jù)點(diǎn)i求和[ KL散度(pθ(·|i) || qφ(·|i)) ]

其中pθ(j|i)表示在監(jiān)督信號下,點(diǎn)j是點(diǎn)i的鄰居的概率;qφ(j|i)表示在學(xué)習(xí)到的表示下,點(diǎn)j是點(diǎn)i的鄰居的概率。這個公式的核心思想是:我們希望學(xué)習(xí)到的鄰居關(guān)系盡可能接近理想的監(jiān)督鄰居關(guān)系。

這就像是教一個孩子認(rèn)識水果:你告訴他"蘋果和梨子很像,但蘋果和香蕉不太像"(這是監(jiān)督信號),然后孩子嘗試學(xué)習(xí)一種方法來判斷水果的相似性(這是學(xué)習(xí)到的表示),使得他的判斷盡可能接近你教給他的知識。

三、表示學(xué)習(xí)方法大統(tǒng)一

I-Con最令人驚訝的地方在于,通過選擇不同類型的監(jiān)督分布和學(xué)習(xí)分布,我們可以重新創(chuàng)造出許多經(jīng)典的表示學(xué)習(xí)方法。這就像是用同一套基本元素組合出不同的分子。

降維方法

以經(jīng)典的降維方法SNE(隨機(jī)鄰居嵌入)為例,它的目標(biāo)是將高維數(shù)據(jù)降低到低維空間,同時保持點(diǎn)與點(diǎn)之間的鄰居關(guān)系。在I-Con框架下,SNE的監(jiān)督分布是基于原始高維空間中的距離的高斯分布,而學(xué)習(xí)分布是基于降維空間中的距離的高斯分布。

想象你在嘗試?yán)L制一張世界地圖:原始的地球是三維的(高維空間),而地圖是二維的(低維空間)。SNE就像是一種方法,確保地圖上彼此接近的國家在現(xiàn)實(shí)世界中也是鄰國。

t-SNE是SNE的改進(jìn)版本,它將學(xué)習(xí)分布從高斯分布改為t分布(一種"尾部更重"的分布),這樣可以更好地處理"擁擠問題",就像在擁擠的城市地圖上為每個地標(biāo)提供足夠的空間。在I-Con框架下,這只是簡單地更改了分布類型。

PCA(主成分分析)是另一種常見的降維方法,在I-Con框架下,它相當(dāng)于使用特殊的監(jiān)督分布(每個點(diǎn)只與自己是鄰居)和特殊的學(xué)習(xí)分布(方差無限大的高斯分布)。

對比學(xué)習(xí)方法

對比學(xué)習(xí)是近年來自監(jiān)督學(xué)習(xí)的主流方法,它學(xué)習(xí)的表示能使相似的樣本在特征空間中接近,不相似的樣本遠(yuǎn)離。

以SimCLR為例,它的監(jiān)督分布告訴我們:一張圖片的不同增強(qiáng)版本應(yīng)該被視為鄰居,而其他圖片則不是。學(xué)習(xí)分布則基于特征空間中的余弦相似度計算鄰居關(guān)系。在I-Con框架下,這只是選擇了特定的監(jiān)督分布和學(xué)習(xí)分布。

想象一下,你在教一個人識別不同的狗品種。你告訴他:"這兩張照片雖然角度不同,但都是同一只金毛犬"(這是監(jiān)督信號)。然后他學(xué)習(xí)一種方法,根據(jù)照片的特征來判斷兩張照片是否是同一只狗(這是學(xué)習(xí)到的表示)。

SupCon(有監(jiān)督對比學(xué)習(xí))與SimCLR類似,但它的監(jiān)督分布不僅考慮增強(qiáng)版本,還考慮同一類別的樣本都應(yīng)該是鄰居。這就像告訴學(xué)生:"所有的金毛犬照片都應(yīng)該歸為一類,與拉布拉多的照片區(qū)分開來。"

CLIP是一種跨模態(tài)對比學(xué)習(xí)方法,將圖像和文本聯(lián)系起來。在I-Con框架下,它的監(jiān)督分布定義了圖像-文本對的鄰居關(guān)系,而學(xué)習(xí)分布則基于圖像和文本嵌入之間的相似度。

聚類方法

聚類是無監(jiān)督學(xué)習(xí)的核心任務(wù),目標(biāo)是將相似的數(shù)據(jù)點(diǎn)分組到一起。

K-Means是最基本的聚類算法,在I-Con框架下,它的監(jiān)督分布基于數(shù)據(jù)點(diǎn)之間的距離,而學(xué)習(xí)分布基于數(shù)據(jù)點(diǎn)與聚類中心的關(guān)系。當(dāng)一個點(diǎn)被分配到某個聚類中心時,它與該聚類中的所有其他點(diǎn)都被視為鄰居。

這就像是將一群陌生人分組:監(jiān)督信號告訴我們哪些人之間有相似的興趣(基于他們填寫的問卷),而學(xué)習(xí)到的分組則嘗試讓相似興趣的人在同一個小組中。

譜聚類是K-Means的改進(jìn)版本,它首先構(gòu)建一個圖,其中點(diǎn)之間的邊基于相似度,然后在這個圖上進(jìn)行聚類。在I-Con框架下,這相當(dāng)于使用基于圖結(jié)構(gòu)的監(jiān)督分布。

有監(jiān)督學(xué)習(xí)方法

最后,I-Con也可以表示傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法,如交叉熵?fù)p失。在這種情況下,監(jiān)督分布是基于類別標(biāo)簽的,而學(xué)習(xí)分布是基于模型預(yù)測的類別概率。

想象你在教一個學(xué)生識別動物:你給他看一張獅子的照片,告訴他"這是獅子"(監(jiān)督信號)。然后學(xué)生嘗試學(xué)習(xí)一種方法來預(yù)測照片中的動物類別(學(xué)習(xí)到的表示),使得他的預(yù)測盡可能接近正確答案。

四、I-Con的實(shí)際應(yīng)用:提升無監(jiān)督圖像分類性能

I-Con不僅僅是一個理論框架,研究團(tuán)隊(duì)還展示了如何利用這個框架來改進(jìn)現(xiàn)有的方法,特別是無監(jiān)督圖像分類。

通過分析不同方法在I-Con框架下的聯(lián)系,研究人員發(fā)現(xiàn)了一種稱為"去偏置"的技術(shù),可以顯著提高無監(jiān)督圖像分類的性能。

所謂"去偏置",可以想象成是給每個數(shù)據(jù)點(diǎn)一個"意外交友"的機(jī)會。在傳統(tǒng)的對比學(xué)習(xí)中,我們明確定義哪些樣本是正樣本(鄰居),哪些是負(fù)樣本(非鄰居)。但這種硬性劃分可能會導(dǎo)致問題,因?yàn)橛行┍粯?biāo)記為負(fù)樣本的實(shí)際上可能應(yīng)該是正樣本,只是我們不知道而已。

研究團(tuán)隊(duì)提出了兩種去偏置方法:

統(tǒng)一分布去偏置:給每個"非鄰居"一個小概率,使其可能成為鄰居。這就像是在社交活動中,即使有些人看起來毫無共同點(diǎn),我們也給他們一個相互了解的機(jī)會。

鄰居傳播去偏置:通過圖結(jié)構(gòu)的隨機(jī)游走來擴(kuò)展鄰居定義。這就像是"朋友的朋友也可能是朋友"的思想。

通過實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)這些去偏置方法可以顯著提高ImageNet-1K數(shù)據(jù)集上的無監(jiān)督圖像分類性能,比之前最好的方法TEMI提高了8%。這種改進(jìn)在不同大小的模型上都是一致的,表明這種方法具有普遍性。

五、I-Con的意義與未來展望

I-Con框架的提出不僅僅是學(xué)術(shù)上的進(jìn)步,它還有深遠(yuǎn)的實(shí)踐意義。

首先,它讓我們更深入地理解現(xiàn)有的表示學(xué)習(xí)方法,揭示了它們之間的聯(lián)系。就像元素周期表幫助化學(xué)家預(yù)測新元素的性質(zhì)一樣,I-Con也可以幫助研究人員預(yù)測新方法的性能和特性。

其次,它為方法的改進(jìn)和創(chuàng)新提供了明確的路徑。研究人員可以通過更改監(jiān)督分布或?qū)W習(xí)分布,或者組合不同方法的優(yōu)點(diǎn),來創(chuàng)造新的表示學(xué)習(xí)算法。這就像是通過組合不同的樂高積木來創(chuàng)造新的結(jié)構(gòu)。

最后,I-Con還促進(jìn)了不同領(lǐng)域之間的知識交流。以前,聚類、降維和對比學(xué)習(xí)等領(lǐng)域往往各自為政,很少有跨領(lǐng)域的合作?,F(xiàn)在,I-Con提供了一個統(tǒng)一的語言,讓這些領(lǐng)域可以互相借鑒。

在未來,研究團(tuán)隊(duì)計劃進(jìn)一步擴(kuò)展I-Con框架,將更多的表示學(xué)習(xí)方法納入其中,并探索新的監(jiān)督分布和學(xué)習(xí)分布組合。他們還計劃將I-Con應(yīng)用于更多的實(shí)際問題,如跨模態(tài)學(xué)習(xí)、時序數(shù)據(jù)分析等。

結(jié)論

歸根結(jié)底,I-Con為表示學(xué)習(xí)領(lǐng)域帶來了一場小型革命。通過將眾多看似不同的方法統(tǒng)一到一個簡單的信息論框架中,它不僅加深了我們對這些方法的理解,還為創(chuàng)造新方法和改進(jìn)現(xiàn)有方法提供了清晰的路徑。

就像物理學(xué)家夢想的"萬物理論"一樣,I-Con向我們展示了表示學(xué)習(xí)中的基本原理,揭示了看似復(fù)雜多樣的方法背后的簡單統(tǒng)一性。對于普通人來說,這意味著更好的圖像識別、更準(zhǔn)確的推薦系統(tǒng)、更智能的虛擬助手——這些都依賴于高質(zhì)量的表示學(xué)習(xí)。

如果你對這項(xiàng)研究感興趣,可以通過論文鏈接https://aka.ms/i-con查看完整論文,或者關(guān)注作者團(tuán)隊(duì)的后續(xù)工作。表示學(xué)習(xí)的統(tǒng)一理論仍在發(fā)展中,而I-Con無疑是這一旅程中的重要里程碑。