打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:英智

【新智元導(dǎo)讀】研究揭示早融合架構(gòu)在低計算預(yù)算下表現(xiàn)更優(yōu),訓(xùn)練效率更高。混合專家(MoE)技術(shù)讓模型動態(tài)適應(yīng)不同模態(tài),顯著提升性能,堪稱多模態(tài)模型的秘密武器。

如今,打造強(qiáng)大的多模態(tài)模型是AI領(lǐng)域的重要目標(biāo)。

一種常用方法是把單獨(dú)預(yù)訓(xùn)練好的模型組合起來,比如把訓(xùn)練好的視覺編碼器連接到LLM的輸入層,再進(jìn)行多模態(tài)訓(xùn)練。

然而,單模態(tài)預(yù)訓(xùn)練可能會帶來一些偏差,影響模型對不同模態(tài)之間相互依賴關(guān)系的學(xué)習(xí)。

且每個單模態(tài)組件都有自己的超參數(shù)、預(yù)訓(xùn)練數(shù)據(jù)和縮放屬性,給系統(tǒng)擴(kuò)展增加了不少難度。

研究人員把希望寄托在了原生多模態(tài)模型(NMM)上,NMM是在所有模態(tài)上同時從頭開始訓(xùn)練的。

這種全新的訓(xùn)練方式能不能突破現(xiàn)有的困境,讓模型性能更上一層樓呢?

來自法國索邦大學(xué)、蘋果的研究人員開展了原生多模態(tài)Scaling Laws的研究,表明早融合優(yōu)于后融合,多模態(tài)MoE好于密集模型。

打開網(wǎng)易新聞 查看精彩圖片

論文鏈接:https://arxiv.org/abs/2504.07951

研究表明,后融合架構(gòu)相較于不依賴圖像編碼器的早融合架構(gòu),并沒有固有優(yōu)勢。

早融合架構(gòu)在參數(shù)數(shù)量較少時,性能更強(qiáng),訓(xùn)練效率更高,部署起來也更容易。

引入混合專家(MoE)技術(shù),能讓模型學(xué)到特定模態(tài)的權(quán)重,進(jìn)而大幅提升性能。

研究成果總結(jié)如下:

原生早融合與后融合性能相當(dāng):從零開始訓(xùn)練的早融合模型與后融合模型性能相當(dāng),在計算預(yù)算較低時,早融合模型略有優(yōu)勢。

打開網(wǎng)易新聞 查看精彩圖片

此外,Scaling Law研究表明,隨著計算預(yù)算的增加,早融合和后融合的計算最優(yōu)模型性能相似(圖1-左)。

打開網(wǎng)易新聞 查看精彩圖片

原生多模態(tài)模型(NMM)Scaling Law與LLM相似:原生多模態(tài)模型的擴(kuò)展規(guī)律與純文本LLM相似,擴(kuò)展指數(shù)因目標(biāo)數(shù)據(jù)類型和訓(xùn)練混合比例略有變化。

打開網(wǎng)易新聞 查看精彩圖片

后融合需要更多參數(shù):與早融合相比,計算最優(yōu)的后融合模型需要更高的參數(shù)-數(shù)據(jù)比(圖1-右)。

稀疏性顯著提升早融合NMM性能:在相同推理成本下,稀疏NMM相較于密集模型有顯著改進(jìn)。

打開網(wǎng)易新聞 查看精彩圖片

此外,稀疏訓(xùn)練的模型會隱式學(xué)習(xí)模態(tài)特定權(quán)重。

隨著計算預(yù)算增加,計算最優(yōu)模型更依賴于增加訓(xùn)練token數(shù)量,而非活躍參數(shù)數(shù)量(圖1-右)。

對于稀疏NMM,模態(tài)無關(guān)路由優(yōu)于模態(tài)感知路由:在稀疏專家混合模型中,使用模態(tài)無關(guān)路由訓(xùn)練的性能始終優(yōu)于采用模態(tài)感知路由的模型。

打開網(wǎng)易新聞 查看精彩圖片

原生多模態(tài)Scaling Law

為深入了解原生多模態(tài)模型的性能表現(xiàn),研究人員引入了Scaling Law的概念。

通過計算模型的浮點(diǎn)運(yùn)算次數(shù)(FLOPs)來衡量計算量的大小,并且假設(shè)模型最終的損失和模型的大?。ㄓ脜?shù)數(shù)量N來表示)以及訓(xùn)練token的數(shù)量(D)之間存在一種冪律關(guān)系:

E代表在數(shù)據(jù)集上可達(dá)到的最低損失,表示增加模型參數(shù)數(shù)量對損失的影響,一般來說,模型參數(shù)越多,損失就會越低,α是控制這種變化速度的,體現(xiàn)了增加訓(xùn)練token數(shù)量帶來的好處,β決定了其增長速度。

同時,研究人員還發(fā)現(xiàn)計算預(yù)算(FLOPs)和N、D之間存在線性關(guān)系。

早融合和后融合模型的Scaling Law。

圖2(左)呈現(xiàn)了早融合的NMM在多模態(tài)交織、圖像-描述以及文本這三類數(shù)據(jù)集上的平均最終損失。

打開網(wǎng)易新聞 查看精彩圖片

可以看到,其最低損失的變化趨勢遵循著與浮點(diǎn)運(yùn)算次數(shù)(FLOPs)相關(guān)的冪律關(guān)系。通過對這一規(guī)律進(jìn)行擬合,得到表達(dá)式

反映出隨著計算量的增加,模型性能提升的速度。

在分析不同數(shù)據(jù)類型(如圖像字幕、交錯、文本)時,觀察到指數(shù)有所不同。

打開網(wǎng)易新聞 查看精彩圖片

與交錯文檔相比,模型在圖像字幕數(shù)據(jù)上實現(xiàn)了更高的性能提升速率。

圖2(右)后融合模型中,觀察到損失Scaling指數(shù)與早融合幾乎相同。

研究人員采用了457個具有不同架構(gòu)和訓(xùn)練混合方式的訓(xùn)練模型,模型的參數(shù)量從0.3B到4B。

他們還調(diào)整了訓(xùn)練token的數(shù)量,同時改變訓(xùn)練數(shù)據(jù)的混合方式,以此來全面探究各種因素對模型性能的影響。

研究人員采用了自回歸Transformer架構(gòu),搭配SwiGLU前饋網(wǎng)絡(luò)和QK-Norm技術(shù),還使用了像bfloat16、全分片數(shù)據(jù)并行(FSDP)、激活檢查點(diǎn)和梯度累積等多種優(yōu)化方法,讓訓(xùn)練更高效。

早融合優(yōu)勢盡顯

在低計算預(yù)算(模型規(guī)模較?。┑那闆r下,早融合模型略勝一籌。

隨著計算預(yù)算的增加,雖然兩種模型的性能逐漸接近,但早融合模型在訓(xùn)練效率上具有明顯優(yōu)勢。

打開網(wǎng)易新聞 查看精彩圖片

對比NMM和僅基于文本的LLM(如GPT-3、Chinchilla)的Scaling Law系數(shù),會發(fā)現(xiàn)它們處于相似范圍。

早融合與后融合NMM的計算最優(yōu)權(quán)衡。雖然后融合和早融合模型隨著FLOPs增加,損失降低的速度相近。

在縮放FLOPs時,早融合模型的參數(shù)數(shù)量明顯更少,這對降低推理成本很關(guān)鍵,部署后也能降低服務(wù)成本。

在計算資源相同的情況下,早融合模型不僅占用的內(nèi)存更少,訓(xùn)練速度也更快。

當(dāng)計算量增大時,這種優(yōu)勢愈發(fā)顯著。這說明早融合在保持相當(dāng)?shù)拇笠?guī)模訓(xùn)練時性能時,還具備超高的訓(xùn)練效率。

打開網(wǎng)易新聞 查看精彩圖片

值得注意,在相同的FLOPs下,與早融合模型相比,后融合模型具有更高的參數(shù)量和有效深度。

不同數(shù)據(jù)混合的Scaling Law

圖4表明不同的數(shù)據(jù)混合方式在模型訓(xùn)練中呈現(xiàn)出相似的縮放趨勢,不過它們的縮放系數(shù)存在差異(表4)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

有趣的是,增加圖像字幕數(shù)據(jù)的比例(混合方式1和2)會導(dǎo)致a值降低和b值升高,而增加交錯和文本數(shù)據(jù)的比例(混合方式3和4)會產(chǎn)生相反的效果。

圖像說明數(shù)據(jù)中,圖像token占比高于文本token。因此,提高圖像說明數(shù)據(jù)的比例會增加圖像token數(shù)量,而增加多模態(tài)交織數(shù)據(jù)或文本數(shù)據(jù)的比例則會提升文本token數(shù)量。

這表明,當(dāng)圖像token占主導(dǎo)時,訓(xùn)練時間越長,損失下降越快,增加模型規(guī)模會進(jìn)一步加速這一過程。

對于固定的模型大小,增加純文本和交錯數(shù)據(jù)的比例有利于早融合模型。

打開網(wǎng)易新聞 查看精彩圖片

原生多模態(tài)預(yù)訓(xùn)練與LLM的持續(xù)訓(xùn)練

對比兩種訓(xùn)練方式:一種是從頭開始進(jìn)行原生訓(xùn)練,另一種是先用預(yù)訓(xùn)練的LLM進(jìn)行初始化,再持續(xù)訓(xùn)練。

實驗用的初始模型是DCLM-1B,它在超過2T個token的數(shù)據(jù)上完成了訓(xùn)練。

隨著訓(xùn)練時間的延長,NMM和經(jīng)過初始化的模型之間的差距會逐漸縮小。

打開網(wǎng)易新聞 查看精彩圖片

具體來說,在圖像字幕數(shù)據(jù)上,模型需要不到100B個多模態(tài)token就能達(dá)到可比的性能。

然而,在交錯和文本數(shù)據(jù)上,模型可能需要更長的訓(xùn)練時間(多達(dá)1T token)。

考慮到預(yù)訓(xùn)練的成本,為了實現(xiàn)相同的性能,原生多模態(tài)訓(xùn)練可能是更有效的方法。

多模態(tài)專業(yè)化:MoE的妙用

早融合模型在很多方面表現(xiàn)出色,但多模態(tài)數(shù)據(jù)的異構(gòu)性仍然是一個挑戰(zhàn)。

為了讓模型更好地處理這種異構(gòu)數(shù)據(jù),研究人員引入了專家混合(MoE)技術(shù)。

MoE技術(shù)允許模型在不同模態(tài)之間動態(tài)分配專門的參數(shù),以更好地適應(yīng)多模態(tài)數(shù)據(jù)的特點(diǎn)。

實驗結(jié)果顯示,在相同推理成本下,MoE模型的表現(xiàn)明顯好于密集模型,尤其是在模型較小時,優(yōu)勢更為明顯。

這說明MoE架構(gòu)在處理異構(gòu)數(shù)據(jù)時更高效,還能針對不同模態(tài)進(jìn)行專門處理。

打開網(wǎng)易新聞 查看精彩圖片

為了驗證前面通過驗證損失得到的結(jié)論在實際應(yīng)用中的有效性,研究人員在下游任務(wù)上進(jìn)行了評估。

他們在LLaVA混合數(shù)據(jù)上進(jìn)行了多模態(tài)指令調(diào)整階段(SFT),并在多個視覺問答(VQA)和圖像字幕任務(wù)中測試了模型的性能。

打開網(wǎng)易新聞 查看精彩圖片

結(jié)果再次證實了之前的發(fā)現(xiàn):早融合模型優(yōu)于后融合模型,采用MoE的模型優(yōu)于密集模型

不過,由于實驗中的模型相對較?。?.5B),并且是從頭開始訓(xùn)練并在小數(shù)據(jù)集上微調(diào),總體分?jǐn)?shù)與當(dāng)前最先進(jìn)的模型還有一定差距。

但這也為后續(xù)的研究指明了方向,即通過進(jìn)一步優(yōu)化模型規(guī)模、訓(xùn)練數(shù)據(jù)和微調(diào)策略,有望提升模型在實際任務(wù)中的表現(xiàn)。

參考資料:

https://www.alphaxiv.org/overview/2504.07951