機器之心報道
編輯:澤南、Panda
讓大模型進(jìn)入多模態(tài)模式,從而能夠有效感知世界,是最近 AI 領(lǐng)域里人們一直的探索目標(biāo)。
目前我們見到的很多多模態(tài)大模型應(yīng)用是「組合式」的:其中集成了數(shù)個單獨預(yù)訓(xùn)練的組件,例如將視覺編碼器連接到 LLM 上并繼續(xù)進(jìn)行多模態(tài)訓(xùn)練;而在谷歌 Gemin 2.0 推出之后,原生多模態(tài)模型(NMM)被認(rèn)為是正確的方向。
但從零開始訓(xùn)練的多模態(tài)大模型真的是更好的方法嗎?近日,來自法國索邦大學(xué)、蘋果的研究者進(jìn)行了一項廣泛的 Scaling Laws 研究,涵蓋了 457 個采用不同架構(gòu)和訓(xùn)練方式的模型。
研究表明,不依賴圖像編碼器的早融合架構(gòu)與后融合架構(gòu)相比并沒有固有優(yōu)勢。不過,早融合在較低的參數(shù)數(shù)量下表現(xiàn)出更強的性能,訓(xùn)練效率更高,并且更易于部署。受早融合架構(gòu)強大性能的啟發(fā),實驗表明,結(jié)合混合專家 (MoE) 可以使模型學(xué)習(xí)特定于模態(tài)的權(quán)重,從而顯著提升性能。

論文標(biāo)題:Scaling Laws for Native Multimodal Models
論文地址:https://arxiv.org/abs/2504.07951
研究人員的發(fā)現(xiàn)可以概括如下:原生早融合和后融合模型的性能相當(dāng),從零開始訓(xùn)練的早融合模型性能與后融合模型性能相當(dāng),在計算預(yù)算較低的情況下,略優(yōu)于早融合模型。此外,對于多模態(tài) Scaling Laws 的研究表明,隨著計算預(yù)算的增加,早融合和后融合的計算最優(yōu)模型性能相似。

NMM 的Scaling Law與 LLM 類似:原生多模態(tài)模型的 Scaling Law 遵循與純文本 LLM 類似的規(guī)律,scaling 指數(shù)根據(jù)目標(biāo)數(shù)據(jù)類型和訓(xùn)練組合略有不同。
與此同時,后融合的模型需要更多參數(shù):與早融合相比,計算最優(yōu)的后融合模型需要更高的參數(shù)與數(shù)據(jù)比(見圖 1 右)。

再往下,稀疏性顯著有利于早融合的 NMM:在相同的推理成本下,稀疏 NMM 與密集 NMM 相比表現(xiàn)出顯著的改進(jìn)。
在稀疏性訓(xùn)練中,它們會隱式學(xué)習(xí)特定于模態(tài)的權(quán)重(圖 23)。此外,隨著計算預(yù)算的增長,計算優(yōu)化模型更多地依賴于訓(xùn)練 token 數(shù)量的擴(kuò)展,而不是活動參數(shù)的數(shù)量(圖 1 右)。

對于稀疏 NMM,模態(tài)無關(guān)路由優(yōu)于模態(tài)感知路由:使用模態(tài)無關(guān)路由訓(xùn)練稀疏混合專家模型,其性能始終優(yōu)于使用模態(tài)感知路由的模型(圖 11)。

原生多模態(tài)模型的 scaling 屬性
下面具體展示原生多模態(tài)模型的 Scaling Laws。該團(tuán)隊研究了多種架構(gòu)選擇、不同的數(shù)據(jù)混合方式、早融合和后融合 NMM 之間的實際權(quán)衡、NMM 的原生預(yù)訓(xùn)練和持續(xù)預(yù)訓(xùn)練的性能表現(xiàn)。
NMM 的 Scaling Laws
早融合和后融合模型的 Scaling Laws。
圖 2 左圖展示了早融合 NMM 在多模態(tài)交織數(shù)據(jù)集、圖像 - 描述數(shù)據(jù)集和文本數(shù)據(jù)集上的平均最終損失。其最低損失邊界遵循與 FLOPs 的冪律關(guān)系。擬合該冪律可得出表達(dá)式 L ∝ C^?0.049,這指示了隨著計算量的增加,性能提升的速率。

擬合該冪律可得出表達(dá)式 L ∝ C^?0.049,這指示了隨著計算量的增加,性能提升的速率。
分析每種數(shù)據(jù)類型(例如,圖像 - 說明、多模態(tài)交織的文檔、文本)的 Scaling Laws 時,可以觀察到指數(shù)會發(fā)生變化(表 3)。例如,與多模態(tài)交織(L ∝ C^?0.046)相比,該模型在圖像說明數(shù)據(jù)(L ∝ C^?0.061)上實現(xiàn)了更高的性能提升。

為了將損失建模為訓(xùn)練 token 數(shù)量 D 和模型參數(shù) N 的函數(shù),他們還擬合了以下參數(shù)函數(shù),得到了 scaling 指數(shù) α = 0.301 和 β = 0.335。它們分別描述了 scaling 模型參數(shù)和訓(xùn)練 token 數(shù)量時的性能提升率。

該團(tuán)隊假設(shè)計算量、N 和 D 之間存在線性關(guān)系(即 C ∝ N D),推導(dǎo)出了模型參數(shù)與計算預(yù)算之間的相關(guān)規(guī)律,詳見原論文附錄 C。簡單來說,對于給定的計算預(yù)算 C,以對數(shù)間隔的 D 值計算相應(yīng)的模型大小 N,并確定使損失最小化的參數(shù)數(shù)量 N_opt。對不同的 FLOPs 值重復(fù)此操作,可得到一個 (C, N_opt) 數(shù)據(jù)集,該團(tuán)隊對其擬合了一個冪律,可預(yù)測計算最優(yōu)模型大小與計算量的關(guān)系:N ? ∝ C^0.526。
類似地,他們也擬合了估計計算最優(yōu)訓(xùn)練數(shù)據(jù)集大小與計算量和模型大小的關(guān)系:

這些關(guān)系可讓實踐者在給定固定計算預(yù)算的情況下確定最佳模型和數(shù)據(jù)集大小。在根據(jù)數(shù)據(jù)類型分析時,該團(tuán)隊發(fā)現(xiàn)與圖像說明數(shù)據(jù) (a = 0.520) 相比,多模態(tài)交織數(shù)據(jù)可從較大的模型 (a = 0.532) 中獲益更多,而訓(xùn)練 token 則呈現(xiàn)相反的趨勢。
該團(tuán)隊在圖 2(右)中對后融合模型進(jìn)行了類似的研究,并觀察到了類似的 scaling 行為。具體而言,損失 scaling 指數(shù) (c = ?0.0494) 與早融合 (c = ?0.0492) 幾乎相同。這一趨勢在圖 3 中顯而易見,在較小的模型規(guī)模下,早融合的表現(xiàn)優(yōu)于后融合,而在較大的模型規(guī)模下,兩種架構(gòu)的性能收斂到相似的水平。在改變后融合配置時,該團(tuán)隊也觀察到了類似的趨勢,例如使用較小的視覺編碼器和較大的文本解碼器。

NMM 和 LLM 的 Scaling Laws 比較。
通過比較 NMM 的 scaling laws 系數(shù)與純文本 LLM(例如 GPT-3、Chinchilla)的 scaling laws 系數(shù),該團(tuán)隊發(fā)現(xiàn)它們處于相似的范圍內(nèi)。
具體來說,如果將損失看作計算量的函數(shù),GPT-3 遵循 L ∝ C^?0.048,而該團(tuán)隊的模型遵循 L ∝ C^?0.049,這表明 NMM 的性能遵循與 LLM 類似的 scaling 規(guī)律。同樣,該團(tuán)隊對 α 和 β 參數(shù)的估計值 (α = 0.301, β = 0.335) 與 Hoffmann 等人報告的值 (α = 0.339, β = 0.285) 非常接近。同樣,該團(tuán)隊計算出的 a = 0.526 和 b = 0.473 與 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。
這表明:對于原生多模態(tài)模型,訓(xùn)練 token 的數(shù)量和模型參數(shù)應(yīng)按比例 scaling。然而,由于 a 和 b 之間的差距小于 LLM,因此這一原則對于 NMM 更為適用。此外,由于在該團(tuán)隊的案例中 a = 0.526 大于 b = 0.473,因此在計算預(yù)算固定的情況下,NMM 的最佳模型大小大于 LLM,而最佳訓(xùn)練 token 數(shù)量則較低。
早融合與后融合 NMM 的計算優(yōu)化權(quán)衡。
雖然后融合和早融合模型的損失會隨著 FLOP 的增加以相似的速率降低,但該團(tuán)隊觀察到它們的計算優(yōu)化模型中存在明顯的權(quán)衡。具體而言,后融合模型的 N_opt 較大,而早融合模型的 D_opt 較大。這表明,在計算預(yù)算固定的情況下,后融合模型需要更多參數(shù),而早融合模型則受益于更多訓(xùn)練 token。

早融合的訓(xùn)練效率更高。
該團(tuán)隊比較了后融合和早融合架構(gòu)的訓(xùn)練效率。如圖 5 所示,在相同的計算預(yù)算下,早融合模型消耗的內(nèi)存更少,訓(xùn)練速度更快。隨著計算量的增加,這一優(yōu)勢更加明顯,這表明:早融合在保持與后融合相當(dāng)?shù)拇笠?guī)模性能的同時,擁有卓越的訓(xùn)練效率。

值得注意的是,在相同的 FLOPs 下,與早融合模型相比,后融合模型具有更高的參數(shù)數(shù)量和更高的有效深度(即除了解碼器層之外還增加了額外的視覺編碼器層)。
不同數(shù)據(jù)混合方式的 Scaling Laws
圖 4 展示了不同的混合方式都遵循相似的 scaling 趨勢;然而,scaling 系數(shù)會有差別(表 4)。有趣的是,增加圖像 - 說明數(shù)據(jù)的比例(mixtures 1 和 2)會導(dǎo)致 a 降低、b 升高,而增加多模態(tài)交織數(shù)據(jù)和文本數(shù)據(jù)的比例(mixtures 3 和 4)則會產(chǎn)生相反的效果。


值得注意的是,圖像說明數(shù)據(jù)包含的圖像 token 比文本 token 多;因此,增加其比例會導(dǎo)致圖像 token 增多,而增加多模態(tài)交織數(shù)據(jù)和文本數(shù)據(jù)的比例會增加文本 token 的數(shù)量。這表明,當(dāng)圖像 token 占主導(dǎo)地位時,訓(xùn)練時間越長,損失的降低速度就越快,而增加模型大小則更快。
該團(tuán)隊還發(fā)現(xiàn),對于固定的模型大小,增加純文本和多模態(tài)交織數(shù)據(jù)的比例有利于早融合(圖 6)。

原生多模態(tài)預(yù)訓(xùn)練 vs. LLM 的持續(xù)訓(xùn)練
下面比較這兩種情況:從零開始進(jìn)行原生訓(xùn)練,以及使用預(yù)訓(xùn)練的 LLM 進(jìn)行初始化后再進(jìn)行持續(xù)訓(xùn)練。
這里使用的初始模型是 DCLM-1B,該模型已使用超過 2T 個 token 進(jìn)行訓(xùn)練。圖 8 表明,當(dāng)訓(xùn)練時間更長時,原生多模態(tài)模型可以縮小與初始化模型的差距。

具體而言,在圖像說明數(shù)據(jù)上,該模型需要不到 100B 個多模態(tài) token 即可達(dá)到相當(dāng)?shù)男阅?。然而,在多模態(tài)交織數(shù)據(jù)和文本數(shù)據(jù)上,該模型可能需要更長時間的訓(xùn)練 —— 可多達(dá) 1T 個 token??紤]到預(yù)訓(xùn)練的成本,這些結(jié)果表明,為了在多模態(tài)基準(zhǔn)測試中實現(xiàn)相同性能,原生訓(xùn)練可能是更有效方法。
邁向多模態(tài)專業(yè)化
研究證明了在固定計算預(yù)算下,早融合模型的性能與后融合模型相當(dāng)。然而,多模態(tài)數(shù)據(jù)本質(zhì)上是異構(gòu)的,訓(xùn)練一個統(tǒng)一的模型來擬合如此多樣化的分布可能并非最優(yōu)方案。
因此研究人員主張在統(tǒng)一架構(gòu)內(nèi)進(jìn)行多模態(tài)特化。理想情況下,模型應(yīng)該隱式地適應(yīng)每種模態(tài),例如,通過學(xué)習(xí)特定于模態(tài)的權(quán)重或?qū)iT的專家。多模態(tài)模型 + MoE 是一個有潛力的方向,MoE 已在 LLM 中證明了其有效性。
研究觀察了不同數(shù)量活動參數(shù)、不同數(shù)量 token 訓(xùn)練的模型,比較了稀疏 MoE 模型和密集 MoE 模型。圖 9 顯示,在相同的推理成本(或活動參數(shù)數(shù)量)下,MoE 的性能顯著優(yōu)于密集模型。有趣的是,這種性能差距在模型規(guī)模較小時更為明顯。這表明 MoE 能夠使模型更有效地處理異構(gòu)數(shù)據(jù),并專注于不同的模態(tài)。然而,隨著密集模型規(guī)模變得足夠大,兩種架構(gòu)之間的差距會逐漸縮小。

先前關(guān)于大模型 Scaling Laws 的研究主要觀察驗證損失,這種評估與下游任務(wù)的表現(xiàn)有很好的相關(guān)性。為了驗證這一點,研究人員對 LLaVA 混合模型進(jìn)行了多模態(tài)指令調(diào)整階段 (SFT),并報告了其在多個 VQA 和字幕任務(wù)中的準(zhǔn)確率和 CIDEr 得分。表 7 證實了不同模型配置的排名。

具體而言,早融合優(yōu)于后融合,而多模態(tài) MoE 優(yōu)于密集模型。然而,由于這些模型規(guī)模相對較小(15 億規(guī)模)、從零開始訓(xùn)練,并在小型數(shù)據(jù)集上進(jìn)行微調(diào),因此總體得分低于目前的 SOTA 水平。
更多細(xì)節(jié)可參看論文原文。
熱門跟貼