国产传媒天美一区二区三区,国产美女被强遭的免费网站,制服丝袜av播放,黑丝丝袜性感图片,黄色仓库网址在线观看

機器之心報道

編輯：澤南、Panda

讓大模型進(jìn)入多模態(tài)模式，從而能夠有效感知世界，是最近 AI 領(lǐng)域里人們一直的探索目標(biāo)。

目前我們見到的很多多模態(tài)大模型應(yīng)用是「組合式」的：其中集成了數(shù)個單獨預(yù)訓(xùn)練的組件，例如將視覺編碼器連接到 LLM 上并繼續(xù)進(jìn)行多模態(tài)訓(xùn)練；而在谷歌 Gemin 2.0 推出之后，原生多模態(tài)模型（NMM）被認(rèn)為是正確的方向。

但從零開始訓(xùn)練的多模態(tài)大模型真的是更好的方法嗎？近日，來自法國索邦大學(xué)、蘋果的研究者進(jìn)行了一項廣泛的 Scaling Laws 研究，涵蓋了 457 個采用不同架構(gòu)和訓(xùn)練方式的模型。

研究表明，不依賴圖像編碼器的早融合架構(gòu)與后融合架構(gòu)相比并沒有固有優(yōu)勢。不過，早融合在較低的參數(shù)數(shù)量下表現(xiàn)出更強的性能，訓(xùn)練效率更高，并且更易于部署。受早融合架構(gòu)強大性能的啟發(fā)，實驗表明，結(jié)合混合專家 (MoE) 可以使模型學(xué)習(xí)特定于模態(tài)的權(quán)重，從而顯著提升性能。

論文標(biāo)題：Scaling Laws for Native Multimodal Models

論文地址：https://arxiv.org/abs/2504.07951

研究人員的發(fā)現(xiàn)可以概括如下：原生早融合和后融合模型的性能相當(dāng)，從零開始訓(xùn)練的早融合模型性能與后融合模型性能相當(dāng)，在計算預(yù)算較低的情況下，略優(yōu)于早融合模型。此外，對于多模態(tài) Scaling Laws 的研究表明，隨著計算預(yù)算的增加，早融合和后融合的計算最優(yōu)模型性能相似。

NMM 的Scaling Law與 LLM 類似：原生多模態(tài)模型的 Scaling Law 遵循與純文本 LLM 類似的規(guī)律，scaling 指數(shù)根據(jù)目標(biāo)數(shù)據(jù)類型和訓(xùn)練組合略有不同。

與此同時，后融合的模型需要更多參數(shù)：與早融合相比，計算最優(yōu)的后融合模型需要更高的參數(shù)與數(shù)據(jù)比（見圖 1 右）。

再往下，稀疏性顯著有利于早融合的 NMM：在相同的推理成本下，稀疏 NMM 與密集 NMM 相比表現(xiàn)出顯著的改進(jìn)。

在稀疏性訓(xùn)練中，它們會隱式學(xué)習(xí)特定于模態(tài)的權(quán)重（圖 23）。此外，隨著計算預(yù)算的增長，計算優(yōu)化模型更多地依賴于訓(xùn)練 token 數(shù)量的擴(kuò)展，而不是活動參數(shù)的數(shù)量（圖 1 右）。

對于稀疏 NMM，模態(tài)無關(guān)路由優(yōu)于模態(tài)感知路由：使用模態(tài)無關(guān)路由訓(xùn)練稀疏混合專家模型，其性能始終優(yōu)于使用模態(tài)感知路由的模型（圖 11）。

原生多模態(tài)模型的 scaling 屬性

下面具體展示原生多模態(tài)模型的 Scaling Laws。該團(tuán)隊研究了多種架構(gòu)選擇、不同的數(shù)據(jù)混合方式、早融合和后融合 NMM 之間的實際權(quán)衡、NMM 的原生預(yù)訓(xùn)練和持續(xù)預(yù)訓(xùn)練的性能表現(xiàn)。

NMM 的 Scaling Laws

早融合和后融合模型的 Scaling Laws。

圖 2 左圖展示了早融合 NMM 在多模態(tài)交織數(shù)據(jù)集、圖像 - 描述數(shù)據(jù)集和文本數(shù)據(jù)集上的平均最終損失。其最低損失邊界遵循與 FLOPs 的冪律關(guān)系。擬合該冪律可得出表達(dá)式 L ∝ C^?0.049，這指示了隨著計算量的增加，性能提升的速率。

擬合該冪律可得出表達(dá)式 L ∝ C^?0.049，這指示了隨著計算量的增加，性能提升的速率。

分析每種數(shù)據(jù)類型（例如，圖像 - 說明、多模態(tài)交織的文檔、文本）的 Scaling Laws 時，可以觀察到指數(shù)會發(fā)生變化（表 3）。例如，與多模態(tài)交織（L ∝ C^?0.046）相比，該模型在圖像說明數(shù)據(jù)（L ∝ C^?0.061）上實現(xiàn)了更高的性能提升。

為了將損失建模為訓(xùn)練 token 數(shù)量 D 和模型參數(shù) N 的函數(shù)，他們還擬合了以下參數(shù)函數(shù)，得到了 scaling 指數(shù) α = 0.301 和 β = 0.335。它們分別描述了 scaling 模型參數(shù)和訓(xùn)練 token 數(shù)量時的性能提升率。

該團(tuán)隊假設(shè)計算量、N 和 D 之間存在線性關(guān)系（即 C ∝ N D），推導(dǎo)出了模型參數(shù)與計算預(yù)算之間的相關(guān)規(guī)律，詳見原論文附錄 C。簡單來說，對于給定的計算預(yù)算 C，以對數(shù)間隔的 D 值計算相應(yīng)的模型大小 N，并確定使損失最小化的參數(shù)數(shù)量 N_opt。對不同的 FLOPs 值重復(fù)此操作，可得到一個 (C, N_opt) 數(shù)據(jù)集，該團(tuán)隊對其擬合了一個冪律，可預(yù)測計算最優(yōu)模型大小與計算量的關(guān)系：N ? ∝ C^0.526。

類似地，他們也擬合了估計計算最優(yōu)訓(xùn)練數(shù)據(jù)集大小與計算量和模型大小的關(guān)系：

這些關(guān)系可讓實踐者在給定固定計算預(yù)算的情況下確定最佳模型和數(shù)據(jù)集大小。在根據(jù)數(shù)據(jù)類型分析時，該團(tuán)隊發(fā)現(xiàn)與圖像說明數(shù)據(jù) (a = 0.520) 相比，多模態(tài)交織數(shù)據(jù)可從較大的模型 (a = 0.532) 中獲益更多，而訓(xùn)練 token 則呈現(xiàn)相反的趨勢。

該團(tuán)隊在圖 2（右）中對后融合模型進(jìn)行了類似的研究，并觀察到了類似的 scaling 行為。具體而言，損失 scaling 指數(shù) (c = ?0.0494) 與早融合 (c = ?0.0492) 幾乎相同。這一趨勢在圖 3 中顯而易見，在較小的模型規(guī)模下，早融合的表現(xiàn)優(yōu)于后融合，而在較大的模型規(guī)模下，兩種架構(gòu)的性能收斂到相似的水平。在改變后融合配置時，該團(tuán)隊也觀察到了類似的趨勢，例如使用較小的視覺編碼器和較大的文本解碼器。

NMM 和 LLM 的 Scaling Laws 比較。

通過比較 NMM 的 scaling laws 系數(shù)與純文本 LLM（例如 GPT-3、Chinchilla）的 scaling laws 系數(shù)，該團(tuán)隊發(fā)現(xiàn)它們處于相似的范圍內(nèi)。

具體來說，如果將損失看作計算量的函數(shù)，GPT-3 遵循 L ∝ C^?0.048，而該團(tuán)隊的模型遵循 L ∝ C^?0.049，這表明 NMM 的性能遵循與 LLM 類似的 scaling 規(guī)律。同樣，該團(tuán)隊對 α 和 β 參數(shù)的估計值 (α = 0.301, β = 0.335) 與 Hoffmann 等人報告的值 (α = 0.339, β = 0.285) 非常接近。同樣，該團(tuán)隊計算出的 a = 0.526 和 b = 0.473 與 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。

這表明：對于原生多模態(tài)模型，訓(xùn)練 token 的數(shù)量和模型參數(shù)應(yīng)按比例 scaling。然而，由于 a 和 b 之間的差距小于 LLM，因此這一原則對于 NMM 更為適用。此外，由于在該團(tuán)隊的案例中 a = 0.526 大于 b = 0.473，因此在計算預(yù)算固定的情況下，NMM 的最佳模型大小大于 LLM，而最佳訓(xùn)練 token 數(shù)量則較低。

早融合與后融合 NMM 的計算優(yōu)化權(quán)衡。

雖然后融合和早融合模型的損失會隨著 FLOP 的增加以相似的速率降低，但該團(tuán)隊觀察到它們的計算優(yōu)化模型中存在明顯的權(quán)衡。具體而言，后融合模型的 N_opt 較大，而早融合模型的 D_opt 較大。這表明，在計算預(yù)算固定的情況下，后融合模型需要更多參數(shù)，而早融合模型則受益于更多訓(xùn)練 token。

早融合的訓(xùn)練效率更高。

該團(tuán)隊比較了后融合和早融合架構(gòu)的訓(xùn)練效率。如圖 5 所示，在相同的計算預(yù)算下，早融合模型消耗的內(nèi)存更少，訓(xùn)練速度更快。隨著計算量的增加，這一優(yōu)勢更加明顯，這表明：早融合在保持與后融合相當(dāng)?shù)拇笠?guī)模性能的同時，擁有卓越的訓(xùn)練效率。

值得注意的是，在相同的 FLOPs 下，與早融合模型相比，后融合模型具有更高的參數(shù)數(shù)量和更高的有效深度（即除了解碼器層之外還增加了額外的視覺編碼器層）。

不同數(shù)據(jù)混合方式的 Scaling Laws

圖 4 展示了不同的混合方式都遵循相似的 scaling 趨勢；然而，scaling 系數(shù)會有差別（表 4）。有趣的是，增加圖像 - 說明數(shù)據(jù)的比例（mixtures 1 和 2）會導(dǎo)致 a 降低、b 升高，而增加多模態(tài)交織數(shù)據(jù)和文本數(shù)據(jù)的比例（mixtures 3 和 4）則會產(chǎn)生相反的效果。

值得注意的是，圖像說明數(shù)據(jù)包含的圖像 token 比文本 token 多；因此，增加其比例會導(dǎo)致圖像 token 增多，而增加多模態(tài)交織數(shù)據(jù)和文本數(shù)據(jù)的比例會增加文本 token 的數(shù)量。這表明，當(dāng)圖像 token 占主導(dǎo)地位時，訓(xùn)練時間越長，損失的降低速度就越快，而增加模型大小則更快。

該團(tuán)隊還發(fā)現(xiàn)，對于固定的模型大小，增加純文本和多模態(tài)交織數(shù)據(jù)的比例有利于早融合（圖 6）。

原生多模態(tài)預(yù)訓(xùn)練 vs. LLM 的持續(xù)訓(xùn)練

下面比較這兩種情況：從零開始進(jìn)行原生訓(xùn)練，以及使用預(yù)訓(xùn)練的 LLM 進(jìn)行初始化后再進(jìn)行持續(xù)訓(xùn)練。

這里使用的初始模型是 DCLM-1B，該模型已使用超過 2T 個 token 進(jìn)行訓(xùn)練。圖 8 表明，當(dāng)訓(xùn)練時間更長時，原生多模態(tài)模型可以縮小與初始化模型的差距。

具體而言，在圖像說明數(shù)據(jù)上，該模型需要不到 100B 個多模態(tài) token 即可達(dá)到相當(dāng)?shù)男阅?。然而，在多模態(tài)交織數(shù)據(jù)和文本數(shù)據(jù)上，該模型可能需要更長時間的訓(xùn)練 —— 可多達(dá) 1T 個 token?？紤]到預(yù)訓(xùn)練的成本，這些結(jié)果表明，為了在多模態(tài)基準(zhǔn)測試中實現(xiàn)相同性能，原生訓(xùn)練可能是更有效方法。

邁向多模態(tài)專業(yè)化

研究證明了在固定計算預(yù)算下，早融合模型的性能與后融合模型相當(dāng)。然而，多模態(tài)數(shù)據(jù)本質(zhì)上是異構(gòu)的，訓(xùn)練一個統(tǒng)一的模型來擬合如此多樣化的分布可能并非最優(yōu)方案。

因此研究人員主張在統(tǒng)一架構(gòu)內(nèi)進(jìn)行多模態(tài)特化。理想情況下，模型應(yīng)該隱式地適應(yīng)每種模態(tài)，例如，通過學(xué)習(xí)特定于模態(tài)的權(quán)重或?qū)ｉT的專家。多模態(tài)模型 + MoE 是一個有潛力的方向，MoE 已在 LLM 中證明了其有效性。

研究觀察了不同數(shù)量活動參數(shù)、不同數(shù)量 token 訓(xùn)練的模型，比較了稀疏 MoE 模型和密集 MoE 模型。圖 9 顯示，在相同的推理成本（或活動參數(shù)數(shù)量）下，MoE 的性能顯著優(yōu)于密集模型。有趣的是，這種性能差距在模型規(guī)模較小時更為明顯。這表明 MoE 能夠使模型更有效地處理異構(gòu)數(shù)據(jù)，并專注于不同的模態(tài)。然而，隨著密集模型規(guī)模變得足夠大，兩種架構(gòu)之間的差距會逐漸縮小。

先前關(guān)于大模型 Scaling Laws 的研究主要觀察驗證損失，這種評估與下游任務(wù)的表現(xiàn)有很好的相關(guān)性。為了驗證這一點，研究人員對 LLaVA 混合模型進(jìn)行了多模態(tài)指令調(diào)整階段 (SFT)，并報告了其在多個 VQA 和字幕任務(wù)中的準(zhǔn)確率和 CIDEr 得分。表 7 證實了不同模型配置的排名。