打開網(wǎng)易新聞 查看精彩圖片

小扎終于想起發(fā)布 Llama 4 了,本來(lái)早就應(yīng)該發(fā)布的的節(jié)奏全被DeepSeek R1打亂了,哈哈!

打開網(wǎng)易新聞 查看精彩圖片

Meta 剛剛放出了 Llama 4 系列的首批模型,按照官推的說(shuō)法這次發(fā)布是對(duì) Llama 系列的一次徹底重新設(shè)計(jì)

先劃重點(diǎn):

核心變化:Llama 4 全系采用混合專家(MoE)架構(gòu),并且是原生多模態(tài)訓(xùn)練,不再是 Llama 3 那樣的純文本模型了。這次發(fā)布了Llama 4 ScoutLlama 4 Maverick,同時(shí)還有最強(qiáng)大的Llama 4 Behemoth預(yù)覽

打開網(wǎng)易新聞 查看精彩圖片

下面給大家第一時(shí)間做個(gè)梳理,

Llama 4 Scout:

定位:性能最強(qiáng)的小尺寸模型

參數(shù):17B 激活參數(shù),16 個(gè)專家,總參數(shù)量 109B

亮點(diǎn):速度極快,原生支持多模態(tài),擁有業(yè)界領(lǐng)先的 1000 萬(wàn)+ Token 多模態(tài)上下文窗口(相當(dāng)于處理 20 多個(gè)小時(shí)的視頻?。?,并且能在單張 H100 GPU 上運(yùn)行(Int4 量化后)

Llama 4 Maverick:

定位:同級(jí)別中最佳的多模態(tài)模型

性能:在多個(gè)主流基準(zhǔn)測(cè)試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發(fā)布的 DeepSeek v3 相當(dāng),但激活參數(shù)量不到后者一半

參數(shù):17B 激活參數(shù),128 個(gè)專家,總參數(shù)量 400B,上下文窗口 100 萬(wàn)+

性價(jià)比:提供了同類最佳的性能成本比。其實(shí)驗(yàn)性聊天版本在 LMArena 上 ELO 評(píng)分達(dá)到 1417,排名第二

部署:可以在單個(gè)主機(jī)上運(yùn)行

Llama 4 Behemoth (預(yù)覽,訓(xùn)練中):

定位:Meta 迄今最強(qiáng)模型,全球頂級(jí) LLM 之一

性能:在多個(gè) STEM 基準(zhǔn)上優(yōu)于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

參數(shù):288B 激活參數(shù),16 個(gè)專家,總參數(shù)量高達(dá)2萬(wàn)億 (2T

訓(xùn)練細(xì)節(jié):使用 FP8 精度,在32000 塊 GPU上訓(xùn)練了30 萬(wàn)億多模態(tài) Token

角色:作為 Maverick 模型進(jìn)行代碼蒸餾時(shí)的教師模型

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

技術(shù)亮點(diǎn)解讀

原生多模態(tài):所有模型都采用早期融合(early fusion)策略,將文本、圖像、視頻 Token 無(wú)縫整合到統(tǒng)一的模型骨干中

訓(xùn)練流程優(yōu)化:采用了 輕量級(jí) SFT → 在線 RL → 輕量級(jí) DPO 的后訓(xùn)練流程。開發(fā)者強(qiáng)調(diào),過(guò)度使用 SFT/DPO 會(huì)過(guò)度約束模型,限制在線 RL 階段的探索能力,所以要保持“輕量”

超長(zhǎng)上下文的秘密 (10M+):實(shí)現(xiàn)這一突破的關(guān)鍵是iRoPE 架構(gòu)("i" 代表 interleaved layers, infinite)

核心思想:通過(guò)追求無(wú)限上下文的目標(biāo)來(lái)指導(dǎo)架構(gòu)設(shè)計(jì),特別是利用長(zhǎng)度外推能力——在短序列上訓(xùn)練,泛化到極長(zhǎng)序列。最大訓(xùn)練長(zhǎng)度是 256K

具體做法

? 本地注意力層(Local Attention)使用 RoPE 處理短上下文(如 8K),可并行化

? 全局注意力層(Global Attention)才負(fù)責(zé)處理長(zhǎng)上下文(>8K),且不使用位置編碼(NoPE 思想),這有助于提升外推能力

? 為了解決上下文變長(zhǎng)時(shí)注意力權(quán)重趨于平坦、影響推理的問(wèn)題,在推理時(shí)對(duì)全局層應(yīng)用溫度縮放,增強(qiáng)長(zhǎng)距離推理,同時(shí)保持短上下文性能。公式大致為:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)

大佬評(píng)價(jià):

一個(gè)遺憾 (前kaggle總裁,fast AI 創(chuàng)始人Jeremy Howard):雖然感謝開源,但 Jeremy Howard 也表達(dá)了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也無(wú)法在消費(fèi)級(jí) GPU 上運(yùn)行,這對(duì)開源社區(qū)的可及性來(lái)說(shuō)是個(gè)不小的損失

打開網(wǎng)易新聞 查看精彩圖片

Jim Fan(英偉達(dá)高級(jí)研究經(jīng)理)

打開網(wǎng)易新聞 查看精彩圖片

部署便利性優(yōu)先:Jim Fan 認(rèn)為,對(duì)于開源模型,特別是 MoE 架構(gòu),易于部署正變得比單純追求模型尺寸更重要。Meta 強(qiáng)調(diào) Llama 4 Scout 能在單張 H100 上運(yùn)行,這與 Llama-3 401B(雖然強(qiáng)大但采用率較低)形成對(duì)比,說(shuō)明 MoE 是一個(gè)更符合當(dāng)前開源策略的方向

智能調(diào)參 MetaP:MetaP這個(gè)用于智能調(diào)整訓(xùn)練超參數(shù)的新技術(shù)。雖然細(xì)節(jié)不多,但他猜測(cè)這可能類似于 Meta 開源的Ax 框架中的貝葉斯優(yōu)化,能在有限的試驗(yàn)預(yù)算內(nèi)進(jìn)行自適應(yīng)實(shí)驗(yàn)(如 A/B 測(cè)試)

后訓(xùn)練策略:重 RL 輕 SFT/DPO: Llama 4 的后訓(xùn)練策略是降低 SFT/DPO 的權(quán)重,提升在線 RL 的權(quán)重。原因是過(guò)多的 SFT/DPO 會(huì)過(guò)度約束模型,限制其在 RL 階段的探索能力

自我批判式數(shù)據(jù)篩選:一個(gè)有趣的技術(shù)點(diǎn)是,訓(xùn)練過(guò)程中模型較早的檢查點(diǎn)(checkpoint)可以作為“批評(píng)家”來(lái)評(píng)估后續(xù)模型,幫助過(guò)濾掉過(guò)于簡(jiǎn)單的訓(xùn)練樣本/提示,讓模型在不斷篩選和學(xué)習(xí)中變得更強(qiáng)

Behemoth 的訓(xùn)練細(xì)節(jié)與數(shù)據(jù)挑戰(zhàn): Llama 4 Behemoth 的龐大規(guī)模(FP8 精度、32K GPU、30T tokens 訓(xùn)練)。由于模型能力太強(qiáng),普通的 SFT 數(shù)據(jù)對(duì)它來(lái)說(shuō)太“簡(jiǎn)單”了,因此需要裁剪掉高達(dá) 95% 的 SFT 數(shù)據(jù),而小模型只需要裁剪約 50%

實(shí)現(xiàn)千萬(wàn)級(jí)上下文窗口的技術(shù)手段看起來(lái)“相當(dāng)簡(jiǎn)單”:

1.去除部分位置編碼:在某些注意力層(特別是全局層)不使用位置編碼,借鑒了NoPE (No Positional Embedding)論文的思想

2.調(diào)整 Softmax 注意力:根據(jù)上下文的長(zhǎng)度來(lái)調(diào)整 Softmax 注意力計(jì)算

這次Llama 4的推理模型還不見蹤影,這多少有點(diǎn)說(shuō)不過(guò)去,大家覺(jué)得呢?畢竟Meta也是妥妥的大廠?。〔贿^(guò)Meta 表示這只是開始,后續(xù)還有更多模型,團(tuán)隊(duì)正在全力開發(fā)中,特別提到了Llama 4 Reasoning模型

另外相比于DeepSeekMIT開源方式,Llama 4 的新許可證有幾個(gè)限制:

- 每月活躍用戶超過(guò) 7 億的公司必須向 Meta 申請(qǐng)?zhí)厥庠S可,Meta 可自行決定授予或拒絕該許可。

- 必須在網(wǎng)站、界面、文檔等處突出顯示“使用 Llama 構(gòu)建”。

- 使用 Llama Materials 創(chuàng)建的任何 AI 模型的名稱開頭都必須包含“Llama”

- 必須在任何分發(fā)的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨(dú)的可接受使用政策(參考 http://llama.com/llama4/use-policy...) - 僅出于符合品牌要求的有限許可使用“Llama”名稱

參考:

https://ai.meta.com/blog/llama-4-multimodal-intelligence/