Meta 創(chuàng)始人兼首席執(zhí)行官馬克·扎克伯格今日在其 Instagram 賬號(hào)宣布推出全新 Llama 4 系列模型,其中兩款——參數(shù)高達(dá) 400B 億的 Llama 4 Maverick 和 109B 億參數(shù)的 Llama 4 Scout——即日起可供開發(fā)者在 llama.com 及 AI 代碼共享社區(qū) Hugging Face 上下載,即刻開始使用或微調(diào)。

今天還預(yù)覽了一款擁有 2 萬億參數(shù)的巨無霸模型 Llama 4 Behemoth,不過 Meta 的發(fā)布博文稱其仍在訓(xùn)練中,并未透露何時(shí)可能發(fā)布。

打開網(wǎng)易新聞 查看精彩圖片

按照官推的說法這次發(fā)布是對(duì) Llama 系列的一次徹底重新設(shè)計(jì)

先劃重點(diǎn):

核心變化:Llama 4 全系采用混合專家(MoE)架構(gòu),并且是原生多模態(tài)訓(xùn)練,不再是 Llama 3 那樣的純文本模型了。這次發(fā)布了Llama 4 ScoutLlama 4 Maverick,同時(shí)還有最強(qiáng)大的Llama 4 Behemoth預(yù)覽

另一個(gè)特點(diǎn)是它們擁有超長(zhǎng)的上下文窗口——Llama 4 Maverick 支持 100 萬 token,Llama 4 Scout 更是高達(dá) 1000 萬 token,分別相當(dāng)于約 1500 頁和 1.5 萬頁文本,且模型能在單次輸入/輸出交互中處理全部?jī)?nèi)容。這意味著理論上用戶可向 Llama 4 Scout 上傳或粘貼多達(dá) 7500 頁的文本,并獲取同等體量的反饋,這對(duì)醫(yī)學(xué)、科學(xué)、工程、數(shù)學(xué)、文學(xué)等知識(shí)密集型領(lǐng)域尤為實(shí)用。

Meta 估計(jì) Llama 4 Maverick 的推理成本為每 100 萬 token 0.19 至 0.49 美元(采用輸入與輸出 3:1 的比例)。這使得它比專有模型如 GPT-4o 便宜得多,根據(jù)社區(qū)基準(zhǔn),GPT-4o 的成本估計(jì)為每百萬 token 4.38 美元。

文章部分內(nèi)容轉(zhuǎn)載自「AI 寒武紀(jì)」。

Founder Park 正在搭建開發(fā)者社群,邀請(qǐng)積極嘗試、測(cè)試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請(qǐng)掃碼詳細(xì)填寫你的產(chǎn)品/項(xiàng)目信息,通過審核后工作人員會(huì)拉你入群~

進(jìn)群之后,你有機(jī)會(huì)得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;

  • 資源對(duì)接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。

01三種參數(shù),MoE 模型下面給大家第一時(shí)間做個(gè)梳理,Llama 4 Scout:

定位:性能最強(qiáng)的小尺寸模型

參數(shù):17B 激活參數(shù),16 個(gè)專家,總參數(shù)量 109B

亮點(diǎn):速度極快,原生支持多模態(tài),擁有業(yè)界領(lǐng)先的 1000 萬+ Token 多模態(tài)上下文窗口(相當(dāng)于處理 20 多個(gè)小時(shí)的視頻!),并且能在單張 H100 GPU 上運(yùn)行(Int4 量化后)

Llama 4 Maverick:

定位:同級(jí)別中最佳的多模態(tài)模型

性能:在多個(gè)主流基準(zhǔn)測(cè)試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發(fā)布的 DeepSeek v3 相當(dāng),但激活參數(shù)量不到后者一半

參數(shù):17B 激活參數(shù),128 個(gè)專家,總參數(shù)量 400B,上下文窗口 100 萬+

性價(jià)比:提供了同類最佳的性能成本比。其實(shí)驗(yàn)性聊天版本在 LMArena 上 ELO 評(píng)分達(dá)到 1417,排名第二

部署:可以在單個(gè)主機(jī)上運(yùn)行

Llama 4 Behemoth (預(yù)覽,訓(xùn)練中):

定位:Meta 迄今最強(qiáng)模型,全球頂級(jí) LLM 之一

性能:在多個(gè) STEM 基準(zhǔn)上優(yōu)于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

參數(shù):288B 激活參數(shù),16 個(gè)專家,總參數(shù)量高達(dá)2萬億 (2T

訓(xùn)練細(xì)節(jié):使用 FP8 精度,在32000 塊 GPU上訓(xùn)練了30 萬億多模態(tài) Token

角色:作為 Maverick 模型進(jìn)行代碼蒸餾時(shí)的教師模型

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

02技術(shù)亮點(diǎn)解讀

原生多模態(tài):所有模型都采用早期融合(early fusion)策略,將文本、圖像、視頻 Token 無縫整合到統(tǒng)一的模型骨干中

訓(xùn)練流程優(yōu)化:采用了 輕量級(jí) SFT → 在線 RL → 輕量級(jí) DPO 的后訓(xùn)練流程。開發(fā)者強(qiáng)調(diào),過度使用 SFT/DPO 會(huì)過度約束模型,限制在線 RL 階段的探索能力,所以要保持“輕量”

超長(zhǎng)上下文的秘密 (10M+):實(shí)現(xiàn)這一突破的關(guān)鍵是iRoPE 架構(gòu)('i' 代表 interleaved layers, infinite)

核心思想:通過追求無限上下文的目標(biāo)來指導(dǎo)架構(gòu)設(shè)計(jì),特別是利用長(zhǎng)度外推能力——在短序列上訓(xùn)練,泛化到極長(zhǎng)序列。最大訓(xùn)練長(zhǎng)度是 256K

具體做法

  • 本地注意力層(Local Attention)使用 RoPE 處理短上下文(如 8K),可并行化

  • 全局注意力層(Global Attention)才負(fù)責(zé)處理長(zhǎng)上下文(>8K),且不使用位置編碼(NoPE 思想),這有助于提升外推能力

  • 為了解決上下文變長(zhǎng)時(shí)注意力權(quán)重趨于平坦、影響推理的問題,在推理時(shí)對(duì)全局層應(yīng)用溫度縮放,增強(qiáng)長(zhǎng)距離推理,同時(shí)保持短上下文性能。公式大致為:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)


03超過 DeepSeek 了嗎?

使用最高參數(shù)模型基準(zhǔn)——Llama 4 Behemoth——并將其與 DeepSeek R1 初始發(fā)布時(shí)的 R1-32B 和 OpenAI o1 模型圖表進(jìn)行對(duì)比,以下是 Llama 4 Behemoth 的表現(xiàn)情況:

打開網(wǎng)易新聞 查看精彩圖片

我們能得出什么結(jié)論?

  • MATH-500:Llama 4 Behemoth 略微落后于 DeepSeek R1 和 OpenAI o1。

  • GPQA Diamond:Behemoth 領(lǐng)先于 DeepSeek R1,但落后于 OpenAI o1。

  • MMLU:Behemoth雖落后于兩者,但仍優(yōu)于 Gemini 2.0 Pro 和 GPT-4.5。

要點(diǎn):盡管 DeepSeek R1 和 OpenAI o1 在幾項(xiàng)指標(biāo)上略勝 Behemoth 一籌,Llama 4 Behemoth 仍極具競(jìng)爭(zhēng)力,在其類別的推理排行榜上表現(xiàn)位居或接近榜首。

04大佬評(píng)價(jià)一個(gè)遺憾 (前kaggle總裁,fast AI 創(chuàng)始人Jeremy Howard):雖然感謝開源,但 Jeremy Howard 也表達(dá)了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也無法在消費(fèi)級(jí) GPU 上運(yùn)行,這對(duì)開源社區(qū)的可及性來說是個(gè)不小的損失。

打開網(wǎng)易新聞 查看精彩圖片

Jim Fan(英偉達(dá)高級(jí)研究經(jīng)理)

打開網(wǎng)易新聞 查看精彩圖片

部署便利性優(yōu)先:Jim Fan 認(rèn)為,對(duì)于開源模型,特別是 MoE 架構(gòu),易于部署正變得比單純追求模型尺寸更重要。Meta 強(qiáng)調(diào) Llama 4 Scout 能在單張 H100 上運(yùn)行,這與 Llama-3 401B(雖然強(qiáng)大但采用率較低)形成對(duì)比,說明 MoE 是一個(gè)更符合當(dāng)前開源策略的方向

智能調(diào)參 MetaP:MetaP這個(gè)用于智能調(diào)整訓(xùn)練超參數(shù)的新技術(shù)。雖然細(xì)節(jié)不多,但他猜測(cè)這可能類似于 Meta 開源的Ax 框架中的貝葉斯優(yōu)化,能在有限的試驗(yàn)預(yù)算內(nèi)進(jìn)行自適應(yīng)實(shí)驗(yàn)(如 A/B 測(cè)試)

后訓(xùn)練策略:重 RL 輕 SFT/DPO: Llama 4 的后訓(xùn)練策略是降低 SFT/DPO 的權(quán)重,提升在線 RL 的權(quán)重。原因是過多的 SFT/DPO 會(huì)過度約束模型,限制其在 RL 階段的探索能力

自我批判式數(shù)據(jù)篩選:一個(gè)有趣的技術(shù)點(diǎn)是,訓(xùn)練過程中模型較早的檢查點(diǎn)(checkpoint)可以作為“批評(píng)家”來評(píng)估后續(xù)模型,幫助過濾掉過于簡(jiǎn)單的訓(xùn)練樣本/提示,讓模型在不斷篩選和學(xué)習(xí)中變得更強(qiáng)

Behemoth 的訓(xùn)練細(xì)節(jié)與數(shù)據(jù)挑戰(zhàn): Llama 4 Behemoth 的龐大規(guī)模(FP8 精度、32K GPU、30T tokens 訓(xùn)練)。由于模型能力太強(qiáng),普通的 SFT 數(shù)據(jù)對(duì)它來說太“簡(jiǎn)單”了,因此需要裁剪掉高達(dá) 95% 的 SFT 數(shù)據(jù),而小模型只需要裁剪約 50%

實(shí)現(xiàn)千萬級(jí)上下文窗口的技術(shù)手段看起來“相當(dāng)簡(jiǎn)單”:

  1. 1.去除部分位置編碼:在某些注意力層(特別是全局層)不使用位置編碼,借鑒了NoPE (No Positional Embedding)論文的思想

  2. 2.調(diào)整 Softmax 注意力:根據(jù)上下文的長(zhǎng)度來調(diào)整 Softmax 注意力計(jì)算


05

這次Llama 4的推理模型還不見蹤影,這多少有點(diǎn)說不過去,大家覺得呢?畢竟Meta也是妥妥的大廠啊!不過Meta 表示這只是開始,后續(xù)還有更多模型,團(tuán)隊(duì)正在全力開發(fā)中,特別提到了Llama 4 Reasoning模型

另外相比于DeepSeek的MIT開源方式,Llama 4 的新許可證有幾個(gè)限制:

- 每月活躍用戶超過 7 億的公司必須向 Meta 申請(qǐng)?zhí)厥庠S可,Meta 可自行決定授予或拒絕該許可。

- 必須在網(wǎng)站、界面、文檔等處突出顯示“使用 Llama 構(gòu)建”。

- 使用 Llama Materials 創(chuàng)建的任何 AI 模型的名稱開頭都必須包含“Llama”

- 必須在任何分發(fā)的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨(dú)的可接受使用政策(參考 http://llama.com/llama4/use-policy...) - 僅出于符合品牌要求的有限許可使用“Llama”名稱

參考:

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way/

打開網(wǎng)易新聞 查看精彩圖片

轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker