白交 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AI不過周末,硅谷也是如此。
大周日的,Llama家族上新,一群LIama 4就這么突然發(fā)布了。
這是Meta首個(gè)基于MoE架構(gòu)模型系列,目前共有三個(gè)款:
Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。
最后一個(gè)尚未推出,只是預(yù)告,但Meta已經(jīng)毫不避諱地稱前兩者是“我們迄今為止最先進(jìn)的型號,也是同類產(chǎn)品中最好的多模態(tài)型號”。
詳細(xì)來看一些關(guān)鍵詞——
Llama 4 Scout,16位專家的170億激活參數(shù)的多模態(tài)模型,單個(gè)H100 GPU可運(yùn)行, 同類SOTA,并擁有10M上下文窗口
Llama 4 Maverick,128位專家的170億激活參數(shù)多模態(tài)模型,擊敗GPT-4o和Gemini 2.0 Flash,與DeepSeek-V3同等代碼能力參數(shù)只要一半,主打與DeepSeek一樣的性價(jià)比,單個(gè)H100主機(jī)即可運(yùn)行。
Llama 4 Behemoth:2萬億參數(shù)的超大超強(qiáng)模型,以上二者都由這個(gè)模型蒸餾而來;目前還在訓(xùn)練中;多個(gè)基準(zhǔn)測試超過GPT-4.5、Claude Sonnet 3.7和 Gemini 2.0 Pro。

Meta官推激情表示,這些Llama 4模型標(biāo)志著Llama生態(tài)系統(tǒng)新時(shí)代——原生多模態(tài)AI創(chuàng)新的開始。

與此同時(shí),大模型競技場排名迎來一輪更新。
此次發(fā)布的Llama 4 Maverick,在困難提示、編碼、數(shù)學(xué)、創(chuàng)意寫作方面并列第一;得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個(gè)突破1400分的模型;。
而且跑分明確——超越DeepSeek-V3,實(shí)現(xiàn)亮相即登頂,直接成為排名第一的開源模型。

谷歌CEO劈柴哥第一時(shí)間發(fā)來賀電:
- AI世界,從不平淡!
恭喜呀!前進(jìn)吧,Llama 4團(tuán)隊(duì)!

中杯、大杯首批亮相
了解了Llama 4家族全體成員后,我們先來見識一下首批發(fā)布的2個(gè)模型:
- 中杯
- :Llama 4 Scout(偵查兵Llama 4)。
- 大杯
- :Llama 4 Maverick(特立獨(dú)行的Llama 4)。
兩者均已能在Llama官網(wǎng)和抱抱臉上下載。

我們抓取并提煉出這倆模型的一些特點(diǎn):
Meta首批MoE架構(gòu)模型
這是Llama系列,第一批使用MoE(混合專家模型)構(gòu)建的模型。
中杯Llama 4 Scout有17B激活參數(shù),擁有16個(gè)專家模型。
大杯Llama 4 Maverick擁有17B激活參數(shù),擁有128個(gè)專家模型。
至于還沒和大家正式見面的超大杯Llama 4 Maverick,擁有288B激活參數(shù),擁有16個(gè)專家模型。
非常長————的上下文
Llama 4系列,均具有很長的上下文窗口。
這一點(diǎn)主要體現(xiàn)在Meta公布的中杯Llama 4 Scout的詳細(xì)數(shù)據(jù)里:
- Llama 4 Scout提供了行業(yè)領(lǐng)先的100萬上下文窗口
經(jīng)過預(yù)訓(xùn)練和后訓(xùn)練,Llama 4 Scout長度為256K,這使基本模型具有高級長度泛化能力。
這個(gè)配置,讓它在廣泛的測評集上,比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1的結(jié)果更優(yōu)秀。

它在「大海撈針」測試上的表現(xiàn)如下:
結(jié)果如下:

那么之前的Llama系列模型的上下文窗口情況呢?
- Llama 1,上下文窗口為2k;
- Llama 2,上下文窗口默認(rèn)為4k,但可以通過微調(diào)等可以拓展到32k;
- Llama 3,上下文窗口是8k,后來Llama 3.1的長文本能力拓展到了128k。
Meta官方博客中是這么寫的:
- (Llama 4的長上下文)開辟了一個(gè)充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動(dòng)以執(zhí)行個(gè)性化任務(wù)以及對龐大的代碼庫進(jìn)行推理。
原生多模態(tài)設(shè)計(jì)
Llama 4系列,開啟了Llama的原生多模態(tài)時(shí)代。
而已經(jīng)公開對外的中杯和大杯,被官方稱為“輕量級原生多模態(tài)模型”。
給用戶的體驗(yàn)就是,上傳一張圖片,可以直接在對話框中提問關(guān)于這張圖片的各種問題。
不是我說,Llama終于長眼睛了!??!
上面這張動(dòng)圖展示的僅僅是最基礎(chǔ)的,“為難”程都升級也不怕。
比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個(gè)活。
它會(huì)很快地把適用的工具圈出來:
要認(rèn)顏色+認(rèn)小鳥,也沒在怕的:
中杯和大杯都在官方介紹中被打上了“世界上同類產(chǎn)品中最好的多模態(tài)模型”的tag。
來看和Llama系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite的對比結(jié)果——
可以看到,在各個(gè)測評集上的表現(xiàn),Llama 4 Scout樣樣都是新SOTA。

語言天賦Max
經(jīng)過了預(yù)訓(xùn)練和微調(diào)的Llama 4,掌握全球12種語言,以此“方便全球開發(fā)者的部署”。
比DeepSeek更狠的“AI模型拼多多”
一定要跟大家分享的一個(gè)細(xì)節(jié),Meta這次在模型API價(jià)格方面,下狠手了!
先說結(jié)果:
系列超大杯Llama 4 Maverick,不僅超越了同類型號其它模型,價(jià)格還非常之美麗。

更直觀地來看這張表格,真的狠過DeepSeek——從性能到價(jià)格各個(gè)緯度。

要知道,超大杯Llama 4 Behemoth屬于是Llama 4系列的教師模型。
如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。
288B激活參數(shù),16個(gè)專家模型。
最重要的是,它的總參數(shù)量高達(dá)2000B!
在數(shù)學(xué)、多語言和圖像基準(zhǔn)測試中,它提供了非推理模型的最先進(jìn)性能。

當(dāng)“最?!焙汀白畋阋恕睌[在一起的時(shí)候,試問哪位開發(fā)者會(huì)不心動(dòng)?(doge)
訓(xùn)練細(xì)節(jié)
用他們自己的話來說,Llama系列是進(jìn)行了徹底的重新設(shè)計(jì)。目前第一組LIama 4系列模型,他們也公布了具體的訓(xùn)練細(xì)節(jié)。
預(yù)訓(xùn)練
他們首次使用混合專家MoE架構(gòu),在MoE架構(gòu)中,單個(gè)token僅激活總參數(shù)的一小部分。MoE架構(gòu)在訓(xùn)練和推理方面具有更高的計(jì)算效率,固定訓(xùn)練FLOP成本情況下質(zhì)量更高。

比如,Llama 4Maverick模型有17B個(gè)激活參數(shù)和400B個(gè)總參數(shù)。他們使用交替的密集層和混合專家(MoE)層來提高推理效率。
MoE層使用128位路由(Routed)專家和一位共享專家。每個(gè)令牌都會(huì)發(fā)送給共享專家以及128位路由(Routed)專家之一。
因此,雖然所有參數(shù)都存儲在內(nèi)存中,但在為這些模型提供服務(wù)時(shí),只有總參數(shù)的子集被激活。
這通過降低模型服務(wù)成本和延遲來提高推理效率——Llama 4 Maverick 可以在單個(gè)H100 DGX主機(jī)上運(yùn)行,以便于部署,也可以通過分布式推理實(shí)現(xiàn)最高效率。
他們早期融合,將文本和視覺token無縫集成到統(tǒng)一模型中。
他們開發(fā)了一種新的訓(xùn)練技術(shù):MetaP,可以設(shè)置關(guān)鍵模型超參數(shù),比如每層的學(xué)習(xí)率和初始化尺度。
結(jié)果發(fā)現(xiàn),所選的超參數(shù)能在批量大小、模型寬度、深度和訓(xùn)練token的不同值之間很好地?cái)U(kuò)展和泛化——
Llama 4通過在200種語言(包括100多種語言,每種語言有超過10億個(gè)詞庫)上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了開源微調(diào)工作,多語言詞庫總量是Llama 3的10倍。
此外,他們使用FP8精度進(jìn)行高效模型訓(xùn)練,同時(shí)不犧牲質(zhì)量并確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預(yù)訓(xùn)練 Llama 4 Behemoth模型時(shí),結(jié)果他們實(shí)現(xiàn)了390TFLOPs/GPU。
用于訓(xùn)練的整體混合數(shù)據(jù)包括30多萬億個(gè)token,是Llama 3預(yù)訓(xùn)練混合物的兩倍多,其中包括各種文本、圖像和視頻數(shù)據(jù)集。
在所謂的“中期訓(xùn)練”中繼續(xù)訓(xùn)練模型,通過新的訓(xùn)練方法(包括使用專業(yè)數(shù)據(jù)集進(jìn)行長上下文擴(kuò)展)來提高模型的核心功能。
后訓(xùn)練
后訓(xùn)練階段,他們提出一個(gè)課程策略,與單個(gè)模式專家模型相比,該策略不會(huì)犧牲性能。
在Llama 4中,采用了一種不同的方法來改造我們的后期訓(xùn)練管道:
輕量級監(jiān)督微調(diào)(SFT)>在線強(qiáng)化學(xué)習(xí)(RL)>輕量級直接偏好優(yōu)化 (DPO)。
一個(gè)關(guān)鍵的教訓(xùn)是,SFT和DPO可能會(huì)過度約束模型,限制在線強(qiáng)化學(xué)習(xí)階段的探索,并導(dǎo)致精度降低,尤其是在推理、編碼和數(shù)學(xué)領(lǐng)域。
為了解決這個(gè)問題,他們使用Llama模型作為評判標(biāo)準(zhǔn),刪除了50%以上被標(biāo)記為簡單的數(shù)據(jù),并對剩余的較難數(shù)據(jù)集進(jìn)行了輕量級SFT處理。
在隨后的在線強(qiáng)化學(xué)習(xí)階段,通過仔細(xì)選擇較難的提示,我們實(shí)現(xiàn)了性能上的飛躍。
此外,他們還實(shí)施了一種連續(xù)的在線強(qiáng)化學(xué)習(xí)策略,即交替訓(xùn)練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實(shí)證明,這種策略在計(jì)算量和準(zhǔn)確性的權(quán)衡方面非常有利。
然后,他們采用輕量級DPO來處理與模型響應(yīng)質(zhì)量相關(guān)的拐角情況,從而有效地在模型的智能性和對話能力之間實(shí)現(xiàn)了良好的平衡。流水線架構(gòu)和帶有自適應(yīng)數(shù)據(jù)過濾功能的連續(xù)在線RL策略,最后造就了現(xiàn)在的LIama 4。
總結(jié)來看,Llama 4架構(gòu)的一項(xiàng)關(guān)鍵創(chuàng)新是使用交錯(cuò)注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時(shí)間溫度縮放來增強(qiáng)長度泛化。
這些他們稱之為iRoPE架構(gòu),其中“i”代表 “交錯(cuò) ”注意力層,突出了支持 “無限”上下文長度的長期目標(biāo),而 “RoPE ”指的是大多數(shù)層中采用的旋轉(zhuǎn)位置嵌入。
Llama 4 Behemoth
最后,他們還透露了超大模型Llama 4 Behemoth一些蒸餾和訓(xùn)練細(xì)節(jié)。
我們開發(fā)了一種新穎的蒸餾損失函數(shù),可通過訓(xùn)練動(dòng)態(tài)加權(quán)軟目標(biāo)和硬目標(biāo)。
預(yù)訓(xùn)練階段,Llama 4 Behemoth的代碼蒸餾功能可以攤銷學(xué)生訓(xùn)練中使用的大部分訓(xùn)練數(shù)據(jù)計(jì)算蒸餾目標(biāo)所需的資源密集型前向傳遞的計(jì)算成本。對于納入學(xué)生訓(xùn)練的其他新數(shù)據(jù),他們在Behemoth模型上運(yùn)行前向傳遞,以創(chuàng)建蒸餾目標(biāo)。
后訓(xùn)練階段,為了最大限度地提高性能,他們刪減了95%的SFT數(shù)據(jù),而小型模型只需刪減50%的數(shù)據(jù),以實(shí)現(xiàn)對質(zhì)量和效率的必要關(guān)注。
他們在進(jìn)行輕量級SFT后,再進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)(RL),模型的推理和編碼能力會(huì)有更顯著的提高。
強(qiáng)化學(xué)習(xí)方法側(cè)重于通過對策略模型進(jìn)行pass@k分析來抽取高難度提示,并根據(jù)提示難度的增加精心設(shè)計(jì)訓(xùn)練課程。
此外還發(fā)現(xiàn),在訓(xùn)練過程中動(dòng)態(tài)過濾掉優(yōu)勢為零的提示語,并構(gòu)建包含多種能力的混合提示語的訓(xùn)練批次,有助于提高數(shù)學(xué)、推理和編碼的性能。最后,從各種系統(tǒng)指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務(wù)中表現(xiàn)出色至關(guān)重要。
由于其規(guī)??涨埃獮閮扇f億個(gè)參數(shù)模型擴(kuò)展RL,還需要改造底層RL基礎(chǔ)設(shè)施。
他們優(yōu)化了MoE并行化的設(shè)計(jì),從而加快了迭代速度;并開發(fā)了一個(gè)完全異步的在線RL訓(xùn)練框架,提高了靈活性。
現(xiàn)有的分布式訓(xùn)練框架會(huì)犧牲計(jì)算內(nèi)存以將所有模型堆疊在內(nèi)存中,相比之下,他們新基礎(chǔ)架構(gòu)能夠?qū)⒉煌P挽`活分配到不同GPU上,并根據(jù)計(jì)算速度在多個(gè)模型之間平衡資源。
與前幾代產(chǎn)品相比,這一創(chuàng)新使訓(xùn)練效率提高了約10倍。
One More Thing
要知道,由于昨天DeepSeek發(fā)了新論文,搞得奧特曼都坐不住了,趕緊出來發(fā)聲:
- 計(jì)劃改變:我們可能在幾周之后先發(fā)布o(jì)3和o4-mini。
GPT-5就在幾個(gè)月后啊~
但,誰知道半路又殺出個(gè)Llama 4?!
前有猛虎,后有豺狼,OpenAI你真的得加油了……
網(wǎng)友調(diào)侃道,當(dāng)奧特曼一睜眼,看到Llama 4來了,而且Llama 4的成本比GPT-4.5降低了3個(gè)數(shù)量級后——
他的狀態(tài)一定是醬嬸兒的:
以及相比Llama,現(xiàn)在可能神秘低調(diào)的DeepSeek,可能不知道什么時(shí)候突然就會(huì)推出DeepSeek R2和V4…同在杭州的通義千問也干勁十足,Llama也好GPT也好,基本成為平行參考了。
太平洋這頭,已經(jīng)開始落地應(yīng)用和智能體了。
參考鏈接:
[1]https://www.llama.com/
[2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/
[3]https://x.com/AIatMeta/status/1908598456144531660
[4]https://x.com/lmarena_ai/status/1908601011989782976
[5]https://x.com/IOHK_Charles/status/1908635624036590070
熱門跟貼