
新智元報道
編輯:編輯部 JNY
【新智元導(dǎo)讀】原生多模態(tài)Llama 4終于問世,開源王座一夜易主!首批共有兩款模型Scout和Maverick,前者業(yè)界首款支持1000萬上下文單H100可跑,后者更是一舉擊敗了DeepSeek V3。目前,2萬億參數(shù)巨獸還在訓(xùn)練中。
一大早,Llama 4重磅發(fā)布了!

Meta官宣開源首個原生多模態(tài)Llama 4,首次采用的MoE架構(gòu),支持12種語言,首批發(fā)布一共兩款:
Llama 4 Scout:共有1090億參數(shù),17B活躍參數(shù),16個專家,1000萬上下
Llama 4 Maverick:共有4000億參數(shù),17B活躍參數(shù),128個專家,100萬上下文
另外,2萬億參數(shù)Llama 4 Behemoth將在未來幾個月面世,288B活躍參數(shù),16個專家。

Llama 4的橫空出世,成為迄今為止開源最強(qiáng),多模態(tài)能力最好的模型之一。
在大模型LMSYS排行榜上,Llama 4 Maverick沖上第二( ELO得分1417),僅次于閉源Gemini 2.5 Pro。
更值得一提的是,僅用一半?yún)?shù),Maverick推理編碼能力與DeepSeek-v3-0324實力相當(dāng)。
Llama 4 Scout最大亮點在于支持1000萬上下文,相當(dāng)于可以處理20+小時的視頻,僅在單個H100 GPU(Int4 量化后)上就能跑。
在基準(zhǔn)測試中,性能超越Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

即將面世的Llama 4 Behemoth(仍在訓(xùn)練中),是Maverick協(xié)同蒸餾的教師模型,使用30T多模態(tài)token在32K個GPU上進(jìn)行預(yù)訓(xùn)練(FP8)。
目前在STEM基準(zhǔn)測試中,超越了GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

小扎激動地在官宣視頻中稱,「今天是Llama 4日」!
Llama 4開源后,DeepSeek R2還遠(yuǎn)嗎?

此前報道稱,DeepSeek R2最晚在5發(fā)布,看來可能要提前了...
史上最強(qiáng)Llama 4開源,超越DeepSeek V3
Llama 4模型開源,標(biāo)志著Llama生態(tài)系統(tǒng)進(jìn)入了一個新紀(jì)元。

即日起,所有開發(fā)者可以在llama.com和Hugging Face下載這兩款最新的模型
在大模型排行榜中,Llama 4 Maverick在硬提示(hard prompt)、編程、數(shù)學(xué)、創(chuàng)意寫作、長查詢和多輪對話中,并列第一。
僅在樣式控制下,排名第五。

而且,1000萬上下文Llama 4 Scout還擊敗了OpenAI的模型。

每個人還可以在WhatsApp、Messenger、Instagram Direct和網(wǎng)頁上體驗基于Llama 4的應(yīng)用。

首次采用MoE,單個H100即可跑
Llama團(tuán)隊設(shè)計了兩款高效的Llama 4系列模型,只要單個H100 GPU就能運行:
一個是Llama 4 Scout(擁有170億個活躍參數(shù)和16個專家),使用Int4量化可以在單個H100GPU上運行;
另一個是Llama 4 Maverick(擁有170億個活躍參數(shù)和128個專家),可以在單個H100主機(jī)上運行。
目前,正在訓(xùn)練的教師模型——Llama 4 Behemoth,它在STEM基準(zhǔn)測試(如MATH-500和GPQA Diamond)中,性能優(yōu)于GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。
在最新博文中,Meta分享了更多的關(guān)于Llama 4家族訓(xùn)練的技術(shù)細(xì)節(jié)。

在英偉達(dá)B200上,Llama 4可以每秒處理42400個token
預(yù)訓(xùn)練
Llama 4模型是Llama系列模型中首批采用混合專家(MoE)架構(gòu)的模型。
在MoE模型中,單獨的token只會激活全部參數(shù)中的一小部分。
與傳統(tǒng)的稠密模型相比,MoE架構(gòu)在訓(xùn)練和推理時的計算效率更高,并且在相同的訓(xùn)練FLOPs預(yù)算下,能夠生成更高質(zhì)量的結(jié)果。

架構(gòu)概覽,右為混合專家(MoE)架構(gòu)
舉個例子,Llama 4 Maverick模型的4000億個總參數(shù)中有170億個活躍參數(shù)。
為了提高推理效率,Meta交替使用了稠密層和專家混合(MoE)層。
MoE層用到了128個路由專家和一個共享專家。每個token都會被送到共享專家,同時也會送到128個路由專家中的一個。
因此,雖然所有參數(shù)都存儲在內(nèi)存中,但在運行這些模型時,只有部分參數(shù)會被激活。
這樣就能提升推理效率,降低模型服務(wù)的成本和延遲——
Llama 4 Maverick可以輕松部署在一臺NVIDIA H100 DGX主機(jī)上運行,或者通過分布式推理來實現(xiàn)最高效率。
原生多模態(tài)設(shè)計
Llama 4是一個原生多模態(tài)模型,采用了早期融合技術(shù),能把文本和視覺token無縫整合到一個統(tǒng)一的模型框架里。
早期融合是個大進(jìn)步,因為它可以用海量的無標(biāo)簽文本、圖片和視頻數(shù)據(jù)一起來預(yù)訓(xùn)練模型。
Meta還升級了Llama 4的視覺編碼器。這個編碼器基于MetaCLIP,但在訓(xùn)練時跟一個凍結(jié)的Llama模型分開進(jìn)行,這樣能更好地調(diào)整編碼器,讓它更好地適配大語言模型(LLM)。
模型超參數(shù)優(yōu)化
Meta還開發(fā)了一種叫做MetaP的新訓(xùn)練方法,能讓他們更靠譜地設(shè)置關(guān)鍵的模型超參數(shù),比如每層的學(xué)習(xí)率和初始化規(guī)模。
這些精心挑選的超參數(shù)在不同的批大小、模型寬度、深度和訓(xùn)練token量上都能很好地適配。
Llama 4通過在200種語言上預(yù)訓(xùn)練實現(xiàn)了對開源微調(diào)的支持,其中超過10億個token的語言有100多種,整體多語言token量比Llama 3多出10倍。
高效的模型訓(xùn)練,解鎖1000萬輸入上下文長度
此外,Meta注重高效的模型訓(xùn)練,采用了FP8精度,既不犧牲質(zhì)量,又能保證模型的高FLOPs利用率——
在使用FP8精度和32K個GPU預(yù)訓(xùn)練Llama 4 Behemoth模型時,達(dá)到了每個GPU 390 TFLOPs的性能。
訓(xùn)練用的整體數(shù)據(jù)包含了超過30萬億個 token,比Llama 3的預(yù)訓(xùn)練數(shù)據(jù)量翻了一倍還多,涵蓋了文本、圖片和視頻數(shù)據(jù)集。
Meta用一種叫做「中期訓(xùn)練」的方式來繼續(xù)訓(xùn)練模型,通過新的訓(xùn)練方法,包括用專門的數(shù)據(jù)集擴(kuò)展長上下文,來提升核心能力。
這不僅提高了模型的質(zhì)量,還為Llama 4 Scout解鎖了領(lǐng)先的1000萬輸入上下文長度。
后訓(xùn)練
最新的模型包含了不同的參數(shù)規(guī)模,滿足各種使用場景和開發(fā)者的需求。
Llama 4 Maverick:參數(shù)規(guī)模較大,主要用于圖像理解和創(chuàng)意寫作
Llama 4 Scout:參數(shù)規(guī)模較小,適用多種任務(wù),支持1000萬token上下文,全球領(lǐng)先。
為了讓不同模型適應(yīng)不同的任務(wù),針對多模態(tài)、超大參數(shù)規(guī)模等問題,Meta開發(fā)了一系列新的后訓(xùn)練方法。
主力模型Llama 4 Maverick
作為產(chǎn)品的核心模型,Llama 4 Maverick在圖像精準(zhǔn)理解和創(chuàng)意寫作方面表現(xiàn)突出,特別適合通用助手、聊天類應(yīng)用場景。
訓(xùn)練Llama 4 Maverick模型時,最大的挑戰(zhàn)是保持多種輸入模式、推理能力和對話能力之間的平衡。
后訓(xùn)練流程
為了訓(xùn)練Llama 4,Meta重新設(shè)計了后訓(xùn)練流程,采用了全新的方法:
輕量級監(jiān)督微調(diào)(SFT)> 在線強(qiáng)化學(xué)習(xí)(RL)> 輕量級直接偏好優(yōu)化(DPO)。
一個關(guān)鍵發(fā)現(xiàn)是,SFT和DPO可能會過度限制模型,在在線RL階段限制了探索,導(dǎo)致推理、編程和數(shù)學(xué)領(lǐng)域的準(zhǔn)確性不理想。
為了解決這個問題,Meta使用Llama模型作為評判者,移除了超過50%的被標(biāo)記為「簡單」的數(shù)據(jù),并對剩余的更難數(shù)據(jù)進(jìn)行輕量級SFT。
在隨后的多模態(tài)在線RL階段,精心選擇了更難的提示,成功實現(xiàn)了性能的飛躍。
此外,他們還實施了持續(xù)在線RL策略,交替進(jìn)行模型訓(xùn)練和數(shù)據(jù)篩選,只保留中等到高難度的提示。這種策略在計算成本和準(zhǔn)確性之間取得了很好的平衡。
最后,進(jìn)行了輕量級的DPO來處理與模型響應(yīng)質(zhì)量相關(guān)的特殊情況,有效地在模型的智能性和對話能力之間達(dá)成了良好的平衡。
新的流程架構(gòu)加上持續(xù)在線RL和自適應(yīng)數(shù)據(jù)過濾,最終打造出了一個行業(yè)領(lǐng)先的通用聊天模型,擁有頂尖的智能和圖像理解能力。
Llama 4 Maverick碾壓GPT-4o和Gemini 2.0
作為一款通用的LLM,Llama 4 Maverick包含170億個活躍參數(shù),128個專家和4000億個總參數(shù),提供了比Llama 3.3 70B更高質(zhì)量、更低價格的選擇。
Llama 4 Maverick是同類中最佳的多模態(tài)模型,在編程、推理、多語言支持、長上下文和圖像基準(zhǔn)測試中超過了類似的模型,如GPT-4o和Gemini 2.0,甚至能與體量更大的DeepSeek v3.1在編碼和推理上競爭。

通用模型Llama 4 Scout:1000萬token上下文
規(guī)模較小的Llama 4 Scout是一款通用模型,擁有170億個活躍參數(shù)、16個專家和1090億個總參數(shù),在同類別中性能最好。
Llama 4 Scout 的支持上下文長度從 Llama 3 的12.8萬激增到行業(yè)領(lǐng)先的1000萬token。
這為多種應(yīng)用打開了無限可能,包括多文檔摘要、大規(guī)模用戶活動解析以進(jìn)行個性化任務(wù),以及在龐大的代碼庫中進(jìn)行推理。
Llama 4 Scout在預(yù)訓(xùn)練和后訓(xùn)練時都采用了256K的上下文長度,基礎(chǔ)模型具備了先進(jìn)的長度泛化能力。
它在一些任務(wù)中取得了亮眼成果,比如文本檢索中的「大海撈針式檢索」和在1000萬token代碼上的累積負(fù)對數(shù)似然(NLLs)。


Llama 4架構(gòu)的一個關(guān)鍵創(chuàng)新是使用了交替注意力層,而不依賴于位置嵌入。
此外,在推理時采用了溫度縮放注意力,以增強(qiáng)長度泛化能力。Meta將其稱為iRoPE架構(gòu),其中「i」代表「交替」(interleaved)注意力層,突出了支持「無限」上下文長度的長期目標(biāo),而「RoPE」則指的是在大多數(shù)層中使用的旋轉(zhuǎn)位置嵌入(Rotary Position Embeddings)。
視覺理解能力
兩款模型進(jìn)行了大規(guī)模的圖像和視頻幀靜態(tài)圖像訓(xùn)練,以賦予它們廣泛的視覺理解能力,包括對時間活動和相關(guān)圖像的理解。
它們能夠在多圖像輸入和文本提示的配合下,輕松進(jìn)行視覺推理和理解任務(wù)。
模型預(yù)訓(xùn)練時最多用了48張圖像,而在后訓(xùn)練測試中,最多8張圖像也能取得不錯的效果。
Llama 4 Scout在圖像定位方面也是同類最佳,能夠?qū)⒂脩舻奶崾九c相關(guān)的視覺概念對齊,并將模型的響應(yīng)錨定到圖像中的特定區(qū)域。
這使得更精確的視覺問答成為可能,幫助LLM更好地理解用戶意圖并定位感興趣的對象。
編程、推理、長上下文和圖像上,遙遙領(lǐng)先
Llama 4 Scout在編程、推理、長上下文和圖像基準(zhǔn)測試中超過了類似的模型,并且在所有以前的Llama模型中表現(xiàn)更強(qiáng)。

秉承對開源的承諾,Meta將Llama 4 Maverick和Llama 4 Scout提供給用戶下載,用戶可以在llama.com和Hugging Face上獲取,之后這些模型還將在最廣泛使用的云平臺、數(shù)據(jù)平臺、邊緣硅片以及全球服務(wù)集成商上陸續(xù)上線。
2萬億巨獸,干掉GPT-4.5
Llama 4 Behemoth是一款「教師模型」,在同級別的模型里,它的智能水平相當(dāng)高超。
Llama 4 Behemoth同樣是一個多模態(tài)混合專家模型,擁有2880億個活躍參數(shù)、16個專家以及近2萬億個總參數(shù)。
在數(shù)學(xué)、多語言處理和圖像基準(zhǔn)測試方面,它為非推理模型提供了最先進(jìn)的性能,成為訓(xùn)練較小的Llama 4模型的理想選擇。
教師模型+全新蒸餾
從Llama 4 Behemoth中蒸餾出來Llama 4 Maverick,在最終任務(wù)評估指標(biāo)上大幅提升了質(zhì)量。
Meta開發(fā)了一種新的蒸餾損失函數(shù),在訓(xùn)練過程中動態(tài)地加權(quán)軟目標(biāo)和硬目標(biāo)。
通過從Llama 4 Behemoth進(jìn)行共同蒸餾,能夠在預(yù)訓(xùn)練階段分?jǐn)傆嬎阗Y源密集型前向計算的成本,這些前向計算用于計算大多數(shù)用于學(xué)生模型訓(xùn)練的數(shù)據(jù)的蒸餾目標(biāo)。
對于學(xué)生訓(xùn)練中包含的額外新數(shù)據(jù),會在Behemoth模型上運行前向計算,以生成蒸餾目標(biāo)。

后訓(xùn)練
對一個擁有兩萬億參數(shù)的模型進(jìn)行后訓(xùn)練也是一個巨大的挑戰(zhàn),這必須徹底改進(jìn)和重新設(shè)計訓(xùn)練方案,尤其是在數(shù)據(jù)規(guī)模方面。
為了最大化性能,不得不精簡95%的SFT數(shù)據(jù),相比之下,較小的模型只精簡了50%的數(shù)據(jù),目的是確保在質(zhì)量和效率上的集中關(guān)注。
Meta還發(fā)現(xiàn),采用輕量級的SFT后接大規(guī)模RL能夠顯著提高模型的推理和編碼能力。Meta的RL方案專注于通過對策略模型進(jìn)行pass@k分析來采樣難度較大的提示,并設(shè)計逐漸增加提示難度的訓(xùn)練課程。
在訓(xùn)練過程中動態(tài)地過濾掉沒有優(yōu)勢的提示,并通過從多個能力中混合提示構(gòu)建訓(xùn)練批次,對提升數(shù)學(xué)、推理和編碼的性能起到了關(guān)鍵作用。
最后,從多種系統(tǒng)指令中采樣對于確保模型保持良好的指令跟隨能力,在推理和編碼任務(wù)中表現(xiàn)出色也至關(guān)重要。
擴(kuò)展RL訓(xùn)練
對于兩萬億參數(shù)的模型,擴(kuò)展RL訓(xùn)練也要求重新設(shè)計底層的RL基礎(chǔ)設(shè)施,應(yīng)對前所未有的規(guī)模。
Meta優(yōu)化了MoE并行化的設(shè)計,提高了速度,從而加快了迭代速度。
Llama團(tuán)隊開發(fā)了一個完全異步的在線RL訓(xùn)練框架,提升了靈活性。
與現(xiàn)有的分布式訓(xùn)練框架相比,后者為了將所有模型都加載到內(nèi)存中而犧牲了計算內(nèi)存,新基礎(chǔ)設(shè)施能夠靈活地將不同的模型分配到不同的GPU上,根據(jù)計算速度在多個模型之間平衡資源。
這一創(chuàng)新使得訓(xùn)練效率比之前的版本提升了約10倍。
Llama 4一夜成為開源王者,甚至就連DeepSeek V3最新版也被拉下神壇,接下來就是坐等R2的誕生。
參考資料:
https://x.com/AIatMeta/status/1908598456144531660
https://x.com/astonzhangAZ/status/1908595612372885832
https://x.com/lmarena_ai/status/1908601011989782976
熱門跟貼