
內(nèi)容來自:機(jī)器之心
萬萬沒想到。Meta 選擇在周六日,發(fā)布了最新 AI 模型系列 ——Llama 4,這是其 Llama 家族的最新成員。

該系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。所有這些模型都經(jīng)過了大量未標(biāo)注的文本、圖像和視頻數(shù)據(jù)的訓(xùn)練,以使它們具備廣泛的視覺理解能力。
Meta GenAI 負(fù)責(zé)人 Ahmad Al-Dahle 表示,Llama 4 展示了 Meta 對開源 AI、整個開源 AI 社區(qū)的長期承諾以及堅定不移的信念 —— 開放系統(tǒng)將產(chǎn)出最好的小型、中型和即將出現(xiàn)的前沿大模型。

谷歌 CEO 劈查伊不禁感嘆,人工智能世界永遠(yuǎn)不無聊,恭喜 Llama 4 團(tuán)隊,繼續(xù)前進(jìn)!

在大模型競技場(Arena),Llama 4 Maverick 的總排名第二,成為第四個突破 1400 分的大模型。其中開放模型排名第一,超越了 DeepSeek;在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)中排名均為第一;大幅超越了自家 Llama 3 405B,得分從 1268 提升到了 1417;風(fēng)格控制排名第五。


那么 Llama 4 模型系列有何特點(diǎn)呢?具體而言:
Llama 4 Scout 是一個擁有 170 億激活參數(shù)和 16 個專家的模型,是同類中全球最佳的多模態(tài)模型,比前幾代 Llama 模型更強(qiáng)大,且能適配單個 NVIDIA H100 GPU。此外,Llama 4 Scout 提供了業(yè)界領(lǐng)先的 10M 上下文窗口,在廣泛報道的基準(zhǔn)測試中表現(xiàn)優(yōu)于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
Llama 4 Maverick 是一個擁有 128 位專家、 170 億個激活參數(shù)模型,是同類中最好的多模態(tài)模型,在廣泛報道的基準(zhǔn)測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,同時在推理和編程方面取得了與新 DeepSeek v3 相當(dāng)?shù)慕Y(jié)果 —— 激活參數(shù)不到一半。Llama 4 Maverick 提供了一流的性價比,其實驗性聊天版本在 LMArena 上的 ELO 得分為 1417。
以上這兩個模型是 Meta 迄今為止最好的模型,主要得益于它們是從擁有 2880 億激活參數(shù)和 16 個專家的 Llama 4 Behemoth 模型進(jìn)行知識蒸餾而來。
Llama 4 Behemoth 是 Meta 目前最強(qiáng)大的模型之一,也是世界上最智能的大型語言模型之一。在多項科學(xué)、技術(shù)、工程和數(shù)學(xué)(STEM)基準(zhǔn)測試中,Llama 4 Behemoth 的表現(xiàn)優(yōu)于 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro。
不過,Llama 4 Behemoth 仍在訓(xùn)練中,后續(xù) Meta 會放出更多內(nèi)容。
好消息是,用戶現(xiàn)在就可以在 llama.com 和 Hugging 上下載 Llama 4 Scout 和 Llama 4 Maverick 最新模型。

所有 Llama 4 模型均采用原生多模態(tài)設(shè)計,比如上傳一張圖像,你可以問關(guān)于這張圖像的任何問題
Llama 4 Scout 支持長達(dá) 1000 萬 token 的上下文,這是目前行業(yè)內(nèi)最長的上下文長度,解鎖了圍繞記憶、個性化和多模態(tài)應(yīng)用的新用例。
Llama 4 在圖像 grounding 方面也是一流的,能夠?qū)⒂脩籼崾九c相關(guān)的視覺概念對齊,并將模型響應(yīng)錨定到圖像中的區(qū)域。
Llama 4 還經(jīng)過預(yù)訓(xùn)練和微調(diào),能夠理解 12 種語言的無與倫比的文本,支持全球開發(fā)和部署。
預(yù)訓(xùn)練
Meta 在構(gòu)建下一代 Llama 模型時,在預(yù)訓(xùn)練階段嘗試了多種新方法。
首先,這是 Meta 首次采用混合專家(Mixture of Experts, MoE)架構(gòu)。在 MoE 模型中,單個 token 僅激活總參數(shù)的一部分。Meta 表示,MoE 架構(gòu)在訓(xùn)練和推理時計算效率更高,在固定訓(xùn)練 FLOPs 預(yù)算下,相比密集模型提供更高的質(zhì)量。

以 Llama 4 Maverick 模型為例,該模型擁有 170 億激活參數(shù)和 4000 億總參數(shù)。Meta 采用交替的密集層和混合專家(MoE)層來提高推理效率。在 MoE 層中,他們使用了 128 個路由專家和一個共享專家。每個 token 都會被發(fā)送到共享專家以及 128 個路由專家中的一個。
因此,盡管所有參數(shù)都存儲在內(nèi)存中,但在服務(wù)這些模型時,只有總參數(shù)的一部分被激活。這通過降低模型服務(wù)成本和延遲來提高推理效率 ——Llama 4 Maverick 可以在單個 NVIDIA H100 DGX 主機(jī)上運(yùn)行,便于部署,也可以通過分布式推理實現(xiàn)最高效率。
Llama 4 系列模型采用原生多模態(tài)設(shè)計,通過早期融合將文本和視覺 token 無縫整合到統(tǒng)一的模型骨干中。早期融合是一個重大進(jìn)步,因為這樣能夠使用大量未標(biāo)記的文本、圖像和視頻數(shù)據(jù)對模型進(jìn)行聯(lián)合預(yù)訓(xùn)練。此外,Meta 還改進(jìn)了 Llama 4 中的視覺編碼器,該編碼器基于 MetaCLIP,以更好地使編碼器適應(yīng) LLM。
另外,Meta 還開發(fā)了一種新的訓(xùn)練技術(shù),稱為 MetaP,其能夠可靠地設(shè)置模型超參數(shù),例如每層的學(xué)習(xí)率和初始化規(guī)模。Meta 發(fā)現(xiàn),選定的超參數(shù)在不同批量大小、模型寬度、深度和訓(xùn)練 token 值之間具有良好的遷移性。
Llama 4 通過在 200 種語言上進(jìn)行預(yù)訓(xùn)練,支持開源微調(diào)工作,其中包括超過 100 種語言,每種語言都超過 10 億 token,總體上比 Llama 3 多 10 倍的多語言 token。
此外,Meta 采用 FP8 精度進(jìn)行訓(xùn)練,兼具質(zhì)量并確保高 FLOPs 利用率。在使用 FP8 和 32K GPU 預(yù)訓(xùn)練 Llama 4 Behemoth 模型時,Meta 實現(xiàn)了每 GPU 390 TFLOPs。訓(xùn)練所用的數(shù)據(jù)混合總量超過 30 萬億 token,是 Llama 3 預(yù)訓(xùn)練數(shù)據(jù)混合量的兩倍多,涵蓋了多樣化的文本、圖像和視頻數(shù)據(jù)集。
最后,Meta 還通過所謂的中期訓(xùn)練(mid-training)繼續(xù)訓(xùn)練模型,提升模型核心能力,包括利用專門的數(shù)據(jù)集擴(kuò)展長上下文。這使 Meta 在提升模型質(zhì)量的同時,為 Llama 4 Scout 解鎖了業(yè)界領(lǐng)先的 1000 萬輸入上下文長度。
后訓(xùn)練
Llama 4 Maverick 在圖像和文本理解方面提供了無與倫比、行業(yè)領(lǐng)先的性能,能夠創(chuàng)建跨越語言障礙的復(fù)雜人工智能應(yīng)用。作為通用助手和聊天用例的產(chǎn)品主力模型,Llama 4 Maverick 在精確圖像理解和創(chuàng)意寫作方面表現(xiàn)出色。
在對 Llama 4 Maverick 模型進(jìn)行后訓(xùn)練時,最大的挑戰(zhàn)是平衡多種輸入模態(tài)、推理能力和對話能力。為了混合模態(tài),Meta 設(shè)計了一種精心策劃的課程策略,與單一模態(tài)專家模型相比,這種策略不會降低性能。
在 Llama 4 中,Meta 通過采用不同的方法對后訓(xùn)練流程進(jìn)行了全面改進(jìn):輕量級監(jiān)督微調(diào)(SFT)> 在線強(qiáng)化學(xué)習(xí)(RL)> 輕量級直接偏好優(yōu)化(DPO)。Meta 發(fā)現(xiàn),SFT 和 DPO 可能會過度約束模型,限制在線 RL 階段的探索能力,從而導(dǎo)致推理、編程和數(shù)學(xué)領(lǐng)域的精度下降。
為了解決這一問題,Meta 使用 Llama 模型作為評判,移除了超過 50% 的標(biāo)記為簡單(easy)的數(shù)據(jù),并在剩余較難的數(shù)據(jù)集上進(jìn)行了輕量級監(jiān)督微調(diào)(SFT)。在隨后的多模態(tài)在線強(qiáng)化學(xué)習(xí)(RL)階段,通過精心選擇較難的提示,實現(xiàn)了性能的顯著提升。
此外,Meta 還實施了持續(xù)在線 RL 策略,交替訓(xùn)練模型并使用它持續(xù)過濾并保留中等至高難度的提示。這種策略在計算和準(zhǔn)確性權(quán)衡方面非常有益。
最后,Meta 還進(jìn)行了輕量級直接偏好優(yōu)化(DPO),以處理與模型響應(yīng)質(zhì)量相關(guān)的邊緣情況,有效實現(xiàn)了模型智能與對話能力的良好平衡。這些改進(jìn)促成了一個業(yè)界領(lǐng)先的通用聊天模型,具備最先進(jìn)的智能和圖像理解能力。
性能
Llama 4 Maverick 包含 170 億激活參數(shù)、128 個專家和 4000 億總參數(shù),相比 Llama 3.3 70B,以更低的價格提供了更高的質(zhì)量。由下表可知,Llama 4 Maverick 是同類中最佳的多模態(tài)模型,在編碼、推理、多語言、長上下文和圖像基準(zhǔn)測試中,其性能超過了類似模型如 GPT-4o 和 Gemini 2.0,并且在編碼和推理方面與規(guī)模更大的 DeepSeek v3.1 具有競爭力。

較小模型 Llama 4 Scout 是一款通用型模型,擁有 170 億激活參數(shù)、16 個專家和 1090 億總參數(shù),能夠在其所屬類別中提供最先進(jìn)的性能。Llama 4 Scout 將支持的上下文長度從 Llama 3 的 128K 大幅提升至業(yè)界領(lǐng)先的 1000 萬 token。這為多文檔摘要、解析廣泛用戶活動以實現(xiàn)個性化任務(wù)以及推理龐大代碼庫等應(yīng)用提供了更多可能性。
Llama 4 Scout 在預(yù)訓(xùn)練和后訓(xùn)練中均使用 256K 上下文長度,使基礎(chǔ)模型具備強(qiáng)大的長上下文泛化能力。在大海撈針檢索等任務(wù)中,該模型均展示了令人信服的結(jié)果。
Llama 4 架構(gòu)的關(guān)鍵創(chuàng)新之一是使用無位置嵌入的交錯注意力層(interleaved attention layers),并通過推理時的溫度縮放來增強(qiáng)長上下文泛化能力。這種架構(gòu)被稱為 iRoPE 架構(gòu),其中 i 代表交錯(interleaved)注意力層,強(qiáng)調(diào)其支持無限上下文長度的長期目標(biāo);RoPE 指大多數(shù)層中使用的旋轉(zhuǎn)位置嵌入。


Meta 對兩款模型進(jìn)行了廣泛的圖像和視頻幀靜止圖像訓(xùn)練,以賦予它們廣泛的視覺理解能力,包括對時序活動及相關(guān)圖像的理解。這使得模型能夠在多圖像輸入和文本提示下輕松進(jìn)行視覺推理和理解任務(wù)。這些模型在預(yù)訓(xùn)練時最多支持 48 張圖像,并且在后訓(xùn)練中可以支持 8 張圖像,結(jié)果良好。
Llama 4 Scout 在圖像定位方面表現(xiàn)卓越,能夠?qū)⒂脩籼崾九c相關(guān)視覺概念對齊,并將模型響應(yīng)錨定到圖像中的特定區(qū)域。這使得大型語言模型能夠更精確地進(jìn)行視覺問答,更好地理解用戶意圖并定位感興趣的對象。
此外,Llama 4 Scout 在編碼、推理、長上下文和圖像基準(zhǔn)測試中超越了類似模型,并且比所有之前的 Llama 模型表現(xiàn)更強(qiáng)。

將 Llama 推向新的尺度:2T Behemoth
Llama 4 Behemoth 預(yù)覽版是一個教師模型, 也是一個多模態(tài)混合專家模型,擁有 2880 億激活參數(shù)、16 個專家和近 2 萬億總參數(shù)。
在數(shù)學(xué)、多語言和圖像基準(zhǔn)測試中,它提供了非推理模型的最先進(jìn)性能,是教授較小 Llama 4 模型的完美選擇。

對一個擁有兩萬億參數(shù)的模型進(jìn)行后訓(xùn)練是一個巨大的挑戰(zhàn),這要求研究者從數(shù)據(jù)規(guī)模開始,徹底重新設(shè)計和改進(jìn)訓(xùn)練方案。為了最大化性能,Meta 不得不對監(jiān)督微調(diào)(SFT)數(shù)據(jù)進(jìn)行 95% 的剪枝,而較小模型的剪枝比例為 50%。這一舉措是為了在質(zhì)量和效率上取得必要的平衡。Meta 還發(fā)現(xiàn),先進(jìn)行輕量級監(jiān)督微調(diào)(SFT),再進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)(RL),能夠顯著提升模型的推理和編碼能力。
Meta 的強(qiáng)化學(xué)習(xí)(RL)方案專注于通過策略模型進(jìn)行 pass@k 分析,采樣難度較高的提示,并構(gòu)建難度逐漸增加的訓(xùn)練課程。此外,在訓(xùn)練過程中動態(tài)過濾掉零優(yōu)勢的提示,并構(gòu)建包含多種能力的混合提示訓(xùn)練批次,這些措施在數(shù)學(xué)、推理和編碼方面為模型帶來了顯著的性能提升。最后,從多種系統(tǒng)指令中采樣對于確保模型在推理和編碼任務(wù)中保持指令遵循能力至關(guān)重要,這使得模型能夠在多種任務(wù)中表現(xiàn)出色。
為兩萬億參數(shù)的模型擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)也是一項巨大的挑戰(zhàn),這迫使 Meta 不得不重新設(shè)計并改進(jìn)底層的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,以應(yīng)對前所未有的規(guī)模。
Meta 對混合專家(MoE)并行化的設(shè)計進(jìn)行了優(yōu)化,以提升速度,從而加快迭代過程。此外,他們還開發(fā)了一個完全異步的在線強(qiáng)化學(xué)習(xí)訓(xùn)練框架,增強(qiáng)了靈活性。與現(xiàn)有的分布式訓(xùn)練框架相比,后者為了將所有模型加載到內(nèi)存中而犧牲了計算內(nèi)存,Meta 的新基礎(chǔ)設(shè)施能夠靈活地將不同模型分配到不同的 GPU 上,并根據(jù)計算速度在多個模型之間平衡資源。這一創(chuàng)新使得訓(xùn)練效率相比上一代提升了約 10 倍。
Llama 4 Scout 和 Llama 4 Maverick 現(xiàn)已開放下載,地址:
llama.com:https://www.llama.com/llama-downloads/
Hugging Face 地址:https://huggingface.co/meta-llama
參考鏈接:https://ai.meta.com/blog/llama-4-multimodal-intelligence/
熱門跟貼