
智東西4月6日報道,今日,Meta發(fā)布Llama 4系列首批模型,包括兩款高效模型Llama 4 Scout、Llama 4 Maverick。這是Meta首款采用混合專家(MoE)架構(gòu)構(gòu)建的原生多模態(tài)模型,其中Scout更是首度支持超長10M上下文窗口。Meta還預(yù)覽了其迄今最強大的新教師模型——Llama 4 Behemoth。
“小杯”Llama 4 Scout擁有16位專家、170億個活躍參數(shù)、1090億個總參數(shù),被稱作“同類產(chǎn)品中全球最好的多模態(tài)模型”,提供1000萬tokens上下文窗口(對應(yīng)多達(dá)500萬個單詞的文本),適用于單張NVIDIA H100 GPU(具有Int4量化),并在廣泛基準(zhǔn)測試中分?jǐn)?shù)超過Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

“中杯”Llama 4 Maverick擁有128位專家、170億個活躍參數(shù)、4000億個總參數(shù),也是“同類中最好的多模態(tài)模型”,適用于單臺H100主機,在廣泛基準(zhǔn)測試中擊敗了GPT-4o和Gemini 2.0 Flash,同時在推理和編程方面取得了與新DeepSeek-v3相當(dāng)?shù)慕Y(jié)果,活躍參數(shù)不到后者的一半。
Llama 4 Maverick主打性價比,其實驗性聊天版本在LMArena上的ELO得分為1417,每1M tokens輸入和輸出推理成本區(qū)間(0.19-0.49美元)也做到接近甚至低于DeepSeek v3.1(0.48美元)。

這些成績歸功于從Meta迄今最強大的模型“巨杯”Llama 4 Behemoth的提煉。Llama 4 Behemoth擁有16位專家、2880億個活躍參數(shù)、近2萬億個總參數(shù),在多個STEM基準(zhǔn)測試中的表現(xiàn)優(yōu)于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

Llama 4 Behemoth仍在訓(xùn)練中,尚未正式發(fā)布,但Meta先分享了一些技術(shù)細(xì)節(jié)。
從llama.com和Hugging Face可下載Llama 4 Scout和Llama 4 Maverick模型。這些模型很快將在主流云和數(shù)據(jù)平臺、邊緣芯片和全球服務(wù)集成商上提供。

模型下載地址:
llama.com/llama-downloads/
huggingface.co/meta-llama
即日起,用戶在WhatsApp、Messenger、Instagram Direct和Meta.AI網(wǎng)站上可試用使用Llama 4構(gòu)建的Meta AI。
Meta還預(yù)告將在4月29日的LlamaCon上分享更多關(guān)于其愿景的內(nèi)容。
一、MoE架構(gòu)+多種預(yù)訓(xùn)練新方法,提高算力利用率
構(gòu)建下一代Llama模型在預(yù)訓(xùn)練期間采用了多種新方法。
新Llama 4模型是Meta首批使用混合專家(MoE)架構(gòu)的模型。在MoE模型中,單個token僅激活總參數(shù)的一小部分。MoE架構(gòu)在訓(xùn)練和推理方面具有更高的計算效率,并且在給定固定訓(xùn)練FLOP預(yù)算的情況下,與密集模型相比,可提供更高的質(zhì)量。

例如,Llama 4 Maverick模型有17B個活躍參數(shù)和400B個總參數(shù)。Meta使用交替的密集和混合專家(MoE)層來提高推理效率。
MoE層使用128位路由專家和一位共享專家。每個token都會發(fā)送給共享專家以及128位路由專家之一。因此,雖然所有參數(shù)都存儲在內(nèi)存中,但在為這些模型提供服務(wù)時,只有總參數(shù)的子集被激活。
這通過降低模型服務(wù)成本和延遲來提高推理效率。Llama 4 Maverick可在單臺NVIDIA H100 DGX主機上運行,??以便于部署,也可以通過分布式推理實現(xiàn)最高效率。
Llama 4模型采用原生多模態(tài)設(shè)計,結(jié)合早期融合,將文本和視覺token無縫集成到統(tǒng)一的模型主干中。早期融合是向前邁出的重要一步,因為它使Meta能夠使用大量未標(biāo)記的文本、圖像和視頻數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練模型。
Meta還改進(jìn)了Llama 4中的視覺編碼器。它基于MetaCLIP,但與凍結(jié)的Llama模型一起單獨訓(xùn)練,以便更好地使編碼器適應(yīng)大語言模型。
Meta開發(fā)了一種新的訓(xùn)練技術(shù)MetaP,能可靠地設(shè)置關(guān)鍵模型超參數(shù),例如每層的學(xué)習(xí)率和初始化尺度。該團(tuán)隊發(fā)現(xiàn)所選的超參數(shù)在不同的batch處理大小、模型寬度、深度和訓(xùn)練token值之間具有良好的遷移性。
Llama 4通過對200種語言進(jìn)行預(yù)訓(xùn)練來實現(xiàn)開源微調(diào)工作,其中包括100多種語言,每種語言都有超過10億個token,總體而言,多語言tokens比Llama 3多10倍。
此外,Meta專注于使用FP8精度進(jìn)行高效的模型訓(xùn)練,而不會犧牲質(zhì)量并確保較高的模型FLOP利用率。在使用FP8和32K GPU預(yù)訓(xùn)練Llama 4 Behemoth模型時,Meta實現(xiàn)了390 TFLOPs/GPU。用于訓(xùn)練的整體數(shù)據(jù)組合由超過30萬億個token組成,是Llama 3預(yù)訓(xùn)練組合的2倍多,包括各種文本、圖像和視頻數(shù)據(jù)集。
Meta繼續(xù)在所謂的“中期訓(xùn)練”階段訓(xùn)練模型,以使用新的訓(xùn)練方案(包括使用專門的數(shù)據(jù)集進(jìn)行長上下文擴(kuò)展)來提高核心功能。這使其能夠提高模型質(zhì)量,同時為Llama 4 Scout解鎖超長的10M輸入上下文長度。
二、改進(jìn)后訓(xùn)練流程,權(quán)衡計算和準(zhǔn)確性
新Llama 4模型有不同大小。Llama 4 Maverick在圖像和文本理解方面提供行業(yè)領(lǐng)先性能,支持創(chuàng)建復(fù)雜的AI應(yīng)用程序以跨越語言障礙。作為Meta針對通用助手和聊天用例的產(chǎn)品主力模型,Llama 4 Maverick非常適合精確的圖像理解和創(chuàng)意寫作。
在對Llama 4 Maverick模型進(jìn)行后訓(xùn)練時,最大的挑戰(zhàn)是在多種輸入模式、推理和對話能力之間保持平衡。對于混合模式,Meta提出了一個精心策劃的課程策略,與單個模式專家模型相比,該策略不會犧牲性能。
借助Llama 4,Meta通過采用不同的方法改進(jìn)了后訓(xùn)練流程:輕量級監(jiān)督微調(diào)(SFT)> 在線強化學(xué)習(xí)(RL)> 輕量級直接偏好優(yōu)化 (DPO)。
一個關(guān)鍵的學(xué)習(xí)是,SFT和DPO可能會過度約束模型,限制在線強化學(xué)習(xí)階段的探索并導(dǎo)致準(zhǔn)確性不理想,特別是在推理、編程和數(shù)學(xué)領(lǐng)域。
為了解決這個問題,Meta使用Llama模型作為判斷標(biāo)準(zhǔn),刪除了50%以上標(biāo)記為簡單的數(shù)據(jù),并對剩余的較難數(shù)據(jù)集進(jìn)行了輕量級SFT。
在隨后的多模態(tài)在線強化學(xué)習(xí)階段,通過仔細(xì)選擇更難的提示,Meta能夠?qū)崿F(xiàn)性能的階躍變化。
此外,Meta實施了持續(xù)在線RL策略,交替訓(xùn)練模型,然后使用它來持續(xù)過濾并僅保留中等難度到困難難度的提示。事實證明,這種策略在計算和準(zhǔn)確性權(quán)衡方面非常有益。
然后,Meta做了一個輕量級DPO來處理與模型響應(yīng)質(zhì)量相關(guān)的極端情況,有效地在模型的智能和對話能力之間實現(xiàn)了良好的平衡。管道架構(gòu)和具有自適應(yīng)數(shù)據(jù)過濾的持續(xù)在線RL策略最終形成了業(yè)界領(lǐng)先的通用聊天模型,具有先進(jìn)的智能和圖像理解能力。
作為通用大語言模型,Llama 4 Maverick包含170億個活躍參數(shù)、128位專家和4000億個總參數(shù),與Llama 3.3 70B相比,它以更低的價格提供高質(zhì)量。
Llama 4 Maverick是同類最佳的多模態(tài)模型,在編程、推理、多語言、長上下文和圖像基準(zhǔn)測試中超越了GPT-4o和Gemini 2.0等同類模型,并且在編程和推理方面可與活躍參數(shù)規(guī)模大得多的DeepSeek v3.1相媲美。
小型模型Llama 4 Scout是一個通用模型,擁有170億個活動參數(shù)、16位專家和1090億個總參數(shù),可提供同類中一流的性能。Llama 4 Scout將支持的上下文長度從Llama 3中的128K大幅增加到行業(yè)領(lǐng)先的1000萬個token,適用于多文檔摘要、解析大量用戶活動以執(zhí)行個性化任務(wù)以及對龐大的代碼庫進(jìn)行推理。
Llama 4 Scout經(jīng)過了預(yù)訓(xùn)練和后訓(xùn)練,上下文長度為256K,這為基礎(chǔ)模型提供了高級長度泛化能力。
Meta在諸如對文本進(jìn)行“大海撈針”式檢索以及對1000萬個代碼token進(jìn)行累積負(fù)對數(shù)似然(NLL)等任務(wù)中展示了令人信服的結(jié)果。
Llama 4架構(gòu)的一個關(guān)鍵創(chuàng)新是使用沒有位置嵌入的交錯注意層。此外,Meta采用注意力的推理時間溫度縮放來增強長度泛化,并稱之為iRoPE架構(gòu)。其中“i”代表“交錯”注意層,突出了支持“無限”上下文長度的長期目標(biāo),“RoPE”指的是大多數(shù)層中使用的旋轉(zhuǎn)位置嵌入。
Meta用各種圖像和視頻幀靜態(tài)圖像訓(xùn)練了兩個模型,以便讓它們具有廣泛的視覺理解能力,包括時間活動和相關(guān)圖像。這使得多圖像輸入以及用于視覺推理和理解任務(wù)的文本提示能夠輕松交互。這些模型在多達(dá)48張圖像上進(jìn)行了預(yù)訓(xùn)練,在訓(xùn)練后測試了多達(dá)8張圖像,取得了良好的效果。
Llama 4 Scout在圖像基礎(chǔ)方面也性能出色,能夠?qū)⒂脩籼崾九c相關(guān)的視覺概念對齊,并將模型響應(yīng)錨定到圖像中的區(qū)域。這使得大語言模型能夠更精確地回答視覺問題,從而更好地理解用戶意圖并定位感興趣的對象。
該模型在編程、推理、長上下文和圖像基準(zhǔn)方面也超越了同類模型,并比所有以前的Llama模型都具有更強大的性能。
三、Llama 4 Behemoth預(yù)覽:近2萬億總參數(shù),改造底層基礎(chǔ)設(shè)施
Llama 4 Behemoth一個教師模型,也是一個多模態(tài)專家混合模型,擁有2880億個活躍參數(shù)、16個專家、近2萬億個總參數(shù),在數(shù)學(xué)、多語言和圖像基準(zhǔn)測試中為非推理模型提供了先進(jìn)性能。
Meta開發(fā)了一種新穎的提煉損失函數(shù),可通過訓(xùn)練動態(tài)加權(quán)軟目標(biāo)和硬目標(biāo)。在預(yù)訓(xùn)練期間從Llama 4 Behemoth進(jìn)行共同提煉,可攤銷計算學(xué)生訓(xùn)練中使用的大多數(shù)訓(xùn)練數(shù)據(jù)的提煉目標(biāo)所需的資源密集型前向傳遞的計算成本。為了在學(xué)生訓(xùn)練中加入更多新數(shù)據(jù),Meta對Behemoth模型進(jìn)行了前向傳遞,以創(chuàng)建提煉目標(biāo)。
對具有2萬億個參數(shù)的模型進(jìn)行后期訓(xùn)練也是一項重大挑戰(zhàn),這需要從數(shù)據(jù)規(guī)模開始徹底改革和改進(jìn)配方。為了最大限度地提高性能,必須修剪95%的SFT數(shù)據(jù),而對于較小的模型則需要修剪50%,以實現(xiàn)對質(zhì)量和效率的必要關(guān)注。
Meta還發(fā)現(xiàn),進(jìn)行輕量級SFT后進(jìn)行大規(guī)模強化學(xué)習(xí)(RL)可以更顯著地提高模型的推理和編程能力。其RL配方專注于通過使用策略模型進(jìn)行pass@k分析來采樣硬提示,并制定增加提示難度的訓(xùn)練課程。
Meta還發(fā)現(xiàn),在訓(xùn)練期間動態(tài)過濾掉沒有優(yōu)勢的提示,并使用來自多種功能的混合提示構(gòu)建訓(xùn)練批次,有助于提高數(shù)學(xué)、推理和編程的性能。
最后,從各種系統(tǒng)指令中采樣對于確保模型保留其推理和編程的指令遵循能力并能夠在各種任務(wù)中表現(xiàn)良好至關(guān)重要。
由于RL的規(guī)??涨熬薮螅虼藢⑵鋽U(kuò)展到2萬億參數(shù)模型也需要改造底層RL基礎(chǔ)設(shè)施。
Meta優(yōu)化了MoE并行化的設(shè)計以提高速度,從而實現(xiàn)了更快的迭代。該團(tuán)隊開發(fā)了一個完全異步的在線RL訓(xùn)練框架,提高了靈活性。與現(xiàn)有的分布式訓(xùn)練框架相比,后者犧牲了計算內(nèi)存來將所有模型堆疊在內(nèi)存中,而其新基礎(chǔ)設(shè)施能夠靈活地將不同的模型分配到單獨的GPU上,根據(jù)計算速度在多個模型之間平衡資源。與前幾代相比,這項創(chuàng)新使訓(xùn)練效率提高了約10倍。
結(jié)語:開源多種保護(hù)措施,改進(jìn)消除偏見能力
Meta稱其目標(biāo)是開發(fā)最有幫助和實用的模型,同時防范和緩解最嚴(yán)重的風(fēng)險,根據(jù)《開發(fā)人員使用指南:AI保護(hù)》中概述的最佳實踐構(gòu)建了Llama 4,使開發(fā)人員能夠為其Llama支持的應(yīng)用程序創(chuàng)建有用、安全且適應(yīng)性強的體驗。
Meta在預(yù)訓(xùn)練方面,結(jié)合使用數(shù)據(jù)過濾和其他數(shù)據(jù)緩解措施來保護(hù)模型;對于后訓(xùn)練,應(yīng)用了一系列技術(shù)來確保模型符合對用戶和開發(fā)者有益的政策,包括在每個階段提供適當(dāng)級別的安全數(shù)據(jù)。
在系統(tǒng)層面,Meta開源了幾種保護(hù)措施,可幫助識別和防范潛在的有害輸入和輸出。這些工具(Llama Guard、Prompt Guard、Cyber??SecEval)可以集成到Llama模型中,也可以與其他第三方工具集成。
Meta以可控且可重復(fù)的方式對各種場景和用例中的模型進(jìn)行系統(tǒng)測試,并將產(chǎn)生的數(shù)據(jù)整合到訓(xùn)練后的結(jié)果中。該團(tuán)隊還利用自動和手動測試對一系列主題的對抗性動態(tài)探測對模型進(jìn)行壓力測試,在理解和評估潛在模型風(fēng)險方面取得了進(jìn)展。
為消除AI模型的偏見,Meta將繼續(xù)提高Llama的響應(yīng)能力,以便它能夠回答問題,能夠?qū)Ω鞣N不同的觀點做出回應(yīng)而不作任何評判,并且不會偏袒某些觀點。經(jīng)改進(jìn),Llama 4的性能明顯優(yōu)于Llama 3,并且可與Grok相媲美:
- Llama 4對有爭議的政治和社會話題的拒絕較少(從Llama 3.3中的7%降至不到2%)。
- Llama 4在拒絕回答提示方面明顯更加平衡(在一系列有爭議的熱門問題中,不平等回答拒絕的比例現(xiàn)在不到1%)。
Meta還致力于讓模型能夠以像人類一樣的速度、以個性化的方式做出回復(fù)。Llama 4 經(jīng)過了優(yōu)化以滿足這些需求。
來源:Meta
熱門跟貼