
Meta 的 Llama 系列自誕生以來,便以其卓越的性能和開源精神引領(lǐng)了大型語言模型(LLM)社區(qū)的浪潮。然而,自 Llama 3 發(fā)布以來,時間已悄然流逝近一年,開源愛好者和開發(fā)者們翹首以盼的下一代模型遲遲未現(xiàn)。
就在今天,我們終于迎來了 Llama 4 的震撼亮相!作為 Llama 家族的第四代產(chǎn)品,這一全新模型不僅延續(xù)了 Meta 的技術(shù)傳承,更在性能、功能和應(yīng)用場景上實現(xiàn)了質(zhì)的飛躍,標(biāo)志著開源 AI 邁向新紀(jì)元。
本文將從背景、技術(shù)特性、模型變體、應(yīng)用潛力以及未來展望五個方面,帶您全面了解 Llama 4 的魅力。
一、背景與發(fā)展歷程
Llama(Large Language Model Meta AI)系列由 Meta AI 于 2023 年首次推出,旨在為研究人員和開發(fā)者提供高效、開源的語言模型解決方案。從初代 Llama 到后續(xù)的 Llama 2 和 Llama 3,Meta 逐步放寬模型的訪問權(quán)限,并引入了指令微調(diào)版本和多模態(tài)功能,使其在學(xué)術(shù)界和產(chǎn)業(yè)界廣受歡迎。
然而,開源領(lǐng)域的競爭從未停歇,尤其是中國 AI 公司 DeepSeek 的崛起,對 Meta 的 Llama 系列構(gòu)成了顯著壓力。DeepSeek 自 2024 年以來推出了多款高性能開源模型(如 DeepSeek-V2),以其高效的推理能力和多語言支持迅速在全球開發(fā)者社區(qū)中占據(jù)一席之地。
這種外部競爭迫使 Meta 加速 Llama 4 的研發(fā),甚至一度傳聞,Meta 組建了作戰(zhàn)室來解密 DeepSeek 如何降低運行和部署R1和V3等模型的成本,以鞏固其在開源 LLM 領(lǐng)域的領(lǐng)導(dǎo)地位。
據(jù)報道,Llama 4 的訓(xùn)練使用了超過 10 萬個 H100 GPU 的超大規(guī)模集群,用于訓(xùn)練的整體數(shù)據(jù)組合由超過 30 萬億個 token 組成,是 Llama 3 預(yù)訓(xùn)練組合的兩倍多,包括各種文本、圖像和視頻數(shù)據(jù)集。,也反映了 Meta 對抗 DeepSeek 等新興對手的決心。
Mark Zuckerberg 在早前的聲明中表示,Llama 4 旨在成為“行業(yè)中最先進(jìn)的模型”,并推動 AI 代理(AI Agents)和多模態(tài)應(yīng)用的普及。這一目標(biāo)的背后,既是對技術(shù)突破的追求,也是對市場競爭的回應(yīng)。
二、技術(shù)特性
今天,Meta 創(chuàng)始人兼 CEO 馬克·扎克伯格在他的 Instagram 賬號上宣布了新的 Llama 4 系列模型,其中兩個——4000 億參數(shù)的 Llama 4 Maverick 和 1090億參數(shù)的 Llama 4 Scout——今天即可供開發(fā)者下載并開始使用或微調(diào),現(xiàn)在可以在 llama.com 和 AI 代碼共享社區(qū) Hugging Face 上進(jìn)行。
今天還預(yù)覽了一款擁有 2 萬億參數(shù)的 Llama 4 巨獸,盡管 Meta 的博客文章關(guān)于發(fā)布的內(nèi)容表示它仍在訓(xùn)練中,并未給出可能發(fā)布的具體時間。(參數(shù)指的是控制模型行為的設(shè)置,一般來說參數(shù)越多意味著模型更強大、更復(fù)雜。)
這些模型的一個主要特點是它們都是多模態(tài)的——經(jīng)過訓(xùn)練,因此能夠接收和生成文本、視頻和圖像(盡管沒有提到音頻)。

圖:LLama4 Maverick 在 LMArena 上評分位 1417 分
另一個特點是它們的上下文窗口非常長——Llama 4 Maverick 為 100 萬個標(biāo)記(Token),Llama 4 Scout 為 1000 萬個標(biāo)記——分別相當(dāng)于大約 15000 和 150000 頁文本,所有這些模型都可以在一次輸入/輸出交互中處理。這意味著用戶理論上可以上傳或粘貼多達(dá) 7500 頁的文本,并從 Llama 4 Scout 那里獲得等量的信息,這對于信息密集型領(lǐng)域如醫(yī)學(xué)、科學(xué)、工程、數(shù)學(xué)、文學(xué)等將非常有用。
Llama 4 在架構(gòu)設(shè)計、訓(xùn)練數(shù)據(jù)和功能擴展上均有顯著創(chuàng)新,以下是其核心技術(shù)特點:
超大上下文窗口
Llama 4 的一個亮點是其上下文窗口(context window)長度。Llama 4 Scout 模型支持高達(dá) 1000 萬 token 的上下文窗口,這一數(shù)字刷新了開源模型的紀(jì)錄。與之相比,Llama 3 的最大上下文僅為 128k token,而市場上其他領(lǐng)先模型如 GPT-4o 也未達(dá)到如此規(guī)模。超大上下文窗口使得 Llama 4 在處理長文檔、復(fù)雜對話和多輪推理任務(wù)時表現(xiàn)出色。混合專家模型(MoE)架構(gòu)
Llama 4 全系采用了混合專家模型(Mixture of Experts, MoE)架構(gòu),這一設(shè)計通過將計算任務(wù)分配給多個“專家”子模型,提升了效率和性能。與傳統(tǒng)密集模型相比,MoE 架構(gòu)在保持高精度的同時顯著降低了推理成本。打開網(wǎng)易新聞 查看精彩圖片據(jù)悉,Llama 4 Maverick 和即將推出的 Behemoth 模型在此基礎(chǔ)上進(jìn)一步優(yōu)化,使其在多模態(tài)任務(wù)中表現(xiàn)尤為突出。這一技術(shù)選擇或許是對 DeepSeek 在 MoE 架構(gòu)上成功應(yīng)用的回應(yīng),后者在 DeepSeek-V2 中率先展示了其高效性。
多模態(tài)能力
Llama 4 不再局限于文本處理,而是邁向真正的多模態(tài)模型。Llama 4 Maverick 支持圖像輸入和語音交互,能夠處理視覺-語言任務(wù)(如圖像描述)和語音對話。這種原生多模態(tài)設(shè)計(而非簡單的模塊拼接)使其在復(fù)雜場景下的表現(xiàn)超越了部分競爭對手,例如 GPT-4o和 Gemini 2.0 Flash。參數(shù)規(guī)模與優(yōu)化
Llama 4 提供了多個變體,參數(shù)規(guī)模從小型的 Scout(16 位專家,17B 活躍參數(shù),總參數(shù) 109B)到超大型的 Behemoth( 16位專家,17B 活躍參數(shù),總參數(shù)高達(dá) 2 萬億)不等。Meta 還提供了量化版本(如 BF16 和 FP8),以適配不同硬件需求。打開網(wǎng)易新聞 查看精彩圖片例如,Llama 4 Maverick (128 位專家,總參數(shù) 400B)的 FP8 量化權(quán)重可在一臺 H100 DGX 上運行,兼顧性能與部署靈活性。而Llama4 Scout 甚至能在單個 H100 GPU 上云運行(使用 Int4 量化)。
數(shù)據(jù)質(zhì)量與多樣性
Llama 4 的訓(xùn)練數(shù)據(jù)不僅包括公開的網(wǎng)絡(luò)數(shù)據(jù),還整合了 Meta 生態(tài)系統(tǒng)內(nèi)的許可數(shù)據(jù)(如 Instagram 和 Facebook 的公開帖子)以及用戶與 Meta AI 的交互記錄。這種多樣化的數(shù)據(jù)來源提升了模型在多語言支持(覆蓋阿拉伯語、英語、法語等 12 種語言)和現(xiàn)實場景中的適應(yīng)性,與 DeepSeek 在多語言優(yōu)化上的努力形成直接競爭。
三、模型變體

Llama 4 系列包括三種主要變體,分別針對不同需求:
Llama 4 Scout
特點:小型、快速,擁有 1000 萬 token 的超大上下文窗口,專為單張 H100 GPU 上的高效部署設(shè)計。
定位:適用于需要高效推理和長文本處理的場景,如學(xué)術(shù)研究、文檔總結(jié)和實時對話。匹配或超越 Mistral 3.1、Gemini 2.0 Flash-Lite 和 Gemma 3 等模型。
性能:據(jù) Meta 宣稱,Scout 在多項基準(zhǔn)測試中超越了頂級模型(如 Llama 3.1 和部分閉源模型),尤其在速度和資源占用上具有優(yōu)勢。
Llama 4 Maverick
特點:專注于多模態(tài)能力,支持視覺和語音輸入,預(yù)訓(xùn)練數(shù)據(jù)量約為 22 萬億 token。
定位:面向需要復(fù)雜交互的應(yīng)用,如智能助手、內(nèi)容生成和多媒體分析。
性能:在視覺-語言任務(wù)和對話能力上超越 GPT-4o和 Gemini 2.0,與 DeepSeek v3.1(45.8B 參數(shù))競爭力相當(dāng),同時使用的激活參數(shù)不到一半(17B),成為當(dāng)前開源多模態(tài)模型的標(biāo)桿。
打開網(wǎng)易新聞 查看精彩圖片圖:Meta 的 Llama 4 Maverick 在所有類別中均位列前五。
Llama 4 Behemoth(即將發(fā)布)
特點:參數(shù)規(guī)模高達(dá) 2 萬億,專注于 STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))領(lǐng)域的高級推理,其他模型都是從這個模型蒸餾出來的。這是一個擁有 16 位專家的 2880 億個活躍參數(shù)模型,是我們迄今為止最強大的,也是世界上最聰明的大模型之一。
定位:目標(biāo)是挑戰(zhàn) GPT-4.5 等閉源模型,成為開源社區(qū)的“巨無霸”。 它在多個 STEM 基準(zhǔn)測試中優(yōu)于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
預(yù)期:雖然尚未發(fā)布,但其超大規(guī)模和針對性優(yōu)化預(yù)示著在專業(yè)領(lǐng)域的巨大潛力。
四、后訓(xùn)練(Post-Training)

Llama 4 的后訓(xùn)練(Post-Training)階段是其性能提升的關(guān)鍵環(huán)節(jié),尤其是在多模態(tài)能力和推理精度上的突破。Meta 在 Llama 4 上徹底革新了后訓(xùn)練流程,采用了輕量級監(jiān)督微調(diào)(SFT) > 在線強化學(xué)習(xí)(RL) > 輕量級直接偏好優(yōu)化(DPO)的全新pipeline(看起來參考了 DeepSeek),以應(yīng)對多模態(tài)輸入、推理能力和對話能力的平衡挑戰(zhàn)。
Llama 4 Maverick 的后訓(xùn)練挑戰(zhàn)與策略
在后訓(xùn)練 Llama 4 Maverick 時,最大的難題是多模態(tài)輸入(圖像和文本)與推理、對話能力之間的平衡。為此,Meta 設(shè)計了一種精心策劃的課程策略(curriculum strategy),確保多模態(tài)性能不遜于單一模態(tài)專家模型。通過使用 Llama 模型作為評判工具,團(tuán)隊剔除了超過 50% 被標(biāo)記為“簡單”的數(shù)據(jù),僅對剩余的較難數(shù)據(jù)集進(jìn)行輕量級 SFT。
隨后,在多模態(tài)在線 RL 階段,通過精心挑選更具挑戰(zhàn)性的提示(prompts),模型性能實現(xiàn)了顯著提升。
此外,Meta 實施了持續(xù)在線 RL 策略,交替進(jìn)行模型訓(xùn)練和數(shù)據(jù)過濾,保留中等到高難度的提示。這種方法在計算成本和精度之間取得了優(yōu)異平衡。最后,通過輕量級 DPO 處理模型響應(yīng)質(zhì)量的邊緣情況,Llama 4 Maverick 在智能性和對話能力上達(dá)到了行業(yè)領(lǐng)先水平,成為具備頂級圖像理解能力的通用聊天模型。
Llama 4 Scout 的上下文長度優(yōu)化
Llama 4 Scout 的后訓(xùn)練聚焦于超長上下文能力的提升。模型在預(yù)訓(xùn)練和后訓(xùn)練階段均以 256K 的上下文長度為基礎(chǔ),通過創(chuàng)新的 iRoPE 架構(gòu)(交錯注意力層結(jié)合旋轉(zhuǎn)位置嵌入)增強了長度泛化能力。
這種架構(gòu)去除了傳統(tǒng)的位置嵌入,并在推理時引入注意力溫度縮放(temperature scaling),支持高達(dá) 1000 萬 token 的上下文長度。在“大海撈針”(retrieval needle in haystack)和 1000 萬 token 代碼的累積負(fù)對數(shù)似然(NLL)測試中,Llama 4 Scout 展現(xiàn)了令人信服的性能,為多文檔總結(jié)和大規(guī)模代碼推理等任務(wù)開辟了新可能。
多模態(tài)視覺訓(xùn)練
Llama 4 的兩個變體均在后訓(xùn)練中融入了廣泛的圖像和視頻幀數(shù)據(jù),以提升視覺理解能力,包括對時間活動和相關(guān)圖像的感知。預(yù)訓(xùn)練階段支持多達(dá) 48 張圖像輸入,后訓(xùn)練測試中則驗證了最多 8 張圖像的良好表現(xiàn)。這種多圖像處理能力結(jié)合文本提示,使模型在視覺推理任務(wù)中表現(xiàn)出色。
五、Llama4 與 DeepSeek 相比如何?
別忘了,還有一類以推理為主的模型,例如 DeepSeek R1、OpenAI 的“o”系列(如 GPT-4o)、Gemini 2.0 和 Claude Sonnet。
使用最高參數(shù)模型基準(zhǔn)——Llama 4 Behemoth,并將其與 DeepSeek R1 的初始發(fā)布圖表中的 R1-32B 和 OpenAI o1 模型進(jìn)行比較,以下是 Llama 4 Behemoth 的表現(xiàn):

我們發(fā)現(xiàn):
- MATH-500:Llama 4 Behemoth 略遜于 DeepSeek R1 和 OpenAI o1。
- GPQA Diamond:Behemoth領(lǐng)先 DeepSeek R1,但落后于 OpenAI o1。
- MMLU:Behemoth在兩者中均落后,但仍然優(yōu)于 Gemini 2.0 Pro 和 GPT-4.5。
總結(jié):雖然 DeepSeek R1 和 OpenAI o1 在幾個指標(biāo)上略勝 Behemoth,但 Llama 4 Behemoth 仍然具有很強的競爭力,并在其類別中推理排行榜上處于或接近頂端。
六、未來展望
盡管 Llama 4 在技術(shù)上取得了突破,但其發(fā)展仍面臨挑戰(zhàn)。首先,超大規(guī)模模型的訓(xùn)練成本(預(yù)計 2025 年 Meta AI 基礎(chǔ)設(shè)施支出高達(dá) 650 億美元)需要長期回報來證明其價值。
其次,多模態(tài)功能的實際效果需經(jīng)過廣泛測試,尤其是在安全性(如生成風(fēng)險內(nèi)容)和公平性方面。此外,DeepSeek 的持續(xù)創(chuàng)新對 Meta 構(gòu)成了長期威脅。DeepSeek 不僅在模型效率和多語言支持上表現(xiàn)出色,還通過低成本策略吸引了大量中小企業(yè)用戶,這可能削弱 Llama 4 在商業(yè)領(lǐng)域的滲透力。
展望未來,Llama 4 的成功可能推動開源 AI 生態(tài)的進(jìn)一步繁榮,同時加劇與 Google、OpenAI、xAI 以及 DeepSeek 等對手的競爭。Meta 首席產(chǎn)品官 Chris Cox 曾表示,Llama 4 將為 AI 代理鋪平道路,這意味著未來的 Llama 模型可能不僅是被動工具,而是能夠主動執(zhí)行任務(wù)的智能實體。然而,要實現(xiàn)這一愿景,Meta 必須在技術(shù)創(chuàng)新和市場策略上雙管齊下,以應(yīng)對 DeepSeek 等新興力量的挑戰(zhàn)。
結(jié)語
Llama 4 的發(fā)布不僅是 Meta AI 技術(shù)實力的展示,也是開源 AI 社區(qū)的一次勝利。從超大上下文到多模態(tài)能力,再到多樣化的模型變體,Llama 4 為用戶提供了前所未有的靈活性和性能。盡管 DeepSeek 的崛起為 Meta 帶來了新的競爭壓力,但 Llama 4 的突破無疑鞏固了其在開源領(lǐng)域的地位。隨著 Behemoth 的到來和生態(tài)系統(tǒng)的完善,Llama 4 有望重塑我們對語言模型的認(rèn)知,并在 AI 的未來發(fā)展中占據(jù)重要地位。
? AI范兒
要進(jìn)“交流群”,請關(guān)注公眾號獲取進(jìn)群方式
投稿、需求合作或報道請?zhí)砑庸娞柅@取聯(lián)系方式

Meta 發(fā)布其最強大的 AI 模型 Llama 3.1,具有 4050億參數(shù)

揭秘LLaMA進(jìn)化史:從初代到LLaMA3,一文讀懂最強開源模型家族

Llama3訓(xùn)練集群揭秘,共24,576 個 GPU
點這里關(guān)注我,記得標(biāo)星哦~
熱門跟貼