Llama 4 是開源模型的全面倒退。” ——在Meta發(fā)布新一代大模型不到24小時(shí)內(nèi),這樣的質(zhì)疑聲音已經(jīng)出現(xiàn)在多個(gè)技術(shù)社區(qū)。

Llama 4 真的不如前代?還是它只是“看起來拉胯、實(shí)則有料”?

昨天,Meta正式推出新一代開源大模型 Llama 4,帶來了兩個(gè)混合專家(MoE)架構(gòu)的版本:Scout(109B總參數(shù),17B活躍參數(shù))和 Maverick(400B總參數(shù),17B活躍參數(shù))。這一代模型不僅原生支持圖文輸入,還將上下文窗口拓展至驚人的 1000萬 token,在規(guī)格參數(shù)上堪稱“頂配開源”。

然而,隨著初步評測和對比結(jié)果浮出水面,人們發(fā)現(xiàn)——它的實(shí)際表現(xiàn),可能沒有我們想象中那么強(qiáng)。

本文將基于 Artificial Analysis 的獨(dú)立評估數(shù)據(jù)和社交媒體輿情,深入剖析 Llama 4 的技術(shù)亮點(diǎn)、實(shí)際表現(xiàn)與競品差距,并探討這款“爭議中亮相”的新模型究竟是開源未來,還是開源瓶頸的縮影。

Artificial Analysis是一家專注于AI技術(shù)創(chuàng)新的公司,致力于提供高效的數(shù)據(jù)分析和智能解決方案,旨在加速人類解決問題。其前瞻性技術(shù)備受關(guān)注。吳恩達(dá)評論:“這是一個(gè)很棒的網(wǎng)站,測試LLM API速度,幫開發(fā)者選模型,補(bǔ)充了其他質(zhì)量評估,對智能代理至關(guān)重要!”

Founder Park 正在搭建開發(fā)者社群,邀請積極嘗試、測試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請掃碼詳細(xì)填寫你的產(chǎn)品/項(xiàng)目信息,通過審核后工作人員會(huì)拉你入群~

進(jìn)群之后,你有機(jī)會(huì)得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。

01性能對比:差距不是一點(diǎn),是一整條街

Artificial Analysis通過其Intelligence Index(涵蓋MMLU-Pro、GPQA Diamond、HumanEval等非推理模型評估)對Llama 4進(jìn)行了獨(dú)立測試,具體結(jié)果如下:

1.總體性能(Intelligence Index)

打開網(wǎng)易新聞 查看精彩圖片

從最新的 Artificial Analysis Intelligence Index 綜合榜單來看,Llama 4 的表現(xiàn)讓人大跌眼鏡。

在這份集通用推理、科學(xué)推理、編碼、數(shù)學(xué)等七項(xiàng)任務(wù)為一體的硬核評測中,Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占據(jù)前三,綜合得分分別為 68、66 和 66,實(shí)力堪稱天花板級別,屬于開局即封神的選手。

而反觀剛剛發(fā)布的 Llama 4 系列:

-Maverick 得分 49,不僅被前述三強(qiáng)甩出十幾分的距離,連 OpenAI 的 GPT-4o和阿里的 QwQ-32B都沒打過,未能進(jìn)入第一梯隊(duì),只能勉強(qiáng)躋身中游。

-Scout 得分僅為 36,直接與 GPT-4o mini 打成平手,甚至被 Google 的 Gemma 3 27B按在地上摩擦,表現(xiàn)慘不忍睹。

這意味著,無論是旗艦定位的 Maverick 還是輕量版的 Scout,都未能在關(guān)鍵指標(biāo)上與主流競品拉開差距。特別是 Scout,不僅沒展現(xiàn)出“小而強(qiáng)”的性價(jià)比,還在多項(xiàng)任務(wù)中落后于前代產(chǎn)品與同量級模型。

一句話總結(jié):“看起來很強(qiáng),打起來很虛”,是當(dāng)前市場對 Llama 4 初版表現(xiàn)最真實(shí)的反饋。

打開網(wǎng)易新聞 查看精彩圖片

在非推理任務(wù)的對比中,Llama 4 的表現(xiàn)可謂喜憂參半。Maverick在開源模型中算得上發(fā)揮穩(wěn)定,成功超越部分閉源競品,展示出一定的專業(yè)處理能力。然而與頂級模型如 DeepSeek V3 和 GPT-4o相比,依然存在明顯差距,說明其綜合實(shí)力尚未達(dá)到第一梯隊(duì)的水平。

Scout則更為克制,沒有驚喜也沒有翻車,整體表現(xiàn)與GPT-4o mini相當(dāng),雖不具備突破性優(yōu)勢,但在資源受限場景下仍具備一定實(shí)用價(jià)值。

總體來看,Llama 4系列雖在非推理能力上具備一定基礎(chǔ),但距離“強(qiáng)通用、強(qiáng)專業(yè)”的開源標(biāo)桿,還有一段路要走。它們更像是一次架構(gòu)和方向的試水,而不是一舉超車的終局之作。

2.具體任務(wù)表現(xiàn)

Artificial Analysis的評估數(shù)據(jù)(詳見附圖)涵蓋了通用推理、科學(xué)推理、編碼和數(shù)學(xué)等多個(gè)領(lǐng)域,我將相關(guān)任務(wù)合并分析,聚焦Llama 4(Scout和Maverick)的表現(xiàn)趨勢,并與主要競品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini對比,揭示其優(yōu)勢與不足。以下簡要補(bǔ)充各指標(biāo)的含義和重要性,幫助理解評估維度。

1)通用推理:穩(wěn)中有位,但缺乏突破

通用推理評估模型在廣泛知識(shí)和綜合推理能力上的表現(xiàn),MMLU-Pro覆蓋57個(gè)學(xué)科的知識(shí)廣度,Humanity’s Last Exam則測試復(fù)雜推理能力。這類指標(biāo)對衡量模型在教育、問答等通用場景的適用性至關(guān)重要。

Maverick在通用推理任務(wù)中表現(xiàn)穩(wěn)健,在MMLU-Pro中排名靠前,與GPT-4o、Claude 3.7 Sonnet等模型同等,但略遜于DeepSeek V3 V3(Mar 25)。Scout的表現(xiàn)則比較落后,低于Mistral Small 3和GPT-4o mini。

打開網(wǎng)易新聞 查看精彩圖片

在Humanity’s Last Exam中,Maverick同樣位列前茅,接近DeepSeek V3(Mar 25),優(yōu)于GPT-4o 和Claude 3.7 Sonnet,Scout則排名中游,略高于Mistral Small 和GPT-4o mini。

打開網(wǎng)易新聞 查看精彩圖片

結(jié)論: 在通用推理相關(guān)任務(wù)中,Maverick 的表現(xiàn)整體可圈可點(diǎn),尤其在知識(shí)廣度和復(fù)雜推理方面接近一線閉源模型,雖然略遜于 DeepSeek V3,但基本站穩(wěn)中上游位置。Scout 則明顯吃力,整體排名不高,甚至落后于部分輕量模型,反映出其在處理廣義知識(shí)類任務(wù)時(shí)的適應(yīng)能力仍待加強(qiáng)。

2)科學(xué)推理:開源難題,Llama 4未解

科學(xué)推理通過GPQA Diamond測試模型在生物、物理、化學(xué)等領(lǐng)域的專業(yè)推理能力,強(qiáng)調(diào)多步推理和深度理解,對評估模型在學(xué)術(shù)研究、技術(shù)文檔處理等專業(yè)場景的表現(xiàn)尤為重要。

打開網(wǎng)易新聞 查看精彩圖片

Maverick在科學(xué)推理任務(wù)中的表現(xiàn)顯著低于DeepSeek V3和Claude 3.7 Sonnet的水平,排名靠后,未能展現(xiàn)出與頂級模型競爭的能力。Scout的表現(xiàn)則稍顯遜色,不僅遠(yuǎn)低于GPT-4o mini,甚至低于Meta自己的Llama 3.3 70B,顯示其在專業(yè)領(lǐng)域推理上的明顯不足。

結(jié)論:面對生物、物理、化學(xué)等專業(yè)領(lǐng)域的深度推理任務(wù),Llama 4 表現(xiàn)疲軟,尤其是 Maverick,雖為高配模型,卻未能在多步邏輯和專業(yè)理解上展現(xiàn)出預(yù)期能力,明顯落后于 Claude 和 DeepSeek。Scout 的表現(xiàn)則更加堪憂,不僅輸給 GPT-4o mini,甚至被 Llama 3.3 70B 反超,顯示其在學(xué)術(shù)和技術(shù)類場景中的適用性非常有限。

3)編碼能力:基礎(chǔ)乏力,高難勉強(qiáng)及格

Maverick在編碼任務(wù)中的表現(xiàn)未達(dá)預(yù)期。在基礎(chǔ)編碼能力(HumanEval)上,Maverick遠(yuǎn)低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3,僅達(dá)到GPT-4o mini的水平,顯示其在基礎(chǔ)代碼生成上的競爭力不足。

打開網(wǎng)易新聞 查看精彩圖片

在更具挑戰(zhàn)性的競賽級編碼(LiveCodeBench)和科學(xué)編碼(SciCode)任務(wù)中,Maverick的表現(xiàn)進(jìn)一步回落,與DeepSeek V3和Claude 3.7 Sonnet的差距不太明顯。

打開網(wǎng)易新聞 查看精彩圖片

Scout在基礎(chǔ)編碼和科學(xué)編程任務(wù)中表現(xiàn)墊底,排名靠后,遠(yuǎn)低于大多數(shù)競品。然而,在高難度編碼任務(wù)(LiveCodeBench)中,Scout的表現(xiàn)意外接近中位值,與Claude 3.5 Haiku水平相當(dāng),展現(xiàn)了一定的潛力。

結(jié)論:Maverick 在代碼生成任務(wù)中并未脫穎而出,基礎(chǔ)編程任務(wù)的完成度不高,與領(lǐng)先模型存在明顯差距。面對競賽級和科學(xué)編程挑戰(zhàn)時(shí),其表現(xiàn)更為拉胯,難以支撐復(fù)雜開發(fā)需求。Scout 則在大部分編碼任務(wù)中墊底,雖在高難度挑戰(zhàn)中偶有亮點(diǎn),但整體競爭力仍偏弱,不具備“開發(fā)者友好”的實(shí)用價(jià)值。

4)數(shù)學(xué):基礎(chǔ)尚可,高階失守

數(shù)學(xué)任務(wù)評估模型的定量推理能力,MATH-500測試常規(guī)數(shù)學(xué)問題解決能力,AIME 2024則聚焦高難度競賽級數(shù)學(xué)推理。這類指標(biāo)對教育、科學(xué)研究和金融建模等需要強(qiáng)大數(shù)學(xué)能力的場景尤為關(guān)鍵。

Maverick在定量推理任務(wù)(MATH-500)中表現(xiàn)較為穩(wěn)健,排名靠前,超越Claude 3.7 Sonnet,但與DeepSeek V3仍存在一定差距,顯示其在常規(guī)數(shù)學(xué)問題解決上的競爭力。Scout的表現(xiàn)同樣可圈可點(diǎn),優(yōu)于GPT-4o mini,并接近Claude 3.7 Sonnet的水平,展現(xiàn)了不錯(cuò)的基礎(chǔ)數(shù)學(xué)能力。

打開網(wǎng)易新聞 查看精彩圖片

然而,在高難度的競賽級數(shù)學(xué)推理任務(wù)(AIME 2024)中,Maverick表現(xiàn)不佳,遠(yuǎn)落后于DeepSeek V3,僅略高于GPT-4o。

打開網(wǎng)易新聞 查看精彩圖片

結(jié)論:在數(shù)學(xué)推理方面,Llama 4 兩個(gè)版本表現(xiàn)出較為明顯的分化。Maverick 在基礎(chǔ)數(shù)學(xué)任務(wù)中穩(wěn)健發(fā)揮,部分場景甚至可與主流閉源模型媲美,Scout 也展現(xiàn)出一定的定量推理能力,優(yōu)于部分輕量模型。然而,進(jìn)入競賽級高難度數(shù)學(xué)任務(wù)后,兩者均顯得力不從心,與 DeepSeek V3 等強(qiáng)模型的差距明顯拉大,暴露出復(fù)雜推理能力上的短板。

總結(jié):差距不是一點(diǎn),是一整條街

綜合來看,Llama 4(Maverick 和 Scout)在非語言生成的關(guān)鍵能力維度上,與 DeepSeek V3 之間存在系統(tǒng)性差距。Maverick雖有部分亮點(diǎn),但始終處于“差一點(diǎn)”的狀態(tài),在科學(xué)推理、編碼和高階數(shù)學(xué)上幾乎全面落后。Scout的表現(xiàn)則更為慘烈,不僅被 DeepSeek V3 和 Claude 系列全面碾壓,甚至在多個(gè)維度不敵小模型選手,令人質(zhì)疑其在專業(yè)場景中的實(shí)際價(jià)值。

Llama 4 所展示的更多是架構(gòu)層面的潛力,而非實(shí)打?qū)嵉哪芰S遷。除非在未來版本中針對專業(yè)推理、復(fù)雜任務(wù)場景進(jìn)行重點(diǎn)優(yōu)化,否則很難在真正需要“硬實(shí)力”的場合,成為開源替代品的第一選擇。

02模型效率

打開網(wǎng)易新聞 查看精彩圖片

與DeepSeek V3相比,Llama 4 Maverick的活躍參數(shù)大約只有其一半(17B對37B),總參數(shù)也僅為其60%左右(402B對671B),這表明Maverick以更高的效率實(shí)現(xiàn)了其性能表現(xiàn)。此外,Maverick還支持圖像輸入,而DeepSeek V3則不具備這一功能。

03價(jià)格

打開網(wǎng)易新聞 查看精彩圖片

Artificial Analysis追蹤6家服務(wù)提供商,并對比評估了Maverick的中位價(jià)格為每百萬輸入/輸出token 0.24美元/0.77美元,而Scout的定價(jià)為每百萬輸入/輸出token 0.15美元/0.4美元,其價(jià)格不僅低于DeepSeek v3,相比OpenAI領(lǐng)先的GPT-4o接口更是便宜超過10倍。

04最后

那么,Llama 4到底是不是“開源模型的全面倒退”?從目前的測試結(jié)果來看,這種說法雖顯極端,卻并非毫無根據(jù)。

在多個(gè)關(guān)鍵任務(wù)中,Maverick 勉強(qiáng)追平主流閉源模型的尾巴,而 Scout 則在小模型領(lǐng)域表現(xiàn)平平,甚至被自家的 Llama 3.3 70B 反超。相比之下,DeepSeek V3 的統(tǒng)治力更像是給所有開源模型潑了一盆冷水。

但退一步看,開源的價(jià)值不止于性能指標(biāo),更在于長期可控性、社區(qū)生態(tài)與開放創(chuàng)新的累積潛力。Llama 4 的多模態(tài)架構(gòu)、超長上下文和低廉定價(jià),依然在為未來鋪路——也許不是現(xiàn)在碾壓閉源的“終極答案”,但可能是通往答案的那一步。

最終,它是倒退還是轉(zhuǎn)折,要看 Meta 和整個(gè)開源社區(qū),能否在質(zhì)疑聲中繼續(xù)優(yōu)化、快速迭代,把短板變成支點(diǎn)。真正的競爭,還遠(yuǎn)遠(yuǎn)沒有結(jié)束。