
昨天,Meta Llama 4 就這么突然地發(fā)布了。
紙面參數(shù)很高大上,號稱原生多模態(tài) MOE 模型,擊敗 DeepSeek V3,還有 2 萬億參數(shù)巨獸,連 Meta CEO 扎克伯格也發(fā)視頻,搖旗高呼迎接「Llama 4 日」。
歡呼是短暫的,當網(wǎng)友開始實測后,卻幾乎是一邊倒的負面評價,堪稱今年 AI 界最大的「翻車」事件。
在專門討論本地部署大語言模型的社區(qū) r/LocalLLaMA(可理解為 Llama「貼吧」)中,一篇標題為「我對 Llama 4 感到 incredibly disappointed(極度失望)」的帖子迅速獲得了大量關(guān)注和共鳴。
更有 Llama 忠實粉絲原地破防,直言是時候該將「LocalLLaMA」改名為「LocalGemma」了,調(diào)侃 Llama 4 的發(fā)布更像是遲到的愚人節(jié)玩笑。

實測表現(xiàn)貨不對板,曝 Llama 4 發(fā)布前瘋狂「灌題」
在 Reddit 的這篇原帖中,網(wǎng)友 karminski 強烈建議不要使用 Llama 4 進行編碼。
他表示 Llama-4-Maverick——總參數(shù)達 402B 的型號——在編碼能力上僅能與 Qwen-QwQ-32B 勉強匹敵。而 Llama-4-Scout(總參數(shù) 109B 的型號)表現(xiàn)則大致與 Grok-2 或 Ernie 4.5 相仿。
事實上,根據(jù)最新的 aider polyglot 編碼基準測試結(jié)果,Llama 4 Maverick 的得分僅為 16%。
這一基準測試旨在評估大型語言模型(LLM)在多語言編程任務(wù)中的表現(xiàn),覆蓋了 C++、Go、Java、JavaScript、Python 和 Rust 六種主流編程語言。

而這個分數(shù),在眾多模型中也是屬于妥妥的墊底水平。
博主 @deedydas 同樣表達了對 Llama 4 的失望,直呼其為「一個糟糕透頂?shù)木幊棠P汀埂?/p>
他指出,Scout (109B) 和 Maverick (402B) 在針對編程任務(wù)的 Kscores 基準測試中,表現(xiàn)遠不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。

另一位網(wǎng)友 Flavio Adamo 分別讓 Llama 4 Maverick 和 GPT-4o 生成一個小球在旋轉(zhuǎn)多邊形彈跳的動畫,并且,小球跳動的過程中要遵循重力和摩擦力的影響。
結(jié)果顯示,Llama 4 Maverick 生成的多邊形形狀缺乏開口,小球的運動也違背物理規(guī)律,相比之下,新版 GPT-4o 的表現(xiàn)明顯更勝一籌,而 Gemini 2.5 Pro 的表現(xiàn)則堪稱王者。
回望今年 1 月,扎克伯格還宣稱,AI 將達中級軟件工程師編程水平,就目前 Llama 4 糟糕的表現(xiàn),屬實是打臉來的有些快。
另外,Llama 4 Scout 的上下文長度達到了 1000 萬 tokens。這一超長上下文長度使得 Llama 4 Scout 能夠處理和分析極長的文本內(nèi)容,例如整本書籍、大型代碼庫或多媒體檔案。
Meta 官方甚至還展示了「大海撈針」的測試結(jié)果以證明其能力。

然而,根據(jù) Fiction.LiveBench 最新給出的結(jié)果,Llama 4 模型的效果也是中看不中用,整體效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依舊是當之無愧的長文本王者。
Google 上大分+1。

網(wǎng)友 karminski 進一步指出,Llama 4 在 1K 上下文召回率(近似理解為問題回答的正確率)時就已跌至 60% 以下,甚至 Llama-4-Scout 在超過 16K 時僅剩 22%。
他還給出了一個形象的例子「《哈利·波特與魔法石》的文本長度恰好約為 16K。
這意味著,如果你把整本書輸入模型,然后問「哈利小時候是住在臥室還是樓梯下的儲物間」,Llama-4-Scout 只有 22% 的概率能答對(近似理解,實際召回機制更復(fù)雜)。而這個成績自然也就遠低于頭部模型的平均水平。
不僅模型本身稍顯拉胯,Llama 4 作為「開源扛把子」的光環(huán)也在逐漸褪色。
Meta 開放了 Llama 4 的權(quán)重,但即使使用量化(quant),也無法在消費級 GPU 上運行。號稱單卡運行,但實際指的卻是 H100。門檻之高,對開發(fā)者可謂是相當不友好。
更何況,Llama 4 的新許可證還有幾個限制條款,其中備受詬病的則是擁有超過 7 億月活躍用戶的公司必須向 Meta 申請?zhí)貏e許可證,Meta 可以自行決定是否批準或拒絕。

等等,昨天 Meta 公布的紙面參數(shù)可不是這么說的,怎么過了一天,風向就全變了。
在大模型競技場(Arena)排名中,Llama 4 Maverick 名列總榜第二,成為第四個突破 1400 分的模型,在開源模型中更是高居榜首,更是超越了 DeepSeek V3。
面對實測性能的「貨不對板」,細心的網(wǎng)友很快嗅到一絲蹊蹺。在 LM Arena 上取得高分的 Maverick 其實用到了一個「實驗性聊天版本」。

這還沒完,今天一畝三分地社區(qū)的爆料貼也似乎揭開了一些內(nèi)幕。爆料稱,經(jīng)過反復(fù)訓練后,Llama 4 未能取得開源 SOTA,甚至與之相差甚遠。
而 Meta 公司內(nèi)部設(shè)置發(fā)布的 deadline(截止日期)則是 4 月底。
于是,公司領(lǐng)導(dǎo)層建議將各個 benchmark 的測試集混合在 post-training 過程中,目的是希望能夠在各項指標上交差。拿出一個「看起來可以」的結(jié)果。
這里說的將各個 benchmark 的測試集混合在 post-training 過程中,是指在模型的后訓練(post-training)階段,通過混合不同基準測試的數(shù)據(jù)集,模型可以在多種任務(wù)和場景中學習,從而提升其泛化能力。

打個簡單的比方,這就像考試時作弊。試題本該從保密題庫(benchmark 測試集)中隨機抽取,考前無人知曉??扇绻腥颂崆巴悼戳祟}目并反復(fù)練習(相當于將測試集混入訓練),那考試的時候肯定能考得很好。
帖主進一步解釋說,Llama 4 發(fā)布之后,實測結(jié)果遭到 X 和 Reddit 網(wǎng)友的吐槽。作為一名目前也在學術(shù)界的人他宣稱實在無法接受 Meta 的做法,已提交離職申請,并明確要求在 Llama 4 的 Technical Report 中剔除自己的名字。
他還表示,Meta 的 VP of AI 也是因為這個原因辭職的。而早在幾天前,就有報道稱 Meta AI 研究負責人喬爾·皮諾(Joelle Pineau)宣布將于 5 月 30 日離職。

不過,對于這樁疑似「刷榜作弊」的指控,真相究竟如何,或許還需更多證據(jù)。一位名為 LichengYu 的 Meta 員工也疑似在評論區(qū)實名回應(yīng)稱:
「這兩天虛心聆聽各方 feedback(比如 coding,creativewriting 等缺陷必須改進),希望能在下一版有提升。但為了刷點而 overfit 測試集,我們從來沒有做過,實名 Licheng Yu,兩個 oss model 的 post training 有經(jīng)手我這邊。請告知哪條 prompt 是測試集選出來放進訓練集的,我給你磕一個+道歉!」

公開資料顯示,Licheng Yu(虞立成)曾本科畢業(yè)于上海交通大學,2014 年獲佐治亞理工學院和上海交通大學雙碩士學位,在 2019 年 5 月獲北卡羅來納大學教堂山分校計算機科學博士學位,。
他的研究領(lǐng)域?qū)W⒂谟嬎銠C視覺和自然語言處理,多篇論文被 CVPR、ICLR、ECCV、KDD 等頂級會議接收。
Licheng Yu 曾在微軟、Adobe 等大廠有過工作經(jīng)歷,目前(2023.06 至今)擔任 Meta 的研究科學家經(jīng)理,曾參與 Llama3.2 多模態(tài)模型(11B+90B)的發(fā)布,以及領(lǐng)導(dǎo) Llama 4 項目中 17Bx128 和 17Bx16 的 文本+圖像強化學習階段。
真假難辨,或許還可以讓子彈再飛一會。
開源大模型的「王座」,不能靠蠻力奪取
在去年這個時候,Meta 還被譽為 AI 行業(yè)的天選之子。
當然,脫下簡單的灰色T恤、牛仔褲和連帽衫,扎克伯格也開始頻繁地穿著大 LOGO 的名牌服裝,頸間掛上粗獷的大金鏈子,甚至在公開場合自信展示自己的健身成果。
醉翁之意不在酒的扎克伯格試圖通過展現(xiàn)更「真實」、更「接地氣」的一面,拉近與公眾的距離。這不僅讓 Meta 顯得更加親民,也使其順勢成為對抗 OpenAI 閉源模型的開源旗手,聲勢一時無兩。

與此同時,Meta 的雄厚實力為轉(zhuǎn)型提供了堅實后盾。據(jù)悉,Meta 計劃在 2025 年投入高達 650 億美元用于擴展其 AI 基礎(chǔ)設(shè)施,這一數(shù)字在業(yè)內(nèi)堪稱大手筆,到 2025 年底,Meta 計劃擁有超過 130 萬塊 GPU。
其次,Meta 坐擁豐富的社交平臺數(shù)據(jù),這為其 AI 研發(fā)提供了得天獨厚的優(yōu)勢。
作為 Facebook、Instagram 和 WhatsApp 等全球知名社交平臺的母公司,Meta 掌握著數(shù)十億用戶的日常交互數(shù)據(jù)。據(jù)統(tǒng)計,其平臺的全球日活躍用戶數(shù)(DAU)在 2024 年已超過 30 億,這一龐大的數(shù)據(jù)體量為 AI 模型的訓練提供了海量的原材料。
再者,Meta 在人才儲備上同樣不遑多讓。其 AI 部門的領(lǐng)軍人物是業(yè)界享有盛譽的圖靈獎得主 Yann LeCun。在他的帶領(lǐng)下,Meta 堅持開源策略,推出了 Llama 系列模型。
因此,Meta 也野心十足——它不僅要鞏固自身在社交領(lǐng)域的地位,更希望在 AI 領(lǐng)域?qū)崿F(xiàn)彎道超車,目標是在 2025 年底前超越 OpenAI 等強勁對手。

但眼見他起朱樓,眼見他宴賓客,眼見他樓塌了。
若一畝三分地的爆料屬實,Llama 4 的研發(fā)過程中可能存在為追求基準測試分數(shù)而「作弊」的行為——通過將測試集混入訓練數(shù)據(jù),也更像是「AI 流量焦慮」下的操作變形。
年初就曾有消息稱 DeepSeek 讓 Meta AI 團隊陷入恐慌:
「當生成式 AI 組織中的每個高管薪資都比訓練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的高管,他們要如何面對高層?」
2023 年,Meta 憑借 Llama 系列在開源大模型領(lǐng)域幾乎建立了壟斷地位,成為開源 AI 的代名詞和標桿。
然而,AI 一日,人間一年,在 Llama 4 遭遇「滑鐵盧」的評論區(qū)中,其他開源模型的好評隨處可見。其中,Google Gemma 以輕量高效和多模態(tài)能力贏得廣泛認可,阿里的 Qwen 系列基座模型嶄露頭角,而 DeepSeek 更以低成本高性能的黑馬姿態(tài)震撼了整個行業(yè)。

Meta 能否調(diào)整策略重回開源 AI 的模型領(lǐng)跑位置尚未可知,但無論如何,開源 AI 的百花齊放已經(jīng)不可逆轉(zhuǎn)地到來了。
秉持著哪個 AI 好用,用哪個的原則,Meta 也不能全然怪用戶「墻頭草」。更何況,在開源透明度方面,相較于上述幾家公司的開源模型,Llama 4 的自縛手腳,也頗有些自斷一臂的意味。
而 Meta 目前的掙扎或許也表明,即便手握全球所有的 GPU 算力和海量數(shù)據(jù),資源優(yōu)勢已不再是決定性因素,開源大模型的「王座」,不能靠蠻力奪取。
熱門跟貼