
新智元報道
編輯:編輯部 YNH
【新智元導讀】近日,關(guān)于Meta Llama 4的「訓練作弊」爆料搞得沸沸揚揚。Meta迅速反擊,Licheng Yu、Di Jin及GenAI負責人Ahmad Al-Dahle接連辟謠,首席AI科學家Yann LeCun也親自下場力挺。與此同時,Llama 4的實際表現(xiàn)卻頻頻被吐槽。
Llama 4大瓜,又有了新的反轉(zhuǎn)。
昨日,自稱是Meta內(nèi)部員工的一則Llama 4訓練作弊爆料,徹底掀翻了全網(wǎng)。

緊接著,Meta研究科學家主管Licheng Yu實名辟謠,團隊根本沒有針對測試集過擬合訓練。
此前,他曾參與了Llama 3系列的研發(fā),并這次負責Llama4 17B模型。

另一位Meta高級AI研究科學家Di Jin(此次負責Llama 4 288B)反懟道,「我參與了微調(diào)和強化學習的datamix,也沒有這種情況,樓主是否實名證實」?
而且,他還抓住了所謂爆料者的一大破綻——最近離職高級VP,并非是GenAI團隊的。但凡是內(nèi)部的員工,不可能不了解這一點。


與此同時,領(lǐng)導Llama團隊的Meta GenAI副總裁兼負責人Ahmad Al-Dahle在X上發(fā)帖進行了澄清。
Ahmad表示,不同平臺間之所以會存在質(zhì)量差異,是因為模型在完成開發(fā)后Meta便立即進行了開源。預計還需數(shù)日,各家才能完成優(yōu)化適配。
至于那些「使用測試集訓練」的言論,可以說是毫無依據(jù),因為這完全違背了Meta原則。
Ahmad堅信Llama 4模型標志著重大的技術(shù)進步,并期待與開發(fā)者社區(qū)攜手挖掘其潛能。
作為Meta首席AI科學家的Yann LeCun,也在第一時間轉(zhuǎn)發(fā)了Ahmad的帖子表示力挺。

話雖如此,但并不能「洗白」Meta在背后偷偷動了手腳——刷榜LMSYS的Llama 4是一款「提供版」模型。
競技場開撕Meta,2000+對話公開真相
Llama 4開源首日,Maverick模型在Chatbot Arena上拿下僅次于Gemini 2.5的高分。
然而,開發(fā)者下載后發(fā)現(xiàn),Meta公開的與HF公開下載的模型大相徑庭,一時間大模型排行榜被全網(wǎng)罵慘。

今天,lmarena.ai團隊徹底坐不住了,直接下場開懟。
他們發(fā)文表示,為了確保完全透明,我們公開了2000+組模型對戰(zhàn)數(shù)據(jù),包括用戶提示詞、模型回復、用戶偏好供超看。
更勁爆的是,團隊直指Meta在提交模型時,并非用的是原版,而是Llama-4-Maverick-03-26-Experimental。
這是一個經(jīng)過DPO優(yōu)化的定制模型,然而Meta在提交時并未明確說明這一點。

為了平息爭議,團隊火速給出解決方案,公開對戰(zhàn)數(shù)據(jù)同時,并盡快上線Llama 4 Maverick公開版,并隨后更新榜單結(jié)果。

Llama 4弱爆?吐槽一大片,但也有力挺
雖然整件事只是一個抓馬,但Llama 4實力拉跨是真的。

在aider多語言編程基準測試中,Llama 4 Maverick僅拿下了16%成績,遠不及Qwen2.5-Coder、DeepSeek V3開源模型。

更不用提Gemini 2.5 Pro和Claude 3.7 Sonnet了。

網(wǎng)友Flavio Adamo使用相同的提示詞,分別讓Llama 4 Maveric和GPT-4o制作一個旋轉(zhuǎn)多邊形的動畫。

可以看出,Llama 4 Maveric生成的多邊形并不規(guī)則而且沒有開口。小球也不符合物理規(guī)律,直接穿過多邊形掉下去了。
相比之下GPT-4o制作的動畫雖然也不完美,但至少要好得多。
另外,Llama 4 Scout最大優(yōu)勢便是支持10000 token上下文,甚至當時有網(wǎng)友直呼「RAG已死」。
可事實上,在最新上下文基準測試中,Llama 4的排名幾乎可以算上倒數(shù)的了。

報告中指出,Llama 4的表現(xiàn)令人失望。Maverick未能改進本就低于平均水平的Llama 3.3 70b,而Scout模型更是糟糕透頂。

谷歌的博士研究員Kaixuan Huang表示Llama 4的數(shù)學能力弱爆了。

他們在MATH-Perturb基準測試上測試了Llama4-Scout,其得分排名甚至不及參數(shù)更小、發(fā)布更早的DeepSeek-R1-Distill-Qwen-14B。
實在難以想象這是一個新發(fā)布的模型。

地址:https://math-perturb.github.io/
不過,斯坦福計算機助理教授Percy Liang剛剛發(fā)布一個新基準,Llama 4 Maverick竟拿下了最高分。

針對這次基準烏龍事件,他本人也做出了回應(yīng),每個人不要過度解讀排行榜。如果對一個模型進行多樣測試,一切就清晰了。

DS太強,小扎按下恐慌按鈕
Llama 4效果如此不盡人意,難道Meta不能等一切準備就緒再發(fā)嗎?
時間來不及了!
有傳言稱,4月第二周,Qwen-3即將出世,而且說不定哪天DeepSeek R2突然發(fā)布了。

屆時,Llama 4可能更就拿不出手了,畢竟幾個月前,Meta前員工爆料稱,內(nèi)部高層恐慌一片。

來自艾倫研究員Nathan Lambert發(fā)長文稱,Llama 4可能是今年最奇怪的一次模型發(fā)布。
曾經(jīng),Llama系列每一次迭代,都被視為AI領(lǐng)域年度大事件,如今Llama 4卻讓人感到迷失。

Llama 4包括三款模型,最大亮點采用了MoE架構(gòu),訓練計算量比Llama 3更少。
在LMArena排行榜上,Llama 4 Maverick取得了1417 ELO高分,表現(xiàn)搶眼。
但詭異的發(fā)布時間,「輕浮」的對話風格,以及評估數(shù)據(jù)的缺乏,都讓Llama 4的亮相盡顯慌亂。

業(yè)界一直發(fā)出質(zhì)疑——Llama 4的設(shè)計更像是古早的模型,復雜MoE架構(gòu)、超大參數(shù)規(guī)模、高內(nèi)存需求,與開發(fā)者需求漸行漸遠。
相較之下,Qwen 2.5提供了多樣化模型選擇,更貼近開源標桿的設(shè)計。
從目前來看,Meta團隊似乎更專注于用AI賦能自家平臺,而非真正支撐開源的生態(tài)。
參考資料:
https://x.com/ylecun/status/1909313264460378114
https://x.com/emollick/status/1909306675174977637
熱門跟貼