打開(kāi)網(wǎng)易新聞 查看精彩圖片

被 AI 快速重塑的時(shí)代,真實(shí)性與信任比排名更重要。

作者丨鄭佳美

編輯丨馬曉寧

昨天一早,Meta 放出了自家用了 20 萬(wàn)顯卡集群訓(xùn)練出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。消息一出,直接引爆了大模型圈。

Meta 還特意強(qiáng)調(diào),這些模型都經(jīng)過(guò)了大量未標(biāo)注的文本、圖像和視頻數(shù)據(jù)的訓(xùn)練,視覺(jué)理解能力已經(jīng)到了 Next level,有種在大模型領(lǐng)域一騎絕塵的既視感。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Meta GenAI 負(fù)責(zé)人 Ahmad Al-Dahle 也表示:“我們的開(kāi)放系統(tǒng)將產(chǎn)出最好的小型、中型和即將出現(xiàn)的前沿大模型?!辈⒏缴狭艘粡?Llama 4 的性能對(duì)比測(cè)試圖。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

緊接著,在大模型競(jìng)技場(chǎng)中 Llama 4 Maverick 的排名直接躍升到第二名,成為了第 4 個(gè)突破 1400 分的大模型。在開(kāi)放模型排行榜上更是超越了 DeepSeek,直接上桌坐“主座”。

“首次采用 MoE 架構(gòu)”、“千萬(wàn) token 上下文”...一時(shí)間 Llama 4 就被貼滿了各種 Title。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

但在一片贊美和吹捧聲中,很快就有心細(xì)的網(wǎng)友發(fā)現(xiàn)了不對(duì)勁。這位網(wǎng)友用頭段時(shí)間在 上很火的讓模型直出幾何程序的方式來(lái)測(cè)試 Llama 4,但最終的結(jié)果是在畫六角形內(nèi)含一個(gè)受重力影響球的集合圖像時(shí),Llama 4 試了 8 次也錯(cuò)了 8 次,而反觀 DeepSeek R1 和 Gemini 2.5 pro 則是一次正確。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

也有網(wǎng)友表示對(duì) Llama 4 的表現(xiàn)感到非常失望。按照以往慣例,更新了版本號(hào)的模型在性能上應(yīng)該有很大的突破,而 Meta 憋了這么久才舍得放出來(lái)的 Llama 4 非但沒(méi)有進(jìn)步,在測(cè)試中的表現(xiàn)還不如一些現(xiàn)有的大模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

 Llama 4 刷榜作弊引熱議,20 萬(wàn)顯卡集群就做出了個(gè)這?
打開(kāi)網(wǎng)易新聞 查看更多視頻
Llama 4 刷榜作弊引熱議,20 萬(wàn)顯卡集群就做出了個(gè)這?

還有網(wǎng)友非常貼心的給出 Llama 4 系列的模型能力找了個(gè)參照物:“Llama 4 maverick 這個(gè) 402B 的大模型,大概跟 Qwen QwQ 32B 寫代碼水平一致,而 Llama 4 scout 則近似于 Grok2 或者 文心 4.5?!?/p>

打開(kāi)網(wǎng)易新聞 查看精彩圖片

1

Llama 4:超級(jí)刷榜選手

在官方給出的數(shù)據(jù)中,Llama 4 的能力妥妥碾壓了一眾大模型,但在網(wǎng)友們的實(shí)際測(cè)試中,Llama 4 卻顯得很拉跨,越測(cè)越覺(jué)得離譜的網(wǎng)友們不由得懷疑,扎克伯格是不是給自家模型偷偷刷榜了?

經(jīng)過(guò)網(wǎng)友們的多方證實(shí),最后發(fā)現(xiàn),嘿!還真是刷的。

其實(shí)如果認(rèn)真看 Ahmad Al-Dahle 發(fā)布的 Llama 性能對(duì)比測(cè)試圖最下面一行的小字,你就會(huì)發(fā)現(xiàn)上面寫著“Llama 4 Maverick 針對(duì)對(duì)話進(jìn)行了優(yōu)化”,而 Meta 其實(shí)早就給自己留了個(gè)“圖片僅供參考,一切以實(shí)物為準(zhǔn)”的心眼。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除了破解 Meta 官方的字謎游戲外,網(wǎng)友們也帶著 Llama 4 進(jìn)出于各大測(cè)試榜單中。

他們先是把 Llama 4 拉到了著名的 code 測(cè)試榜單 Aider ployglot 中,最終的得分比 qwen-32B還低。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在另一個(gè)代碼評(píng)測(cè)榜單中,Llama 4 的成績(jī)也只能排在中間位置。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除此之外,網(wǎng)友們發(fā)現(xiàn)在 EQBench 測(cè)評(píng)基準(zhǔn)的長(zhǎng)文章寫作榜上,Llama 4 系列也是直接墊底。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

而即使是最基礎(chǔ)的翻譯任務(wù),網(wǎng)友們也表示 Llama 4 的表現(xiàn)也是比 3.3 的 70b 還要差得多,甚至還不如 Gemma 3 的 27B。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

2

混亂的 Meta

正在網(wǎng)友們風(fēng)風(fēng)火火測(cè)評(píng) Llama 4 的真實(shí)成績(jī)時(shí),一則發(fā)布在海外的求職平臺(tái)一畝三分地上的內(nèi)容更是直接給Llama 4 的作弊傳聞添了一把柴。

文中提到 Llama 4 的訓(xùn)練存在嚴(yán)重問(wèn)題,并且內(nèi)部模型的表現(xiàn)仍然未能達(dá)到開(kāi)源 SOTA,甚至與之相差甚遠(yuǎn),而 Llama 4 的高分也確實(shí)是領(lǐng)導(dǎo)層為了能夠在各項(xiàng)指標(biāo)上交差所做出的“努力”。而這個(gè)則消息的爆料者,很可能來(lái)自 Meta 公司內(nèi)部。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除此之外也有其他的 AI 從業(yè)者在線吐槽,表示“我們都被耍了,Llama 4 不過(guò)是一個(gè)早早被設(shè)計(jì)好的實(shí)驗(yàn)版本?!?/p>

打開(kāi)網(wǎng)易新聞 查看精彩圖片

還有前 Meta 員工站出來(lái)指出公司在產(chǎn)品研發(fā)方面存在巨大漏洞,并表示 Llama 系列模型的信息泄露問(wèn)題其實(shí)從 Llama 1 就已經(jīng)存在了。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

而在 Llama 4 發(fā)布的幾天前,Meta AI 研究副總裁 Joelle Pineau 就在 Linkedin 發(fā)文稱自己已經(jīng)申請(qǐng)將在 5 月份離職,不由得讓人們將這件事與 Llama 4 作弊刷榜的事情聯(lián)系到一起。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

不少人疑惑,為什么一向崇尚“大力出奇跡”的 Meta 這次的翻車力度這么大,明明有錢、有卡、有數(shù)據(jù),但模型創(chuàng)新能力依舊不足,還要靠作弊刷榜來(lái)找存在感?

一個(gè)坊間流傳的觀點(diǎn)是,Meta內(nèi)部研究人員壓力過(guò)大,因?yàn)樗麄冃枰龀龀晒?,給公司一個(gè)好的交代,因此會(huì)求穩(wěn),更加偏向于更能做出成果的事情,而真正重要的內(nèi)容,比如基礎(chǔ)設(shè)施的迭代、新算法的實(shí)驗(yàn),這些需要大量時(shí)間去做出成果的內(nèi)容,卻往往沒(méi)有人愿意去做。

這也導(dǎo)致了 Meta 很難在大模型市場(chǎng)上繼續(xù)做出向 DeepSeek R1 這樣轟動(dòng)整個(gè) AI 領(lǐng)域的東西,而還沒(méi)有發(fā)布的超大杯 2T 參數(shù)模型也應(yīng)證著這個(gè)觀點(diǎn):Meta 其實(shí)還沒(méi)有更好的想法。

反觀以研究為導(dǎo)向的 DeepSeek,其實(shí)一直在探索新的架構(gòu)。DeepSeek 團(tuán)隊(duì)先是提出了強(qiáng)化學(xué)習(xí)里的神奇算法 GRPO,緊接著在 DeepSeek v2 時(shí)提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上,后來(lái)發(fā)布的全新注意力架構(gòu) NSA 更是實(shí)現(xiàn)了超高速長(zhǎng)上下文訓(xùn)練與推理。

回到 Llama 4 這邊,根據(jù) AI 科技評(píng)論的了解,對(duì)大模型架構(gòu)有研究的專業(yè)人士認(rèn)為,Llama 4 非常缺乏技術(shù)創(chuàng)新,比如說(shuō),在后訓(xùn)練階段還在死守 DPO 。而此前的一系列理論和實(shí)驗(yàn)都表明 DPO 的泛化能力,“比 PPO 差得遠(yuǎn)”。PPO 在實(shí)際使用中需要調(diào)的細(xì)節(jié)很多,不易上手。在 DeepSeek 提出 GRPO 以后,越來(lái)越多的研究者開(kāi)始使用 GRPO 及其改版。 Meta 還繼續(xù)堅(jiān)持用著 DPO 而不選擇創(chuàng)新,這么來(lái)看Llama 4 做成如此也屬于意料之中。

3

常人沒(méi)法用,專家用不著

而最讓人失望的是,Llama 4 系列的模型都無(wú)法放入家用電腦,并且 Llama 4 除了一直在宣傳的 10M 上下窗口外,貌似已經(jīng)沒(méi)有任何優(yōu)勢(shì),而這一點(diǎn)對(duì)于大多數(shù)人來(lái)說(shuō)其實(shí)并不是必需的內(nèi)容。

除此之外,GPT 4o, Gemini 2.5 Pro 這些擁有生圖能力的模型型號(hào)已經(jīng)正式推出,而 Grok3、Gemini 2 Flash 等多模態(tài)模型也已經(jīng)開(kāi)始廣泛開(kāi)放,這也意味著更多的人沒(méi)有再用 Llama 4 的理由,或者說(shuō),Llama 4 本身沒(méi)有太強(qiáng)的市場(chǎng)競(jìng)爭(zhēng)力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

反觀這次 Llama 4 的翻車事件,不難看出其實(shí) Llama 4 系列模型很可能是 Meta 在追趕大模型潮流的戰(zhàn)略布局中的一枚重要棋子,但卻因?yàn)樘^(guò)于“急功近利”而選擇作弊,導(dǎo)致直接失去了社區(qū)的支持,進(jìn)而失去了自身的競(jìng)爭(zhēng)優(yōu)勢(shì)。

并且 Llama 2、Llama 3 的時(shí)代已經(jīng)過(guò)去,選擇 Llama 作為基座的開(kāi)源模型只會(huì)越來(lái)越少,而對(duì)于 Meta 來(lái)說(shuō),與其選擇作弊刷榜博眼球,不如想想如何創(chuàng)新,如何提高社區(qū)適用度,能不能追上最前端的技術(shù)暫且放一邊,最重要的是先把口碑先賺回來(lái)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

更多內(nèi)容,點(diǎn)擊下方關(guān)注:

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

英偉達(dá)團(tuán)隊(duì)發(fā)布最新具身模型 Cosmos-Reason1,在物理世界推理中碾壓 Qwen、GPT-4o 等多個(gè) VLM 模型

打開(kāi)網(wǎng)易新聞 查看精彩圖片

AI Agent 發(fā)展史:從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) |AIR 2025

打開(kāi)網(wǎng)易新聞 查看精彩圖片

UCL強(qiáng)化學(xué)習(xí)派:汪軍與他的學(xué)生們

打開(kāi)網(wǎng)易新聞 查看精彩圖片