每經(jīng)記者:宋欣悅 每經(jīng)編輯:蘭素英

當(dāng)?shù)貢r(shí)間4月5日,美國(guó)科技巨頭Meta宣布推出其新一代開源大模型Llama 4。Llama 4目前有兩個(gè)混合專家(MoE)架構(gòu)的版本,分別為Scout和Maverick。更為強(qiáng)大的Llama 4 Behemoth仍在訓(xùn)練中。

Meta官方稱,Llama 4在一系列廣泛接受的基準(zhǔn)測(cè)試中均實(shí)現(xiàn)了領(lǐng)先同行的水平,尤其是Llama 4 Behemoth,在多個(gè)基準(zhǔn)測(cè)試中的表現(xiàn)要優(yōu)于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一眾行業(yè)頂尖封閉模型。

然而,就在模型發(fā)布后不久,鋪天蓋地的質(zhì)疑聲涌來。開發(fā)者實(shí)測(cè)Llama 4后發(fā)現(xiàn),其真實(shí)效果并不如宣傳中那么驚艷,甚至問題百出。

與此同時(shí),有開發(fā)者質(zhì)疑Meta作弊“刷榜”,根據(jù)相關(guān)評(píng)測(cè)基準(zhǔn)對(duì)模型進(jìn)行“量身定制”訓(xùn)練。

知名科技媒體TechCrunch也發(fā)文,直指Meta新AI模型的性能測(cè)試“具有一定誤導(dǎo)性”。

Meta深陷輿論漩渦之中。對(duì)于外界的質(zhì)疑,當(dāng)?shù)貢r(shí)間4月7日,Meta生成式AI副總裁艾哈邁德·阿爾·達(dá)赫勒(Ahmad Al-Dahle)在社交平臺(tái)X上公開回應(yīng),明確指出相關(guān)說法毫無事實(shí)依據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:Meta官網(wǎng)

Meta“刷榜”?開發(fā)者實(shí)測(cè)Llama 4:編程等任務(wù)表現(xiàn)不佳,“遠(yuǎn)排不上第一或第二”

據(jù)Meta介紹,Llama 4模型家族使用了混合專家(MoE)架構(gòu),原生支持多模態(tài),實(shí)力超強(qiáng),堪稱“全能選手”。

其中,Llama 4 Scout擁有170億活躍參數(shù)以及16個(gè)專家模塊,提供長(zhǎng)達(dá)1000萬(wàn)tokens上下文窗口。在多項(xiàng)基準(zhǔn)測(cè)試中,Scout的表現(xiàn)優(yōu)于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同樣擁有170億活躍參數(shù),專家模塊數(shù)量提升至128個(gè)。在多項(xiàng)主流基準(zhǔn)測(cè)試中,其成績(jī)超越了GPT-4o和Gemini 2.0 Flash。Meta還特意點(diǎn)名DeepSeek,強(qiáng)調(diào)在推理和編碼方面,Llama 4 Maverick可以比肩DeepSeek新開源的V3模型,而其活躍參數(shù)還不到DeepSeek新版V3的一半

被Meta稱為“世界上最聰明的模型之一”的Llama 4 Behemoth則擁有2880億活躍參數(shù)和16個(gè)專家模塊。在多項(xiàng)主流基準(zhǔn)測(cè)試中,其性能表優(yōu)于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行業(yè)頂尖模型。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:Meta官網(wǎng)

而在大模型競(jìng)技場(chǎng)上,Llama 4 Maverick表現(xiàn)奪目,總排名位居第二,成為第四個(gè)突破1400分的大模型。在開源模型中,Llama 4 Maverick排名第一,超越了DeepSeek。

在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)的比拼中,Llama 4 Maverick均斬獲第一名。相較于自家前代產(chǎn)品Llama 3(405B)獲得的1268分,Llama 4 Maverick的得分實(shí)現(xiàn)大幅躍升,達(dá)到了1417分。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:大模型競(jìng)技場(chǎng)

這本應(yīng)是開源社區(qū)的又一狂歡。但開發(fā)者們實(shí)測(cè)發(fā)現(xiàn),Llama 4的效果并不像官方宣稱的那樣驚艷,甚至可以說是問題百出

Menlo Ventures風(fēng)險(xiǎn)投資人迪迪·達(dá)斯(Deedy Das)直言,“Llama 4實(shí)際上是一個(gè)糟糕的編程模型?!?/p>

達(dá)斯指出,在專注于編程任務(wù)(如代碼生成和代碼補(bǔ)全)的KCORES基準(zhǔn)測(cè)試中,Llama 4 Scout和Llama 4 Maverick表現(xiàn)欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:KCORES LLM Arena

這與此前Llama 4在大模型競(jìng)技場(chǎng)的表現(xiàn)形成鮮明反差。

有網(wǎng)友直接曝出,Llama 4在大模型競(jìng)技場(chǎng)上存在過擬合現(xiàn)象,有極大的作弊“刷榜”嫌疑。

在一些實(shí)測(cè)中,Llama 4在上下文任務(wù)的實(shí)際表現(xiàn)遠(yuǎn)低于預(yù)期。Llama 4 Maverick在aider多語(yǔ)言編碼基準(zhǔn)測(cè)試中的實(shí)測(cè)得分僅為16%。

Abacus.AI首席執(zhí)行官賓杜?雷迪(Bindu Reddy)評(píng)論道:“人類的評(píng)估已經(jīng)毫無意義了……根據(jù)現(xiàn)實(shí)世界的表現(xiàn),Llama 4 Maverick應(yīng)該遠(yuǎn)遠(yuǎn)排不上第一或第二?!?/p>

大模型競(jìng)技場(chǎng)官方也下場(chǎng)“補(bǔ)刀”,指出Meta在大模型競(jìng)技場(chǎng)使用的并非HuggingFace上供開發(fā)者使用的Llama 4版本,而是“針對(duì)人類偏好進(jìn)行優(yōu)化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型競(jìng)技場(chǎng)官方要求Meta對(duì)此事作出澄清,并強(qiáng)調(diào)其排行榜結(jié)果準(zhǔn)確可靠,后續(xù)將對(duì)Llama 4重新進(jìn)行評(píng)測(cè)。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:X

知名科技媒體TechCrunch也發(fā)文,標(biāo)題直言Meta新AI模型的性能測(cè)試“具有一定誤導(dǎo)性”。

文章指出,針對(duì)基準(zhǔn)測(cè)試優(yōu)化特定版本去打榜,卻給開發(fā)者提供“基礎(chǔ)版”的做法,讓開發(fā)者難以依據(jù)榜單排名準(zhǔn)確預(yù)估模型在實(shí)際應(yīng)用場(chǎng)景中的真實(shí)表現(xiàn)。

《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn),在Llama官網(wǎng)提供的性能對(duì)比測(cè)試圖的最下面,寫著其在大模型競(jìng)技場(chǎng)上使用的是專門針對(duì)對(duì)話場(chǎng)景優(yōu)化的Llama 4 Maverick版本。不過,這一信息的字體極小,很難被注意到。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:X

Llama 4訓(xùn)練作弊?Meta緊急辟謠,大佬楊立昆也“站臺(tái)”

就在Llama 4被集體質(zhì)疑之時(shí),內(nèi)部員工的一則爆料帖子,讓Meta陷入了更深的輿論漩渦之中。

4月7日,在海外留學(xué)求職交流論壇“一畝三分地”上,一位自稱參與了Llama 4訓(xùn)練的內(nèi)部員工爆料稱,Llama 4模型訓(xùn)練測(cè)試集作弊,并表示自己已因此辭職。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:一畝三分地

該員工透露,盡管團(tuán)隊(duì)反復(fù)努力訓(xùn)練,Llama 4的內(nèi)部模型性能始終無法達(dá)到開源SOTA(State-of-the-Art,頂尖水平)基準(zhǔn),且差距明顯。為達(dá)成目標(biāo),公司領(lǐng)導(dǎo)層提出在訓(xùn)練后期將各種基準(zhǔn)測(cè)試的測(cè)試集數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù)中,以此在各項(xiàng)指標(biāo)上達(dá)成目標(biāo),交出一份“好看”的成績(jī)單。

這位內(nèi)部員工表示,自己無法接受公司這種做法,甚至辭職信中明確要求不要在Llama 4技術(shù)報(bào)告中掛名。

就在Llama 4發(fā)布前幾天,Meta AI研究主管喬爾·皮諾(Joelle Pineau)在工作8年之后突然宣布離職。

不過,由于發(fā)帖人并未實(shí)名,該帖子的真實(shí)性暫無法核實(shí)。在帖子下方評(píng)論區(qū),已有數(shù)名Meta員工實(shí)名進(jìn)行辟謠。

Meta研究科學(xué)家主管Licheng Yu稱,團(tuán)隊(duì)絕不存在針對(duì)測(cè)試集過擬合訓(xùn)練的情況。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:一畝三分地

另一位Meta高級(jí)AI研究科學(xué)家Di Jin也反駁道:“我參與了微調(diào)和強(qiáng)化學(xué)習(xí)的數(shù)據(jù)混合工作,并沒有這種(將基準(zhǔn)測(cè)試的測(cè)試集數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù))情況。”

并且,Di Jin還指出,近期離職的AI研究主管喬爾?皮諾,實(shí)則并非Meta GenAI團(tuán)隊(duì)成員,沒有參與GenAI的任何模型訓(xùn)練工作。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

圖片來源:一畝三分地

根據(jù)Meta的組織架構(gòu)體系,喬爾?皮諾是FAIR的副總裁,而FAIR實(shí)際上是Meta內(nèi)部與GenAI完全獨(dú)立的組織,GenAI才是負(fù)責(zé)Llama項(xiàng)目的組織。

針對(duì)外界對(duì)Llama 4模型的諸多質(zhì)疑,當(dāng)?shù)貢r(shí)間4月7日,Meta生成式AI副總裁艾哈邁德·阿爾·達(dá)赫勒(Ahmad Al-Dahle)在社交平臺(tái)X上公開回應(yīng),明確指出相關(guān)說法毫無事實(shí)依據(jù)。

同時(shí),達(dá)赫勒指出,部分用戶通過不同云服務(wù)商使用Llama 4模型時(shí),遭遇了質(zhì)量不穩(wěn)定問題。他對(duì)此解釋道:“由于我們?cè)谀P蜏?zhǔn)備好后就迅速發(fā)布,因此預(yù)計(jì)需要幾天的時(shí)間來調(diào)整所有公開版本。后續(xù),Meta將持續(xù)進(jìn)行錯(cuò)誤修復(fù)工作,并與合作伙伴保持溝通?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:X

此外,Meta首席AI科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun也轉(zhuǎn)發(fā)了該帖子,為L(zhǎng)lama 4聲援“站臺(tái)”。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:X