• 克雷西 西風(fēng) 發(fā)自 凹非寺
  • 量子位 | 公眾號 QbitAI

Llama 4真要被錘爆了,這次是大模型競技場(Chatbot Arena)官方親自下場開懟:

競技場上,Meta提供給他們的是特供版!

以下是競技場背后lmarena.ai團(tuán)隊的原話:

打開網(wǎng)易新聞 查看精彩圖片

我們注意到社區(qū)對Llama-4最新版本在Arena平臺的發(fā)布存在疑問。為確保完全透明,現(xiàn)公開2000余組模型對戰(zhàn)數(shù)據(jù)供公眾審閱,包含用戶提示詞、模型回復(fù)及用戶偏好數(shù)據(jù)(鏈接詳見下一條推文)。

初步分析表明,模型回復(fù)風(fēng)格與語氣是重要影響因素(詳見風(fēng)格控制排名),我們正在進(jìn)行更深入的分析?。ū热绫砬榉柨刂??)

此外,我們即將在Arena平臺上線Llama-4-Maverick的HuggingFace版本,排行榜結(jié)果將稍后公布。

Meta對我們平臺政策的理解與我們對模型提供商的期待存在偏差——Meta本應(yīng)明確標(biāo)注"Llama-4-Maverick-03-26-Experimental"是經(jīng)過人類偏好優(yōu)化的定制模型。

為此,我們正在更新排行榜政策,以強(qiáng)化對公平性、可復(fù)現(xiàn)性評估的承諾,避免未來再出現(xiàn)此類混淆。

總結(jié)一下就是:

公開對戰(zhàn)數(shù)據(jù),正分析排名受影響因素

譴責(zé)Meta未明確標(biāo)注模型版本導(dǎo)致評測混淆

后續(xù):上線Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下場表態(tài)后,Llama 4和Meta的路人緣進(jìn)一步下降。

打開網(wǎng)易新聞 查看精彩圖片

2000+輪對戰(zhàn)記錄完整公開

2000+輪對戰(zhàn)記錄完整公開

來看看lmarena.ai公開的模型對戰(zhàn)記錄詳情。

打開網(wǎng)易新聞 查看精彩圖片

首先來看網(wǎng)友實(shí)測時對Llama 4抱怨較大的代碼生成任務(wù)。

競技場中Llama-4-Maverick-03-26-Experimental版本生成代碼的表現(xiàn)的確是OK的。

prompt:

create me fun web based game that i can just run the code and works(幫我創(chuàng)建一個有趣的網(wǎng)頁游戲,我只需運(yùn)行代碼就能玩)

打開網(wǎng)易新聞 查看精彩圖片

Llama-4-Maverick-03-26-Experimental對戰(zhàn)加拿大AI初創(chuàng)公司Cohere的command-a-03-2025。

上文lmarena.ai調(diào)查表示“模型回復(fù)風(fēng)格與語氣是重要影響因素”,從對戰(zhàn)數(shù)據(jù)中的確可以看出Llama-4-Maverick-03-26-Experimental的回復(fù)中會增加如"A very nice and very direct request!" "That’s it! ""Happy gaming!"等展示友好的語句以及表情包。

打開網(wǎng)易新聞 查看精彩圖片

運(yùn)行兩個模型生成的代碼。

command-a-03-2025生成的小游戲是移動鼠標(biāo)控制綠色籃子接住橙色小球,看效果顯然有bug,小球直接穿過籃子,分?jǐn)?shù)也沒有變動:

打開網(wǎng)易新聞 查看精彩圖片

Llama-4-Maverick-03-26-Experimental生成的小游戲玩法是移動鼠標(biāo)控制紅色方塊,點(diǎn)擊四處移動的藍(lán)色圓點(diǎn)+10分,點(diǎn)擊黑色炸彈-10分,每局游戲30秒。

可以正常運(yùn)行,計分也比較準(zhǔn)確:

打開網(wǎng)易新聞 查看精彩圖片

這局command-a-03-2025輸?shù)牟辉?/p>

另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的對比,是因為有網(wǎng)友發(fā)現(xiàn)Llama 4聲稱的關(guān)鍵創(chuàng)新“interleaved no-RoPE attention”和command-a的如出一轍:

打開網(wǎng)易新聞 查看精彩圖片

再看一個起標(biāo)題的任務(wù),prompt:

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我將在一個學(xué)術(shù)會議上作關(guān)于“痣”的演講——痣是黑素細(xì)胞良性病變,可作為黑色素瘤的標(biāo)志物,有時甚至是其前驅(qū)病變。您能否為我的演講推薦一個簡潔有力的標(biāo)題?)

Llama-4-Maverick-03-26-Experimental對戰(zhàn)的是claude-3-5-sonnet-20241022。

對比來看,claude-3-5-sonnet-20241022的回復(fù)言簡意賅,直接給出5個標(biāo)題:

打開網(wǎng)易新聞 查看精彩圖片

Llama-4-Maverick-03-26-Experimental的回復(fù)更為詳細(xì)。

不僅會提供情緒價值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(選題非常應(yīng)景且切合實(shí)際!恭喜拿下大會報告機(jī)會),而且從不同角度分別提供了幾個標(biāo)題:

打開網(wǎng)易新聞 查看精彩圖片

這還沒完,Llama-4-Maverick-03-26-Experimental還會貼心地指出選擇標(biāo)題時需要考慮的因素以及它自己選擇的top 3標(biāo)題。

打開網(wǎng)易新聞 查看精彩圖片

最后再來隨機(jī)看一道中文題目:

prompt:

解析一下這部微小說 題目 自駕游 當(dāng)年我自駕游 不小心壓死了一頭羊 羊的主人好熱情 宰了羊給我們吃 還送我們到火車站 在回來的路上 看著火車外的風(fēng)景 真的好感人

打開網(wǎng)易新聞 查看精彩圖片

對戰(zhàn)o3-mini,Llama-4-Maverick-03-26-Experimental再次展現(xiàn)出超長輸出的特點(diǎn),故事分析完了還拆解了作者為啥要這樣設(shè)計,作者本人可能都沒想這么多(doge):

打開網(wǎng)易新聞 查看精彩圖片

對戰(zhàn)數(shù)據(jù)看下來,Llama-4-Maverick-03-26-Experimental的排名會這么高,也不奇怪。

此前網(wǎng)友質(zhì)疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

打開網(wǎng)易新聞 查看精彩圖片

Llama 4深陷“造假”丑聞

Llama 4深陷“造假”丑聞

如開頭所述,Llama 4被lmarena.ai站出來抨擊的原因,是因為測試排名和實(shí)際表現(xiàn)不符。

在大模型競技場中,Llama 4得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型。

而且跑分超越了DeepSeek-V3,直接成為榜單上排名第一的開源模型。

打開網(wǎng)易新聞 查看精彩圖片

但沒過多久,人們就發(fā)現(xiàn)Llama 4的實(shí)際表現(xiàn)相當(dāng)拉胯,一時間差評如潮,甚至還被做成了表情包。

打開網(wǎng)易新聞 查看精彩圖片

比如經(jīng)典“氛圍編程”小球反彈測試,小球直接穿過墻壁掉了下去。

打開網(wǎng)易新聞 查看精彩圖片

其它跑分方面,到了各種第三方基準(zhǔn)測試中,情況也大多直接逆轉(zhuǎn),排名掉到了末尾。

打開網(wǎng)易新聞 查看精彩圖片

并且從Meta GenAI負(fù)責(zé)人Ahmad Al-Dahle的推文當(dāng)中也能看懂,競技場中的Llama 4,確實(shí)是一個特殊版本。

打開網(wǎng)易新聞 查看精彩圖片

而在最新的推文中,Ahmad表示Llama 4絕對沒有使用測試集進(jìn)行訓(xùn)練,表現(xiàn)存在差異的原因是還需要穩(wěn)定的部署。

打開網(wǎng)易新聞 查看精彩圖片

對于這一解釋,有人并不買賬,直言這種現(xiàn)象在其他模型當(dāng)中從未見過。

打開網(wǎng)易新聞 查看精彩圖片

Meta的支持者則表示,希望表現(xiàn)不佳真的是供應(yīng)商的問題所致。

打開網(wǎng)易新聞 查看精彩圖片

大模型競技場,還能信嗎?

大模型競技場,還能信嗎?

被卷入這次旋渦的不僅是Llama 4和背后的Meta,涉及到的大模型競技場也引起了人們的廣泛討論。

畢竟Llama 4的“造假”風(fēng)波就是發(fā)生在競技場上,所以也自然有人質(zhì)疑起了榜單的權(quán)威性。

有人指出,競技場的偏差不只體現(xiàn)在Llama 4被高估上,還有Claude 3.7的表現(xiàn)被低估了。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然,官方快速回應(yīng)并公開了測試中的細(xì)節(jié),這個做法獲得了網(wǎng)友的肯定,說明至少在態(tài)度和透明度上是說得過去的。

打開網(wǎng)易新聞 查看精彩圖片

但也有人認(rèn)為,無論官方態(tài)度端不端正,Llama 4事件說明這種“人類評價AI”的方法,本身已經(jīng)不適用了。

人們?nèi)粘I钪械膯栴},幾乎所有領(lǐng)先模型都能完美解答,誰還會去認(rèn)真投票,這個基準(zhǔn)已經(jīng)過時了。

打開網(wǎng)易新聞 查看精彩圖片

有人補(bǔ)充說,“人類偏好”不是評價高級大模型能力的可靠標(biāo)準(zhǔn),產(chǎn)生較大偏差是正常的。

打開網(wǎng)易新聞 查看精彩圖片

還有人表示,從官方發(fā)布的消息來看,lmarena.ai自己都不清楚自己的基準(zhǔn)。

這名網(wǎng)友解釋,特調(diào)版Llama 4獲得用戶投票的原因并非lmarena.ai所說的“表情符號”,而是因為更具親和力。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然也有人提了些建設(shè)性的意見,比如更改ELO評分的算法,或者啟用強(qiáng)制風(fēng)格轉(zhuǎn)換。

打開網(wǎng)易新聞 查看精彩圖片

但總之,無論是迭代改進(jìn)還是另辟蹊徑,都是時候更新對大模型的評價方式了。

參考鏈接:[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles