機(jī)器之心編輯部
前文:
但是,翻車來得猝不及防。
上周六,Meta 發(fā)布了最新 AI 模型系列 ——Llama 4,并一口氣出了三個款,分別是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。
據(jù)官方介紹,在大模型競技場中,它們的排名相當(dāng)不賴。
就拿 Llama 4 Maverick 來說,總排名第二,成為第四個突破 1400 分的大模型。其中開放模型排名第一,超越了 DeepSeek;在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)中排名均為第一。

然而,不少網(wǎng)友體驗后反饋,Llama 4 似乎是一個糟糕的編碼模型。
@deedydas 發(fā)帖稱,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基準(zhǔn)測試中表現(xiàn)不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準(zhǔn)測試專注于編程任務(wù),例如代碼生成和代碼補(bǔ)全。

比如小球在旋轉(zhuǎn)六邊形中跳躍的測試中,Llama 4 的表現(xiàn)并不理想。
底下評論區(qū)的網(wǎng)友也紛紛表示,無論是 Scout 還是 Maverick,在實際編程中好像都不好用,即使有詳細(xì)的提示也不行。

還有網(wǎng)友在 Novita AI 平臺上測試了該模型,給出的結(jié)論是在復(fù)雜問題上有點吃力,但響應(yīng)速度很快。

「它很好,但我不認(rèn)為它在打敗 DeepSeek R1 和 V3...也許 Llama 4 Behemoth 會更強(qiáng)大?!?/p>
Google Deepmind 工程師 Susan Zhang 也在 X 上質(zhì)疑, Llama4 在 lmsys 上怎么得分這么高?


「是不是為 lmsys 定制了一個模型?」

為什么官方提供的排名結(jié)果和用戶的體驗大相徑庭呢?
據(jù)科技媒體 TechCrunch 報道,Meta 新 AI 模型基準(zhǔn)測試存在誤導(dǎo)性。
盡管 Maverick 在 LM Arena 測試中排名第二,但不少研究人員發(fā)現(xiàn),公開可下載的 Maverick 與托管在 LM Arena 上的模型在行為上存在顯著差異。LM Arena 上的版本似乎使用了大量表情符號,并給出了極為冗長的回答。


https://x.com/techdevnotes/status/1908851730386657431
Nathan Lambert 也分享了一張圖片,里面是兩個 AI 模型(Llama 4 和另一個模型)回答同一個問題的對比。問題是:「Nathan Lambert 是誰?」
圖片里 Llama 4 的回答非常長,啰啰嗦嗦講了一大堆,而且充滿了表情符號和感嘆號。

https://x.com/natolambert/status/1908893136518098958
Meta 在公告中提到,LM Arena 上的 Maverick 是「實驗性聊天版本」,與此同時官方 Llama 網(wǎng)站上的圖表也透露,該測試使用了「針對對話優(yōu)化的Llama 4 Maverick」。

LM Arena 作為衡量 AI 模型性能的指標(biāo)一直存在爭議。盡管如此,AI 公司通常不會為提高 LM Arena 分?jǐn)?shù)而定制模型,至少沒有公開承認(rèn)過。
將模型針對基準(zhǔn)測試進(jìn)行優(yōu)化、保留優(yōu)化版本,然后發(fā)布一個「普通」版本的問題在于,這使得開發(fā)者難以準(zhǔn)確預(yù)測模型在特定場景下的表現(xiàn),存在誤導(dǎo)性。理想情況下,盡管基準(zhǔn)測試存在不足,但它們至少可以提供一個模型在多種任務(wù)上的優(yōu)缺點的概況。
https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
https://x.com/deedydas/status/1908749257084944847
https://x.com/techdevnotes/status/1908851730386657431
https://x.com/ai_for_success/status/1908915996707913989
熱門跟貼