中文字幕亚洲欧美,欧美乱色视频在线观看,欧美亚洲日本bbb视频,一本色道久久精品+网站 ,亚洲一区二区三区av中文伊人

機(jī)器之心編輯部

前文：

但是，翻車來得猝不及防。

上周六，Meta 發(fā)布了最新 AI 模型系列 ——Llama 4，并一口氣出了三個(gè)款，分別是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

據(jù)官方介紹，在大模型競(jìng)技場(chǎng)中，它們的排名相當(dāng)不賴。

就拿 Llama 4 Maverick 來說，總排名第二，成為第四個(gè)突破 1400 分的大模型。其中開放模型排名第一，超越了 DeepSeek；在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)中排名均為第一。

然而，不少網(wǎng)友體驗(yàn)后反饋，Llama 4 似乎是一個(gè)糟糕的編碼模型。

@deedydas 發(fā)帖稱，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基準(zhǔn)測(cè)試中表現(xiàn)不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準(zhǔn)測(cè)試專注于編程任務(wù)，例如代碼生成和代碼補(bǔ)全。

比如小球在旋轉(zhuǎn)六邊形中跳躍的測(cè)試中，Llama 4 的表現(xiàn)并不理想。

底下評(píng)論區(qū)的網(wǎng)友也紛紛表示，無論是 Scout 還是 Maverick，在實(shí)際編程中好像都不好用，即使有詳細(xì)的提示也不行。

還有網(wǎng)友在 Novita AI 平臺(tái)上測(cè)試了該模型，給出的結(jié)論是在復(fù)雜問題上有點(diǎn)吃力，但響應(yīng)速度很快。

「它很好，但我不認(rèn)為它在打敗 DeepSeek R1 和 V3...也許 Llama 4 Behemoth 會(huì)更強(qiáng)大?！?/p>

Google Deepmind 工程師 Susan Zhang 也在 X 上質(zhì)疑， Llama4 在 lmsys 上怎么得分這么高？

「是不是為 lmsys 定制了一個(gè)模型？」

為什么官方提供的排名結(jié)果和用戶的體驗(yàn)大相徑庭呢？

據(jù)科技媒體 TechCrunch 報(bào)道，Meta 新 AI 模型基準(zhǔn)測(cè)試存在誤導(dǎo)性。

盡管 Maverick 在 LM Arena 測(cè)試中排名第二，但不少研究人員發(fā)現(xiàn)，公開可下載的 Maverick 與托管在 LM Arena 上的模型在行為上存在顯著差異。LM Arena 上的版本似乎使用了大量表情符號(hào)，并給出了極為冗長的回答。

https://x.com/techdevnotes/status/1908851730386657431

Nathan Lambert 也分享了一張圖片，里面是兩個(gè) AI 模型（Llama 4 和另一個(gè)模型）回答同一個(gè)問題的對(duì)比。問題是：「Nathan Lambert 是誰？」

圖片里 Llama 4 的回答非常長，啰啰嗦嗦講了一大堆，而且充滿了表情符號(hào)和感嘆號(hào)。

https://x.com/natolambert/status/1908893136518098958

Meta 在公告中提到，LM Arena 上的 Maverick 是「實(shí)驗(yàn)性聊天版本」，與此同時(shí)官方 Llama 網(wǎng)站上的圖表也透露，該測(cè)試使用了「針對(duì)對(duì)話優(yōu)化的Llama 4 Maverick」。

LM Arena 作為衡量 AI 模型性能的指標(biāo)一直存在爭(zhēng)議。盡管如此，AI 公司通常不會(huì)為提高 LM Arena 分?jǐn)?shù)而定制模型，至少?zèng)]有公開承認(rèn)過。

將模型針對(duì)基準(zhǔn)測(cè)試進(jìn)行優(yōu)化、保留優(yōu)化版本，然后發(fā)布一個(gè)「普通」版本的問題在于，這使得開發(fā)者難以準(zhǔn)確預(yù)測(cè)模型在特定場(chǎng)景下的表現(xiàn)，存在誤導(dǎo)性。理想情況下，盡管基準(zhǔn)測(cè)試存在不足，但它們至少可以提供一個(gè)模型在多種任務(wù)上的優(yōu)缺點(diǎn)的概況。