打開網(wǎng)易新聞 查看精彩圖片

各位五一快樂,快來吃瓜!(順便星標(biāo)??一下本號,最近很多朋友反應(yīng)不能及時看到內(nèi)容更新,只有關(guān)注并且??才會第一時間收到更新)

AI圈子波瀾又起,焦點集中在了大名鼎鼎的Chatbot Arena排行榜上。一篇名為《The Leaderboard Illusion》(排行榜幻覺)的預(yù)印本論文橫空出世,直接對這個被廣泛視為LLM“試金石”的平臺提出了系統(tǒng)性質(zhì)疑,論文更是直接點名Meta Llama 4 刷榜“造假”,連大佬Andrej Karpathy都下場發(fā)表了看法

打開網(wǎng)易新聞 查看精彩圖片

論文地址:

https://arxiv.org/pdf/2504.20879

Chatbot Arena:“兵家必爭之地”

先簡單科普下,Chatbot Arena由LMSYS(一個研究組織,原名lmsys.org,現(xiàn)稱lmarena.ai)創(chuàng)建,通過讓用戶匿名與兩個模型對話并投票選出更好的那個,來對大模型進行排名。因其動態(tài)、用戶驅(qū)動的評估方式,能捕捉到傳統(tǒng)基準(zhǔn)測試之外的真實用戶偏好,迅速成為衡量頂級AI系統(tǒng)能力的事實標(biāo)準(zhǔn),影響力巨大

打開網(wǎng)易新聞 查看精彩圖片

《The Leaderboard Illusion》:掀開“皇帝的新衣”?

這篇由Cohere、普林斯頓、斯坦福等機構(gòu)研究人員(其中部分作者也曾向Arena提交過模型)撰寫的論文,通過分析大量數(shù)據(jù)(涉及200多萬次對戰(zhàn)、243個模型、42家提供商),指出了Chatbot Arena存在的幾大核心問題,認(rèn)為其公平性和可靠性受到了損害:

  1. 1.“秘密測試”與“選擇性披露”:論文聲稱,少數(shù)(主要是大型、專有模型)提供商被允許在Arena上進行大量“私下測試”,可以提交多個模型變體進行評估,但最終只選擇性地公開表現(xiàn)最好的那個版本的分?jǐn)?shù),甚至可以撤回不滿意的結(jié)果。論文點名Meta在Llama 4發(fā)布前,僅一個月內(nèi)就在Arena上測試了多達(dá)27個私有變體。這種做法被指扭曲了排名,讓這些提供商獲得了不公平的優(yōu)勢,大白話就是說Meta Llama 4 “造假”

  2. 2.數(shù)據(jù)獲取“貧富差距”:由于私下測試、更高的采樣率(模型被選中參與對戰(zhàn)的頻率)以及模型下線(deprecation)策略,專有模型提供商獲得了遠(yuǎn)超開源/開放權(quán)重模型的用戶反饋數(shù)據(jù)。論文估計,僅Google和OpenAI就分別獲得了Arena總數(shù)據(jù)的19.2%和20.4%,而83個開放權(quán)重模型合計僅獲得29.7%。這種數(shù)據(jù)不對稱,讓優(yōu)勢方更容易針對Arena進行優(yōu)化

  3. 3.過擬合風(fēng)險:論文通過實驗證明,即使少量Arena數(shù)據(jù)也能顯著提升模型在Arena評估(如ArenaHard基準(zhǔn))上的表現(xiàn)(相對提升高達(dá)112%),但在其他通用基準(zhǔn)(如MMLU)上提升有限甚至下降。這表明模型可能在“刷榜”,而非真正提升通用能力,即過擬合了Arena的特定偏好

  4. 4.模型下線不透明且不公:論文發(fā)現(xiàn)大量模型(205個)被“悄悄”下線(采樣率降至近零),遠(yuǎn)超官方明確列出的47個。且這種下線更多發(fā)生在開放權(quán)重/開源模型上(占被移除模型的66%)。這不僅影響了數(shù)據(jù)獲取,還可能破壞了支撐Arena評分的Bradley-Terry模型假設(shè),導(dǎo)致排名不可靠。

基于這些發(fā)現(xiàn),論文提出了五項緊急建議:禁止撤回分?jǐn)?shù)、限制私有測試數(shù)量、公平執(zhí)行模型移除、實施公平采樣算法、公開所有測試模型及移除信息。

LMSYS (lmarena.ai) 回應(yīng):捍衛(wèi)與澄清

面對質(zhì)疑,Chatbot Arena的組織者lmarena.ai迅速做出了回應(yīng),主要觀點如下:

  1. 1.預(yù)發(fā)布測試是好事:他們承認(rèn)并歡迎預(yù)發(fā)布測試,認(rèn)為這能幫助模型提供商了解社區(qū)用戶的真實偏好,優(yōu)化模型,對整個社區(qū)有利。用戶也喜歡第一時間體驗最新模型

  2. 2.反映真實偏好,而非偏見:Arena的排名反映的是數(shù)百萬真實用戶的偏好總和。偏好本身是主觀的,但這正是其價值所在,因為模型最終是為人服務(wù)的。他們正在研究統(tǒng)計方法分解偏好,并努力擴大用戶群多樣性

  3. 3.政策防止“挑分”:他們強調(diào)其政策 不允許 提供商僅報告測試期間的最高分。發(fā)布的評分是針對 最終公開發(fā)布 的那個模型

  4. 4.質(zhì)疑論文方法與數(shù)據(jù):lmarena.ai認(rèn)為論文中的模擬存在缺陷,并指出論文中的一些數(shù)據(jù)與他們最近發(fā)布的實際統(tǒng)計數(shù)據(jù)不符

  5. 5.公平與開放承諾:他們重申致力于公平、社區(qū)驅(qū)動的評估,歡迎所有提供商提交模型。幫助Meta測試Llama 4與其他提供商無異,并強調(diào)自身平臺和工具的開源性,以及發(fā)布了大量開放對話數(shù)據(jù)

  6. 6.接受部分建議:他們表示同意部分建議(如實施主動采樣算法),并愿意考慮更多。

Andrej Karpathy :懷疑與替代方案

特斯拉前AI總監(jiān)、OpenAI創(chuàng)始成員Andrej Karpathy也分享了他的看法,他更傾向于懷疑Arena的排名:

  1. 1.個人經(jīng)驗與排名不符:他提到自己曾遇到過排名第一的Gemini模型實際體驗不如排名較低的模型(如Claude 3.5)的情況。也注意到一些“不知名”的小模型排名異常高

  2. 2.當(dāng)數(shù)據(jù)和經(jīng)驗(或直覺)對不上的時候,往往經(jīng)驗(或直覺)更靠譜:引用貝索斯的話,個人或小范圍的真實體驗可能比宏觀數(shù)據(jù)更能反映問題

  3. 3.擔(dān)憂過擬合特定偏好:他推測,不同團隊可能投入了不同程度的精力專門針對Arena評分進行優(yōu)化,導(dǎo)致模型更擅長Arena偏好的風(fēng)格(比如嵌套列表、表情符號),而非整體能力提升

  4. 4.推薦替代評估:OpenRouter:新的潛在頂級評估方式——OpenRouter的LLM排名。OpenRouter作為API路由平臺,用戶(包括企業(yè))基于實際應(yīng)用需求和成本在不同模型間切換,這種“用腳投票”直接反映了模型在真實場景中的綜合價值(能力+成本),可能更難被“游戲化”。

lmarena.ai對Karpathy的回應(yīng):

感謝karpathy的反饋!表示會持續(xù)構(gòu)建像WebDev Arena這樣的新評估平臺,以捕捉更高級、更真實的編碼用例

打開網(wǎng)易新聞 查看精彩圖片

Andrej Karpathy 質(zhì)疑全文:

打開網(wǎng)易新聞 查看精彩圖片

最近有篇新論文在傳,詳細(xì)分析了 LM Arena 排行榜,叫《排行榜幻覺》(The Leaderboard Illusion)

我最早開始有點兒懷疑這事,是有一次,(大概前段時間吧),某個 Gemini 模型沖到了第一名,而且分?jǐn)?shù)遠(yuǎn)超第二,但我自己切換過去試用了幾天,感覺還不如我之前用習(xí)慣了的那個。反過來呢,差不多同一時間,Claude 3.5 在我個人用起來明明是頂級水平,但在 Arena 上的排名卻非常低。無論是在網(wǎng)上還是私下聊天,我都聽到過類似的反饋。而且,還有不少看著挺隨機的模型,有些小的都讓人起疑,據(jù)我所知也沒啥實際應(yīng)用背景,但它們排名卻也相當(dāng)高。

“當(dāng)數(shù)據(jù)和(用戶的)直覺或經(jīng)驗對不上的時候,往往后者更靠譜?!保ㄟ@是杰夫·貝索斯最近在一個播客里說的,不過我個人深有同感)。我覺得吧,這些(大模型)團隊內(nèi)部可能把不同的精力都放在了專門針對 LM Arena 分?jǐn)?shù)上,并且基于這個分?jǐn)?shù)來做決策。不幸的是,這樣搞出來的可能不是整體上更好的模型,而是更擅長在 LM Arena 上拿高分的模型——不管那到底意味著什么。也許就是那種特別會用嵌套列表、項目符號和表情符號的模型吧。

LM Arena(以及那些 LLM 提供商)很可能會繼續(xù)在這種模式下迭代和改進,但除此之外,我心里還有個新的候選者,有潛力成為新的“頂級評測”方式之一。那就是OpenRouterAI 的 LLM 排名:

https://openrouter.ai/rankings

簡單來說,OpenRouter 能讓個人或公司在不同 LLM 提供商的 API 之間快速切換。這些用戶都有真實的應(yīng)用場景(不是搞些小測試題或者解謎),他們自己內(nèi)部也有評估方式,而且都有實實在在的動力去選對模型。所以,當(dāng)他們選擇某個 LLM 而不是另一個時,實際上就是在用腳投票,綜合考慮了(模型的)能力和成本。我覺得 OpenRouter 在用戶數(shù)量和使用場景的多樣性上可能還沒完全到位,但這種基于實際應(yīng)用的評估方式,我認(rèn)為非常有潛力發(fā)展成一種非常好的、并且很難被“刷榜”或操縱(game)的評測體系

--完--

最后給大家貼一下openrouter的大模型綜合排行(還有各個領(lǐng)域的排名,涉及編程,市場,角色扮演,技術(shù),科學(xué),翻譯,法律,金融,健康,學(xué)術(shù)等大家可以自行探索)

打開網(wǎng)易新聞 查看精彩圖片

參考:

https://arxiv.org/pdf/2504.20879

?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯過?

用你的在看告訴我~

求贊