明敏 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

大模型競(jìng)技場(chǎng)的可信度,再次被錘。

最近一篇名為《排行榜幻覺》(The Leaderboard Illusion)的論文在學(xué)術(shù)圈引發(fā)關(guān)注。

打開網(wǎng)易新聞 查看精彩圖片

它指出,如今被視為LLM領(lǐng)域首選排行榜的Chatbot Arena,存在諸多系統(tǒng)問題。比如:

  • 少數(shù)大廠可以私下測(cè)試多個(gè)模型版本,Llama4在發(fā)布前甚至測(cè)了27個(gè)版本,然后只公開最佳表現(xiàn)。
  • 數(shù)據(jù)訪問不平等,專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。
  • 使用Arena數(shù)據(jù)訓(xùn)練,可提升模型性能高達(dá)112%
  • 205個(gè)模型被悄悄靜默棄用,遠(yuǎn)超過官方列出的47個(gè)。

大神卡帕西也站出來表示,他個(gè)人也察覺出了一些異樣。

有一段時(shí)間,Claude-3.5是我覺得最好用的模型,但是在競(jìng)技場(chǎng)中排名很低。當(dāng)時(shí)我在網(wǎng)上也看到了類似的反饋。

打開網(wǎng)易新聞 查看精彩圖片

對(duì)于最新質(zhì)疑,大模型競(jìng)技場(chǎng)官方Lmrena.ai已經(jīng)給出回應(yīng):

  • 確實(shí)幫助廠商進(jìn)行測(cè)試,最后發(fā)布最受歡迎的版本;
  • 但這不代表競(jìng)技場(chǎng)有偏見,排行榜反映數(shù)百萬人類的個(gè)人真實(shí)偏好。

打開網(wǎng)易新聞 查看精彩圖片

快速刷榜不符合模型進(jìn)步實(shí)際情況

具體來看這項(xiàng)研究,它收集了243個(gè)模型的200+萬場(chǎng)競(jìng)技場(chǎng)battle,并結(jié)合私人真實(shí)測(cè)試,通過模擬實(shí)驗(yàn)確定了不同情況下對(duì)模型排名的影響。

打開網(wǎng)易新聞 查看精彩圖片

主要挖掘出了4方面問題。

打開網(wǎng)易新聞 查看精彩圖片

第一,私人測(cè)試和有選擇性的結(jié)果報(bào)告。

少數(shù)大模型廠商(如Meta、Google、Amazon)被允許私下測(cè)試多個(gè)模型變體,并只公開最佳表現(xiàn)的版本。

比如,Meta在Llama 4發(fā)布前曾私下測(cè)試27個(gè)變體,加上多模態(tài)、代碼等榜單,Meta可能一共測(cè)試過43個(gè)變體。

打開網(wǎng)易新聞 查看精彩圖片

這種“最佳N選1”策略導(dǎo)致排名膨脹。

例如,當(dāng)測(cè)試5個(gè)變體時(shí),期望分?jǐn)?shù)增加了約20分;當(dāng)測(cè)試20個(gè)變體時(shí),增加了約40分;當(dāng)測(cè)試50個(gè)變體時(shí),增加了約50分。

打開網(wǎng)易新聞 查看精彩圖片

研究團(tuán)隊(duì)認(rèn)為,當(dāng)多個(gè)大模型廠商采用這種策略時(shí),他們實(shí)際上是在相互競(jìng)爭各自變體分布的最大值,而非真實(shí)的模型能力

我們觀察到,像Google、OpenAI和xAI在短時(shí)間內(nèi)輪番霸榜,表明他們都在采用類似的策略。
例如,2024年11月期間,Google的Gemini (Exp 1114)、OpenAI的ChatGPT-4o (20241120)和Google的Gemini (Exp 1121)在一周內(nèi)先后占據(jù)榜首。類似地,2025年3月4日,OpenAI的GPT-4.5和xAI的Grok-3同一天爭奪榜首位置。

這種排行榜的快速變化不太可能反映真實(shí)的技術(shù)進(jìn)步,因?yàn)殚_發(fā)和完善一個(gè)全新的基礎(chǔ)模型通常需要數(shù)月時(shí)間。

相反,這很可能是多個(gè)大模型廠商同時(shí)使用“最佳N選1”策略的結(jié)果,每個(gè)提供商都試圖優(yōu)化自己變體池中的最大值。

此外,團(tuán)隊(duì)還發(fā)現(xiàn)大模型廠商可以撤回表現(xiàn)不好的模型。

打開網(wǎng)易新聞 查看精彩圖片

第二,數(shù)據(jù)訪問不平等。專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。

打開網(wǎng)易新聞 查看精彩圖片

Google和OpenAI分別獲得了約19.2%和20.4%的所有測(cè)試數(shù)據(jù),而全部83個(gè)開放權(quán)重模型僅獲得約29.7%的數(shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

第三,大模型廠商使用競(jìng)技場(chǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,排名可以顯著提升。

我們觀察到,將競(jìng)技場(chǎng)訓(xùn)練數(shù)據(jù)比例從0%增加到70%,在ArenaHard上的勝率從23.5%提高到了49.9%,實(shí)現(xiàn)了一倍多的增長。
這還是一個(gè)保守估計(jì),因?yàn)椴糠痔峁┥虛碛袛?shù)據(jù)訪問優(yōu)勢(shì)。

第四,研究發(fā)現(xiàn),許多模型被”靜默棄用”(減少采樣率至接近0%)。

在243個(gè)公開模型中,有205個(gè)被靜默棄用,遠(yuǎn)超過官方列出的47個(gè)。這種做法特別影響開源和開放權(quán)重模型,會(huì)導(dǎo)致排名不可靠。

打開網(wǎng)易新聞 查看精彩圖片

在提出問題后,研究團(tuán)隊(duì)還給出了5點(diǎn)改進(jìn)建議:

  • 禁止提交后撤回分?jǐn)?shù)
  • 限制每個(gè)提供商的非正式模型數(shù)量
  • 公平應(yīng)用模型棄用政策,所有模型一視同仁
  • 實(shí)施公平采樣方法
  • 提高模型棄用透明度,即時(shí)通知被淘汰模型

這項(xiàng)研究由Cohere團(tuán)隊(duì)、普林斯頓大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)研究人員共同提出。

其中Cohere也是一家大模型廠商,由Transformer作者Aidan Gomez等人創(chuàng)辦,推出了Command R+系列模型。

“競(jìng)技場(chǎng)不應(yīng)該是唯一基準(zhǔn)參考”

大模型競(jìng)技場(chǎng)誕生2年來,因?yàn)闄C(jī)制的特殊性,其參考價(jià)值越來越高,大廠發(fā)模型也必來這里打榜,甚至是將未發(fā)布模型提前在此預(yù)熱造勢(shì)。

它最大的優(yōu)勢(shì)在于基于人類偏好評(píng)估,用戶可以在同一平臺(tái)上同時(shí)運(yùn)行多個(gè)聊天機(jī)器人模型,如GPT-4、ChatGPT-3.5等,并針對(duì)相同的問題或任務(wù)進(jìn)行比較分析,可以更直觀感受不同模型的差異。

最近一段時(shí)間,由于Llama4刷榜風(fēng)波,給競(jìng)技場(chǎng)的可信度也造成了一定影響。

打開網(wǎng)易新聞 查看精彩圖片

對(duì)于這篇質(zhì)疑論文,官方現(xiàn)在已做出回應(yīng)。反駁了一些問題:

  • LMArena模擬的缺陷:圖7/8中的模擬存在問題。這就像說:NBA球員的平均三分命中率是35%。斯蒂芬·庫里擁有NBA球員最高的三分命中率42%。這不公平,因?yàn)樗麃碜訬BA球員的分布,而所有球員都有相同的潛在平均水平。
  • 數(shù)據(jù)不實(shí):文章中的許多數(shù)據(jù)并不反映現(xiàn)實(shí):請(qǐng)參閱幾天前發(fā)布的博客了解來自不同提供商測(cè)試模型數(shù)量的實(shí)際統(tǒng)計(jì)數(shù)據(jù)。例如,開放模型占比為40%,而非文章聲稱的8.8%!
  • 112%性能提升的誤導(dǎo)性說法:這一說法基于LLM評(píng)判基準(zhǔn)而非競(jìng)技場(chǎng)中的實(shí)際人類評(píng)估。
  • 政策并非“不透明”:我們?cè)O(shè)計(jì)并公開分享了政策,且這一政策已存在一年多。
  • 模型提供商并非只選擇“最佳分?jǐn)?shù)披露”:任何列在公共排行榜上的模型都必須是向所有人開放且有長期支持計(jì)劃的生產(chǎn)模型。我們會(huì)繼續(xù)使用新數(shù)據(jù)對(duì)模型進(jìn)行至少一個(gè)月的測(cè)試。這些要點(diǎn)一直在我們的政策中明確說明。
  • 展示非公開發(fā)布模型的分?jǐn)?shù)毫無意義:對(duì)于通過API或開放權(quán)重不公開可用的預(yù)發(fā)布模型顯示分?jǐn)?shù)沒有意義,因?yàn)樯鐓^(qū)無法使用這些模型或自行測(cè)試。這會(huì)違反我們一年多前就制定的政策。我們制定該政策正是為了明確這一規(guī)則:如果模型在排行榜上,它應(yīng)該可供使用。
  • 模型移除不平等或不透明的說法不實(shí):排行榜旨在反映社區(qū)興趣,對(duì)最佳AI模型進(jìn)行排名。我們也會(huì)淘汰不再向公眾開放的模型,這些標(biāo)準(zhǔn)在我們與社區(qū)進(jìn)行私人測(cè)試的整個(gè)期間都已在政策中公開說明。

至于情況到底如何,可能還要等子彈飛一會(huì)兒。

不過這倒是也給AI社區(qū)提了個(gè)醒,或許不能只參考一個(gè)榜單了。

卡帕西就給出了一個(gè)備選項(xiàng):OpenRouter。

OpenRouter可以提供一個(gè)統(tǒng)一API接口來訪問使用不同模型,而且更加關(guān)注實(shí)際使用案例。

盡管在多樣性和使用量上還不夠優(yōu)秀,但我認(rèn)為它有很大潛力。

[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890