(來源:MIT Technology Review)
打開網(wǎng)易新聞 查看精彩圖片
(來源:MIT Technology Review)

成為硅谷最受青睞的標桿之一并不容易。

SWE-Bench 于 2024 年 11 月推出,旨在評估 AI 模型的編程能力。該基準測試采用了從 12 個不同 Python 項目的 GitHub 公開倉庫中提取的 2000 多個真實編程問題作為評測依據(jù)。

短短數(shù)月,SWE-Bench 迅速成為 AI 領(lǐng)域最熱門的測試基準之一。如今,OpenAI、Anthropic 和谷歌等巨頭發(fā)布大模型時,SWE-Bench 評分已成為標配指標。

而在基礎(chǔ)模型之外,各家 AI 公司的微調(diào)團隊更是展開激烈角逐,爭相沖擊排行榜榜首。目前領(lǐng)跑榜單的是 Anthropic 旗下 Claude Sonnet 模型的三個不同微調(diào)版本與亞馬遜 Q 智能體的混戰(zhàn)局面。其中基于 Claude 改進的 Auto Code Rover 在去年 11 月斬獲亞軍,僅三個月后便被收購。

盡管熱潮洶涌,但這并不能真實反映哪個模型更優(yōu)秀。隨著該基準測試的影響力不斷擴大,“你會發(fā)現(xiàn)人們開始不惜代價爭奪榜首”,普林斯頓大學(xué) SWE-Bench 開發(fā)團隊成員 John Yang 表示。這種競爭導(dǎo)致參賽者開始鉆營系統(tǒng)漏洞——促使越來越多人思考:是否該建立更科學(xué)的 AI 能力評估體系?

這些編程智能體的開發(fā)者未必存在赤裸裸的作弊行為,但他們設(shè)計的解決方案往往過度擬合了基準測試的特性。最初的 SWE-Bench 測試集僅包含 Python 語言編寫的程序,這意味著開發(fā)者只需讓模型專門訓(xùn)練 Python 代碼就能獲得優(yōu)勢。Yang 很快發(fā)現(xiàn),那些高分模型在面對其他編程語言測試時完全失靈——這種應(yīng)試策略被他形容為“鍍金式”的取巧。

“乍看之下光鮮亮麗,但換種編程語言測試就會原形畢露,”他指出,“這本質(zhì)上不是在開發(fā)軟件工程智能體,而是在打造 SWE-Bench 專用工具——后者的意義要小得多?!?/p>

SWE-Bench 暴露的問題折射出 AI 評估領(lǐng)域一個普遍且復(fù)雜的困境:行業(yè)用于指導(dǎo)開發(fā)的基準測試,與實際能力評估的偏差正越來越大,其根本價值由此遭到質(zhì)疑。更糟糕的是,F(xiàn)rontierMath 和 Chatbot Arena 等多個知名基準近期因透明度不足引發(fā)爭議。盡管如此,基準測試仍在模型開發(fā)中占據(jù)核心地位——即便很少有專家會全盤采信其結(jié)果。OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 近期將這種局面稱為“評估危機”:行業(yè)既缺乏可信的能力測量方法,也看不到改進的明確路徑。

斯坦福大學(xué)以人為本人工智能研究所(HAI)研究主任 Vanessa Parli 指出:“基準測試歷來是評估 AI 系統(tǒng)的主要方式。但這是否仍是我們未來想要的方式?如果不是,又該采用什么方法?”

越來越多的學(xué)者和 AI 研究人員主張,答案在于“縮小評估范圍”——放棄宏大目標,轉(zhuǎn)而采用社會科學(xué)的研究方法。具體而言,他們希望更注重測試的“效度”(validity),即定量社會科學(xué)中衡量問卷能否準確評估目標指標的標準,更根本的是確認所測量的概念是否具有明確定義。這對評估“推理能力”或“科學(xué)知識”等模糊概念的基準測試將構(gòu)成挑戰(zhàn),也會沖擊那些追逐通用人工智能(AGI)熱潮的開發(fā)者——但能讓行業(yè)在證明單個模型價值時,擁有更堅實的理論基礎(chǔ)。

密歇根大學(xué)教授 Abigail Jacobs 是這場“效度運動”的核心人物,她表示:“認真對待效度意味著要求學(xué)術(shù)界、工業(yè)界等各方證明其系統(tǒng)確實具備所宣稱的能力。如果 AI 界回避這種驗證要求,恰恰暴露了這個領(lǐng)域的弱點?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

傳統(tǒng)測試的局限性

如果說 AI 公司對基準測試日益顯露的缺陷反應(yīng)遲緩,部分原因在于這種評分機制曾長期行之有效。

當代 AI 最早的里程碑之一——ImageNet 挑戰(zhàn)賽,堪稱現(xiàn)代基準測試的雛形。2010 年發(fā)布的這個開放研究項目,包含 300 多萬張待分類圖片,要求 AI 系統(tǒng)將其歸入 1000 個不同類別。

關(guān)鍵在于,該測試完全兼容任何方法體系,任何成功算法無論運作原理如何都能快速獲得認可。當名為 AlexNet 的算法在 2012 年突破性地采用當時非主流的 GPU 訓(xùn)練方法勝出時,這一成果直接奠定了現(xiàn)代 AI 的基礎(chǔ)。此前幾乎無人預(yù)料到,AlexNet 采用的卷積神經(jīng)網(wǎng)絡(luò)會成為解鎖圖像識別的密鑰——但一旦其高分成績得到驗證,質(zhì)疑聲便煙消云散。(AlexNet 開發(fā)者之一 Ilya Sutskever 后來成為 OpenAI 聯(lián)合創(chuàng)始人)

ImageNet 之所以成效卓著,很大程度上在于其物體分類挑戰(zhàn)與真實圖像識別任務(wù)幾乎不存在實用差異。即便對方法存在爭議,但沒人會懷疑:在測試中表現(xiàn)最優(yōu)的模型,實際部署時必然具備優(yōu)勢。

但在此后的 12 年間,AI 研究者將這種“方法論中立”的思路套用到越來越通用的任務(wù)上。SWE-Bench 常被用作廣義編程能力的替代指標,而其他考試式基準測試則往往代表推理能力。這種寬泛的定位使得人們難以嚴謹界定特定基準測試的測量范疇——進而導(dǎo)致研究成果難以被負責(zé)任地運用。

打開網(wǎng)易新聞 查看精彩圖片

癥結(jié)所在

斯坦福大學(xué)博士生 Anka Reuel 在研究基準測試問題時發(fā)現(xiàn),評估危機正是盲目追求通用性導(dǎo)致的惡果。“我們已從專用模型轉(zhuǎn)向通用模型,”她指出,“評估對象不再局限于單一任務(wù),而是涵蓋龐雜任務(wù)集合,難度自然陡增?!?/p>

與密歇根大學(xué)的 Jacobs 不謀而合,Reuel 認為“基準測試的核心缺陷在于效度問題,而非技術(shù)實現(xiàn),這正是多數(shù)評估體系崩塌的根源?!币跃幊踢@種復(fù)雜任務(wù)為例,幾乎不可能將所有潛在場景納入測試集。因此,我們難以判斷模型得分提升是源于編程能力增強,還是對測試集的針對性優(yōu)化。在開發(fā)者追逐破紀錄分數(shù)的壓力下,走捷徑的誘惑難以抗拒。

開發(fā)者寄望于通過多個專項基準的優(yōu)異表現(xiàn)堆砌出通用能力。但智能體 AI 技術(shù)使得單一系統(tǒng)能整合復(fù)雜模型陣列,專項任務(wù)的進步是否帶來泛化能力提升變得難以評估?!翱烧{(diào)節(jié)的參數(shù)實在太多了,”普林斯頓大學(xué)計算機科學(xué)家、AI 行業(yè)亂象批評者 Sayash Kapoor 坦言,“對于智能體,業(yè)界已基本放棄了評估的最佳實踐?!?/p>

在 2023 年 7 月的論文中,Kapoor 揭露了 AI 模型應(yīng)對 WebArena 基準時的取巧行為。該基準由卡耐基梅隆大學(xué) 2024 年設(shè)計,包含 800 多項在模擬網(wǎng)站(如Reddit、維基百科等)上執(zhí)行的任務(wù)。Kapoor 團隊發(fā)現(xiàn)奪冠模型 STeP 內(nèi)置了 Reddit 網(wǎng)址結(jié)構(gòu)的特定指令,使其能直接跳轉(zhuǎn)用戶主頁(WebArena 常見任務(wù)類型)。

這種優(yōu)化雖不構(gòu)成作弊,但 Kapoor 認為“嚴重誤導(dǎo)了人們對智能體首次接觸 WebArena 任務(wù)時真實表現(xiàn)的判斷”。然而由于該方法奏效,OpenAI 的網(wǎng)頁智能體 Operator 隨后采用了類似策略。(OpenAI 回應(yīng)稱其評估設(shè)置旨在檢驗智能體在獲知網(wǎng)站結(jié)構(gòu)后的任務(wù)解決能力,與 WebArena 使用慣例一致。STeP 未予置評。)

更嚴峻的是,Kapoor 團隊上月發(fā)表論文揭露熱門眾包評估系統(tǒng) Chatbot Arena 存在嚴重漏洞:多個頂級基礎(chǔ)模型進行未公開的私有測試,并選擇性發(fā)布分數(shù)。

如今,連基準測試鼻祖 ImageNet 也陷入效度危機。華盛頓大學(xué)與谷歌研究院 2023 年研究發(fā)現(xiàn),當 ImageNet 冠軍算法與 6 個真實數(shù)據(jù)集對抗時,架構(gòu)改進“幾乎未帶來任何進步”,暗示該測試的外部效度已達極限。

打開網(wǎng)易新聞 查看精彩圖片

回歸細分評估

對于堅信效度才是核心問題的人而言,最佳解決方案是讓基準測試重新聚焦具體任務(wù)。正如 Reuel 所言,AI 開發(fā)者“不得不依賴這些對終端用戶幾乎無意義的高層基準,因為測試設(shè)計者已無法預(yù)判下游任務(wù)需求”。那么,能否幫助終端用戶識別這種斷層?

2024 年 11 月,Reuel 發(fā)起了名為 BetterBench 的公共評級項目,從代碼公開性等數(shù)十項指標對基準測試進行打分。但效度始終是核心主題,特定標準要求設(shè)計者明確說明:測試何種能力?這些能力與測試任務(wù)如何關(guān)聯(lián)?

“必須建立能力結(jié)構(gòu)分解圖,哪些是真正需要關(guān)注的技能?又如何將其轉(zhuǎn)化為可量化指標?”Reuel 強調(diào)。

評級結(jié)果出人意料:得分最高者之一是 2013 年問世的最古老測試 Arcade Learning Environment(ALE,用于評估模型玩 Atari 2600 游戲的能力);而評估通用語言能力的 Massive Multitask Language Understanding(MMLU)基準卻位列末位——BetterBench 認為其試題與底層技能的關(guān)聯(lián)定義過于模糊。

目前 BetterBench 尚未顯著影響具體基準的聲譽(MMLU 仍被廣泛使用,ALE 依舊邊緣化),但成功將效度問題推向了基準測試改革討論的中心。今年 4 月,Reuel 低調(diào)加入由 Hugging Face、愛丁堡大學(xué)和 EleutherAI 聯(lián)合成立的研究組,將與業(yè)內(nèi)專家共同完善其關(guān)于效度與 AI 評估的理論。

Hugging Face 全球政策主管 Irene Solaiman 表示,該小組將致力于開發(fā)超越簡單能力測量的有效基準:“業(yè)界太渴望現(xiàn)成的優(yōu)質(zhì)基準了,現(xiàn)有評估往往貪多求全?!?/p>

這種理念正獲得越來越多認同。谷歌、微軟、Anthropic 等機構(gòu)研究人員在 3 月的論文中提出新評估框架,將效度作為首要原則:“AI 評估科學(xué)必須摒棄'通用智能'的粗放斷言,轉(zhuǎn)向更專注具體任務(wù)且貼合現(xiàn)實需求的進步度量?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

明確測評指標

為推進這一轉(zhuǎn)變,部分研究者正轉(zhuǎn)向社會科學(xué)工具。2 月的一份立場文件提出評估生成式 AI 系統(tǒng)本質(zhì)上是社會科學(xué)測量挑戰(zhàn),重點闡釋如何將社會測量中的效度體系應(yīng)用于 AI 基準測試。

這份由微軟研究院主導(dǎo)、斯坦福大學(xué)和密歇根大學(xué)學(xué)者參與的報告指出,社會科學(xué)家測量意識形態(tài)、民主程度和媒體偏見等爭議性概念的標準,同樣適用于 AI 領(lǐng)域“推理能力”、“數(shù)學(xué)熟練度”等概念的量化——避免陷入模糊的泛化論斷。

社會科學(xué)方法特別強調(diào):測量指標必須始于對測試概念的嚴格定義。例如要測量社會民主程度,需先界定"民主社會"的定義,再設(shè)計與之相關(guān)的問題。

將此方法應(yīng)用于 SWE-Bench 等基準測試時,設(shè)計者需摒棄傳統(tǒng)機器學(xué)習(xí)思路(即從 GitHub 收集編程問題并驗證答案對錯),轉(zhuǎn)而首先明確定義測量目標(如解決軟件標記問題的能力),將其分解為子技能,最后構(gòu)建全面覆蓋這些子技能的測試題集。

這與 AI 研究者慣用的基準測試方法截然不同——但正如 2 月論文合著者 Jacobs 所言,這正是關(guān)鍵所在:“科技行業(yè)的現(xiàn)狀與社會科學(xué)工具之間存在脫節(jié),而后者擁有數(shù)十年測量人類復(fù)雜特質(zhì)的經(jīng)驗?!?/p>

盡管該理念在學(xué)術(shù)界影響深遠,卻尚未顯著改變 AI 公司使用基準測試的方式。

過去兩個月,OpenAI、Anthropic、谷歌和 Meta 發(fā)布的新模型仍重度依賴 MMLU 等選擇題知識測試——這正是效度研究者試圖超越的方法。畢竟模型發(fā)布的核心目標仍是展現(xiàn)通用智能提升,而寬泛的基準測試依然是支撐這類聲明的工具。

沃頓商學(xué)院教授 Ethan Mollick 等觀察家認為:“基準測試雖不完美,卻是現(xiàn)有最佳選擇。”他補充道:“與此同時模型確實在進步,快速進展掩蓋了許多缺陷。”

目前,行業(yè)對通用人工智能的長期追求,似乎正擠壓著基于效度的細分評估空間。只要 AI 模型的通用能力持續(xù)增長,具體應(yīng)用場景的精準評估就顯得不那么緊迫——即便這意味著從業(yè)者不得不繼續(xù)使用可信度存疑的工具。

Hugging Face 的 Solaiman 坦言,“徹底推翻現(xiàn)有體系并不現(xiàn)實,盡管存在局限,評估工具對理解模型仍有重要價值?!?/p>

https://www.technologyreview.com/2025/05/08/1116192/how-to-build-a-better-ai-benchmark/