
成為硅谷最受青睞的標(biāo)桿之一并不容易。
SWE-Bench 于 2024 年 11 月推出,旨在評(píng)估 AI 模型的編程能力。該基準(zhǔn)測(cè)試采用了從 12 個(gè)不同 Python 項(xiàng)目的 GitHub 公開(kāi)倉(cāng)庫(kù)中提取的 2000 多個(gè)真實(shí)編程問(wèn)題作為評(píng)測(cè)依據(jù)。
短短數(shù)月,SWE-Bench 迅速成為 AI 領(lǐng)域最熱門的測(cè)試基準(zhǔn)之一。如今,OpenAI、Anthropic 和谷歌等巨頭發(fā)布大模型時(shí),SWE-Bench 評(píng)分已成為標(biāo)配指標(biāo)。
而在基礎(chǔ)模型之外,各家 AI 公司的微調(diào)團(tuán)隊(duì)更是展開(kāi)激烈角逐,爭(zhēng)相沖擊排行榜榜首。目前領(lǐng)跑榜單的是 Anthropic 旗下 Claude Sonnet 模型的三個(gè)不同微調(diào)版本與亞馬遜 Q 智能體的混戰(zhàn)局面。其中基于 Claude 改進(jìn)的 Auto Code Rover 在去年 11 月斬獲亞軍,僅三個(gè)月后便被收購(gòu)。
盡管熱潮洶涌,但這并不能真實(shí)反映哪個(gè)模型更優(yōu)秀。隨著該基準(zhǔn)測(cè)試的影響力不斷擴(kuò)大,“你會(huì)發(fā)現(xiàn)人們開(kāi)始不惜代價(jià)爭(zhēng)奪榜首”,普林斯頓大學(xué) SWE-Bench 開(kāi)發(fā)團(tuán)隊(duì)成員 John Yang 表示。這種競(jìng)爭(zhēng)導(dǎo)致參賽者開(kāi)始鉆營(yíng)系統(tǒng)漏洞——促使越來(lái)越多人思考:是否該建立更科學(xué)的 AI 能力評(píng)估體系?
這些編程智能體的開(kāi)發(fā)者未必存在赤裸裸的作弊行為,但他們?cè)O(shè)計(jì)的解決方案往往過(guò)度擬合了基準(zhǔn)測(cè)試的特性。最初的 SWE-Bench 測(cè)試集僅包含 Python 語(yǔ)言編寫的程序,這意味著開(kāi)發(fā)者只需讓模型專門訓(xùn)練 Python 代碼就能獲得優(yōu)勢(shì)。Yang 很快發(fā)現(xiàn),那些高分模型在面對(duì)其他編程語(yǔ)言測(cè)試時(shí)完全失靈——這種應(yīng)試策略被他形容為“鍍金式”的取巧。
“乍看之下光鮮亮麗,但換種編程語(yǔ)言測(cè)試就會(huì)原形畢露,”他指出,“這本質(zhì)上不是在開(kāi)發(fā)軟件工程智能體,而是在打造 SWE-Bench 專用工具——后者的意義要小得多?!?/p>
SWE-Bench 暴露的問(wèn)題折射出 AI 評(píng)估領(lǐng)域一個(gè)普遍且復(fù)雜的困境:行業(yè)用于指導(dǎo)開(kāi)發(fā)的基準(zhǔn)測(cè)試,與實(shí)際能力評(píng)估的偏差正越來(lái)越大,其根本價(jià)值由此遭到質(zhì)疑。更糟糕的是,F(xiàn)rontierMath 和 Chatbot Arena 等多個(gè)知名基準(zhǔn)近期因透明度不足引發(fā)爭(zhēng)議。盡管如此,基準(zhǔn)測(cè)試仍在模型開(kāi)發(fā)中占據(jù)核心地位——即便很少有專家會(huì)全盤采信其結(jié)果。OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 近期將這種局面稱為“評(píng)估危機(jī)”:行業(yè)既缺乏可信的能力測(cè)量方法,也看不到改進(jìn)的明確路徑。
斯坦福大學(xué)以人為本人工智能研究所(HAI)研究主任 Vanessa Parli 指出:“基準(zhǔn)測(cè)試歷來(lái)是評(píng)估 AI 系統(tǒng)的主要方式。但這是否仍是我們未來(lái)想要的方式?如果不是,又該采用什么方法?”
越來(lái)越多的學(xué)者和 AI 研究人員主張,答案在于“縮小評(píng)估范圍”——放棄宏大目標(biāo),轉(zhuǎn)而采用社會(huì)科學(xué)的研究方法。具體而言,他們希望更注重測(cè)試的“效度”(validity),即定量社會(huì)科學(xué)中衡量問(wèn)卷能否準(zhǔn)確評(píng)估目標(biāo)指標(biāo)的標(biāo)準(zhǔn),更根本的是確認(rèn)所測(cè)量的概念是否具有明確定義。這對(duì)評(píng)估“推理能力”或“科學(xué)知識(shí)”等模糊概念的基準(zhǔn)測(cè)試將構(gòu)成挑戰(zhàn),也會(huì)沖擊那些追逐通用人工智能(AGI)熱潮的開(kāi)發(fā)者——但能讓行業(yè)在證明單個(gè)模型價(jià)值時(shí),擁有更堅(jiān)實(shí)的理論基礎(chǔ)。
密歇根大學(xué)教授 Abigail Jacobs 是這場(chǎng)“效度運(yùn)動(dòng)”的核心人物,她表示:“認(rèn)真對(duì)待效度意味著要求學(xué)術(shù)界、工業(yè)界等各方證明其系統(tǒng)確實(shí)具備所宣稱的能力。如果 AI 界回避這種驗(yàn)證要求,恰恰暴露了這個(gè)領(lǐng)域的弱點(diǎn)?!?/p>
傳統(tǒng)測(cè)試的局限性
如果說(shuō) AI 公司對(duì)基準(zhǔn)測(cè)試日益顯露的缺陷反應(yīng)遲緩,部分原因在于這種評(píng)分機(jī)制曾長(zhǎng)期行之有效。
當(dāng)代 AI 最早的里程碑之一——ImageNet 挑戰(zhàn)賽,堪稱現(xiàn)代基準(zhǔn)測(cè)試的雛形。2010 年發(fā)布的這個(gè)開(kāi)放研究項(xiàng)目,包含 300 多萬(wàn)張待分類圖片,要求 AI 系統(tǒng)將其歸入 1000 個(gè)不同類別。
關(guān)鍵在于,該測(cè)試完全兼容任何方法體系,任何成功算法無(wú)論運(yùn)作原理如何都能快速獲得認(rèn)可。當(dāng)名為 AlexNet 的算法在 2012 年突破性地采用當(dāng)時(shí)非主流的 GPU 訓(xùn)練方法勝出時(shí),這一成果直接奠定了現(xiàn)代 AI 的基礎(chǔ)。此前幾乎無(wú)人預(yù)料到,AlexNet 采用的卷積神經(jīng)網(wǎng)絡(luò)會(huì)成為解鎖圖像識(shí)別的密鑰——但一旦其高分成績(jī)得到驗(yàn)證,質(zhì)疑聲便煙消云散。(AlexNet 開(kāi)發(fā)者之一 Ilya Sutskever 后來(lái)成為 OpenAI 聯(lián)合創(chuàng)始人)
ImageNet 之所以成效卓著,很大程度上在于其物體分類挑戰(zhàn)與真實(shí)圖像識(shí)別任務(wù)幾乎不存在實(shí)用差異。即便對(duì)方法存在爭(zhēng)議,但沒(méi)人會(huì)懷疑:在測(cè)試中表現(xiàn)最優(yōu)的模型,實(shí)際部署時(shí)必然具備優(yōu)勢(shì)。
但在此后的 12 年間,AI 研究者將這種“方法論中立”的思路套用到越來(lái)越通用的任務(wù)上。SWE-Bench 常被用作廣義編程能力的替代指標(biāo),而其他考試式基準(zhǔn)測(cè)試則往往代表推理能力。這種寬泛的定位使得人們難以嚴(yán)謹(jǐn)界定特定基準(zhǔn)測(cè)試的測(cè)量范疇——進(jìn)而導(dǎo)致研究成果難以被負(fù)責(zé)任地運(yùn)用。

癥結(jié)所在
斯坦福大學(xué)博士生 Anka Reuel 在研究基準(zhǔn)測(cè)試問(wèn)題時(shí)發(fā)現(xiàn),評(píng)估危機(jī)正是盲目追求通用性導(dǎo)致的惡果?!拔覀円褟膶S媚P娃D(zhuǎn)向通用模型,”她指出,“評(píng)估對(duì)象不再局限于單一任務(wù),而是涵蓋龐雜任務(wù)集合,難度自然陡增?!?/p>
與密歇根大學(xué)的 Jacobs 不謀而合,Reuel 認(rèn)為“基準(zhǔn)測(cè)試的核心缺陷在于效度問(wèn)題,而非技術(shù)實(shí)現(xiàn),這正是多數(shù)評(píng)估體系崩塌的根源?!币跃幊踢@種復(fù)雜任務(wù)為例,幾乎不可能將所有潛在場(chǎng)景納入測(cè)試集。因此,我們難以判斷模型得分提升是源于編程能力增強(qiáng),還是對(duì)測(cè)試集的針對(duì)性優(yōu)化。在開(kāi)發(fā)者追逐破紀(jì)錄分?jǐn)?shù)的壓力下,走捷徑的誘惑難以抗拒。
開(kāi)發(fā)者寄望于通過(guò)多個(gè)專項(xiàng)基準(zhǔn)的優(yōu)異表現(xiàn)堆砌出通用能力。但智能體 AI 技術(shù)使得單一系統(tǒng)能整合復(fù)雜模型陣列,專項(xiàng)任務(wù)的進(jìn)步是否帶來(lái)泛化能力提升變得難以評(píng)估?!翱烧{(diào)節(jié)的參數(shù)實(shí)在太多了,”普林斯頓大學(xué)計(jì)算機(jī)科學(xué)家、AI 行業(yè)亂象批評(píng)者 Sayash Kapoor 坦言,“對(duì)于智能體,業(yè)界已基本放棄了評(píng)估的最佳實(shí)踐。”
在 2023 年 7 月的論文中,Kapoor 揭露了 AI 模型應(yīng)對(duì) WebArena 基準(zhǔn)時(shí)的取巧行為。該基準(zhǔn)由卡耐基梅隆大學(xué) 2024 年設(shè)計(jì),包含 800 多項(xiàng)在模擬網(wǎng)站(如Reddit、維基百科等)上執(zhí)行的任務(wù)。Kapoor 團(tuán)隊(duì)發(fā)現(xiàn)奪冠模型 STeP 內(nèi)置了 Reddit 網(wǎng)址結(jié)構(gòu)的特定指令,使其能直接跳轉(zhuǎn)用戶主頁(yè)(WebArena 常見(jiàn)任務(wù)類型)。
這種優(yōu)化雖不構(gòu)成作弊,但 Kapoor 認(rèn)為“嚴(yán)重誤導(dǎo)了人們對(duì)智能體首次接觸 WebArena 任務(wù)時(shí)真實(shí)表現(xiàn)的判斷”。然而由于該方法奏效,OpenAI 的網(wǎng)頁(yè)智能體 Operator 隨后采用了類似策略。(OpenAI 回應(yīng)稱其評(píng)估設(shè)置旨在檢驗(yàn)智能體在獲知網(wǎng)站結(jié)構(gòu)后的任務(wù)解決能力,與 WebArena 使用慣例一致。STeP 未予置評(píng)。)
更嚴(yán)峻的是,Kapoor 團(tuán)隊(duì)上月發(fā)表論文揭露熱門眾包評(píng)估系統(tǒng) Chatbot Arena 存在嚴(yán)重漏洞:多個(gè)頂級(jí)基礎(chǔ)模型進(jìn)行未公開(kāi)的私有測(cè)試,并選擇性發(fā)布分?jǐn)?shù)。
如今,連基準(zhǔn)測(cè)試鼻祖 ImageNet 也陷入效度危機(jī)。華盛頓大學(xué)與谷歌研究院 2023 年研究發(fā)現(xiàn),當(dāng) ImageNet 冠軍算法與 6 個(gè)真實(shí)數(shù)據(jù)集對(duì)抗時(shí),架構(gòu)改進(jìn)“幾乎未帶來(lái)任何進(jìn)步”,暗示該測(cè)試的外部效度已達(dá)極限。

回歸細(xì)分評(píng)估
對(duì)于堅(jiān)信效度才是核心問(wèn)題的人而言,最佳解決方案是讓基準(zhǔn)測(cè)試重新聚焦具體任務(wù)。正如 Reuel 所言,AI 開(kāi)發(fā)者“不得不依賴這些對(duì)終端用戶幾乎無(wú)意義的高層基準(zhǔn),因?yàn)闇y(cè)試設(shè)計(jì)者已無(wú)法預(yù)判下游任務(wù)需求”。那么,能否幫助終端用戶識(shí)別這種斷層?
2024 年 11 月,Reuel 發(fā)起了名為 BetterBench 的公共評(píng)級(jí)項(xiàng)目,從代碼公開(kāi)性等數(shù)十項(xiàng)指標(biāo)對(duì)基準(zhǔn)測(cè)試進(jìn)行打分。但效度始終是核心主題,特定標(biāo)準(zhǔn)要求設(shè)計(jì)者明確說(shuō)明:測(cè)試何種能力?這些能力與測(cè)試任務(wù)如何關(guān)聯(lián)?
“必須建立能力結(jié)構(gòu)分解圖,哪些是真正需要關(guān)注的技能?又如何將其轉(zhuǎn)化為可量化指標(biāo)?”Reuel 強(qiáng)調(diào)。
評(píng)級(jí)結(jié)果出人意料:得分最高者之一是 2013 年問(wèn)世的最古老測(cè)試 Arcade Learning Environment(ALE,用于評(píng)估模型玩 Atari 2600 游戲的能力);而評(píng)估通用語(yǔ)言能力的 Massive Multitask Language Understanding(MMLU)基準(zhǔn)卻位列末位——BetterBench 認(rèn)為其試題與底層技能的關(guān)聯(lián)定義過(guò)于模糊。
目前 BetterBench 尚未顯著影響具體基準(zhǔn)的聲譽(yù)(MMLU 仍被廣泛使用,ALE 依舊邊緣化),但成功將效度問(wèn)題推向了基準(zhǔn)測(cè)試改革討論的中心。今年 4 月,Reuel 低調(diào)加入由 Hugging Face、愛(ài)丁堡大學(xué)和 EleutherAI 聯(lián)合成立的研究組,將與業(yè)內(nèi)專家共同完善其關(guān)于效度與 AI 評(píng)估的理論。
Hugging Face 全球政策主管 Irene Solaiman 表示,該小組將致力于開(kāi)發(fā)超越簡(jiǎn)單能力測(cè)量的有效基準(zhǔn):“業(yè)界太渴望現(xiàn)成的優(yōu)質(zhì)基準(zhǔn)了,現(xiàn)有評(píng)估往往貪多求全?!?/p>
這種理念正獲得越來(lái)越多認(rèn)同。谷歌、微軟、Anthropic 等機(jī)構(gòu)研究人員在 3 月的論文中提出新評(píng)估框架,將效度作為首要原則:“AI 評(píng)估科學(xué)必須摒棄'通用智能'的粗放斷言,轉(zhuǎn)向更專注具體任務(wù)且貼合現(xiàn)實(shí)需求的進(jìn)步度量?!?/p>
明確測(cè)評(píng)指標(biāo)
為推進(jìn)這一轉(zhuǎn)變,部分研究者正轉(zhuǎn)向社會(huì)科學(xué)工具。2 月的一份立場(chǎng)文件提出評(píng)估生成式 AI 系統(tǒng)本質(zhì)上是社會(huì)科學(xué)測(cè)量挑戰(zhàn),重點(diǎn)闡釋如何將社會(huì)測(cè)量中的效度體系應(yīng)用于 AI 基準(zhǔn)測(cè)試。
這份由微軟研究院主導(dǎo)、斯坦福大學(xué)和密歇根大學(xué)學(xué)者參與的報(bào)告指出,社會(huì)科學(xué)家測(cè)量意識(shí)形態(tài)、民主程度和媒體偏見(jiàn)等爭(zhēng)議性概念的標(biāo)準(zhǔn),同樣適用于 AI 領(lǐng)域“推理能力”、“數(shù)學(xué)熟練度”等概念的量化——避免陷入模糊的泛化論斷。
社會(huì)科學(xué)方法特別強(qiáng)調(diào):測(cè)量指標(biāo)必須始于對(duì)測(cè)試概念的嚴(yán)格定義。例如要測(cè)量社會(huì)民主程度,需先界定"民主社會(huì)"的定義,再設(shè)計(jì)與之相關(guān)的問(wèn)題。
將此方法應(yīng)用于 SWE-Bench 等基準(zhǔn)測(cè)試時(shí),設(shè)計(jì)者需摒棄傳統(tǒng)機(jī)器學(xué)習(xí)思路(即從 GitHub 收集編程問(wèn)題并驗(yàn)證答案對(duì)錯(cuò)),轉(zhuǎn)而首先明確定義測(cè)量目標(biāo)(如解決軟件標(biāo)記問(wèn)題的能力),將其分解為子技能,最后構(gòu)建全面覆蓋這些子技能的測(cè)試題集。
這與 AI 研究者慣用的基準(zhǔn)測(cè)試方法截然不同——但正如 2 月論文合著者 Jacobs 所言,這正是關(guān)鍵所在:“科技行業(yè)的現(xiàn)狀與社會(huì)科學(xué)工具之間存在脫節(jié),而后者擁有數(shù)十年測(cè)量人類復(fù)雜特質(zhì)的經(jīng)驗(yàn)?!?/p>
盡管該理念在學(xué)術(shù)界影響深遠(yuǎn),卻尚未顯著改變 AI 公司使用基準(zhǔn)測(cè)試的方式。
過(guò)去兩個(gè)月,OpenAI、Anthropic、谷歌和 Meta 發(fā)布的新模型仍重度依賴 MMLU 等選擇題知識(shí)測(cè)試——這正是效度研究者試圖超越的方法。畢竟模型發(fā)布的核心目標(biāo)仍是展現(xiàn)通用智能提升,而寬泛的基準(zhǔn)測(cè)試依然是支撐這類聲明的工具。
沃頓商學(xué)院教授 Ethan Mollick 等觀察家認(rèn)為:“基準(zhǔn)測(cè)試雖不完美,卻是現(xiàn)有最佳選擇。”他補(bǔ)充道:“與此同時(shí)模型確實(shí)在進(jìn)步,快速進(jìn)展掩蓋了許多缺陷。”
目前,行業(yè)對(duì)通用人工智能的長(zhǎng)期追求,似乎正擠壓著基于效度的細(xì)分評(píng)估空間。只要 AI 模型的通用能力持續(xù)增長(zhǎng),具體應(yīng)用場(chǎng)景的精準(zhǔn)評(píng)估就顯得不那么緊迫——即便這意味著從業(yè)者不得不繼續(xù)使用可信度存疑的工具。
Hugging Face 的 Solaiman 坦言,“徹底推翻現(xiàn)有體系并不現(xiàn)實(shí),盡管存在局限,評(píng)估工具對(duì)理解模型仍有重要價(jià)值。”
https://www.technologyreview.com/2025/05/08/1116192/how-to-build-a-better-ai-benchmark/
熱門跟貼