
在人工智能(AI)飛速發(fā)展的今天,如何評估AI系統(tǒng)的能力成為一個核心問題。傳統(tǒng)的測試指標,如MMLU、Codeforces或MATH-500,雖然在各自領(lǐng)域內(nèi)提供了有價值的洞見,但往往局限于單一技能或標準化任務(wù)。
昨天,OpenAI推出了PaperBench,一個全新的基準測試工具,旨在系統(tǒng)性地測量AI代理(AI agents)復制尖端人工智能研究的能力。這一工具不僅填補了現(xiàn)有評估體系的空白,還為AI如何從“工具”進化到“研究伙伴”提供了重要參考。
想象一下,你讓AI去讀一篇超級難的科研論文,然后不僅要看懂,還要寫代碼,把論文里的實驗再做一遍。這聽起來是不是有點像科幻電影?但OpenAI就真的搞了這樣的東西,想看看AI到底能不能當個“科學家”。這玩意兒挺特別的,咱們一起來聊聊它是什么、干嘛用的,還有它跟別的AI測試有啥不一樣。
PaperBench 是什么?
簡單說,PaperBench就是OpenAI弄的一個“考試”,專門考AI能不能復制頂尖AI研究的成果。他們挑了2024年國際機器學習大會(ICML 2024)里20篇最牛的論文,讓AI去干三件事:讀懂論文、寫代碼、做實驗,把論文里的結(jié)果再現(xiàn)出來。這些論文可不是隨便找的,都是AI領(lǐng)域的尖端貨,涵蓋了前沿算法、模型設(shè)計和實驗驗證,難度爆表。

圖:智能體(Agent)必須復制頂級 ICML 2024 論文,包括理解論文、編寫代碼和執(zhí)行實驗。
為了公平,OpenAI跟論文作者一起定了超詳細的評分規(guī)則,總共有八千多個小要求,用AI自己來打分。
他們測試了一堆頂尖模型,結(jié)果呢?最好的Claude 3.5 Sonnet(新版)拿了21%的“復制分”,而GPT-4o和Gemini 2.0 Flash才4.1%和3.2%,差距挺大。更逗的是,他們還找了幾個機器學習博士生來試試,結(jié)果人類48小時能拿41.4%,AI還差得遠呢。

圖:使用 BasicAgent(我們的主要設(shè)置)的模型的平均復制分數(shù)(以百分比表示)。誤差為平均值的一個標準誤差。
這里比較有意思的是,OpenAI 用自己的工具測試自己的產(chǎn)品,發(fā)現(xiàn)它遠不如競爭對手,不過他們倒是大方的展現(xiàn)出來了。
它有啥特別的?
AI的基準測試多得讓人眼花繚亂,MMLU考知識、Codeforces考編程、LiveBench考實時反應,個個有自己的地盤。PaperBench呢?它不挑單項,直接問:“你能不能當個研究員?”別的測試像單科考試,PaperBench是“畢業(yè)大考”,還得自己找答案那種。

圖:令人眼花繚亂的各種 Benchmark
比如,MATH-500是數(shù)學題,LiveCodeBench是寫代碼,PaperBench是“讀論文+寫代碼+做實驗”,難度直接拉滿。而且它用的是真論文,不是假題目,感覺就像讓AI去“實習”了一把。
另外一方面要說的事,別的測試比如MMLU是選擇題,Codeforces是編程比賽,題目都是提前設(shè)計好的,答案也固定。PaperBench直接拿真論文開刀,AI得自己琢磨怎么弄,跟科學家干活差不多。
如前所述,它不是光考你會不會寫代碼,或者會不會算數(shù)學,而是從頭到尾:讀懂、寫代碼、跑實驗,一個都不能少。別的測試像SWE-Bench只管編程,MATH-500只管數(shù)學,PaperBench是“全套大餐”。
OpenAI還拉了博士生來比拼,直接告訴你AI跟人差多少。這種“人對人”的感覺,比光看分數(shù)有意思多了。
最后說兩句
PaperBench不只是個測試,它簡直是AI的“科學家試煉場”?,F(xiàn)在AI還差點意思,但OpenAI把這東西扔出來給大家玩,就像在說:“來吧,一起把AI調(diào)教成科研小能手!”想象一下,未來AI不僅會聊天、寫代碼,還能幫人類破解宇宙奧秘,那可不是喝著咖啡看熱鬧,而是直接跟AI一起干大事。你說,這事兒是不是值得期待?
? AI范兒
要進“交流群”,請關(guān)注公眾號獲取進群方式
投稿、需求合作或報道請?zhí)砑庸娞柅@取聯(lián)系方式

Qwen 真的超越了 DeepSeek 嗎?那些眼花繚亂的大模型指標到底是什么意思?

ChatGPT 4.5 在圖靈測試中超過了人類!
點這里關(guān)注我,記得標星哦~
熱門跟貼