
AI能自己復(fù)現(xiàn)頂級AI論文了嗎?OpenAI剛剛發(fā)布了 PaperBench,用于評估 AI 代理復(fù)現(xiàn)頂尖 AI 研究能力的基準(zhǔn)測試

在這項測試中,AI 代理必須成功復(fù)現(xiàn) ICML 2024 的頂級論文,這包括理解論文、編寫代碼和執(zhí)行實驗等環(huán)節(jié)
OpenAI用 PaperBench 測試了幾款業(yè)界領(lǐng)先的 AI 模型。結(jié)果顯示,在本次測試中表現(xiàn)最好的是 Claude 3.5 Sonnet (新版,配合開源框架),其平均復(fù)現(xiàn)分?jǐn)?shù)達到了 21.0%。研究人員還邀請了頂尖的機器學(xué)習(xí)博士參與了部分任務(wù)的測試,結(jié)果表明,當(dāng)前的 AI 模型還沒能超越人類專家的水平

簡單來說,PaperBench就是一個AI復(fù)現(xiàn)頂會論文能力的“考場”,那么,這個考場具體是怎么運作的呢?我來給大家捋一捋
核心任務(wù):從零復(fù)現(xiàn)頂會論文
PaperBench挑選了20篇來自ICML 2024的Spotlight和Oral論文,涵蓋了深度強化學(xué)習(xí)、魯棒性、概率方法等12個不同的AI研究領(lǐng)域。這些都是當(dāng)前AI研究的最新成果
AI代理(Agent)接到的任務(wù)是:
? 只給你論文原文和一個補充說明文件(由原作者提供,澄清模糊之處)。
?從零開始,理解論文的核心貢獻
?編寫完整的代碼庫,實現(xiàn)論文中的所有實驗
? 成功運行、監(jiān)控、調(diào)試這些實驗,最終復(fù)現(xiàn)出論文報告的關(guān)鍵實證結(jié)果
?禁止使用或查看原作者發(fā)布的任何代碼,確保是AI獨立完成的
最終,AI需要提交一個包含所有代碼的倉庫,其中必須有一個reproduce.sh
腳本作為入口,能夠在全新的環(huán)境中運行并復(fù)現(xiàn)結(jié)果

嚴(yán)格的“評分標(biāo)準(zhǔn)”:層級化Rubrics
PaperBench最核心的部分,就是為每篇論文都精心設(shè)計了一套層級化的評分細則(Rubrics)
與原作者共同開發(fā):確保評分標(biāo)準(zhǔn)既準(zhǔn)確又符合研究實際
樹狀結(jié)構(gòu):將復(fù)雜的復(fù)現(xiàn)任務(wù)分解為越來越細致的子任務(wù),一直到最底層的“葉節(jié)點”
海量評分點:總共包含8,316個可獨立評分的葉節(jié)點任務(wù)!每個葉節(jié)點都有明確的“通過/失敗”標(biāo)準(zhǔn)
權(quán)重分配:每個節(jié)點都有權(quán)重,反映其在整個研究中的相對重要性(而非實現(xiàn)難度)
最終得分(Replication Score):葉節(jié)點得分(0或1)加權(quán)平均,逐層向上傳遞,根節(jié)點的分?jǐn)?shù)就是最終的復(fù)現(xiàn)得分,0%表示完全失敗,100%表示完美復(fù)現(xiàn)
這套評分系統(tǒng)能非常精細地衡量AI在復(fù)現(xiàn)過程中的部分進展,即使沒能完全成功,也能知道它做到了哪一步

評分員是誰?LLM法官登場
手動給8000多個任務(wù)點打分?想想都頭大。一個人類專家給一次嘗試評分可能就要花幾十個小時。為了讓評估能夠規(guī)?;M行,研究團隊開發(fā)了一個基于LLM的自動評分系統(tǒng)(SimpleJudge)
獨立評分:對每個葉節(jié)點,LLM法官會看到論文原文、完整的Rubric結(jié)構(gòu)、當(dāng)前葉節(jié)點的要求,以及AI提交并實際運行后的代碼和輸出文件
上下文處理:由于提交的完整代碼庫可能太大,法官會先對文件進行相關(guān)性排序,只看最重要的前10個文件
法官的法官(JudgeEval):為了確保LLM法官靠譜,團隊還創(chuàng)建了一個輔助評估基準(zhǔn)JudgeEval。他們用一些部分完成的復(fù)現(xiàn)嘗試(來自人類或修改后的作者代碼),讓人類專家先打好分(作為“黃金標(biāo)準(zhǔn)”),然后讓LLM法官來評,看它的判斷和人類專家有多接近
表現(xiàn)與成本:實驗表明,使用o3-mini
作為后端的SimpleJudge,在JudgeEval上能達到0.83的F1分?jǐn)?shù),效果不錯。而且成本大大降低,評分一篇完整論文大約需要66美元的API費用,相比人類專家成本,可以說是又快又省。考慮到完整的PaperBench評估(需要GPU運行代碼復(fù)現(xiàn))成本還是較高,團隊還推出了一個簡化版PaperBench Code-Dev
結(jié)果如何?AI vs 人類博士
重頭戲來了,現(xiàn)在的頂尖AI表現(xiàn)怎么樣?
AI代理表現(xiàn):團隊測試了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在內(nèi)的多個前沿模型
在基礎(chǔ)的BasicAgent
(一個簡單的智能體框架)設(shè)置下,Claude 3.5 Sonnet 表現(xiàn)最好,平均復(fù)現(xiàn)得分達到了 21.0%。OpenAI 的 o1 high得分為 13.2%,其他模型得分均低于10%

普遍問題:AI經(jīng)常過早放棄(聲稱完成或遇到無法解決的問題),缺乏長期規(guī)劃和策略能力,難以有效利用給定的時間(比如12小時)。簡單的Agent框架可能也限制了模型能力發(fā)揮
使用IterativeAgent
(強制跑滿時間、提示優(yōu)化)后,o1和o3-mini得分有顯著提升(o1達到24.4%),但Claude 3.5 Sonnet得分反而下降,顯示出模型對提示和Agent框架的敏感性
人類基線:團隊招募了8位機器學(xué)習(xí)領(lǐng)域的博士生/博士后,讓他們在類似條件下(單塊A10 GPU,4周兼職時間,禁用作者代碼)嘗試復(fù)現(xiàn)4篇論文(每篇3人獨立嘗試,取最好成績)
結(jié)果對比:在最初的幾個小時里,AI(以o1為例)寫代碼速度快,得分一度超越人類。但AI的得分很快停滯
人類雖然起步慢(可能需要時間理解論文),但得分持續(xù)穩(wěn)定增長,在大約24小時后開始顯著超過AI
在一個3篇論文的子集上,經(jīng)過48小時的努力,人類博士的最佳嘗試平均得分達到了 41.4%,而o1在同樣子集上得分約為 26.6%
結(jié)論:目前最強的AI模型,在從零開始復(fù)現(xiàn)頂會級AI研究方面,展現(xiàn)出了一定的能力(特別是在快速編寫初步代碼方面),但距離真正勝任這項復(fù)雜、長周期的任務(wù)還有相當(dāng)長的路要走。它們在長期規(guī)劃、持續(xù)調(diào)試和策略執(zhí)行方面存在明顯短板
PaperBench的發(fā)布意義重大:
提供了一個可量化的標(biāo)尺:用于衡量AI在進行自主科研探索方面的能力進展。這對于理解AI能力邊界、預(yù)測未來發(fā)展至關(guān)重要
加速科學(xué)發(fā)現(xiàn)的潛力:能夠自主復(fù)現(xiàn)甚至改進研究的AI,無疑將極大加速科學(xué)進步,包括AI安全和對齊研究本身
開放與協(xié)作:PaperBench是開源的,鼓勵整個社區(qū)使用、改進和擴展這個基準(zhǔn)
PaperBench是AI能力評估領(lǐng)域的一個重要里程碑。它首次系統(tǒng)性地、大規(guī)模地評估了AI從零開始復(fù)現(xiàn)復(fù)雜前沿研究的能力。雖然當(dāng)前AI的表現(xiàn)離完美復(fù)現(xiàn)還有距離,但這無疑為我們觀察、理解和引導(dǎo)AI邁向更高級自主智能提供了寶貴的視角和工具
參考:
https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯過?
用你的贊和在看告訴我~
求贊
熱門跟貼