
機器之心報道
編輯:+0、澤南
大模型能寫出 ICML Spotlight 論文嗎?
近年來,AI 正從科研輔助工具蛻變?yōu)閯?chuàng)新引擎:從 DeepMind 破解蛋白質折疊難題的 AlphaFold,到 GPT 系列模型展現文獻綜述與數學推理能力,人工智能正逐步突破人類認知邊界。
今年 3 月 12 日,Sakana AI 宣布他們推出的 AI Scientist-v2 通過了 ICLR 會議一個研討會的同行評審過程。這是 AI 科學家寫出的首篇通過同行評審的科研論文!

這一里程碑事件標志著 AI 在科研領域的突破,同時人們也在進一步探索 AI 智能體的自主研究能力。
4 月 3 日,OpenAI 推出了 PaperBench(論文基準測試),這是一個用于評估 AI 智能體自主復現前沿人工智能研究能力的基準測試系統(tǒng)。如果大模型智能體具備了自動寫 AI / 機器學習研究論文的能力,既可能加速機器學習領域的發(fā)展,同時也需要審慎評估以確保 AI 能力的安全發(fā)展。
PaperBench 在多個重要的 AI 安全框架中發(fā)揮評估作用:
- 作為 OpenAI 準備框架(OpenAI Preparedness Framework)中評估模型自主性的標準
- 用于 Anthropic 負責任擴展政策(Responsible Scaling Policy)中的自主能力評估
- 應用于谷歌 DeepMind 前沿安全框架(Frontier Safety Framework)中的機器學習研發(fā)評估

- 論文標題:PaperBench: Evaluating AI’s Ability to Replicate AI Research
- 論文鏈接:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
- 代碼地址:https://github.com/openai/preparedness/tree/main/project/paperbench
研究團隊構建了一個測試環(huán)境,用于評估具有自主編程能力的 AI 智能體。在該基準測試中,研究團隊要求智能體復現機器學習研究論文中的實驗結果。完整的復現流程包括論文理解、代碼庫開發(fā)以及實驗執(zhí)行與調試。這類復現任務具有較高難度,即便對人類專家而言也需要數天時間完成。
測試基準選取了機器學習頂會 ICML 2024 的 20 篇入選論文,還都是 Spotlight 和 Oral 的。這些論文覆蓋了 12 個不同的研究主題,包括 deep reinforcement learning、robustness 和 probabilistic methods 等。每篇論文都配備了詳細的評分標準,共計 8316 個可獨立評估的復現成果。為確保評估質量,PaperBench 中的評分標準均與原論文作者協作制定,并采用層級結構設計,使復現進度可以在更細粒度上進行衡量。
鑒于機器學習論文的復雜性,人類專家評估單次復現嘗試往往需要數十小時。為提高評估效率,研究團隊開發(fā)了基于 LLM 的自動評判系統(tǒng),并設計了 JudgeEval 輔助評估框架,用于將自動評判結果與人類專家評判的金標數據集進行對比。其中,使用定制框架的 o3-mini-high 評判器表現最佳,在輔助評估中獲得 0.83 的 F1 分數,證明其可作為人類評判的可靠替代方案。

研究表明,智能體在復現機器學習研究論文方面展現出了不容忽視的能力。Claude 3.5 Sonnet (最新版)在配備基礎代理框架的情況下,于 PaperBench 基準測試中獲得了 21.0% 的得分。
研究團隊選取了 3 篇論文組成的測試子集進行深入評估,以機器學習博士的表現作為人類基準(采用 3 次測試中的最優(yōu)成績)。在 48 小時的測試時間內,人類基準達到了 41.4% 的得分,而 GPT-4(o1)在相同子集上獲得了 26.6% 的得分。此外,研究團隊還開發(fā)了一個輕量級評估版本 ——PaperBench Code-Dev,在該版本中,GPT-4 的表現提升至 43.4% 的得分。
PaperBench
任務
對于 PaperBench 中的每個樣本,受評估的智能體會收到論文及其補充說明。
在這里,智能體需要提交一個代碼倉庫,其中包含復現論文實驗結果所需的全部代碼。該倉庫根目錄必須包含一個 reproduce.sh 文件,作為執(zhí)行所有必要代碼以復現論文結果的入口點。
如果 reproduce.sh 能夠復現論文中報告的實驗結果,則視為成功復現該論文。
該數據集包含了用于定義每篇論文成功復現所需具體結果的評分標準。為防止過度擬合,智能體在嘗試過程中不會看到評分標準,而是需要從論文中推斷出需要復現的內容。
重要的是,該評估禁止智能體使用或查看論文作者的原始代碼庫(如果有的話)。這確保了評估的是智能體從零開始編碼和執(zhí)行復雜實驗的能力,而不是使用現有研究代碼的能力。

規(guī)則
PaperBench 的設計對智能體框架保持中立,因此對其運行環(huán)境沒有特定要求。不過為確保公平比較,該基準測試制定了以下規(guī)則:
- 智能體可以瀏覽互聯網,但不得使用團隊為每篇論文提供的黑名單中列出的網站資源。每篇論文的黑名單包括作者自己的代碼倉庫以及任何其他在線復現實現。
- 智能體可使用的資源,如運行時間和計算資源,不受任何限制。但建議研究人員在結果中報告其具體設置。
- 開發(fā)者應為智能體提供必要的在線服務 API 密鑰(例如用于下載數據集的 HuggingFace 憑證)。獲取在線賬號訪問權限不屬于 PaperBench 意在評估的技能范疇。
評分標準
為每篇論文制定評分標準是開發(fā) PaperBench 最耗時的部分。每份評分標準都是 OpenAI 與每篇論文的一位原作者合作編寫的,從閱讀論文、初步創(chuàng)建、評分標準審查、迭代到最終簽收,每篇論文需要數周時間。
每個評分標準都以樹的形式構建,該樹按層次分解了復現給定論文所需的主要結果。例如,根節(jié)點以預期的最高級別結果開始,例如「論文的核心貢獻已被復現」。第一級分解可能會為每個核心貢獻引入一個節(jié)點。每個節(jié)點的子節(jié)點都會更詳細地介紹具體結果,例如「已使用 B.1 節(jié)中的超參數在數據集上對 gpt2-xl 進行了微調」。
重要的是,滿足節(jié)點的所有子節(jié)點表示父節(jié)點也已得到滿足,因此對樹的所有葉節(jié)點進行評分就足以全面評估整體成功率。
葉節(jié)點具有精確而細致的要求。擁有許多細致的要求使我們能夠對部分嘗試進行評分,并使評委更容易對單個節(jié)點進行評分。作者不斷分解節(jié)點,直到它們所代表的要求足夠精細,以至于估計專家可以在不到 15 分鐘的時間內審查一份提交是否滿足要求(假設熟悉該論文)。在 PaperBench 的 20 篇論文中共有 8316 個葉節(jié)點。表 2 顯示了每個評分標準中的節(jié)點總數。

所有評分標準節(jié)點也都有權重,每個節(jié)點的權重表示該貢獻相對于其兄弟節(jié)點的重要性,而不一定是節(jié)點的實施難度。加權節(jié)點獎勵在復現時優(yōu)先考慮論文中更重要的部分。
用大模型判斷
在初步實驗中,OpenAI 發(fā)現使用專家進行手動評分每篇論文需要花費數十小時,因此對于 PaperBench 的實際應用而言,采用自動化方式進行評估是必要的。
為了對 PaperBench 提交的內容進行規(guī)模評估,作者開發(fā)了一個簡單的基于 LLM 的評判器 SimpleJudge,然后創(chuàng)建了輔助評估 JudgeEval 以評估評判器的表現。
AI 的評委實現被稱為「SimpleJudge」,給定一份提交內容,PaperBench 的 AI 評委將獨立地對評分標準中的每個葉節(jié)點進行評分。對于特定的葉節(jié)點,評委將收到論文的 Markdown、完整的評分標準 JSON、葉節(jié)點的要求和提交內容。
PaperBench 使用 OpenAI 的 o3-mini 作為評委的后端模型,預估對單個提交內容進行評分的成本約為 66 美元(OpenAI API 積分)。對于 PaperBench Code-Dev,成本可以降至每篇論文約 10 美元。

測試結果
OpenAI 基于全部 20 篇論文評估了 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(新版本)和 Gemini 2.0 Flash 幾種大模型,每篇論文評估了 3 次。
表 4 列出了每個模型的平均復現分數。可見 Claude 3.5 Sonnet 的表現不錯,得分為 21.0%。OpenAI o1 表現較差,得分為 13.2%,其他模型則表現不佳,得分低于 10%。

檢查智能體工作日志可以發(fā)現,除 Claude 3.5 Sonnet 外,其他所有模型經常會提前結束,聲稱自己要么已經完成了整個仿寫,要么遇到了無法解決的問題。所有智能體都未能制定在有限時間內復現論文的最優(yōu)策略。可以觀察到 o3-mini 經常在工具使用方面遇到困難。
這些情況表明當前模型在執(zhí)行長期任務方面存在弱點;盡管大模型在制定和編寫多步驟計劃方面表現出足夠的能力,但實際上未能采取一系列行動來執(zhí)行該計劃。


OpenAI 相信,PaperBench 基準將會推動未來大模型能力繼續(xù)上升。
參考內容:
https://openai.com/index/paperbench/
熱門跟貼