打開網(wǎng)易新聞 查看精彩圖片

機(jī)器之心報(bào)道

編輯:+0、澤南

大模型能寫出 ICML Spotlight 論文嗎?

近年來,AI 正從科研輔助工具蛻變?yōu)閯?chuàng)新引擎:從 DeepMind 破解蛋白質(zhì)折疊難題的 AlphaFold,到 GPT 系列模型展現(xiàn)文獻(xiàn)綜述與數(shù)學(xué)推理能力,人工智能正逐步突破人類認(rèn)知邊界。

今年 3 月 12 日,Sakana AI 宣布他們推出的 AI Scientist-v2 通過了 ICLR 會(huì)議一個(gè)研討會(huì)的同行評(píng)審過程。這是 AI 科學(xué)家寫出的首篇通過同行評(píng)審的科研論文!

打開網(wǎng)易新聞 查看精彩圖片

這一里程碑事件標(biāo)志著 AI 在科研領(lǐng)域的突破,同時(shí)人們也在進(jìn)一步探索 AI 智能體的自主研究能力。

4 月 3 日,OpenAI 推出了 PaperBench(論文基準(zhǔn)測(cè)試),這是一個(gè)用于評(píng)估 AI 智能體自主復(fù)現(xiàn)前沿人工智能研究能力的基準(zhǔn)測(cè)試系統(tǒng)。如果大模型智能體具備了自動(dòng)寫 AI / 機(jī)器學(xué)習(xí)研究論文的能力,既可能加速機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,同時(shí)也需要審慎評(píng)估以確保 AI 能力的安全發(fā)展。

PaperBench 在多個(gè)重要的 AI 安全框架中發(fā)揮評(píng)估作用:

  • 作為 OpenAI 準(zhǔn)備框架(OpenAI Preparedness Framework)中評(píng)估模型自主性的標(biāo)準(zhǔn)
  • 用于 Anthropic 負(fù)責(zé)任擴(kuò)展政策(Responsible Scaling Policy)中的自主能力評(píng)估
  • 應(yīng)用于谷歌 DeepMind 前沿安全框架(Frontier Safety Framework)中的機(jī)器學(xué)習(xí)研發(fā)評(píng)估

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:PaperBench: Evaluating AI’s Ability to Replicate AI Research
  • 論文鏈接:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
  • 代碼地址:https://github.com/openai/preparedness/tree/main/project/paperbench

研究團(tuán)隊(duì)構(gòu)建了一個(gè)測(cè)試環(huán)境,用于評(píng)估具有自主編程能力的 AI 智能體。在該基準(zhǔn)測(cè)試中,研究團(tuán)隊(duì)要求智能體復(fù)現(xiàn)機(jī)器學(xué)習(xí)研究論文中的實(shí)驗(yàn)結(jié)果。完整的復(fù)現(xiàn)流程包括論文理解、代碼庫(kù)開發(fā)以及實(shí)驗(yàn)執(zhí)行與調(diào)試。這類復(fù)現(xiàn)任務(wù)具有較高難度,即便對(duì)人類專家而言也需要數(shù)天時(shí)間完成。

測(cè)試基準(zhǔn)選取了機(jī)器學(xué)習(xí)頂會(huì) ICML 2024 的 20 篇入選論文,還都是 Spotlight 和 Oral 的。這些論文覆蓋了 12 個(gè)不同的研究主題,包括 deep reinforcement learning、robustness 和 probabilistic methods 等。每篇論文都配備了詳細(xì)的評(píng)分標(biāo)準(zhǔn),共計(jì) 8316 個(gè)可獨(dú)立評(píng)估的復(fù)現(xiàn)成果。為確保評(píng)估質(zhì)量,PaperBench 中的評(píng)分標(biāo)準(zhǔn)均與原論文作者協(xié)作制定,并采用層級(jí)結(jié)構(gòu)設(shè)計(jì),使復(fù)現(xiàn)進(jìn)度可以在更細(xì)粒度上進(jìn)行衡量。

鑒于機(jī)器學(xué)習(xí)論文的復(fù)雜性,人類專家評(píng)估單次復(fù)現(xiàn)嘗試往往需要數(shù)十小時(shí)。為提高評(píng)估效率,研究團(tuán)隊(duì)開發(fā)了基于 LLM 的自動(dòng)評(píng)判系統(tǒng),并設(shè)計(jì)了 JudgeEval 輔助評(píng)估框架,用于將自動(dòng)評(píng)判結(jié)果與人類專家評(píng)判的金標(biāo)數(shù)據(jù)集進(jìn)行對(duì)比。其中,使用定制框架的 o3-mini-high 評(píng)判器表現(xiàn)最佳,在輔助評(píng)估中獲得 0.83 的 F1 分?jǐn)?shù),證明其可作為人類評(píng)判的可靠替代方案。

打開網(wǎng)易新聞 查看精彩圖片

研究表明,智能體在復(fù)現(xiàn)機(jī)器學(xué)習(xí)研究論文方面展現(xiàn)出了不容忽視的能力。Claude 3.5 Sonnet (最新版)在配備基礎(chǔ)代理框架的情況下,于 PaperBench 基準(zhǔn)測(cè)試中獲得了 21.0% 的得分。

研究團(tuán)隊(duì)選取了 3 篇論文組成的測(cè)試子集進(jìn)行深入評(píng)估,以機(jī)器學(xué)習(xí)博士的表現(xiàn)作為人類基準(zhǔn)(采用 3 次測(cè)試中的最優(yōu)成績(jī))。在 48 小時(shí)的測(cè)試時(shí)間內(nèi),人類基準(zhǔn)達(dá)到了 41.4% 的得分,而 GPT-4(o1)在相同子集上獲得了 26.6% 的得分。此外,研究團(tuán)隊(duì)還開發(fā)了一個(gè)輕量級(jí)評(píng)估版本 ——PaperBench Code-Dev,在該版本中,GPT-4 的表現(xiàn)提升至 43.4% 的得分。

PaperBench

任務(wù)

對(duì)于 PaperBench 中的每個(gè)樣本,受評(píng)估的智能體會(huì)收到論文及其補(bǔ)充說明。

在這里,智能體需要提交一個(gè)代碼倉(cāng)庫(kù),其中包含復(fù)現(xiàn)論文實(shí)驗(yàn)結(jié)果所需的全部代碼。該倉(cāng)庫(kù)根目錄必須包含一個(gè) reproduce.sh 文件,作為執(zhí)行所有必要代碼以復(fù)現(xiàn)論文結(jié)果的入口點(diǎn)。

如果 reproduce.sh 能夠復(fù)現(xiàn)論文中報(bào)告的實(shí)驗(yàn)結(jié)果,則視為成功復(fù)現(xiàn)該論文。

該數(shù)據(jù)集包含了用于定義每篇論文成功復(fù)現(xiàn)所需具體結(jié)果的評(píng)分標(biāo)準(zhǔn)。為防止過度擬合,智能體在嘗試過程中不會(huì)看到評(píng)分標(biāo)準(zhǔn),而是需要從論文中推斷出需要復(fù)現(xiàn)的內(nèi)容。

重要的是,該評(píng)估禁止智能體使用或查看論文作者的原始代碼庫(kù)(如果有的話)。這確保了評(píng)估的是智能體從零開始編碼和執(zhí)行復(fù)雜實(shí)驗(yàn)的能力,而不是使用現(xiàn)有研究代碼的能力。

打開網(wǎng)易新聞 查看精彩圖片

規(guī)則

PaperBench 的設(shè)計(jì)對(duì)智能體框架保持中立,因此對(duì)其運(yùn)行環(huán)境沒有特定要求。不過為確保公平比較,該基準(zhǔn)測(cè)試制定了以下規(guī)則:

  • 智能體可以瀏覽互聯(lián)網(wǎng),但不得使用團(tuán)隊(duì)為每篇論文提供的黑名單中列出的網(wǎng)站資源。每篇論文的黑名單包括作者自己的代碼倉(cāng)庫(kù)以及任何其他在線復(fù)現(xiàn)實(shí)現(xiàn)。
  • 智能體可使用的資源,如運(yùn)行時(shí)間和計(jì)算資源,不受任何限制。但建議研究人員在結(jié)果中報(bào)告其具體設(shè)置。
  • 開發(fā)者應(yīng)為智能體提供必要的在線服務(wù) API 密鑰(例如用于下載數(shù)據(jù)集的 HuggingFace 憑證)。獲取在線賬號(hào)訪問權(quán)限不屬于 PaperBench 意在評(píng)估的技能范疇。

評(píng)分標(biāo)準(zhǔn)

為每篇論文制定評(píng)分標(biāo)準(zhǔn)是開發(fā) PaperBench 最耗時(shí)的部分。每份評(píng)分標(biāo)準(zhǔn)都是 OpenAI 與每篇論文的一位原作者合作編寫的,從閱讀論文、初步創(chuàng)建、評(píng)分標(biāo)準(zhǔn)審查、迭代到最終簽收,每篇論文需要數(shù)周時(shí)間。

每個(gè)評(píng)分標(biāo)準(zhǔn)都以樹的形式構(gòu)建,該樹按層次分解了復(fù)現(xiàn)給定論文所需的主要結(jié)果。例如,根節(jié)點(diǎn)以預(yù)期的最高級(jí)別結(jié)果開始,例如「論文的核心貢獻(xiàn)已被復(fù)現(xiàn)」。第一級(jí)分解可能會(huì)為每個(gè)核心貢獻(xiàn)引入一個(gè)節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)都會(huì)更詳細(xì)地介紹具體結(jié)果,例如「已使用 B.1 節(jié)中的超參數(shù)在數(shù)據(jù)集上對(duì) gpt2-xl 進(jìn)行了微調(diào)」。

重要的是,滿足節(jié)點(diǎn)的所有子節(jié)點(diǎn)表示父節(jié)點(diǎn)也已得到滿足,因此對(duì)樹的所有葉節(jié)點(diǎn)進(jìn)行評(píng)分就足以全面評(píng)估整體成功率。

葉節(jié)點(diǎn)具有精確而細(xì)致的要求。擁有許多細(xì)致的要求使我們能夠?qū)Σ糠謬L試進(jìn)行評(píng)分,并使評(píng)委更容易對(duì)單個(gè)節(jié)點(diǎn)進(jìn)行評(píng)分。作者不斷分解節(jié)點(diǎn),直到它們所代表的要求足夠精細(xì),以至于估計(jì)專家可以在不到 15 分鐘的時(shí)間內(nèi)審查一份提交是否滿足要求(假設(shè)熟悉該論文)。在 PaperBench 的 20 篇論文中共有 8316 個(gè)葉節(jié)點(diǎn)。表 2 顯示了每個(gè)評(píng)分標(biāo)準(zhǔn)中的節(jié)點(diǎn)總數(shù)。

打開網(wǎng)易新聞 查看精彩圖片

所有評(píng)分標(biāo)準(zhǔn)節(jié)點(diǎn)也都有權(quán)重,每個(gè)節(jié)點(diǎn)的權(quán)重表示該貢獻(xiàn)相對(duì)于其兄弟節(jié)點(diǎn)的重要性,而不一定是節(jié)點(diǎn)的實(shí)施難度。加權(quán)節(jié)點(diǎn)獎(jiǎng)勵(lì)在復(fù)現(xiàn)時(shí)優(yōu)先考慮論文中更重要的部分。

用大模型判斷

在初步實(shí)驗(yàn)中,OpenAI 發(fā)現(xiàn)使用專家進(jìn)行手動(dòng)評(píng)分每篇論文需要花費(fèi)數(shù)十小時(shí),因此對(duì)于 PaperBench 的實(shí)際應(yīng)用而言,采用自動(dòng)化方式進(jìn)行評(píng)估是必要的。

為了對(duì) PaperBench 提交的內(nèi)容進(jìn)行規(guī)模評(píng)估,作者開發(fā)了一個(gè)簡(jiǎn)單的基于 LLM 的評(píng)判器 SimpleJudge,然后創(chuàng)建了輔助評(píng)估 JudgeEval 以評(píng)估評(píng)判器的表現(xiàn)。

AI 的評(píng)委實(shí)現(xiàn)被稱為「SimpleJudge」,給定一份提交內(nèi)容,PaperBench 的 AI 評(píng)委將獨(dú)立地對(duì)評(píng)分標(biāo)準(zhǔn)中的每個(gè)葉節(jié)點(diǎn)進(jìn)行評(píng)分。對(duì)于特定的葉節(jié)點(diǎn),評(píng)委將收到論文的 Markdown、完整的評(píng)分標(biāo)準(zhǔn) JSON、葉節(jié)點(diǎn)的要求和提交內(nèi)容。

PaperBench 使用 OpenAI 的 o3-mini 作為評(píng)委的后端模型,預(yù)估對(duì)單個(gè)提交內(nèi)容進(jìn)行評(píng)分的成本約為 66 美元(OpenAI API 積分)。對(duì)于 PaperBench Code-Dev,成本可以降至每篇論文約 10 美元。

打開網(wǎng)易新聞 查看精彩圖片

測(cè)試結(jié)果

OpenAI 基于全部 20 篇論文評(píng)估了 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(新版本)和 Gemini 2.0 Flash 幾種大模型,每篇論文評(píng)估了 3 次。

表 4 列出了每個(gè)模型的平均復(fù)現(xiàn)分?jǐn)?shù)。可見 Claude 3.5 Sonnet 的表現(xiàn)不錯(cuò),得分為 21.0%。OpenAI o1 表現(xiàn)較差,得分為 13.2%,其他模型則表現(xiàn)不佳,得分低于 10%。

打開網(wǎng)易新聞 查看精彩圖片

檢查智能體工作日志可以發(fā)現(xiàn),除 Claude 3.5 Sonnet 外,其他所有模型經(jīng)常會(huì)提前結(jié)束,聲稱自己要么已經(jīng)完成了整個(gè)仿寫,要么遇到了無(wú)法解決的問題。所有智能體都未能制定在有限時(shí)間內(nèi)復(fù)現(xiàn)論文的最優(yōu)策略。可以觀察到 o3-mini 經(jīng)常在工具使用方面遇到困難。

這些情況表明當(dāng)前模型在執(zhí)行長(zhǎng)期任務(wù)方面存在弱點(diǎn);盡管大模型在制定和編寫多步驟計(jì)劃方面表現(xiàn)出足夠的能力,但實(shí)際上未能采取一系列行動(dòng)來執(zhí)行該計(jì)劃。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

OpenAI 相信,PaperBench 基準(zhǔn)將會(huì)推動(dòng)未來大模型能力繼續(xù)上升。

參考內(nèi)容:

https://openai.com/index/paperbench/