日韩欧美精品视频第一页,日韩v欧美国产,国产精品女同一区二区三区在线,国产亚洲精品视频亚洲香蕉视,日韩精品乱码久久久久久久久

AI能自己復(fù)現(xiàn)頂級AI論文了嗎？OpenAI剛剛發(fā)布了 PaperBench，用于評估 AI 代理復(fù)現(xiàn)頂尖 AI 研究能力的基準(zhǔn)測試

在這項測試中，AI 代理必須成功復(fù)現(xiàn) ICML 2024 的頂級論文，這包括理解論文、編寫代碼和執(zhí)行實驗等環(huán)節(jié)

OpenAI用 PaperBench 測試了幾款業(yè)界領(lǐng)先的 AI 模型。結(jié)果顯示，在本次測試中表現(xiàn)最好的是 Claude 3.5 Sonnet (新版，配合開源框架)，其平均復(fù)現(xiàn)分?jǐn)?shù)達到了 21.0%。研究人員還邀請了頂尖的機器學(xué)習(xí)博士參與了部分任務(wù)的測試，結(jié)果表明，當(dāng)前的 AI 模型還沒能超越人類專家的水平

簡單來說，PaperBench就是一個AI復(fù)現(xiàn)頂會論文能力的“考場”，那么，這個考場具體是怎么運作的呢？我來給大家捋一捋

核心任務(wù)：從零復(fù)現(xiàn)頂會論文

PaperBench挑選了20篇來自ICML 2024的Spotlight和Oral論文，涵蓋了深度強化學(xué)習(xí)、魯棒性、概率方法等12個不同的AI研究領(lǐng)域。這些都是當(dāng)前AI研究的最新成果

AI代理（Agent）接到的任務(wù)是：

? 只給你論文原文和一個補充說明文件（由原作者提供，澄清模糊之處）。
?從零開始，理解論文的核心貢獻
?編寫完整的代碼庫，實現(xiàn)論文中的所有實驗
? 成功運行、監(jiān)控、調(diào)試這些實驗，最終復(fù)現(xiàn)出論文報告的關(guān)鍵實證結(jié)果
?禁止使用或查看原作者發(fā)布的任何代碼，確保是AI獨立完成的

最終，AI需要提交一個包含所有代碼的倉庫，其中必須有一個reproduce.sh腳本作為入口，能夠在全新的環(huán)境中運行并復(fù)現(xiàn)結(jié)果

嚴(yán)格的“評分標(biāo)準(zhǔn)”：層級化Rubrics

PaperBench最核心的部分，就是為每篇論文都精心設(shè)計了一套層級化的評分細則（Rubrics）

與原作者共同開發(fā)：確保評分標(biāo)準(zhǔn)既準(zhǔn)確又符合研究實際

樹狀結(jié)構(gòu)：將復(fù)雜的復(fù)現(xiàn)任務(wù)分解為越來越細致的子任務(wù)，一直到最底層的“葉節(jié)點”

海量評分點：總共包含8,316個可獨立評分的葉節(jié)點任務(wù)！每個葉節(jié)點都有明確的“通過/失敗”標(biāo)準(zhǔn)

權(quán)重分配：每個節(jié)點都有權(quán)重，反映其在整個研究中的相對重要性（而非實現(xiàn)難度）

最終得分（Replication Score）：葉節(jié)點得分（0或1）加權(quán)平均，逐層向上傳遞，根節(jié)點的分?jǐn)?shù)就是最終的復(fù)現(xiàn)得分，0%表示完全失敗，100%表示完美復(fù)現(xiàn)

這套評分系統(tǒng)能非常精細地衡量AI在復(fù)現(xiàn)過程中的部分進展，即使沒能完全成功，也能知道它做到了哪一步

評分員是誰？LLM法官登場

手動給8000多個任務(wù)點打分？想想都頭大。一個人類專家給一次嘗試評分可能就要花幾十個小時。為了讓評估能夠規(guī)?；M行，研究團隊開發(fā)了一個基于LLM的自動評分系統(tǒng)（SimpleJudge）

獨立評分：對每個葉節(jié)點，LLM法官會看到論文原文、完整的Rubric結(jié)構(gòu)、當(dāng)前葉節(jié)點的要求，以及AI提交并實際運行后的代碼和輸出文件

上下文處理：由于提交的完整代碼庫可能太大，法官會先對文件進行相關(guān)性排序，只看最重要的前10個文件

法官的法官（JudgeEval）：為了確保LLM法官靠譜，團隊還創(chuàng)建了一個輔助評估基準(zhǔn)JudgeEval。他們用一些部分完成的復(fù)現(xiàn)嘗試（來自人類或修改后的作者代碼），讓人類專家先打好分（作為“黃金標(biāo)準(zhǔn)”），然后讓LLM法官來評，看它的判斷和人類專家有多接近

表現(xiàn)與成本：實驗表明，使用o3-mini作為后端的SimpleJudge，在JudgeEval上能達到0.83的F1分?jǐn)?shù)，效果不錯。而且成本大大降低，評分一篇完整論文大約需要66美元的API費用，相比人類專家成本，可以說是又快又省。考慮到完整的PaperBench評估（需要GPU運行代碼復(fù)現(xiàn)）成本還是較高，團隊還推出了一個簡化版PaperBench Code-Dev

結(jié)果如何？AI vs 人類博士

重頭戲來了，現(xiàn)在的頂尖AI表現(xiàn)怎么樣？

AI代理表現(xiàn)：團隊測試了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在內(nèi)的多個前沿模型

在基礎(chǔ)的BasicAgent（一個簡單的智能體框架）設(shè)置下，Claude 3.5 Sonnet 表現(xiàn)最好，平均復(fù)現(xiàn)得分達到了 21.0%。OpenAI 的 o1 high得分為 13.2%，其他模型得分均低于10%

普遍問題：AI經(jīng)常過早放棄（聲稱完成或遇到無法解決的問題），缺乏長期規(guī)劃和策略能力，難以有效利用給定的時間（比如12小時）。簡單的Agent框架可能也限制了模型能力發(fā)揮

使用IterativeAgent（強制跑滿時間、提示優(yōu)化）后，o1和o3-mini得分有顯著提升（o1達到24.4%），但Claude 3.5 Sonnet得分反而下降，顯示出模型對提示和Agent框架的敏感性

人類基線：團隊招募了8位機器學(xué)習(xí)領(lǐng)域的博士生/博士后，讓他們在類似條件下（單塊A10 GPU，4周兼職時間，禁用作者代碼）嘗試復(fù)現(xiàn)4篇論文（每篇3人獨立嘗試，取最好成績）

結(jié)果對比：在最初的幾個小時里，AI（以o1為例）寫代碼速度快，得分一度超越人類。但AI的得分很快停滯

人類雖然起步慢（可能需要時間理解論文），但得分持續(xù)穩(wěn)定增長，在大約24小時后開始顯著超過AI

在一個3篇論文的子集上，經(jīng)過48小時的努力，人類博士的最佳嘗試平均得分達到了 41.4%，而o1在同樣子集上得分約為 26.6%

結(jié)論：目前最強的AI模型，在從零開始復(fù)現(xiàn)頂會級AI研究方面，展現(xiàn)出了一定的能力（特別是在快速編寫初步代碼方面），但距離真正勝任這項復(fù)雜、長周期的任務(wù)還有相當(dāng)長的路要走。它們在長期規(guī)劃、持續(xù)調(diào)試和策略執(zhí)行方面存在明顯短板

PaperBench的發(fā)布意義重大：

提供了一個可量化的標(biāo)尺：用于衡量AI在進行自主科研探索方面的能力進展。這對于理解AI能力邊界、預(yù)測未來發(fā)展至關(guān)重要

加速科學(xué)發(fā)現(xiàn)的潛力：能夠自主復(fù)現(xiàn)甚至改進研究的AI，無疑將極大加速科學(xué)進步，包括AI安全和對齊研究本身

開放與協(xié)作：PaperBench是開源的，鼓勵整個社區(qū)使用、改進和擴展這個基準(zhǔn)

PaperBench是AI能力評估領(lǐng)域的一個重要里程碑。它首次系統(tǒng)性地、大規(guī)模地評估了AI從零開始復(fù)現(xiàn)復(fù)雜前沿研究的能力。雖然當(dāng)前AI的表現(xiàn)離完美復(fù)現(xiàn)還有距離，但這無疑為我們觀察、理解和引導(dǎo)AI邁向更高級自主智能提供了寶貴的視角和工具

參考：

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

?星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯過?

用你的贊和在看告訴我～

求贊