天天看高清视频在线看www,在线免费观看国产日韩av,女人被c到高潮喷水视频,国产精品的电影久久久网站,人人澡人人爽人人妻人人精品

新智元報道

編輯：桃子好困

【新智元導讀】AI若能自主復現(xiàn)頂尖科研論文，未來科研將被掀翻天。OpenAI最新框架PaperBench正為此生，讓AI智能體從頭開始復現(xiàn)ICML 2024 20篇優(yōu)秀論文，只有Claude 3.5 Sonnet拔得頭籌，但仍無法超越ML博士水平。

AI智能體，能否復現(xiàn)頂會中重磅的AI研究？

今天，OpenAI團隊發(fā)布了全新框架PaperBench，便可評估AI智能體復現(xiàn)頂尖研究的基礎(chǔ)能力。

論文地址：https://openai.com/index/paperbench/

要求是，AI智能體需從0開始復現(xiàn)20篇ICML 2024 Spotlight和Oral論文，包括理解論文核心文獻、開發(fā)可運行代碼庫，以及執(zhí)行實驗并驗證結(jié)果。

為了客觀評估AI成果，OpenAI聯(lián)手每篇ICML論文作者開發(fā)了「評估標準」，將每個復制任務(wù)層次化分解為具有明確評分標準的較小子任務(wù)。

總共，PaperBench包含8,316個可單獨評分的任務(wù)。

結(jié)果發(fā)現(xiàn)，只有Claude 3.5 Sonnet（New）拿下了最高分21.0%，o1-high得分13.2%，DeepSeek-R1是6%，GPT-4o是4.1%。

遺憾的是，即便是最領(lǐng)先的LLM，仍無法超越機器學習博士。

目前，OpenAI將PaperBench的所有代碼開源。

GitHub地址：https://github.com/openai/preparedness

AI挑戰(zhàn)復現(xiàn)ICML 2024大作

PaperBench的目標，直指AI智能體的科研潛力。

若要完整復現(xiàn)ICML 2024 20篇優(yōu)秀的論文，意味著AI不僅需要理解論文核心思想，還得自主開發(fā)代碼庫、運行實驗，甚至是排除故障。

要知道，這是一項連人類研究員需要好幾天，才能完成的高難度任務(wù)。

這項研究的主要貢獻包括：

PaperBench：一個包含20篇ML研究論文和經(jīng)作者批準的評分標準的基準測試，以及使用基于LLM評估的自動評分工作流程。
PaperBench Code-Dev：基準測試的一個更輕量級的變體，放寬了PaperBench的一些要求，使設(shè)置和評估對更廣泛的社區(qū)更易于使用。
JudgeEval：一個包含人類評分提交結(jié)果的數(shù)據(jù)集，可用作開發(fā)和評估自動評估的輔助工具。
在PaperBench上對SOTA模型的評估：對幾個前沿AI智能體執(zhí)行長周期任務(wù)和機器學習研發(fā)能力的綜合評估。

更重要的是，PaperBench不僅是一個學術(shù)實驗，它還與其他AI安全框架緊密關(guān)聯(lián)。

它可用作OpenAI的準備框架中的模型自主性度量、Anthropic負責任擴展政策中的自主能力指標，以及Google DeepMind的前沿安全框架中的機器學習研發(fā)評估工具。

PaperBench：20篇論文，8316個任務(wù)

如上所述，PaperBench選取了來自ICML 2024中20篇 Spotlight和Oral論文，主要覆蓋了12個主題。

其中包括，深度強化學習、魯棒性和概率方法。

而且，每篇論文都配備了詳細的評分標準，總計8,316個可單獨評估的評分項目。

這些標準均是由每篇論文原作者與OpenAI共同制定，確保評估過程中的準確性和權(quán)威性。

評分標準采用層次結(jié)構(gòu)，將復雜的復現(xiàn)目標分解為細粒度子任務(wù)。

任務(wù)+復現(xiàn)

對于PaperBench中的每個樣本，AI智能體會收到論文和論文澄清說明的附錄。

候選智能體必須提交一個包含復現(xiàn)論文實證結(jié)果所需的所有代碼的代碼庫，而且代碼庫根目錄必須包含一個reproduce.sh文件，作為執(zhí)行所有必要代碼以復現(xiàn)論文結(jié)果的入口點。

當提交的reproduce.sh能夠在全新環(huán)境中成功復現(xiàn)論文中報告的實證結(jié)果時，AI智能體便成功完成復現(xiàn)任務(wù)。

樹級評分

在基準測試中，每篇論文都配有一個評分標準，明確規(guī)定了完整論文復制的評估要求。

評分標準被設(shè)置為一個要求層級結(jié)構(gòu)，每個葉節(jié)點（leaf node）指定一個明確的通過/失敗標準（見圖2），且每個節(jié)點都根據(jù)其相對于同級節(jié)點的重要性被手動賦予了權(quán)重。

對于一個葉節(jié)點標準，評估者會判斷提交內(nèi)容是否滿足其要求，如果滿足則給予1分，否則給0分。

當所有葉節(jié)點都被評分后，父節(jié)點（parent node）的分數(shù)將等于其所有子節(jié)點分數(shù)的加權(quán)平均值。

這一計分過程會一直向上傳遞到樹的根節(jié)點（root），根節(jié)點的分數(shù)即被視為該提交的最終復制分數(shù)（Replication Score）。

換句話說，每個提交的評分是基于所有滿足的評分標準要求的權(quán)重調(diào)整后的比例，其中100%表示完美復制，即滿足了所有葉節(jié)點的要求。

目前，論文中主要評估指標是所有論文的平均復制分數(shù)。

每個葉節(jié)點具有三種可能的需求類型之一，這決定了其評分方式。

結(jié)果匹配（Result Match）葉節(jié)點評估已執(zhí)行的提交是否包含復制論文中特定結(jié)果的證據(jù)。
執(zhí)行（Execution）葉節(jié)點評估運行reproduce.sh腳本時是否產(chǎn)生了某些特定的執(zhí)行結(jié)果。
代碼開發(fā)（Code Development）葉節(jié)點評估候選者的源代碼是否包含某些需求的正確實現(xiàn)。

可以上網(wǎng)，但不能查看原作者代碼庫

PaperBench設(shè)計為與智能體支持框架（agent scaffolds）無關(guān)，因此研究團隊對智能體的運行環(huán)境沒有特定要求。然而，基準測試確實制定了一些規(guī)則來確保公平比較：

智能體可以瀏覽互聯(lián)網(wǎng)，但不得使用OpenAI提供的每篇論文黑名單中網(wǎng)站的資源。每篇論文的黑名單包括作者自己的代碼庫和任何其他在線復制實現(xiàn)。
智能體可使用的資源，如運行時間和計算能力，不受任何限制。
開發(fā)者應(yīng)為智能體提供必要的在線服務(wù)API密鑰（例如，用于下載數(shù)據(jù)集的HuggingFace憑證）。

對于實驗，OpenAI還構(gòu)建了一個簡單的后處理監(jiān)控工具，用于檢查智能體日志中是否出現(xiàn)黑名單URL，發(fā)現(xiàn)可疑情況后會提交給人工審核，以取消使用黑名單資源的任何提交資格。

LLM評判成本降至10美金，比專家更高效

面對如此復雜的任務(wù)，人工評分顯然不現(xiàn)實。

一篇論文的復現(xiàn)嘗試，通常需要人類專家數(shù)十小時來評估。

為此，OpenAI團隊開發(fā)了一個基于大模型自動評判系統(tǒng)，并推出了輔助工具JudgeEval，用來驗證自動評判者的表現(xiàn)。

對于給定的提交內(nèi)容，評判系統(tǒng)SimpleJudge會獨立地對評分標準中的每個葉節(jié)點進行評分。

針對特定葉節(jié)點，評判系統(tǒng)會接收論文的Markdown格式文本、完整的評分標準JSON文件、葉節(jié)點的具體要求和提交內(nèi)容作為提示詞。

如下圖5所示，對于PaperBench Code-Dev，每篇論文的成本降至約10美元，證明了比聘請專家進行人工評分更加經(jīng)濟且高效。

Claude 3.5 Sonnet得分最高

實驗中，研究人員對GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet（New）和Gemini 2.0 Flash在所有20篇論文上進行了評估，每篇論文進行了3次運行。

而且，他們每個智能體設(shè)置了最長12小時的運行時限。

如下表4所示，展示了各模型的平均復現(xiàn)得分。

其中，Claude 3.5 Sonnet表現(xiàn)最出色，得分達到21.0%。OpenAI o1表現(xiàn)較弱，得分為13.2%，其他模型表現(xiàn)不佳，得分均低于10%。

為了更好地理解智能體性能，研究人員手動檢查了幾個智能體的運行日志。

他們發(fā)現(xiàn)，除了Claude 3.5 Sonnet外，所有模型都經(jīng)常提前結(jié)束任務(wù)，聲稱它們要么已完成整個復現(xiàn)工作，要么遇到了無法解決的問題。

所有智能體都未能制定有效策略，考慮如何在有限時間內(nèi)最優(yōu)地復現(xiàn)論文。我們還觀察到o3-mini在工具使用方面經(jīng)常遇到困難。

這些失敗模式表明當前模型在執(zhí)行長期規(guī)劃任務(wù)方面存在弱點：盡管在制定和編寫多步驟計劃方面表現(xiàn)出充分的能力，但模型未能實際采取一系列行動來執(zhí)行這些計劃。

迭代智能體

鑒于模型往往無法充分利用可用的全部時間，研究人員還測試了BasicAgent的一個變體。

這個變體通過移除智能體提前結(jié)束任務(wù)的能力，強制其在全部可用時間內(nèi)持續(xù)運行，并使用經(jīng)過優(yōu)化的提示詞來鼓勵模型以逐步方式工作。

他們將這個智能體稱為IterativeAgent。

研究人員使用IterativeAgent對o1、o3-mini和Claude 3.5 Sonnet進行了測試，如下表5所示。

他們發(fā)現(xiàn)使用IterativeAgent后，o1和o3-mini的得分顯著提升。

值得注意的是，在使用BasicAgent時，Claude 3.5 Sonnet的表現(xiàn)優(yōu)于o1，但在使用IterativeAgent時，其表現(xiàn)卻不如o1。這表明為IterativeAgent優(yōu)化的提示詞，對OpenAI o系列模型有著不同程度的適用性。

研究人員推斷，如果對BasicAgent進行類似修改，同樣防止其提前結(jié)束任務(wù)，可能會使Claude 3.5 Sonnet的表現(xiàn)超過使用IterativeAgent的o1。

人類拿下41.4%

此外，研究人員還招募了8名目前正在攻讀/已完成ML博士學位的參與者來挑戰(zhàn)3篇論文的子集。

這里，他們采用了AI智能體類似的條件下評估參與者。

參與者會拿到PDF和Markdown格式的論文，以及論文的附錄和盡可能接近用于AI智能體的指令，并可使用單個英偉達A10 GPU。

參與者兼職工作，有四周的時間窗口來取得盡可能多的進展。

另外，團隊對使用IterativeAgent的o1進行了36小時的延長運行，每小時保存快照，并對1、3、6、12和36小時時拍攝的快照進行評分。

如圖3所示，比較了o1的這次36小時延長運行與人類隨時間的表現(xiàn)。

研究觀察到，o1在復現(xiàn)嘗試的早期階段最初優(yōu)于人類基準，但在24小時后，人類開始超過AI智能體。智能體最初優(yōu)于人類但在更長時間跨度內(nèi)落后的趨勢與先前結(jié)果一致。

ML博士在48小時內(nèi)（3次嘗試取最佳）拿下了41.4%高分，而統(tǒng)一子集上，o1僅為26.6%分。

這表明，與人類專家相比，AI盡管進步顯著但仍有差距。

此外，研究人員還推出了一個輕量級變體PaperBench Code-Dev，在這個版本中，o1的得分飆升至43.4%，顯示出AI在簡化任務(wù)上的潛力。

結(jié)論

21%得分或許只是一個開始。

PaperBench不僅揭示了AI智能體在科研中的潛力，也暴露它們在長期規(guī)劃任務(wù)中的局限性。下一步，隨著模型能力提升，它們能夠接近甚至超越41.4%人類基準？

參考資料：

https://openai.com/index/paperbench/

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

Claude 3.5首戰(zhàn)復現(xiàn)21%頂會論文，人類博士無法取代！OpenAI：AI全是草臺班子

熱搜

熱門跟貼

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

熱搜

熱門跟貼

相關(guān)推薦

OpenAI開源，標志著AI應(yīng)用時代的到來

DeepSeek眼中不會被AI替代的職業(yè)：只有5個 附普通人防淘汰口訣

【人工智能】OpenAI 計劃在未來幾個月發(fā)布一種新的“開放”AI 語言模型

國產(chǎn)率100%！中國啃下AI領(lǐng)域最后一根“硬骨頭”，美國這波輸慘了

75年后，圖靈測試終被GPT-4.5破解！73%人類被騙過，徹底輸給AI

美國又要掀桌子了！OpenAI要求美國封禁Deepseek

寫代碼 25 年后，資深程序員發(fā)現(xiàn)：AI 助手或許還是個“半吊子”！

血淚親測AI寫畢業(yè)論文：熬夜7天不如AI寫5分鐘，輕松過知網(wǎng)查重10%

用ChatiSS查體，接DeepSeek看病，AI讓中醫(yī)變簡單

開發(fā)者必看！openai-python v1.70.0新功能解析，助力AI應(yīng)用開發(fā)！

OpenAI的AI復現(xiàn)論文新基準，Claude拿了第一名

微軟AI模型MatterGen能根據(jù)需求生成新材料

谷歌AI巨震：Gemini負責人卸任，團隊并入DeepMind

AI生成視頻復刻動作，上傳視頻+一句話即可

萬字回顧中國生成式AI大會！50+大咖演講精華干貨爆棚，來沒來都值得收藏

企業(yè)落地AI，只靠DeepSeek還不夠

AI鑒別神器來了，幾秒內(nèi)就知是否AI生成

傳微軟叫停全球多個數(shù)據(jù)中心項目

DeepResearcher：交大、SII首個真實環(huán)境強化學習AI研究者模型

4o生圖前端效果騙了太多人，網(wǎng)友扒出逐行生成的演示當不得真

OpenAI開源，標志著AI應(yīng)用時代的到來

DeepSeek眼中不會被AI替代的職業(yè)：只有5個附普通人防淘汰口訣

國產(chǎn)率100%！中國啃下AI領(lǐng)域最后一根“硬骨頭”，美國這波輸慘了

75年后，圖靈測試終被GPT-4.5破解！73%人類被騙過，徹底輸給AI

美國又要掀桌子了！OpenAI要求美國封禁Deepseek

寫代碼 25 年后，資深程序員發(fā)現(xiàn)：AI 助手或許還是個“半吊子”！

血淚親測AI寫畢業(yè)論文：熬夜7天不如AI寫5分鐘，輕松過知網(wǎng)查重10%

用ChatiSS查體，接DeepSeek看病，AI讓中醫(yī)變簡單

開發(fā)者必看！openai-python v1.70.0新功能解析，助力AI應(yīng)用開發(fā)！

OpenAI的AI復現(xiàn)論文新基準，Claude拿了第一名

AI生成視頻復刻動作，上傳視頻+一句話即可

萬字回顧中國生成式AI大會！50+大咖演講精華干貨爆棚，來沒來都值得收藏

企業(yè)落地AI，只靠DeepSeek還不夠

AI鑒別神器來了，幾秒內(nèi)就知是否AI生成

DeepResearcher：交大、SII首個真實環(huán)境強化學習AI研究者模型