當(dāng)?shù)貢r間4月2日,OpenAI方面宣布推出并開源一個全新的、名為PaperBench的AI智能體(AI Agent)評測基準(zhǔn)。據(jù)了解,PaperBench是一個用以評估AI智能體復(fù)現(xiàn)前沿AI研究能力的評測基準(zhǔn),其要求AI智能體從零開始復(fù)現(xiàn)20篇覆蓋12個主題的ICML 2024 Spotlight和Oral論文,包括理解論文貢獻(xiàn)、開發(fā)代碼庫并成功執(zhí)行實(shí)驗(yàn)。

為確保PaperBench能夠客觀進(jìn)行評估,OpenAI方面與相關(guān)論文的原作者共同制定了詳細(xì)的評分標(biāo)準(zhǔn),并將每個復(fù)現(xiàn)任務(wù)分層分解為具有明確評分標(biāo)準(zhǔn)的較小子任務(wù)。總的來說,PaperBench共包含8316個可單獨(dú)評分的任務(wù),而且為了實(shí)現(xiàn)可擴(kuò)展的評估,OpenAI還開發(fā)了一個基于大模型、能夠根據(jù)評分標(biāo)準(zhǔn)自動對AI智能體復(fù)現(xiàn)嘗試進(jìn)行評分的評判員,并通過為評判員創(chuàng)建單獨(dú)的基準(zhǔn)來評估評判員的表現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)OpenAI方面透露,其基于PaperBench對GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash等6款大模型進(jìn)行了測試。其中,Claude 3.5 Sonnet(New)表現(xiàn)最出色、得分達(dá)到21.0%, o1表現(xiàn)次之、得分為13.2%,其他模型的得分則均低于10%。

同時OpenAI方面指出,其還招募了頂尖機(jī)器學(xué)習(xí)博士嘗試部分PaperBench測試集,最終發(fā)現(xiàn)參與測試的相關(guān)大模型表現(xiàn)尚未超越人類基線。

據(jù)了解,這并非OpenAI方面推出的首個AI智能體評測基準(zhǔn),此前在2024年,OpenAI便曾推出用以測試AI智能體機(jī)器學(xué)習(xí)代碼工程能力的評測基準(zhǔn)MLE-Bnch。

值得一提的是,不久前OpenAI CEO Sam Altman曾宣布,計劃在未來幾個月內(nèi)發(fā)布自GPT-2以來的首個“開源”語言模型。對此他表示,“接下來幾個月里OpenAI將發(fā)布一個強(qiáng)大的、具有推理能力的新開源模型。我們已經(jīng)考慮這個問題很久了,但之前一直有更重要的事情要做,現(xiàn)在,我覺得做這件事非常重要”。

此外近期有消息源透露,目前OpenAI旗下生成式AI聊天機(jī)器人ChatGPT的付費(fèi)用戶數(shù)已超過2000萬,相比2024年年底的1550萬大幅增長。

【本文圖片來自網(wǎng)絡(luò)】