品玩4月3日訊,據(jù)界面新聞報(bào)道,OpenAI宣布推出 PaperBench——一個(gè)評(píng)估 AI 智能體復(fù)現(xiàn)前沿 AI 研究能力的基準(zhǔn)。智能體需從零開始復(fù)現(xiàn) 20 篇 ICML 2024 Spotlight 和 Oral 論文,包括理解論文貢獻(xiàn)、開發(fā)代碼庫(kù)并成功執(zhí)行實(shí)驗(yàn)。

據(jù)介紹,在 PaperBench 上測(cè)試多個(gè)前沿模型后發(fā)現(xiàn),表現(xiàn)最佳的智能體 Claude 3.5 Sonnet(新版)結(jié)合開源框架,平均復(fù)現(xiàn)得分為 21.0%。最終其招募頂尖機(jī)器學(xué)習(xí)博士嘗試部分測(cè)試集,發(fā)現(xiàn)上述模型表現(xiàn)尚未超越人類基線。

同時(shí),據(jù)外媒報(bào)道,OpenAI 旗下 AI 應(yīng)用 ChatGPT 的付費(fèi)訂閱用戶已突破 2000 萬(wàn),較 2024 年底的 1550 萬(wàn)增長(zhǎng)了 450 萬(wàn),增幅約 30%。

打開網(wǎng)易新聞 查看精彩圖片