AGI-Eval評(píng)測(cè)社區(qū)團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

為了進(jìn)一步挑戰(zhàn)AI系統(tǒng),大家已經(jīng)開始研究一些最困難的競(jìng)賽中的問題,特別是國(guó)際奧林匹克競(jìng)賽和算法挑戰(zhàn)。

但目前尚無(wú)奧林匹克級(jí)別的、多學(xué)科的基準(zhǔn),能夠全面評(píng)估綜合解決問題的能力,以全面檢驗(yàn)人工智能的綜合認(rèn)知能力。

上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì)推出多學(xué)科認(rèn)知推理基準(zhǔn)OlympicArena,即使是GPT-4o 也只達(dá)到了 34.01% 的整體準(zhǔn)確率,而其他開源模型的整體準(zhǔn)確率也難以達(dá)到20%。

這一鮮明的對(duì)比凸顯了他們基準(zhǔn)測(cè)試的巨大難度和嚴(yán)謹(jǐn)性,證明了它在突破當(dāng)前 AI 能力界限方面的有效性。

打開網(wǎng)易新聞 查看精彩圖片

OlympicArena不僅是一套題庫(kù),還做了一些創(chuàng)新,比如為避免模型“刷題”,團(tuán)隊(duì)引入數(shù)據(jù)泄漏檢測(cè)技術(shù),采用N-gram預(yù)測(cè)檢測(cè)數(shù)據(jù)泄露,確認(rèn)99.6%的題目未被預(yù)訓(xùn)練數(shù)據(jù)污染。

除此之外還提供了一套全面的資源來支持人工智能研究,包括基準(zhǔn)數(shù)據(jù)集、開源注釋平臺(tái)、詳細(xì)的評(píng)估工具和具有自動(dòng)提交功能的排行榜。

打開網(wǎng)易新聞 查看精彩圖片

OlympicArena難度水平

OlympicArena覆蓋數(shù)學(xué)、物理、化學(xué)、生物、地理、天文學(xué)、計(jì)算機(jī)科學(xué)7大領(lǐng)域,細(xì)分34個(gè)分支(如數(shù)論、量子物理、有機(jī)化學(xué))。題目來源包括國(guó)際數(shù)學(xué)奧賽(IMO)、國(guó)際物理奧賽(IPhO)等62項(xiàng)頂尖賽事,共11163道雙語(yǔ)題目(中英對(duì)照),實(shí)際的難度如何。

AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)基于此,做了OlympicArena題目的難度驗(yàn)證,按照14個(gè)標(biāo)桿模型(去除Qwen2-72B-Chat)的結(jié)果對(duì)數(shù)據(jù)子集和數(shù)據(jù)集維度做難度分布,從圖中可以看到,OlympicArena整體難度偏難,僅低于AGI-Eval團(tuán)隊(duì)私有的兩個(gè)高中數(shù)學(xué)競(jìng)賽題目。

打開網(wǎng)易新聞 查看精彩圖片

AGI-Eval評(píng)測(cè)模型榜單

“奧賽題是檢驗(yàn)AI科學(xué)思維的絕佳試金石?!边@類高難度題目不僅需要知識(shí)儲(chǔ)備,更考驗(yàn)邏輯推導(dǎo)、空間想象、符號(hào)理解等綜合能力。在這場(chǎng)超級(jí)測(cè)試中,那擅長(zhǎng)代碼、學(xué)科競(jìng)賽的推理系模型表現(xiàn)如何?

AGI-Eval大模型評(píng)測(cè)社區(qū)也做了新的模型評(píng)測(cè),接入最新的推理系模型以及大語(yǔ)言標(biāo)桿模型。

從整體表現(xiàn)上看o1和DeepSeek-R1的水平基本持平,但是在化學(xué)、生物學(xué)、天文學(xué)、物理上o1表現(xiàn)好于DeepSeek-R1,特別是天文學(xué)上o1得分達(dá)92.47%,但數(shù)學(xué)、地理方面DeepSeek-R1優(yōu)于o1。

打開網(wǎng)易新聞 查看精彩圖片

推理系模型和新迭代的模型版本效果都有明顯提升,詳細(xì)排名及得分可上官網(wǎng)查看。

打開網(wǎng)易新聞 查看精彩圖片

學(xué)術(shù)難度分析

從能力測(cè)試上可以看到模型在不同學(xué)科的表現(xiàn)水平不同,在天文學(xué)上o1得分高達(dá)92.47%。是天文學(xué)很簡(jiǎn)單嗎?基于此,團(tuán)隊(duì)也做了相關(guān)的學(xué)科分析,從下面的箱合圖中可以看到(中位數(shù)越小越難):

  • 化學(xué)、生物、地理和天文為一檔,該檔模型中位數(shù)大于0.6,從箱型大小可以得到構(gòu)建優(yōu)先級(jí)為:天文 > 化學(xué) > 生物 > 地理
  • 物理為單獨(dú)一檔,該檔模型中位數(shù)0.5附近,箱型大小較大
  • 數(shù)學(xué)為單獨(dú)一檔,該檔模型中位數(shù)0.3附近,箱型大小極大

客觀來說,在數(shù)學(xué)物理上R1、o1、o3-mini表現(xiàn)能力更好,能力水平也會(huì)更穩(wěn)定。

打開網(wǎng)易新聞 查看精彩圖片

題型分析

除對(duì)模型進(jìn)行能力評(píng)測(cè)外,AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)也做了相關(guān)的題型分析,提煉出以下雷達(dá)圖,從圖中可以看到1-5排名的推理模型對(duì)其它模型產(chǎn)生了碾壓的態(tài)勢(shì),特別是在非選擇題題型上,建議構(gòu)建題目以單問的生成題為主。

打開網(wǎng)易新聞 查看精彩圖片

△通用模型6-10

難度分析

同時(shí)也對(duì)模型在面對(duì)不同難度題目做了分析,可以看到頭部模型在Easy難度基本已接近100%的準(zhǔn)確率,且無(wú)區(qū)分度;Medium/Hard難度是推理系模型拉開的主戰(zhàn)場(chǎng),且Meidum難度已達(dá)到90%的準(zhǔn)確率,后續(xù)模型評(píng)測(cè)建議只構(gòu)建Hard難度的題目。

打開網(wǎng)易新聞 查看精彩圖片

預(yù)測(cè)分析,用Medium、Hard擬合Easy,Easy、Hard擬合Medium,以及Easy、Medium擬合Hard,可以得到如下圖(在Ideal Fit線上方的為超出預(yù)期,線下的為低于預(yù)期)。

  • O3-mini、O1、DeepSeek-R1在Hard上已超越模型列表中的正常表現(xiàn),但在Medium上略低于預(yù)期
  • 平衡點(diǎn):即Easy、Medium、Hard上分?jǐn)?shù)為多少時(shí)三公式有解,說明模型表現(xiàn)均衡,Easy = 1, Medium = 0.6695, Hard = 0.1897

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

結(jié)語(yǔ)

OlympicArena的誕生,是對(duì)現(xiàn)有模型的試金石,更是對(duì)AI研發(fā)路徑的深刻啟示:僅靠數(shù)據(jù)堆砌無(wú)法實(shí)現(xiàn)真正的智能。未來的AI應(yīng)該學(xué)會(huì)像奧賽選手一樣拆解問題、關(guān)聯(lián)知識(shí)、嚴(yán)謹(jǐn)推導(dǎo)。

當(dāng)模型能力達(dá)到這樣的水平時(shí),對(duì)模型的評(píng)測(cè)的題目難度及評(píng)測(cè)要求也越來越高,后續(xù)模型評(píng)測(cè)建議只構(gòu)建Hard難度的題目。

基于此,AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)創(chuàng)新性地提出了人機(jī)協(xié)作評(píng)測(cè)模式,并推出10q的全新玩法。待測(cè)模型需要在同一套system prompt下指導(dǎo)真實(shí)用戶學(xué)習(xí)一個(gè)知識(shí)點(diǎn)并完成quiz,基于模型與用戶的高質(zhì)量多輪對(duì)話數(shù)據(jù),產(chǎn)出更加高置信度的評(píng)測(cè)結(jié)論。

在這種模式下,參與者可以與最新的大模型共同完成任務(wù),既有助于提高任務(wù)完成度又便于建立更加直觀的區(qū)分度。

未來隨著模型能力的不斷攀升,AI還有更多能力值得發(fā)掘和探索,對(duì)模型能力的考察也仍有更對(duì)創(chuàng)新空間。

論文地址:https://arxiv.org/pdf/2406.12753
項(xiàng)目地址:https://gair-nlp.github.io/OlympicArena/
代碼地址:https://github.com/GAIR-NLP/OlympicArena