過去五年人工智能在不同基準(zhǔn)測試上的表現(xiàn),近一年來屬于肉眼可見的飛躍。橫軸是時(shí)間線,縱軸是準(zhǔn)確率,即AI在測試中正確率。不同顏色的線代表不同測試,簡單說幾個(gè)有代表性的:
1.TriviaQA:可以理解為常識數(shù)據(jù)集,測試AI的知識儲備和基礎(chǔ)推理,對AI沒難度,幾乎滿分 2.MMLU :綜合性的語言理解測試,包含多個(gè)學(xué)科的題目,如數(shù)學(xué)、物理、歷史等,幾乎滿分 3.Competition math:競賽數(shù)學(xué),類似咱們這的奧數(shù)吧,提升最明顯,4年前是5分學(xué)渣水平,現(xiàn)在是……90以上 4.AIME:美國數(shù)學(xué)邀請賽,比上面那個(gè)更難一點(diǎn),不到90分 5.GPQA:測試?yán)斫鈴?fù)雜概念、應(yīng)用科學(xué)知識和進(jìn)行邏輯,這一年發(fā)展也很快,接近80分 6.SWE tasks 軟件工程任務(wù),測試AI的軟件開發(fā)能力,比如編寫代碼、調(diào)試程序啥的,幾乎是從0分起步,目前70分段位 7.最終boss是人類的終極考試(Humanity's last exam)……這個(gè)怎么說呢,從名字就看出來這是人類挽尊題,如果到滿分基本就是AGI雛形初現(xiàn)時(shí)刻,目前20+段位。 大趨勢都看得出來: 1.所有線條均呈現(xiàn)上升趨勢,AI在各個(gè)領(lǐng)域的能力都在快速提高,幾十年前的“圖靈測試”已經(jīng)沒有意義了 2.最炸裂的其實(shí)是高難度測試準(zhǔn)確率也在快速提推升,要知道推理模型的推出還不到一年呢,后面會發(fā)生啥?
1.TriviaQA:可以理解為常識數(shù)據(jù)集,測試AI的知識儲備和基礎(chǔ)推理,對AI沒難度,幾乎滿分 2.MMLU :綜合性的語言理解測試,包含多個(gè)學(xué)科的題目,如數(shù)學(xué)、物理、歷史等,幾乎滿分 3.Competition math:競賽數(shù)學(xué),類似咱們這的奧數(shù)吧,提升最明顯,4年前是5分學(xué)渣水平,現(xiàn)在是……90以上 4.AIME:美國數(shù)學(xué)邀請賽,比上面那個(gè)更難一點(diǎn),不到90分 5.GPQA:測試?yán)斫鈴?fù)雜概念、應(yīng)用科學(xué)知識和進(jìn)行邏輯,這一年發(fā)展也很快,接近80分 6.SWE tasks 軟件工程任務(wù),測試AI的軟件開發(fā)能力,比如編寫代碼、調(diào)試程序啥的,幾乎是從0分起步,目前70分段位 7.最終boss是人類的終極考試(Humanity's last exam)……這個(gè)怎么說呢,從名字就看出來這是人類挽尊題,如果到滿分基本就是AGI雛形初現(xiàn)時(shí)刻,目前20+段位。 大趨勢都看得出來: 1.所有線條均呈現(xiàn)上升趨勢,AI在各個(gè)領(lǐng)域的能力都在快速提高,幾十年前的“圖靈測試”已經(jīng)沒有意義了 2.最炸裂的其實(shí)是高難度測試準(zhǔn)確率也在快速提推升,要知道推理模型的推出還不到一年呢,后面會發(fā)生啥?
科技研究所