曾幾何時(shí),中國的AI大模型普遍被認(rèn)為落后美國半年到一年,甚至一些悲觀主義者認(rèn)為時(shí)間或許更長,更多的人認(rèn)為差距隨著時(shí)間還正在擴(kuò)大…
但實(shí)際上,中美頂級AI大模型的性能差距已經(jīng)縮至0.3個(gè)百分點(diǎn),接近抹平。
這個(gè)論斷來自前不久AI教母李飛飛所領(lǐng)銜斯坦福大學(xué)人工智能研究中心(HAI)發(fā)布的《2025年AI指數(shù)報(bào)告》。
這份報(bào)告由斯坦福大學(xué)人機(jī)中心(HAI)所屬的AI Index團(tuán)隊(duì)在2025年4月正式發(fā)布,延續(xù)了自2017年開始編制的“人工智能一百年研究”項(xiàng)目(AI100)的傳統(tǒng)。報(bào)告覆蓋研究、經(jīng)濟(jì)、政策、教育、公眾態(tài)度等多維度內(nèi)容,也得到學(xué)術(shù)、產(chǎn)業(yè)與政府機(jī)構(gòu)的廣泛支持。其撰寫團(tuán)隊(duì)包括來自斯坦福大學(xué)、硅谷科技企業(yè)及國際組織的研究人員,并且在數(shù)據(jù)收集和分析方面與多家知名技術(shù)公司、咨詢機(jī)構(gòu)展開合作,獲得了來自學(xué)術(shù)基金、政府專項(xiàng)和產(chǎn)業(yè)贊助等多方資源支持。
細(xì)讀這份456頁的報(bào)告,我們發(fā)現(xiàn)機(jī)構(gòu)關(guān)鍵的轉(zhuǎn)折:傳統(tǒng)以算力堆砌為主導(dǎo)的發(fā)展模式正在發(fā)生質(zhì)變。
在技術(shù)性能層面,開源模型與閉源系統(tǒng)的差距已縮小至1.7%;在地緣格局上,中國模型的MMLU測試成績僅落后美國0.3個(gè)百分點(diǎn);而在商業(yè)應(yīng)用端,推理成本在18個(gè)月內(nèi)驟降280倍。這些數(shù)據(jù)共同指向一個(gè)核心問題——當(dāng)技術(shù)紅利開始普惠化,人工智能的競爭范式將轉(zhuǎn)向何處?
逆襲:從追隨到并跑
2025年AI指數(shù)報(bào)告揭示了研究與開發(fā)領(lǐng)域的顯著變革。產(chǎn)業(yè)界在AI模型開發(fā)中的主導(dǎo)地位進(jìn)一步鞏固,近90%的知名AI模型來自產(chǎn)業(yè)界,較2023年的60%有大幅提升。這一趨勢表明,隨著AI技術(shù)的商業(yè)價(jià)值日益凸顯,企業(yè)正加大對AI研發(fā)的投入。與此同時(shí),學(xué)術(shù)界仍然是高影響力研究的主要來源,在過去三年中,美國學(xué)術(shù)機(jī)構(gòu)貢獻(xiàn)了最多的被高度引用的AI論文。

在全球AI研究格局方面,中國繼續(xù)領(lǐng)跑AI研究發(fā)表總量,2023年中國貢獻(xiàn)了全球23.2%的AI論文和22.6%的引用。AI論文總量在過去十年間幾乎增長了三倍,從2013年的約102,000篇增加到2023年的超過242,000篇。值得注意的是,AI在計(jì)算機(jī)科學(xué)論文中的占比從2013年的21.6%上升到2023年的41.8%,表明AI已成為計(jì)算機(jī)科學(xué)研究的主導(dǎo)方向。

美國仍然是領(lǐng)先的AI模型開發(fā)國家,2024年美國機(jī)構(gòu)開發(fā)了40個(gè)知名AI模型,遠(yuǎn)超中國的15個(gè)和歐洲的3個(gè)。然而,中國在AI專利數(shù)量方面表現(xiàn)突出,截至2023年,中國占據(jù)了全球AI專利的69.7%,而韓國和盧森堡則在人均AI專利產(chǎn)出方面表現(xiàn)突出。2010年至2023年間,AI專利數(shù)量從3,833項(xiàng)激增至122,511項(xiàng),僅在過去一年就增長了29.6%。


AI模型規(guī)模和計(jì)算需求持續(xù)增長。研究表明,知名AI模型的訓(xùn)練計(jì)算量大約每五個(gè)月翻一番,大型語言模型的數(shù)據(jù)集大小每八個(gè)月翻一番,訓(xùn)練所需的能源每年翻一番。這種規(guī)模擴(kuò)張主要由大規(guī)模產(chǎn)業(yè)投資驅(qū)動,推動了模型性能的持續(xù)提升。
2025年AI指數(shù)報(bào)告的一個(gè)重要發(fā)現(xiàn)是AI技術(shù)性能的顯著提升和趨同。2023年,研究人員引入了幾個(gè)具有挑戰(zhàn)性的新基準(zhǔn)測試,包括MMMU、GPQA和SWE-bench,旨在測試日益強(qiáng)大的AI系統(tǒng)的極限。到2024年,AI在這些基準(zhǔn)測試上的表現(xiàn)取得了顯著提升,在MMMU和GPQA上分別提高了18.8和48.9個(gè)百分點(diǎn)。在SWE-bench上,AI系統(tǒng)在2023年僅能解決4.4%的編碼問題,而到2024年這一數(shù)字躍升至71.7%。
中國模型的追趕速度令人側(cè)目。在編程基準(zhǔn)HumanEval上,中美頂級模型差距從2023年的31.6個(gè)百分點(diǎn)驟降至0.3個(gè)百分點(diǎn)。更值得玩味的是技術(shù)路徑差異:DeepSeek-V3在達(dá)到GPT-4同級性能時(shí),訓(xùn)練能耗僅相當(dāng)于后者五年前的水平。這種"降維式"的技術(shù)突破,正在動搖半導(dǎo)體出口管制的戰(zhàn)略邏輯。

報(bào)告最引人注目的發(fā)現(xiàn),是開源模型在Chatbot Arena排行榜上的突飛猛進(jìn)。2024年1月閉源模型尚保持8%的領(lǐng)先優(yōu)勢,到2025年2月差距已收窄至1.7%。Meta的Llama 3.1-405B與中國的DeepSeek-V3等開源模型,在MMLU多任務(wù)測試中分別取得87.2%和84.0%的準(zhǔn)確率,直逼GPT-4o的92.3%。
熱門跟貼