在中美關(guān)稅大戰(zhàn)愈演愈烈之際,一份AI領(lǐng)域的重磅報(bào)告——《2025年人工智能指數(shù)報(bào)告》(HAI報(bào)告)出爐。該報(bào)告由斯坦福大學(xué)李飛飛團(tuán)隊(duì)以人為本人工智能研究院發(fā)布,已經(jīng)連續(xù)發(fā)布8年,在全球AI領(lǐng)域具有很強(qiáng)的影響力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

相比一些商業(yè)機(jī)構(gòu)發(fā)布的AI報(bào)告,HAI報(bào)告的編寫(xiě)團(tuán)隊(duì)主要由來(lái)自斯坦福大學(xué)、摩根大通等學(xué)術(shù)界和產(chǎn)業(yè)界的跨學(xué)科專(zhuān)家組成,報(bào)告內(nèi)容和數(shù)據(jù)更客觀公正,更有研究?jī)r(jià)值。因此,HAI報(bào)告的研究結(jié)論和測(cè)試結(jié)果,其含金量遠(yuǎn)高于其他商業(yè)報(bào)告。

2025年的HAI報(bào)告透露出多項(xiàng)AI領(lǐng)域最進(jìn)展,最值得關(guān)注的是,中美頂級(jí)模型性能差距縮至0.3%;推理成本暴降,小模型性能飆升,AI正變得更高效、更普惠,這也意味著美國(guó)對(duì)算力封鎖的效果正在打折。

本次HAI報(bào)告引入了一項(xiàng)全新評(píng)測(cè)標(biāo)準(zhǔn)MixEval,是專(zhuān)為評(píng)估大語(yǔ)言模型在復(fù)雜真實(shí)語(yǔ)言任務(wù)中表現(xiàn)的測(cè)試集,尤其聚焦于“分布式用戶(hù)查詢(xún)”和“復(fù)雜問(wèn)題處理能力”,在更具挑戰(zhàn)性的MixEval-Hard基準(zhǔn)測(cè)試中,中美大模型均有上榜,前三名分別是Open AI o1、Claude 3.5和LLaMA 3.5,都來(lái)自美國(guó)。

中國(guó)有三款大模型入圍,分別是訊飛星火(SPARK4.0)位居第十名,零一萬(wàn)物位居第十一名,阿里巴巴Qwen-Max位居第十三名。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這份測(cè)試結(jié)果表明,以訊飛星火4.0為代表的國(guó)產(chǎn)大模型,在2024年通過(guò)不斷的迭代和性能突破,已經(jīng)在國(guó)際主流的大模型測(cè)試結(jié)果中展現(xiàn)出不俗的能力,正在快速追趕中美AI的發(fā)展差距。

除了這份大模型性能測(cè)試排名外,報(bào)告還透露出三點(diǎn)新動(dòng)向:

首先,中國(guó)在AI大模型上是當(dāng)之無(wú)愧的第二名,與美國(guó)的差距只有0.3%。這份報(bào)告特別對(duì)中美大模型進(jìn)行對(duì)比,成為吸睛的部分。從數(shù)量上看,2024年美國(guó)發(fā)布了40個(gè)“前沿模型”,而中國(guó)為15個(gè),歐洲僅3個(gè)。

從論文方面看,2023年,中國(guó)貢獻(xiàn)了全球23.2%的AI論文和69.7%的AI專(zhuān)利,遠(yuǎn)遠(yuǎn)超過(guò)美國(guó);而美國(guó)在論文總量上僅排全球第三,約為中國(guó)的一半。

從幾項(xiàng)關(guān)鍵指標(biāo)來(lái)看,中國(guó)大模型對(duì)美國(guó)的追趕也可以用“極速”來(lái)形容。在MMLU這項(xiàng)多任務(wù)語(yǔ)言理解測(cè)試中,中美模型在2023年相差17.5個(gè)百分點(diǎn),而到2024年只差0.3%;HumanEval(代碼生成任務(wù))也從31.6%的差距收縮到3.7%。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

其次,推理成本暴降,小模型性能飆升,AI開(kāi)始普惠。春節(jié)后,DeepSeek號(hào)稱(chēng)是只用600萬(wàn)美元做出來(lái)的,這給OpenAI等依靠堆算力取勝的大模型帶來(lái)巨大壓力,甚至導(dǎo)致美國(guó)算力相關(guān)股票暴跌。

算力成本下降是不爭(zhēng)的事實(shí)。報(bào)告顯示,隨著小模型性能提升,達(dá)到GPT-3.5水平的推理成本在兩年間下降280倍,硬件成本以每年30%的速度遞減,能效年提升率達(dá)40%。

對(duì)于被卡脖子的中國(guó)大模型來(lái)說(shuō),是重大利好。

比如,在MixEval-Hard測(cè)試中進(jìn)入前十的訊飛星火4.0就是在純國(guó)產(chǎn)算力基座上訓(xùn)練出來(lái)的大模型,而且2025年3月3日,科大訊飛發(fā)布的深度推理模型X1在數(shù)學(xué)能力上大幅躍升,以70B參數(shù)規(guī)模便追平了OpenAI o1和DeepSeek R1。

第三,AI醫(yī)療已經(jīng)從夢(mèng)想走進(jìn)現(xiàn)實(shí)。HAI報(bào)告指出:2023年,美國(guó)FDA共批準(zhǔn)了223款A(yù)I醫(yī)療設(shè)備,而2015年時(shí)這一數(shù)字還只有6件。報(bào)告還表示,OpenAI的GPT-4在復(fù)雜醫(yī)學(xué)問(wèn)診的測(cè)試中,表現(xiàn)甚至優(yōu)于醫(yī)生與AI協(xié)作小組。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

其實(shí),在中國(guó)“AI+醫(yī)療”也在大規(guī)模落地,并誕生了首個(gè)上市公司——訊飛醫(yī)療?;谛腔鹕疃韧评泶竽P蚗1首發(fā)的星火醫(yī)療大模型X1已經(jīng)應(yīng)用到智醫(yī)助理、訊飛曉醫(yī)APP中,實(shí)現(xiàn)AI輔助診斷和用戶(hù)健康咨詢(xún)。

3月26日,訊飛醫(yī)療發(fā)布上市后的首個(gè)年報(bào),成績(jī)亮眼,全年實(shí)現(xiàn)營(yíng)業(yè)收入7.34億元,同比增長(zhǎng)32.0%;實(shí)現(xiàn)毛利4.04億元,同比增長(zhǎng)28.4%。

從斯坦福這份報(bào)告可以看出,當(dāng)前,美國(guó)仍然是AI大模型領(lǐng)域的第一名,但是中國(guó)企業(yè)的追趕速度正在加快,與美國(guó)之間的差距極速縮小。同時(shí),推理成本大幅減少,讓美國(guó)對(duì)中國(guó)算力的封鎖效果變差,國(guó)產(chǎn)算力的價(jià)值逐漸提高。

在中美各種較量之中,AI技術(shù)的較量關(guān)乎未來(lái),國(guó)產(chǎn)大模型的發(fā)展令人振奮。