打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:編輯部

【新智元導(dǎo)讀】2025年斯坦福HAI報(bào)告重磅發(fā)布,456頁(yè)深度剖析全球AI領(lǐng)域的最新趨勢(shì):中美頂級(jí)模型性能差距縮至0.3%,以DeepSeek為代表的模型強(qiáng)勢(shì)崛起,逼近閉源巨頭;推理成本暴降,小模型性能飆升,AI正變得更高效、更普惠。

就在剛剛,每年都備受矚目的斯坦福AI指數(shù)報(bào)告,重磅發(fā)布了!

這份報(bào)告由斯坦福大學(xué)以人為本AI研究員發(fā)布,代表著每年AI領(lǐng)域最核心和前沿的動(dòng)向總結(jié)。

今年,這份報(bào)告長(zhǎng)達(dá)456頁(yè),拋出不少驚人觀點(diǎn)。

打開網(wǎng)易新聞 查看精彩圖片

比如,如今在2025年,中美頂級(jí)AI模型的性能差距已經(jīng)縮小到了0.3%(2023年,這一數(shù)字還是20%),中國(guó)模型正在快速追趕美國(guó)的領(lǐng)先地位!

而DeepSeek領(lǐng)銜的開放權(quán)重模型,更是以1.7%之差,逼宮各大閉源巨頭。前者和后者的差距,已經(jīng)由2024年的8%,縮小至2025年的1.7%。

當(dāng)然,目前從行業(yè)主導(dǎo)企業(yè)來(lái)看,美國(guó)仍然領(lǐng)先于中國(guó)。在2024年,90%的知名AI模型來(lái)自企業(yè),美國(guó)以40個(gè)模型領(lǐng)先,中國(guó)有15個(gè)。

更明顯的一個(gè)趨勢(shì),就是如今大模型的性能已經(jīng)趨同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它們的差距已經(jīng)越來(lái)越小,銳減至5%。

打開網(wǎng)易新聞 查看精彩圖片

十二大亮點(diǎn)

最新的斯坦福HAI兩篇博文中,濃縮了2025年AI指數(shù)報(bào)告的十二大亮點(diǎn)。

1. AI性能再攀高峰,從基準(zhǔn)測(cè)試到視頻生成全面突破

2023年,研究人員推出了MMMU、GPQA和SWE-bench等新基準(zhǔn)來(lái)測(cè)試先進(jìn)AI系統(tǒng)的極限。

僅一年后,性能便大幅提升:AI在三項(xiàng)基準(zhǔn)得分分別飆升18.8%、48.9%和67.3%。

不僅如此,AI在生成高質(zhì)量視頻方面取得重大突破,甚至,在某些場(chǎng)景下AI智能體甚至超越人類表現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

·更有用智能體崛起

2024年發(fā)布的RE-Bench基準(zhǔn)測(cè)試,為評(píng)估AI智能體復(fù)雜任務(wù)能力設(shè)立了嚴(yán)苛標(biāo)準(zhǔn)。

數(shù)據(jù)顯示:在短期任務(wù)(2小時(shí)內(nèi))場(chǎng)景下,頂級(jí)AI系統(tǒng)的表現(xiàn)可達(dá)人類專家的4倍;但當(dāng)任務(wù)時(shí)限延長(zhǎng)至32小時(shí),人類則以2:1的優(yōu)勢(shì)反超。

值得注意的是,AI已在特定領(lǐng)域,如編寫特定類型代碼,展現(xiàn)出與人類相當(dāng)?shù)膶I(yè)水平,且執(zhí)行效率更勝一籌。

打開網(wǎng)易新聞 查看精彩圖片


2. 美國(guó)領(lǐng)跑頂尖模型研發(fā),但中國(guó)與之差距逐漸縮小

2024年,美國(guó)產(chǎn)出40個(gè)重要AI模型,遠(yuǎn)超中國(guó)的15個(gè)和歐洲的3個(gè)。

然而,中國(guó)模型在性能上的差距正加速縮?。篗MLU等基準(zhǔn)測(cè)試中,中美AI差異從兩位數(shù)縮小至近乎持平。

同時(shí),中國(guó)在AI學(xué)術(shù)論文和專利申請(qǐng)量上持續(xù)領(lǐng)跑,中東、拉美和東南亞地區(qū)也涌現(xiàn)出具有競(jìng)爭(zhēng)力的模型。

打開網(wǎng)易新聞 查看精彩圖片


3. AI正變得高效且普惠,推理成本暴降280倍

隨著小模型性能提升,達(dá)到GPT-3.5水平的推理成本在兩年間下降280倍,硬件成本以每年30%的速度遞減,能效年提升率達(dá)40%。

更令人振奮的是,開源模型性能突飛猛進(jìn),部分基準(zhǔn)測(cè)試中與閉源模型的差距從8%縮至1.7%。

· 大模型使用成本持續(xù)走低,年降幅最高900倍

在MMLU基準(zhǔn)測(cè)試中達(dá)到GPT-3.5水平(MMLU準(zhǔn)確率64.8%)的AI模型調(diào)用成本,已從2022年11月的20美元/每百萬(wàn)token,驟降至2024年10月的0.07美元/每百萬(wàn)token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18個(gè)月內(nèi)AI成本下降280倍。

視具體任務(wù)需求,LLM推理服務(wù)價(jià)格的年降幅可達(dá)9-900倍不等。

打開網(wǎng)易新聞 查看精彩圖片

·小模型性能顯著提升,參數(shù)暴減142倍

2022年,在大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)基準(zhǔn)測(cè)試中,得分超60%的最小模型是 PaLM,參數(shù)量為5400億。

到了2024年,微軟Phi-3-mini僅用38億參數(shù),就取得了同樣的實(shí)力。

這代表,兩年多的時(shí)間里模型參數(shù)減少了142倍。

打開網(wǎng)易新聞 查看精彩圖片


4. 科技巨頭稱霸AI前沿,但競(jìng)爭(zhēng)白熱化

2024年,近90%的重要模型源自企業(yè),學(xué)術(shù)界則保持基礎(chǔ)研究?jī)?yōu)勢(shì)。

模型規(guī)模呈指數(shù)增長(zhǎng):訓(xùn)練算力每5個(gè)月翻番,數(shù)據(jù)集每8個(gè)月擴(kuò)容一倍。

值得注意的是,頭部模型性能差距顯著縮小,榜首與第十名得分差已從11.9%降至5.4%。

打開網(wǎng)易新聞 查看精彩圖片


5. AI邏輯短板,推理能力仍是瓶頸

采用符號(hào)推理方法的AI系統(tǒng),能較好解決IMO問(wèn)題(雖未達(dá)人類頂尖水平),但LLM在MMMU等復(fù)雜推理任務(wù)中表現(xiàn)欠佳,尤其不擅長(zhǎng)算術(shù)推導(dǎo)和規(guī)劃類強(qiáng)邏輯性任務(wù)。

這一局限影響了其在醫(yī)療診斷等高風(fēng)險(xiǎn)場(chǎng)景的應(yīng)用可靠性。

打開網(wǎng)易新聞 查看精彩圖片


6. 大廠ALL in AI,投資與采用率創(chuàng)雙紀(jì)錄

科技大廠們,正全力押注AI。

2024年,美國(guó)私營(yíng)AI投資達(dá)1091億美元,約為中國(guó)(93億)的12倍、英國(guó)(45億)的24倍。

生成式AI勢(shì)頭尤猛,全球私募投資達(dá)339億美元(同比增18.7%)。

與此同時(shí),企業(yè)AI采用率從55%升至78%。研究證實(shí),AI不僅能提升生產(chǎn)力,多數(shù)情況下還可縮小勞動(dòng)力技能差距。

更引人注目的是,將生成式AI應(yīng)用于至少一項(xiàng)業(yè)務(wù)職能的企業(yè)數(shù)量激增——從2023年的33%躍升至去年的71%,增幅超一倍。

打開網(wǎng)易新聞 查看精彩圖片


7. AI榮膺科學(xué)界最高榮譽(yù),摘諾獎(jiǎng)桂冠

2024年,兩項(xiàng)諾貝爾獎(jiǎng)分別授予深度學(xué)習(xí)理論基礎(chǔ)(物理學(xué))和蛋白質(zhì)折疊預(yù)測(cè)(化學(xué))研究,圖靈獎(jiǎng)則花落強(qiáng)化學(xué)習(xí)領(lǐng)域。

打開網(wǎng)易新聞 查看精彩圖片


8. AI教育普及加速,但資源差距仍存

全球2/3國(guó)家已或計(jì)劃開展K-12計(jì)算機(jī)科學(xué)教育,但非洲地區(qū)受限于電力等基礎(chǔ)設(shè)施,推進(jìn)緩慢。

美國(guó)81%的計(jì)算機(jī)教師認(rèn)為AI應(yīng)納入基礎(chǔ)課程,但僅47%具備相應(yīng)教學(xué)能力。


9. AI正深度融入日常生活

從醫(yī)療到交通,AI正快速?gòu)膶?shí)驗(yàn)室走向現(xiàn)實(shí)。

1995年,F(xiàn)DA批準(zhǔn)了第一款A(yù)I賦能的醫(yī)療器械。

截至2024年8月,F(xiàn)DA已批準(zhǔn)950款A(yù)I醫(yī)療設(shè)備——較2015年的6款和2023年的221款,增長(zhǎng)迅猛。

而在自動(dòng)駕駛領(lǐng)域,汽車已脫離實(shí)驗(yàn)階段:美國(guó)頭部運(yùn)營(yíng)商Waymo每周提供超15萬(wàn)次無(wú)人駕駛服務(wù)。

打開網(wǎng)易新聞 查看精彩圖片


10. 全球AI樂(lè)觀情緒上升,但地區(qū)差異顯著

中國(guó)(83%)、印尼(80%)和泰國(guó)(77%)民眾對(duì)AI持積極態(tài)度,而加拿大(40%)、美國(guó)(39%)等發(fā)達(dá)國(guó)家則相對(duì)保守。

值得關(guān)注的是,德國(guó)(+10%)、法國(guó)(+10%)等原懷疑論國(guó)家態(tài)度明顯轉(zhuǎn)變。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片


11. 負(fù)責(zé)任AI生態(tài)發(fā)展不均

雖然AI安全事件激增,但主流模型開發(fā)商仍缺乏標(biāo)準(zhǔn)化評(píng)估體系。

HELM Safety、AIR-Bench和FACTS等新基準(zhǔn)為事實(shí)性與安全性評(píng)估提供工具。

企業(yè)普遍存在「認(rèn)知與行動(dòng)脫節(jié)」,而各國(guó)政府加速協(xié)作:2024年,經(jīng)合組織、歐盟等國(guó)際機(jī)構(gòu)相繼發(fā)布聚焦透明度、可信度的治理框架。

打開網(wǎng)易新聞 查看精彩圖片

·問(wèn)題AI數(shù)量躍升

根據(jù)權(quán)威AI危害追蹤數(shù)據(jù)庫(kù)「AI事件庫(kù)」(AI Incidents Database)統(tǒng)計(jì),2024年全球AI相關(guān)危害事件激增至233起,創(chuàng)下歷史新高,較2023年暴漲56.4%。

其中既包括深度偽造私密圖像案件,也涉及聊天機(jī)器人疑似導(dǎo)致青少年自殺等惡性事件。

盡管該統(tǒng)計(jì)未能涵蓋全部案例,但已清晰揭示AI技術(shù)濫用正在呈現(xiàn)驚人增長(zhǎng)態(tài)勢(shì)。

打開網(wǎng)易新聞 查看精彩圖片


12. 全球監(jiān)管力度持續(xù)加強(qiáng)

2024年美國(guó)聯(lián)邦機(jī)構(gòu)頒布59項(xiàng)AI法規(guī),涉及部門數(shù)量翻倍。

75個(gè)國(guó)家立法機(jī)構(gòu)提及AI頻次同比增長(zhǎng)21.3%,較2016年增長(zhǎng)九倍。

投資方面:加拿大承諾24億美元,中國(guó)設(shè)立475億美元半導(dǎo)體基金,法國(guó)投入1090億歐元,印度撥款12.5億美元,沙特啟動(dòng)千億美元級(jí)的「超越計(jì)劃」。

打開網(wǎng)易新聞 查看精彩圖片

詳細(xì)亮點(diǎn)解讀

下面,我們將摘出報(bào)告中的亮點(diǎn)內(nèi)容,提供更詳細(xì)的解讀。

中美差距僅剩0.3%

翻開502頁(yè)的報(bào)告,最吸睛的部分,莫過(guò)于中美AI差異這部分了。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

報(bào)告中強(qiáng)調(diào),雖然2024年,美國(guó)在頂尖AI模型的研發(fā)上依然領(lǐng)先,但中美模型之間的性能差距,正在迅速縮?。?/p>

為了衡量AI領(lǐng)域過(guò)去一年演變的全球格局,HAI特意用AI指數(shù),列出了具有代表性的模型所屬國(guó)家,美國(guó)依然居首。

數(shù)據(jù)顯示,在2024年,美國(guó)機(jī)構(gòu)以擁有40個(gè)知名模型領(lǐng)先,遠(yuǎn)遠(yuǎn)超過(guò)中國(guó)的15個(gè)和歐洲的3個(gè)。

打開網(wǎng)易新聞 查看精彩圖片

總體來(lái)說(shuō),模型發(fā)布總量已經(jīng)下降,可能是多個(gè)因素共同導(dǎo)致的,比如訓(xùn)練規(guī)模日益龐大、AI技術(shù)日益復(fù)雜,開發(fā)新模型方法的難度也在增加。

AI模型已成為算力巨獸

打開網(wǎng)易新聞 查看精彩圖片

·參數(shù)趨勢(shì)

簡(jiǎn)單的說(shuō),參數(shù)就是AI模型通過(guò)訓(xùn)練學(xué)到的一些數(shù)字,這些數(shù)字決定了模型如何理解輸入和怎樣輸出。

AI的參數(shù)越多需要的訓(xùn)練數(shù)據(jù)也越多,但同時(shí)性能也更厲害。

從2010年代初開始,模型的參數(shù)量就蹭蹭往上漲,這背后是因?yàn)槟P驮O(shè)計(jì)得越來(lái)越復(fù)雜、數(shù)據(jù)更容易獲取、硬件算力也更強(qiáng)了。

更重要的是,大模型確實(shí)效果好。

下圖用了對(duì)數(shù)刻度,方便大家看清楚AI模型參數(shù)和算力近年來(lái)的爆炸式增長(zhǎng)。

打開網(wǎng)易新聞 查看精彩圖片

隨著模型參數(shù)數(shù)量的增加,訓(xùn)練所需的數(shù)據(jù)量也在暴漲。

2017年發(fā)布的Transformer模型,掀起了大型語(yǔ)言模型的熱潮,當(dāng)時(shí)它用了大約20億個(gè)token來(lái)訓(xùn)練。

到了2020年,GPT-3 175B模型的訓(xùn)練數(shù)據(jù)已經(jīng)飆到了約3740億個(gè)token。

而Meta在2024年夏天發(fā)布的模型Llama 3.3,更是用了大約15萬(wàn)億個(gè)token來(lái)訓(xùn)練。

根據(jù)Epoch AI的數(shù)據(jù),大型語(yǔ)言模型的訓(xùn)練數(shù)據(jù)集規(guī)模大約每八個(gè)月翻一倍。

打開網(wǎng)易新聞 查看精彩圖片

訓(xùn)練數(shù)據(jù)集越來(lái)越大,導(dǎo)致的訓(xùn)練時(shí)間也變得越來(lái)越長(zhǎng)。

像Llama 3.1-405B這樣的模型,訓(xùn)練大概需要90天,這在如今已經(jīng)算是「正?!沟牧?。

谷歌在2023年底發(fā)布的Gemini 1.0 Ultra,訓(xùn)練時(shí)間大約是100天。

相比之下,2012年的AlexNet就顯得快多了,訓(xùn)練只花了五六天,而且AlexNet當(dāng)時(shí)用的硬件還遠(yuǎn)沒(méi)有現(xiàn)在的先進(jìn)。

打開網(wǎng)易新聞 查看精彩圖片

·算力趨勢(shì)

「算力」指的是訓(xùn)練和運(yùn)行AI模型所需的計(jì)算資源。

最近,知名AI模型的算力消耗呈指數(shù)級(jí)增長(zhǎng)。據(jù)Epoch AI估計(jì),知名AI模型的訓(xùn)練算力大約每五個(gè)月翻一番。

這種趨勢(shì)在過(guò)去五年尤為明顯。

打開網(wǎng)易新聞 查看精彩圖片

去年12月,DeepSeek V3一經(jīng)推出就引發(fā)了廣泛關(guān)注,主要就是因?yàn)樗谛阅苌蠘O其出色,但用的計(jì)算資源卻比許多頂尖大型語(yǔ)言模型少得多。

下圖1.3.17比較了中國(guó)和美國(guó)知名AI模型的訓(xùn)練算力,揭示了一個(gè)重要趨勢(shì):美國(guó)的頂級(jí)AI模型通常比中國(guó)模型需要多得多的計(jì)算資源。

打開網(wǎng)易新聞 查看精彩圖片

·推理成本

推理成本,指的是對(duì)一個(gè)已訓(xùn)練模型進(jìn)行查詢所需的費(fèi)用,通常以「每百萬(wàn)tokens的美元價(jià)格」來(lái)衡量。

這份報(bào)告中AI token的價(jià)格數(shù)據(jù),來(lái)源于Artificial Analysis和Epoch AI的API定價(jià)專有數(shù)據(jù)庫(kù),而價(jià)格是根據(jù)輸入與輸出token的價(jià)格按3:1的權(quán)重平均計(jì)算得出的。

可以看出,單位性能的AI成本正在顯著下降。

而Epoch AI估計(jì),根據(jù)不同任務(wù)類型,大型語(yǔ)言模型的推理成本每年下降幅度可達(dá)9倍至900倍不等。

雖然如此,想要獲得來(lái)自O(shè)penAI、Meta和Anthropic的模型,仍需支付不小的溢價(jià)。

打開網(wǎng)易新聞 查看精彩圖片

·訓(xùn)練成本

雖然很少有AI公司披露具體的訓(xùn)練成本,但這個(gè)數(shù)字普遍已達(dá)到數(shù)百位美元。

OpenAI CEO奧特曼曾表示,訓(xùn)練GPT-4的訓(xùn)練成本超過(guò)了1億美元。

Anthropic的CEO Dario Amodei指出,目前正在訓(xùn)練的模型,成本約為10億美元。

DeepSeek-V3的600萬(wàn)美元,則打破了新低。

打開網(wǎng)易新聞 查看精彩圖片

圖1.3.24展示了基于云計(jì)算租賃價(jià)格的部分AI模型的訓(xùn)練成本估算。

打開網(wǎng)易新聞 查看精彩圖片

圖1.3.25展示了AI指數(shù)所估算的所有AI模型的訓(xùn)練成本。

打開網(wǎng)易新聞 查看精彩圖片

在2024年,Epoch能估算的少數(shù)模型之一,就是Llama 3.1-405B,訓(xùn)練成本約為1.7億美元。

另外,AI模型的訓(xùn)練成本與其計(jì)算需求之間存在直接的關(guān)聯(lián)。如圖1.3.26所示,計(jì)算需求更大的模型訓(xùn)練成本顯著更高。

打開網(wǎng)易新聞 查看精彩圖片

參考資料:YZNH

https://www.nature.com/articles/d41586-025-01033-y

https://hai.stanford.edu/ai-index/2025-ai-index-report

https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts