
新智元報(bào)道
編輯:編輯部
【新智元導(dǎo)讀】2025年斯坦福HAI報(bào)告重磅發(fā)布,456頁(yè)深度剖析全球AI領(lǐng)域的最新趨勢(shì):中美頂級(jí)模型性能差距縮至0.3%,以DeepSeek為代表的模型強(qiáng)勢(shì)崛起,逼近閉源巨頭;推理成本暴降,小模型性能飆升,AI正變得更高效、更普惠。
就在剛剛,每年都備受矚目的斯坦福AI指數(shù)報(bào)告,重磅發(fā)布了!
這份報(bào)告由斯坦福大學(xué)以人為本AI研究員發(fā)布,代表著每年AI領(lǐng)域最核心和前沿的動(dòng)向總結(jié)。
今年,這份報(bào)告長(zhǎng)達(dá)456頁(yè),拋出不少驚人觀點(diǎn)。

比如,如今在2025年,中美頂級(jí)AI模型的性能差距已經(jīng)縮小到了0.3%(2023年,這一數(shù)字還是20%),中國(guó)模型正在快速追趕美國(guó)的領(lǐng)先地位!
而DeepSeek領(lǐng)銜的開放權(quán)重模型,更是以1.7%之差,逼宮各大閉源巨頭。前者和后者的差距,已經(jīng)由2024年的8%,縮小至2025年的1.7%。
當(dāng)然,目前從行業(yè)主導(dǎo)企業(yè)來(lái)看,美國(guó)仍然領(lǐng)先于中國(guó)。在2024年,90%的知名AI模型來(lái)自企業(yè),美國(guó)以40個(gè)模型領(lǐng)先,中國(guó)有15個(gè)。
更明顯的一個(gè)趨勢(shì),就是如今大模型的性能已經(jīng)趨同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它們的差距已經(jīng)越來(lái)越小,銳減至5%。

十二大亮點(diǎn)
最新的斯坦福HAI兩篇博文中,濃縮了2025年AI指數(shù)報(bào)告的十二大亮點(diǎn)。
1. AI性能再攀高峰,從基準(zhǔn)測(cè)試到視頻生成全面突破
2023年,研究人員推出了MMMU、GPQA和SWE-bench等新基準(zhǔn)來(lái)測(cè)試先進(jìn)AI系統(tǒng)的極限。
僅一年后,性能便大幅提升:AI在三項(xiàng)基準(zhǔn)得分分別飆升18.8%、48.9%和67.3%。
不僅如此,AI在生成高質(zhì)量視頻方面取得重大突破,甚至,在某些場(chǎng)景下AI智能體甚至超越人類表現(xiàn)。

·更有用智能體崛起
2024年發(fā)布的RE-Bench基準(zhǔn)測(cè)試,為評(píng)估AI智能體復(fù)雜任務(wù)能力設(shè)立了嚴(yán)苛標(biāo)準(zhǔn)。
數(shù)據(jù)顯示:在短期任務(wù)(2小時(shí)內(nèi))場(chǎng)景下,頂級(jí)AI系統(tǒng)的表現(xiàn)可達(dá)人類專家的4倍;但當(dāng)任務(wù)時(shí)限延長(zhǎng)至32小時(shí),人類則以2:1的優(yōu)勢(shì)反超。
值得注意的是,AI已在特定領(lǐng)域,如編寫特定類型代碼,展現(xiàn)出與人類相當(dāng)?shù)膶I(yè)水平,且執(zhí)行效率更勝一籌。

2. 美國(guó)領(lǐng)跑頂尖模型研發(fā),但中國(guó)與之差距逐漸縮小
2024年,美國(guó)產(chǎn)出40個(gè)重要AI模型,遠(yuǎn)超中國(guó)的15個(gè)和歐洲的3個(gè)。
然而,中國(guó)模型在性能上的差距正加速縮?。篗MLU等基準(zhǔn)測(cè)試中,中美AI差異從兩位數(shù)縮小至近乎持平。
同時(shí),中國(guó)在AI學(xué)術(shù)論文和專利申請(qǐng)量上持續(xù)領(lǐng)跑,中東、拉美和東南亞地區(qū)也涌現(xiàn)出具有競(jìng)爭(zhēng)力的模型。

3. AI正變得高效且普惠,推理成本暴降280倍
隨著小模型性能提升,達(dá)到GPT-3.5水平的推理成本在兩年間下降280倍,硬件成本以每年30%的速度遞減,能效年提升率達(dá)40%。
更令人振奮的是,開源模型性能突飛猛進(jìn),部分基準(zhǔn)測(cè)試中與閉源模型的差距從8%縮至1.7%。
· 大模型使用成本持續(xù)走低,年降幅最高900倍
在MMLU基準(zhǔn)測(cè)試中達(dá)到GPT-3.5水平(MMLU準(zhǔn)確率64.8%)的AI模型調(diào)用成本,已從2022年11月的20美元/每百萬(wàn)token,驟降至2024年10月的0.07美元/每百萬(wàn)token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18個(gè)月內(nèi)AI成本下降280倍。
視具體任務(wù)需求,LLM推理服務(wù)價(jià)格的年降幅可達(dá)9-900倍不等。

·小模型性能顯著提升,參數(shù)暴減142倍
2022年,在大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)基準(zhǔn)測(cè)試中,得分超60%的最小模型是 PaLM,參數(shù)量為5400億。
到了2024年,微軟Phi-3-mini僅用38億參數(shù),就取得了同樣的實(shí)力。
這代表,兩年多的時(shí)間里模型參數(shù)減少了142倍。

4. 科技巨頭稱霸AI前沿,但競(jìng)爭(zhēng)白熱化
2024年,近90%的重要模型源自企業(yè),學(xué)術(shù)界則保持基礎(chǔ)研究?jī)?yōu)勢(shì)。
模型規(guī)模呈指數(shù)增長(zhǎng):訓(xùn)練算力每5個(gè)月翻番,數(shù)據(jù)集每8個(gè)月擴(kuò)容一倍。
值得注意的是,頭部模型性能差距顯著縮小,榜首與第十名得分差已從11.9%降至5.4%。

5. AI邏輯短板,推理能力仍是瓶頸
采用符號(hào)推理方法的AI系統(tǒng),能較好解決IMO問(wèn)題(雖未達(dá)人類頂尖水平),但LLM在MMMU等復(fù)雜推理任務(wù)中表現(xiàn)欠佳,尤其不擅長(zhǎng)算術(shù)推導(dǎo)和規(guī)劃類強(qiáng)邏輯性任務(wù)。
這一局限影響了其在醫(yī)療診斷等高風(fēng)險(xiǎn)場(chǎng)景的應(yīng)用可靠性。

6. 大廠ALL in AI,投資與采用率創(chuàng)雙紀(jì)錄
科技大廠們,正全力押注AI。
2024年,美國(guó)私營(yíng)AI投資達(dá)1091億美元,約為中國(guó)(93億)的12倍、英國(guó)(45億)的24倍。
生成式AI勢(shì)頭尤猛,全球私募投資達(dá)339億美元(同比增18.7%)。
與此同時(shí),企業(yè)AI采用率從55%升至78%。研究證實(shí),AI不僅能提升生產(chǎn)力,多數(shù)情況下還可縮小勞動(dòng)力技能差距。
更引人注目的是,將生成式AI應(yīng)用于至少一項(xiàng)業(yè)務(wù)職能的企業(yè)數(shù)量激增——從2023年的33%躍升至去年的71%,增幅超一倍。

7. AI榮膺科學(xué)界最高榮譽(yù),摘諾獎(jiǎng)桂冠
2024年,兩項(xiàng)諾貝爾獎(jiǎng)分別授予深度學(xué)習(xí)理論基礎(chǔ)(物理學(xué))和蛋白質(zhì)折疊預(yù)測(cè)(化學(xué))研究,圖靈獎(jiǎng)則花落強(qiáng)化學(xué)習(xí)領(lǐng)域。

8. AI教育普及加速,但資源差距仍存
全球2/3國(guó)家已或計(jì)劃開展K-12計(jì)算機(jī)科學(xué)教育,但非洲地區(qū)受限于電力等基礎(chǔ)設(shè)施,推進(jìn)緩慢。
美國(guó)81%的計(jì)算機(jī)教師認(rèn)為AI應(yīng)納入基礎(chǔ)課程,但僅47%具備相應(yīng)教學(xué)能力。
9. AI正深度融入日常生活
從醫(yī)療到交通,AI正快速?gòu)膶?shí)驗(yàn)室走向現(xiàn)實(shí)。
1995年,F(xiàn)DA批準(zhǔn)了第一款A(yù)I賦能的醫(yī)療器械。
截至2024年8月,F(xiàn)DA已批準(zhǔn)950款A(yù)I醫(yī)療設(shè)備——較2015年的6款和2023年的221款,增長(zhǎng)迅猛。
而在自動(dòng)駕駛領(lǐng)域,汽車已脫離實(shí)驗(yàn)階段:美國(guó)頭部運(yùn)營(yíng)商Waymo每周提供超15萬(wàn)次無(wú)人駕駛服務(wù)。

10. 全球AI樂(lè)觀情緒上升,但地區(qū)差異顯著
中國(guó)(83%)、印尼(80%)和泰國(guó)(77%)民眾對(duì)AI持積極態(tài)度,而加拿大(40%)、美國(guó)(39%)等發(fā)達(dá)國(guó)家則相對(duì)保守。
值得關(guān)注的是,德國(guó)(+10%)、法國(guó)(+10%)等原懷疑論國(guó)家態(tài)度明顯轉(zhuǎn)變。


11. 負(fù)責(zé)任AI生態(tài)發(fā)展不均
雖然AI安全事件激增,但主流模型開發(fā)商仍缺乏標(biāo)準(zhǔn)化評(píng)估體系。
HELM Safety、AIR-Bench和FACTS等新基準(zhǔn)為事實(shí)性與安全性評(píng)估提供工具。
企業(yè)普遍存在「認(rèn)知與行動(dòng)脫節(jié)」,而各國(guó)政府加速協(xié)作:2024年,經(jīng)合組織、歐盟等國(guó)際機(jī)構(gòu)相繼發(fā)布聚焦透明度、可信度的治理框架。

·問(wèn)題AI數(shù)量躍升
根據(jù)權(quán)威AI危害追蹤數(shù)據(jù)庫(kù)「AI事件庫(kù)」(AI Incidents Database)統(tǒng)計(jì),2024年全球AI相關(guān)危害事件激增至233起,創(chuàng)下歷史新高,較2023年暴漲56.4%。
其中既包括深度偽造私密圖像案件,也涉及聊天機(jī)器人疑似導(dǎo)致青少年自殺等惡性事件。
盡管該統(tǒng)計(jì)未能涵蓋全部案例,但已清晰揭示AI技術(shù)濫用正在呈現(xiàn)驚人增長(zhǎng)態(tài)勢(shì)。

12. 全球監(jiān)管力度持續(xù)加強(qiáng)
2024年美國(guó)聯(lián)邦機(jī)構(gòu)頒布59項(xiàng)AI法規(guī),涉及部門數(shù)量翻倍。
75個(gè)國(guó)家立法機(jī)構(gòu)提及AI頻次同比增長(zhǎng)21.3%,較2016年增長(zhǎng)九倍。
投資方面:加拿大承諾24億美元,中國(guó)設(shè)立475億美元半導(dǎo)體基金,法國(guó)投入1090億歐元,印度撥款12.5億美元,沙特啟動(dòng)千億美元級(jí)的「超越計(jì)劃」。

詳細(xì)亮點(diǎn)解讀
下面,我們將摘出報(bào)告中的亮點(diǎn)內(nèi)容,提供更詳細(xì)的解讀。
中美差距僅剩0.3%
翻開502頁(yè)的報(bào)告,最吸睛的部分,莫過(guò)于中美AI差異這部分了。


報(bào)告中強(qiáng)調(diào),雖然2024年,美國(guó)在頂尖AI模型的研發(fā)上依然領(lǐng)先,但中美模型之間的性能差距,正在迅速縮?。?/p>
為了衡量AI領(lǐng)域過(guò)去一年演變的全球格局,HAI特意用AI指數(shù),列出了具有代表性的模型所屬國(guó)家,美國(guó)依然居首。
數(shù)據(jù)顯示,在2024年,美國(guó)機(jī)構(gòu)以擁有40個(gè)知名模型領(lǐng)先,遠(yuǎn)遠(yuǎn)超過(guò)中國(guó)的15個(gè)和歐洲的3個(gè)。

總體來(lái)說(shuō),模型發(fā)布總量已經(jīng)下降,可能是多個(gè)因素共同導(dǎo)致的,比如訓(xùn)練規(guī)模日益龐大、AI技術(shù)日益復(fù)雜,開發(fā)新模型方法的難度也在增加。
AI模型已成為算力巨獸

·參數(shù)趨勢(shì)
簡(jiǎn)單的說(shuō),參數(shù)就是AI模型通過(guò)訓(xùn)練學(xué)到的一些數(shù)字,這些數(shù)字決定了模型如何理解輸入和怎樣輸出。
AI的參數(shù)越多需要的訓(xùn)練數(shù)據(jù)也越多,但同時(shí)性能也更厲害。
從2010年代初開始,模型的參數(shù)量就蹭蹭往上漲,這背后是因?yàn)槟P驮O(shè)計(jì)得越來(lái)越復(fù)雜、數(shù)據(jù)更容易獲取、硬件算力也更強(qiáng)了。
更重要的是,大模型確實(shí)效果好。
下圖用了對(duì)數(shù)刻度,方便大家看清楚AI模型參數(shù)和算力近年來(lái)的爆炸式增長(zhǎng)。

隨著模型參數(shù)數(shù)量的增加,訓(xùn)練所需的數(shù)據(jù)量也在暴漲。
2017年發(fā)布的Transformer模型,掀起了大型語(yǔ)言模型的熱潮,當(dāng)時(shí)它用了大約20億個(gè)token來(lái)訓(xùn)練。
到了2020年,GPT-3 175B模型的訓(xùn)練數(shù)據(jù)已經(jīng)飆到了約3740億個(gè)token。
而Meta在2024年夏天發(fā)布的模型Llama 3.3,更是用了大約15萬(wàn)億個(gè)token來(lái)訓(xùn)練。
根據(jù)Epoch AI的數(shù)據(jù),大型語(yǔ)言模型的訓(xùn)練數(shù)據(jù)集規(guī)模大約每八個(gè)月翻一倍。

訓(xùn)練數(shù)據(jù)集越來(lái)越大,導(dǎo)致的訓(xùn)練時(shí)間也變得越來(lái)越長(zhǎng)。
像Llama 3.1-405B這樣的模型,訓(xùn)練大概需要90天,這在如今已經(jīng)算是「正?!沟牧?。
谷歌在2023年底發(fā)布的Gemini 1.0 Ultra,訓(xùn)練時(shí)間大約是100天。
相比之下,2012年的AlexNet就顯得快多了,訓(xùn)練只花了五六天,而且AlexNet當(dāng)時(shí)用的硬件還遠(yuǎn)沒(méi)有現(xiàn)在的先進(jìn)。

·算力趨勢(shì)
「算力」指的是訓(xùn)練和運(yùn)行AI模型所需的計(jì)算資源。
最近,知名AI模型的算力消耗呈指數(shù)級(jí)增長(zhǎng)。據(jù)Epoch AI估計(jì),知名AI模型的訓(xùn)練算力大約每五個(gè)月翻一番。
這種趨勢(shì)在過(guò)去五年尤為明顯。

去年12月,DeepSeek V3一經(jīng)推出就引發(fā)了廣泛關(guān)注,主要就是因?yàn)樗谛阅苌蠘O其出色,但用的計(jì)算資源卻比許多頂尖大型語(yǔ)言模型少得多。
下圖1.3.17比較了中國(guó)和美國(guó)知名AI模型的訓(xùn)練算力,揭示了一個(gè)重要趨勢(shì):美國(guó)的頂級(jí)AI模型通常比中國(guó)模型需要多得多的計(jì)算資源。

·推理成本
推理成本,指的是對(duì)一個(gè)已訓(xùn)練模型進(jìn)行查詢所需的費(fèi)用,通常以「每百萬(wàn)tokens的美元價(jià)格」來(lái)衡量。
這份報(bào)告中AI token的價(jià)格數(shù)據(jù),來(lái)源于Artificial Analysis和Epoch AI的API定價(jià)專有數(shù)據(jù)庫(kù),而價(jià)格是根據(jù)輸入與輸出token的價(jià)格按3:1的權(quán)重平均計(jì)算得出的。
可以看出,單位性能的AI成本正在顯著下降。
而Epoch AI估計(jì),根據(jù)不同任務(wù)類型,大型語(yǔ)言模型的推理成本每年下降幅度可達(dá)9倍至900倍不等。
雖然如此,想要獲得來(lái)自O(shè)penAI、Meta和Anthropic的模型,仍需支付不小的溢價(jià)。

·訓(xùn)練成本
雖然很少有AI公司披露具體的訓(xùn)練成本,但這個(gè)數(shù)字普遍已達(dá)到數(shù)百位美元。
OpenAI CEO奧特曼曾表示,訓(xùn)練GPT-4的訓(xùn)練成本超過(guò)了1億美元。
Anthropic的CEO Dario Amodei指出,目前正在訓(xùn)練的模型,成本約為10億美元。
DeepSeek-V3的600萬(wàn)美元,則打破了新低。

圖1.3.24展示了基于云計(jì)算租賃價(jià)格的部分AI模型的訓(xùn)練成本估算。

圖1.3.25展示了AI指數(shù)所估算的所有AI模型的訓(xùn)練成本。

在2024年,Epoch能估算的少數(shù)模型之一,就是Llama 3.1-405B,訓(xùn)練成本約為1.7億美元。
另外,AI模型的訓(xùn)練成本與其計(jì)算需求之間存在直接的關(guān)聯(lián)。如圖1.3.26所示,計(jì)算需求更大的模型訓(xùn)練成本顯著更高。

參考資料:YZNH
https://www.nature.com/articles/d41586-025-01033-y
https://hai.stanford.edu/ai-index/2025-ai-index-report
https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts
熱門跟貼