
權(quán)威報(bào)告數(shù)據(jù)顯示,中美 AI 差距進(jìn)一步縮小。
作者丨洪雨欣、梁丙鑒
編輯丨陳彩嫻
4 月 7 日,斯坦福大學(xué)以人為本的人工智能研究所 (HAI) 發(fā)表了新的《2025年人工智能指數(shù)報(bào)告》,多項(xiàng)數(shù)據(jù)統(tǒng)計(jì)表明:中美 AI 的差距正在縮小,AI 技術(shù)的創(chuàng)新速度是過(guò)去十年的數(shù)倍之快。
該報(bào)告總篇幅接近 450 頁(yè),主要亮點(diǎn)包括:
首先,報(bào)告指出,過(guò)去一年中美的 AI 投資都有了極大增長(zhǎng)。其中,美國(guó) AI 私人投資金額增長(zhǎng)至 1091 億美元,幾乎是中國(guó)的 12 倍(93 億美元)與英國(guó)的 24 倍(45 億美元)。AIGC 創(chuàng)業(yè)的全球融資規(guī)模是 339 億美元,相比 2023 年增長(zhǎng)了 18.7%。
其次,AI 模型正在變得肉眼可見地高效。在高效小模型的驅(qū)動(dòng)下,GPT-3.5 級(jí)別的模型推理成本從 2022 年 11 月到 2024 年 10 月已經(jīng)下降 280 倍,硬件成本每年下降 30%。
同時(shí),企業(yè)界在 AI 研究上明顯領(lǐng)先學(xué)術(shù)界。報(bào)告指出,2024 年幾乎 90% 的知名 AI 模型都是來(lái)自企業(yè)界,相比之下 2023 年是 60%。但盡管模型的參數(shù)規(guī)模在持續(xù)擴(kuò)大,模型的性能差距卻在縮小:數(shù)據(jù)顯示,全球最頂尖的 AI 模型與排名第 10 的模型之間的性能差距在一年內(nèi)從 11.9% 縮小到了 5.4%。
此外,去年的指數(shù)報(bào)告重點(diǎn)指出了閉源與開源LLM之間顯著的性能差距,而在今年,這個(gè)差距被縮小至1.7%。
1
AI Infra 突飛猛進(jìn)
報(bào)告統(tǒng)計(jì)顯示:每美元的人工智能性能已經(jīng)大幅提高。一個(gè)相當(dāng)于GPT-3.5的人工智能模型的推理成本,從2022年11月的每百萬(wàn)個(gè)token 20.00美元下降到2024年10月的僅每百萬(wàn)個(gè)token 0.07美元(Gemini-1.5-Flash-8B),在大約1.5年的時(shí)間里減少了280多倍。

Epoch估計(jì),固定性能級(jí)別的硬件成本每年下降30%,這使得人工智能訓(xùn)練變得日益經(jīng)濟(jì)實(shí)惠、可擴(kuò)展,并有助于模型改進(jìn)。報(bào)告還稱,機(jī)器學(xué)習(xí)(ML)硬件的能效隨時(shí)間推移顯著提升,每年約提高40%。

根據(jù)Epoch AI數(shù)據(jù),2024年企業(yè)界貢獻(xiàn)了55個(gè)知名AI模型,而同年學(xué)術(shù)界未產(chǎn)生任何知名模型。值得注意的是,企業(yè)和學(xué)術(shù)合作產(chǎn)生的模型數(shù)量正持續(xù)增長(zhǎng)。過(guò)去十年間,源自產(chǎn)業(yè)界的知名AI模型占比呈穩(wěn)定上升趨勢(shì),至2024年已達(dá)到90.2%。

2024年,主要貢獻(xiàn)機(jī)構(gòu)為OpenAI(7個(gè)模型)、谷歌(6個(gè))和阿里巴巴(4個(gè))。自2014年以來(lái),谷歌以186個(gè)知名模型位居榜首,其次是Meta(82個(gè))和微軟(39個(gè))。在學(xué)術(shù)機(jī)構(gòu)中,卡內(nèi)基梅隆大學(xué)(25個(gè))、斯坦福大學(xué)(25個(gè))和清華大學(xué)(22個(gè))自2014年以來(lái)的模型產(chǎn)出量最為突出。

隨著模型參數(shù)量的增長(zhǎng),AI系統(tǒng)的訓(xùn)練數(shù)據(jù)規(guī)模也同步擴(kuò)大。Meta于2024年夏季推出的旗艦大語(yǔ)言模型Llama 3.3,訓(xùn)練token量更是突破15萬(wàn)億大關(guān)。

據(jù)Epoch AI研究顯示,大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)集規(guī)模約每8個(gè)月翻一番。這一指數(shù)級(jí)增長(zhǎng)趨勢(shì)與模型復(fù)雜度的提升形成協(xié)同效應(yīng),持續(xù)推動(dòng)AI性能邊界擴(kuò)展。
Epoch估計(jì),重要AI模型的訓(xùn)練算力約每5個(gè)月翻倍一次,數(shù)據(jù)集每8個(gè)月翻倍,能耗每年增長(zhǎng),這一趨勢(shì)在過(guò)去五年尤為顯著。

OpenAI當(dāng)前最先進(jìn)的GPT-4o基礎(chǔ)模型,其訓(xùn)練算力高達(dá)380億petaFLOP。

這種資源門檻使得學(xué)術(shù)界難以企及,導(dǎo)致企業(yè)界持續(xù)主導(dǎo)AI前沿研發(fā)。盡管今年差距略有收窄(去年AI指數(shù)報(bào)告首次指出該趨勢(shì)),但這一分化態(tài)勢(shì)仍在延續(xù)。
2024年12月推出DeepSeek V3模型引發(fā)了廣泛關(guān)注,其核心突破在于:在實(shí)現(xiàn)頂尖性能的同時(shí),所需計(jì)算資源顯著低于多數(shù)主流大語(yǔ)言模型。下圖對(duì)比了中美兩國(guó)知名機(jī)器學(xué)習(xí)模型的訓(xùn)練算力,揭示出一個(gè)關(guān)鍵趨勢(shì):美國(guó)頂級(jí)AI模型的算力需求普遍遠(yuǎn)超中國(guó)同類產(chǎn)品。

據(jù)Epoch AI數(shù)據(jù)顯示:
中國(guó)頭部語(yǔ)言模型的訓(xùn)練算力增長(zhǎng)自2021年底保持約3倍/年的增速
全球其他地區(qū)自2018年以來(lái)維持著5倍/年的增速水平
這一差距折射出兩國(guó)在AI研發(fā)路徑上的差異化選擇:中國(guó)團(tuán)隊(duì)更注重算法效率優(yōu)化,而國(guó)際同行則傾向于通過(guò)算力堆砌推動(dòng)性能突破。不過(guò)值得注意的是,DeepSeek V3的成功案例表明,計(jì)算效率的提升可能成為未來(lái)AI競(jìng)賽的新賽道。
但是,AI指數(shù)的數(shù)據(jù)也驗(yàn)證了近年來(lái)的行業(yè)猜測(cè):模型訓(xùn)練成本正呈現(xiàn)顯著上升趨勢(shì)。
2024年,少數(shù)可估算模型之一Llama 3.1-405B,訓(xùn)練成本高達(dá)1.7億美元。訓(xùn)練成本的高升主要為以下三點(diǎn)因素:
競(jìng)爭(zhēng)加劇導(dǎo)致企業(yè)減少訓(xùn)練過(guò)程披露,成本估算難度增加
訓(xùn)練成本與計(jì)算需求呈直接正相關(guān)
計(jì)算需求越大的模型,其訓(xùn)練成本呈幾何級(jí)數(shù)增長(zhǎng)

2
各個(gè)大模型性能差距縮小
2024年1月初,領(lǐng)先的閉源模型性能超出頂級(jí)開源模型8.0%。至2025年2月,這一差距已縮小至1.7%。

這一快速進(jìn)步主要得益于Meta在夏季發(fā)布的Llama 3.1,以及隨后推出的其他高性能開源模型,如DeepSeek的V3版本。
下圖展示了截至2025年1月Chatbot Arena排行榜前十名模型的概況。值得注意的是,2023年榜首模型與第十名模型的Elo技能評(píng)分差距為11.9%。而到2025年,這一差距已縮小至僅5.4%。

盡管思維鏈等推理機(jī)制的引入顯著提升了大語(yǔ)言模型(LLM)的性能表現(xiàn),但這類系統(tǒng)仍存在以下關(guān)鍵局限:
可靠性缺陷
無(wú)法穩(wěn)定解決可通過(guò)邏輯推理驗(yàn)證正確性的問(wèn)題(如算術(shù)運(yùn)算、任務(wù)規(guī)劃等)
面對(duì)超出訓(xùn)練數(shù)據(jù)規(guī)模的實(shí)例時(shí)表現(xiàn)尤為不佳
應(yīng)用制約
嚴(yán)重影響系統(tǒng)的可信度評(píng)估
限制其在高風(fēng)險(xiǎn)場(chǎng)景(如金融決策、醫(yī)療診斷等)的應(yīng)用可行性

OpenAI發(fā)布的o1模型在PlanBench測(cè)試中,對(duì)于需要至少20步解決的復(fù)雜實(shí)例,o1僅能完成23.6%。

規(guī)劃本質(zhì)上是組合優(yōu)化問(wèn)題,解決長(zhǎng)序列問(wèn)題所需時(shí)間必然超過(guò)線性增長(zhǎng)。這一特性解釋了當(dāng)前模型在復(fù)雜規(guī)劃任務(wù)上的性能局限。
早期模型雖展現(xiàn)潛力,卻存在明顯缺陷:畫質(zhì)低下、缺乏音頻支持、視頻時(shí)長(zhǎng)過(guò)短等(通常僅能生成2-4秒片段)。2024年,這一領(lǐng)域迎來(lái)重大突破——多家科技巨頭相繼發(fā)布新一代視頻生成系統(tǒng)。具體突破點(diǎn)如下:
視頻時(shí)長(zhǎng)從秒級(jí)突破至20秒級(jí)
分辨率實(shí)現(xiàn)高清(HD)標(biāo)準(zhǔn)
生成內(nèi)容從2D拓展至3D領(lǐng)域
標(biāo)志著文本-視頻生成技術(shù)進(jìn)入實(shí)用化階段

2024年成為人形機(jī)器人發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn),具有類人形態(tài)和功能仿生的機(jī)器人實(shí)現(xiàn)多項(xiàng)突破。以Figure AI為代表的創(chuàng)新企業(yè)推出新一代通用人形機(jī)器人Figure 02,其技術(shù)特征包括復(fù)雜任務(wù)執(zhí)行、實(shí)現(xiàn)智能交互、支持"語(yǔ)音-推理-語(yǔ)音"閉環(huán)。

除AutoRT系統(tǒng)外,DeepMind同期發(fā)布了ALOHA(高級(jí)活動(dòng)自主學(xué)習(xí)系統(tǒng))和DemoStart兩大創(chuàng)新平臺(tái)。其中ALOHA Unleashed版本在機(jī)器人精細(xì)操作領(lǐng)域?qū)崿F(xiàn)了重大突破,首次實(shí)現(xiàn)類人級(jí)精細(xì)動(dòng)作控制,并證明了大模型+模仿學(xué)習(xí)的工程可行性。

3
大模型投資規(guī)模增長(zhǎng)
2024年AI總投資額增至2523億美元,較2023年增長(zhǎng)25.5%。過(guò)去十年間,人工智能相關(guān)投資規(guī)模增長(zhǎng)了近13倍。
下圖展示了2013年至2024年全球企業(yè)人工智能投資的趨勢(shì),涵蓋并購(gòu)、少數(shù)股權(quán)、私募投資和公開募股。

2023至2024年間,全球AI領(lǐng)域私募投資增長(zhǎng)44.5%,這是自2021年以來(lái)首次實(shí)現(xiàn)同比增長(zhǎng)。

2024年生成式AI領(lǐng)域共吸引339億美元投資,較2023年增長(zhǎng)18.7%,達(dá)到2022年投資規(guī)模的8.5倍以上。值得注意的是,2024年生成式AI投資占全部AI相關(guān)私募投資總額的比重已超過(guò)五分之一。

2024年獲得融資的AI企業(yè)數(shù)量躍升至2049家,較上年增長(zhǎng)8.4%。其中,生成式AI領(lǐng)域的新獲投企業(yè)數(shù)量顯著增加——全年共有214家初創(chuàng)企業(yè)獲得融資,較2023年的179家和2019年的31家實(shí)現(xiàn)大幅提升。

2024年數(shù)據(jù)顯示,美國(guó)以1091億美元投資額高居榜首,中國(guó)(93億美元)位列第二,僅為美國(guó)投資額的8.5%,英國(guó)(45億美元)位列第三,投資規(guī)模相當(dāng)于美國(guó)的4.1%。

2024年投資最集中的三大領(lǐng)域分別是:
AI基礎(chǔ)設(shè)施/研究/治理(373億美元)
數(shù)據(jù)管理與處理(166億美元)
醫(yī)療健康(110億美元)
其中,AI基礎(chǔ)設(shè)施、研究和治理領(lǐng)域的突出表現(xiàn),主要得益于OpenAI、Anthropic和xAI等專注AI應(yīng)用開發(fā)的頭部企業(yè)獲得的大額投資。

麥肯錫最新報(bào)告顯示:
整體AI應(yīng)用率從2023年的55%躍升至78%,78%受訪企業(yè)表示已在至少一個(gè)業(yè)務(wù)職能中應(yīng)用AI技術(shù)。
生成式AI應(yīng)用呈現(xiàn)爆發(fā)式增長(zhǎng):2024年應(yīng)用率達(dá)71%,較去年(33%)增長(zhǎng)超一倍。該技術(shù)作為去年新增調(diào)查項(xiàng)目,首次納入統(tǒng)計(jì)范圍。

企業(yè)應(yīng)用AI已實(shí)現(xiàn)降本增收雙重效益,成本節(jié)約最顯著領(lǐng)域?yàn)椋悍?wù)運(yùn)營(yíng)(49%受訪企業(yè)報(bào)告成效),供應(yīng)鏈與庫(kù)存管理(43%),軟件工程(41%)。

最新的微軟職場(chǎng)研究表明:常規(guī)辦公任務(wù)中,文檔編輯效率提升10-13%,郵件處理時(shí)間縮短11%。專業(yè)崗位提升更顯著——安全分析師任務(wù)完成速度加快23%,準(zhǔn)確率提高7%。
銷售團(tuán)隊(duì)響應(yīng)速度提升39%,同時(shí)轉(zhuǎn)化率提高25%。
在科研領(lǐng)域,材料發(fā)現(xiàn)速率提升44.1%,專利申請(qǐng)數(shù)量增長(zhǎng)39.4%,產(chǎn)品原型產(chǎn)出增加17.2%。
這些數(shù)據(jù)印證了AI在提升工作質(zhì)量和效率方面的雙重價(jià)值。

4
AI For Science 依然存在極高天花板
2024年,AI驅(qū)動(dòng)的研究斬獲最高榮譽(yù)——兩項(xiàng)諾貝爾獎(jiǎng)授予了人工智能領(lǐng)域的突破性成就。
Google DeepMind的Demis Hassabis與John Jumper憑借AlphaFold在蛋白質(zhì)折疊領(lǐng)域的開創(chuàng)性工作獲獎(jiǎng)。最新的AlphaFold 3已突破單一蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),實(shí)現(xiàn)了對(duì)蛋白質(zhì)與關(guān)鍵生物分子(DNA、RNA、配體、抗體)相互作用的精準(zhǔn)建模。

John Hopfield與Geoffrey Hinton因?qū)ι窠?jīng)網(wǎng)絡(luò)的基礎(chǔ)性貢獻(xiàn)獲物理獎(jiǎng)。

AI 助力醫(yī)學(xué)、生物學(xué)研究。研究人員采用定向進(jìn)化方法,證明大語(yǔ)言模型能夠生成在合成和實(shí)驗(yàn)適應(yīng)度景觀中均優(yōu)于傳統(tǒng)算法的蛋白質(zhì)序列。

生成式AI模型ProGen通過(guò)設(shè)計(jì)功能性蛋白質(zhì)序列,凸顯了AI輔助蛋白質(zhì)工程的潛力。同樣,基于Transformer的ProtT5等模型利用深度學(xué)習(xí)直接從序列數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)功能與相互作用,推動(dòng)了計(jì)算生物學(xué)發(fā)展。

公共數(shù)據(jù)庫(kù)的擴(kuò)展對(duì)AI在蛋白質(zhì)科學(xué)中的應(yīng)用至關(guān)重要,高質(zhì)量的大規(guī)模數(shù)據(jù)集使AI模型能基于多樣化的生物序列進(jìn)行訓(xùn)練,增強(qiáng)預(yù)測(cè)能力。2019年至今各公共蛋白質(zhì)科學(xué)數(shù)據(jù)庫(kù)的條目數(shù)量持續(xù)增長(zhǎng)。然而,保障數(shù)據(jù)質(zhì)量與避免模型偏差仍是持續(xù)挑戰(zhàn)。

圖像與多模態(tài)AI也在推動(dòng)科學(xué)發(fā)現(xiàn)。冷凍電鏡、高通量熒光顯微鏡與全玻片成像技術(shù)的進(jìn)步,使科學(xué)家能高精度解析原子、亞細(xì)胞及組織層面的結(jié)構(gòu),揭示復(fù)雜生物過(guò)程的新機(jī)制。
隨著高通量顯微鏡技術(shù)的興起,視覺-語(yǔ)言模型及新興的視覺-組學(xué)基礎(chǔ)模型成為研究熱點(diǎn)。顯微鏡基礎(chǔ)模型數(shù)量隨技術(shù)發(fā)展持續(xù)增加:2024年光學(xué)顯微鏡模型從4個(gè)翻倍至8個(gè)。

2024年生物科學(xué)中AI驅(qū)動(dòng)的蛋白質(zhì)研究中,功能預(yù)測(cè)(8.4%)居首,其次是結(jié)構(gòu)預(yù)測(cè)(7.6%)和蛋白質(zhì)-藥物相互作用(3.0%)。

面向生物任務(wù)的LLM智能體開發(fā)熱情提高。
隨著AI系統(tǒng)在科學(xué)領(lǐng)域(尤其是生物學(xué))的應(yīng)用價(jià)值日益凸顯,如何設(shè)計(jì)能夠調(diào)用工具解決復(fù)雜任務(wù)的智能語(yǔ)言模型成為關(guān)鍵挑戰(zhàn)。Aviary為此提供了一個(gè)結(jié)構(gòu)化框架,專門訓(xùn)練語(yǔ)言智能體應(yīng)對(duì)三大高難度科學(xué)任務(wù):
DNA操作(用于分子克隆)
科研問(wèn)題解答(通過(guò)檢索科學(xué)文獻(xiàn))
蛋白質(zhì)穩(wěn)定性工程
打開網(wǎng)易新聞 查看精彩圖片
在Aviary環(huán)境中,基線模型Claude 3.5 Sonnet因無(wú)法訪問(wèn)外部工具而表現(xiàn)受限,而集成到Aviary智能體框架中的模型在幾乎所有任務(wù)中均顯著優(yōu)于基線。
該研究揭示了兩大關(guān)鍵結(jié)論:
盡管通用LLMs在多數(shù)科學(xué)任務(wù)中表現(xiàn)良好,但結(jié)合領(lǐng)域?qū)<抑R(shí)對(duì)模型進(jìn)行微調(diào)可進(jìn)一步提升性能;
加速AI驅(qū)動(dòng)的科研創(chuàng)新不僅依賴模型規(guī)模,更需通過(guò)外部工具交互實(shí)現(xiàn)能力拓展——這種「智能體化AI」正成為新范式。
對(duì)于模型所需token量,臨床LLM GatorTron(820億token)遠(yuǎn)少于Llama 3(15萬(wàn)億token),影像模型RadImageNet(1,600萬(wàn)圖像等效token)僅為DALL-E(60億)的1/375。

此外,臨床場(chǎng)景AI應(yīng)用潛力巨大。微軟與OpenAI團(tuán)隊(duì)近期測(cè)試的o1模型以96.0%的準(zhǔn)確率創(chuàng)下新紀(jì)錄(較2023年提升5.8個(gè)百分點(diǎn))。

LLM臨床知識(shí)能力持續(xù)提升(尤其是配備實(shí)時(shí)推理的o1),但幻覺與多語(yǔ)言性能不一致問(wèn)題仍存。

在診斷推理方面,使用GPT-4輔助的醫(yī)師診斷準(zhǔn)確率(76%)僅略高于傳統(tǒng)工具組(74%);但GPT-4獨(dú)立診斷準(zhǔn)確率達(dá)92%,較無(wú)AI輔助醫(yī)師提升16個(gè)百分點(diǎn)(圖5.4.6)。盡管AI獨(dú)立表現(xiàn)優(yōu)異,診斷時(shí)間未顯著縮短。后續(xù)需通過(guò)重構(gòu)工作流、用戶培訓(xùn)與界面設(shè)計(jì),才能將孤立模型優(yōu)勢(shì)轉(zhuǎn)化為臨床協(xié)同效能。

在過(guò)去的五年中,對(duì)醫(yī)學(xué)人工智能倫理問(wèn)題的關(guān)注逐年增加。從2020年到2024年,與倫理和醫(yī)學(xué)人工智能相關(guān)的出版物數(shù)量增加了四倍。

5
公眾對(duì) AI 時(shí)代更樂(lè)觀
2024年,67%的受訪者表示“對(duì)AI是什么有良好理解”,66%認(rèn)為“AI將在不久的將來(lái)深刻改變他們的日常生活”。
認(rèn)為AI驅(qū)動(dòng)的產(chǎn)品和服務(wù)“利大于弊”的全球人口比例略有上升,從2022年的52%增至2024年的55%。
關(guān)于AI產(chǎn)品和服務(wù)的調(diào)查中,平均而言,中國(guó)受訪者對(duì)AI的認(rèn)知度、信任度和熱情最最高。80%的受訪者表示“這些產(chǎn)品和服務(wù)讓他們感到興奮”。相比之下,僅58%的美國(guó)受訪者認(rèn)為“AI將在未來(lái)3-5年深刻改變生活”。
過(guò)去一年中,“信任使用AI的企業(yè)會(huì)保護(hù)個(gè)人數(shù)據(jù)”的受訪者比例下降了3個(gè)百分點(diǎn),“信任AI不會(huì)歧視或?qū)θ魏稳后w產(chǎn)生偏見”的比例下降了2個(gè)百分點(diǎn)。

不過(guò)輿論也存在顯著的地區(qū)差異。
亞洲和拉丁美洲的受訪者更傾向于認(rèn)為AI利大于弊。相比之下,歐洲和英語(yǔ)國(guó)家的受訪者更為懷疑。僅46%的英國(guó)受訪者和39%的美國(guó)受訪者認(rèn)為AI利大于弊。

今年的益普索調(diào)查新增了關(guān)于“AI如何影響當(dāng)前工作”的問(wèn)題。60%的受訪者認(rèn)為“未來(lái)五年AI可能改變工作方式”,36%(超三分之一)認(rèn)為“AI可能在未來(lái)五年取代現(xiàn)有工作”。

Z世代(67%)和千禧一代比X世代和嬰兒潮一代(49%)更傾向于認(rèn)同“AI將改變工作方式”。2023至2024年,所有世代認(rèn)同這一觀點(diǎn)的比例均上升,增幅最大的是千禧一代和嬰兒潮一代,可能表明代際間認(rèn)知趨同。




更多內(nèi)容,點(diǎn)擊下方關(guān)注:
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
UCL強(qiáng)化學(xué)習(xí)派:汪軍與他的學(xué)生們
為什么中國(guó)只有一個(gè) DeepSeek?
為什么是梁文鋒做出了DeepSeek?
熱門跟貼