作者|子川
來源|AI先鋒官
昨日,斯坦福大學(xué)以人為本人工智能研究所(Stanford HAI)發(fā)布了《2025 年人工智能指數(shù)報告》。
這份報告長達456多頁,詳細的追蹤了 2024 年全球人工智能(AI)行業(yè)的發(fā)展趨勢。
全面介紹了中美AI競爭態(tài)勢、開源模型、模型技術(shù)性能、大模型投融資、AI for Science等領(lǐng)域的最新數(shù)據(jù)和進展,其中DeepSeek被提及45次。

《2025 年人工智能指數(shù)報告》共分八個章節(jié),下面給大家梳理一下核心內(nèi)容。
省流版:
人工智能技術(shù)持續(xù)突破,性能在高難度基準測試中顯著提升
2023年,研究人員推出了MMMU、GPQA和SWE-bench三項新基準測試,用于挑戰(zhàn)先進AI系統(tǒng)的極限。僅僅一年后,AI在這些測試中的表現(xiàn)大幅提升:MMMU得分增長了18.8個百分點,GPQA增長了48.9個百分點,而SWE-bench更是飆升了67.3個百分點。此外,AI在生成高質(zhì)量視頻方面取得了重大進展,而在某些編程任務(wù)中,語言模型代理甚至在時間有限的情況下超越了人類表現(xiàn)。

AI加速融入日常生活,從醫(yī)療到交通全面普及
從實驗室走向日常生活,AI正在迅速改變各行各業(yè)。2023年,美國食品藥品監(jiān)督管理局(FDA)批準了223款A(yù)I醫(yī)療設(shè)備,而2015年僅有6款。在交通領(lǐng)域,自動駕駛汽車已不再是實驗項目:美國最大的自動駕駛運營商之一Waymo每周提供超過15萬次無人駕駛服務(wù),而百度的Apollo Go Robotaxi車隊已在中國多個城市投入運營。

企業(yè)全面押注AI,推動投資和使用率創(chuàng)紀錄
2024年,美國私營部門在AI領(lǐng)域的投資達到1091億美元,是中國93億美元的近12倍,英國45億美元的24倍。生成式AI表現(xiàn)尤為強勁,全球吸引了339億美元的私人投資,較2023年增長18.7%。企業(yè)使用AI的比例也在加速上升:2024年,78%的組織報告使用AI,高于前一年的55%。與此同時,越來越多的研究表明,AI不僅提升了生產(chǎn)力,還在大多數(shù)情況下幫助縮小了勞動力的技能差距。

美國仍主導(dǎo)頂級AI模型開發(fā),但中國正在縮小差距
2024年,美國機構(gòu)開發(fā)了40個顯著的AI模型,遠超中國的15個和歐洲的3個。盡管美國在數(shù)量上保持領(lǐng)先,但中國模型在質(zhì)量上的差距迅速縮小:在MMLU和HumanEval等主要基準測試中,2023年的表現(xiàn)差距從兩位數(shù)縮小到2024年的幾乎持平。與此同時,中國在AI論文和專利方面繼續(xù)領(lǐng)先。此外,模型開發(fā)的全球化趨勢愈發(fā)明顯,中東、拉美和東南亞等地區(qū)也推出了多款引人注目的AI模型。

負責(zé)任AI生態(tài)系統(tǒng)發(fā)展不均衡,但監(jiān)管和工具逐步完善
盡管AI相關(guān)事故數(shù)量急劇上升,但主要工業(yè)模型開發(fā)者中標準化的負責(zé)任AI(RAI)評估仍然罕見。不過,新推出的基準測試如HELM Safety、AIR-Bench和FACTS為評估事實性和安全性提供了有前景的工具。在企業(yè)層面,雖然許多公司認識到RAI風(fēng)險,但實際行動仍然不足。相比之下,各國政府表現(xiàn)出更強的緊迫感:2024年,全球AI治理合作進一步加強,包括經(jīng)合組織(OECD)、歐盟、聯(lián)合國和非洲聯(lián)盟在內(nèi)的組織發(fā)布了專注于透明性、可信性和其他核心負責(zé)任AI原則的框架。

全球?qū)I的樂觀情緒上升,但區(qū)域差異依然顯著
在中國(83%)、印度尼西亞(80%)和泰國(77%),大多數(shù)人認為AI產(chǎn)品和服務(wù)利大于弊。相比之下,加拿大(40%)、美國(39%)和荷蘭(36%)的樂觀情緒較低。然而,自2022年以來,德國(+10%)、法國(+10%)、加拿大(+8%)、英國(+8%)和美國(+4%)等此前持懷疑態(tài)度的國家對AI的樂觀情緒顯著增長。

AI變得更高效、更經(jīng)濟、更易獲得
得益于小型模型能力的提升,2022年11月至2024年10月間,性能達到GPT-3.5水平的系統(tǒng)推理成本下降了280倍以上。在硬件層面,成本每年下降30%,而能效每年提升40%。此外,開源模型與閉源模型的性能差距也在縮?。涸谀承┗鶞蕼y試中,差距從8%縮小到1.7%。這些趨勢正在迅速降低先進AI的準入門檻。

各國政府加速AI監(jiān)管與投資,推動行業(yè)規(guī)范化發(fā)展
2024年,美國聯(lián)邦機構(gòu)出臺了59項AI相關(guān)法規(guī),數(shù)量是2023年的兩倍,涉及的機構(gòu)數(shù)量也翻了一番。全球范圍內(nèi),自2023年以來,75個國家的立法中提及AI的次數(shù)增長了21.3%,自2016年以來增長了9倍。與此同時,各國政府也在大規(guī)模投資AI:加拿大承諾投入24億美元,中國啟動了475億美元的半導(dǎo)體基金,法國承諾投入1090億歐元,印度承諾投入12.5億美元,沙特阿拉伯的“超越計劃”則代表了1000億美元的AI相關(guān)投資。

AI與計算機科學(xué)教育加速擴展,但資源分配不均問題仍存
目前,全球三分之二的國家已提供或計劃提供K-12計算機科學(xué)教育,是2019年的兩倍,非洲和拉美地區(qū)進步最為顯著。在美國,過去十年中計算機科學(xué)本科畢業(yè)生人數(shù)增長了22%。然而,在許多非洲國家,由于電力等基礎(chǔ)設(shè)施的缺乏,教育資源仍然受限。在美國,81%的K-12計算機科學(xué)教師認為AI應(yīng)成為基礎(chǔ)教育的一部分,但不到一半的教師覺得自己具備教授AI的能力。
行業(yè)在AI領(lǐng)域主導(dǎo)地位加強,但技術(shù)前沿競爭加劇
2024年,近90%的顯著AI模型來自行業(yè),高于2023年的60%,而學(xué)術(shù)界仍是高被引研究的主要來源。模型規(guī)模持續(xù)快速增長——訓(xùn)練計算能力每五個月翻一番,數(shù)據(jù)集每八個月翻一番,能耗每年增加。然而,性能差距正在縮?。喉敿壞P团c第十名模型的得分差距從11.9%降至5.4%,而前兩名模型的差距僅為0.7%。AI技術(shù)前沿正變得越來越競爭激烈,也越來越擁擠。

AI在科學(xué)領(lǐng)域的影響力獲頂級獎項認可
AI的重要性在重大科學(xué)獎項中得到了體現(xiàn):兩項諾貝爾獎分別表彰了推動深度學(xué)習(xí)(物理學(xué))和其在蛋白質(zhì)折疊中的應(yīng)用(化學(xué))的研究,而圖靈獎則授予了對強化學(xué)習(xí)的開創(chuàng)性貢獻。

復(fù)雜推理仍是AI面臨的重大挑戰(zhàn)
盡管AI模型在國際數(shù)學(xué)奧林匹克競賽等問題上表現(xiàn)出色,但在PlanBench等復(fù)雜推理基準測試中仍顯不足。即使存在可證明的正確解決方案,AI在邏輯任務(wù)上的表現(xiàn)仍不穩(wěn)定,這限制了其在高風(fēng)險場景中的應(yīng)用效果。

下面是 斯坦福大學(xué)發(fā)布《2025 年人工智能指數(shù)報告》各個章節(jié)的詳細信息。
01 研發(fā)
1. 行業(yè)主導(dǎo)AI模型開發(fā),學(xué)術(shù)引領(lǐng)高被引研究
行業(yè)在顯著AI模型開發(fā)方面的領(lǐng)先地位進一步鞏固,2024年近90%的顯著AI模型(較2023年的60%)來自行業(yè),而學(xué)術(shù)界則在過去三年中持續(xù)成為高被引(前100名)論文的主要生產(chǎn)者。這一趨勢表明,行業(yè)在技術(shù)創(chuàng)新和商業(yè)化應(yīng)用方面占據(jù)主導(dǎo)地位,而學(xué)術(shù)界則在基礎(chǔ)研究和理論突破方面發(fā)揮核心作用。

2. 中國領(lǐng)跑AI論文數(shù)量,美國主導(dǎo)高影響力研究
2023年,共有149個基礎(chǔ)模型發(fā)布,是2022年的兩倍以上。其中,65.7%的模型是開源的(2022年為44.4%,2021年為33.3%)。盡管中國在AI研究論文總數(shù)上保持領(lǐng)先,但美國在高影響力研究領(lǐng)域仍占據(jù)主導(dǎo)地位,顯示出其在技術(shù)創(chuàng)新和應(yīng)用轉(zhuǎn)化方面的強大能力。

3. AI論文數(shù)量激增,全面主導(dǎo)計算機科學(xué)領(lǐng)域
2013年至2023年間,與計算機科學(xué)和其他學(xué)科相關(guān)的AI論文總數(shù)幾乎翻了三倍,從約10.2萬篇增長至超過24.2萬篇。AI在計算機科學(xué)領(lǐng)域的占比也從2013年的21.6%上升至2023年的41.8%,進一步鞏固了其在學(xué)術(shù)界的中心地位。

4. 美國仍是顯著AI模型的主要來源
2024年,美國機構(gòu)開發(fā)了40個顯著AI模型,遠超中國的15個和歐洲的3個。過去十年中,美國始終是產(chǎn)生顯著機器學(xué)習(xí)模型最多的國家,顯示出其在AI領(lǐng)域的持續(xù)領(lǐng)先地位。

5. AI模型規(guī)模和能耗持續(xù)攀升
新研究表明,顯著AI模型的訓(xùn)練計算能力每五個月翻一番,大型語言模型(LLM)的訓(xùn)練數(shù)據(jù)集每八個月翻一番,而訓(xùn)練所需的能耗則每年增加。這種快速增長主要由行業(yè)的大規(guī)模投資推動,進一步提升了模型性能。

6. AI模型使用成本大幅下降
以MMLU基準測試中表現(xiàn)相當于GPT-3.5(64.8分)的AI模型為例,其查詢成本從2022年11月的每百萬token 20美元下降至2024年10月的僅0.07美元(Gemini-1.5-Flash-8B),在約18個月內(nèi)下降了280倍以上。根據(jù)任務(wù)不同,大型語言模型(LLM)推理成本每年下降了9到900倍。

7. AI專利數(shù)量快速增長
2010年至2023年間,AI專利數(shù)量從3833項激增至122511項,僅過去一年就增長了29.6%。截至2023年,中國在AI專利總數(shù)上居首,占所有授權(quán)專利的69.7%,而韓國和盧森堡則在人均AI專利數(shù)量上表現(xiàn)突出。

8. AI硬件性能提升,成本和能耗下降
新研究表明,機器學(xué)習(xí)硬件性能(以16位浮點運算衡量)每年增長43%,每1.9年翻一番。價格性能也有所改善,成本每年下降30%,而能效每年提升40%。這些進步為AI技術(shù)的普及和應(yīng)用提供了更強的支持。

9. AI訓(xùn)練碳排放持續(xù)增加
早期AI模型(如2012年的AlexNet)訓(xùn)練產(chǎn)生的碳排放僅為0.01噸,而近年來的模型訓(xùn)練排放顯著增加:GPT-3(2020年)為588噸,GPT-4(2023年)為5184噸,Llama 3.1 405B(2024年)為8930噸。相比之下,美國人均年碳排放量為18噸,凸顯了AI技術(shù)發(fā)展對環(huán)境的潛在影響。

02 核心技術(shù)
1. AI在新基準測試中表現(xiàn)突飛猛進
2023年,AI研究人員推出了包括MMMU、GPQA和SWE-bench在內(nèi)的一系列具有挑戰(zhàn)性的新基準測試,旨在測試日益強大的AI系統(tǒng)的極限。到2024年,AI在這些基準測試中的表現(xiàn)取得了顯著進步:在MMMU和GPQA上分別提高了18.8和48.9個百分點。而在SWE-bench上,AI系統(tǒng)在2023年只能解決4.4%的編程問題,這一數(shù)字在2024年飆升至71.7%。

2. 開源模型迅速追趕閉源模型
去年的AI指數(shù)顯示,領(lǐng)先的開源模型顯著落后于閉源模型。到2024年,這一差距幾乎消失。2024年1月初,領(lǐng)先的閉源模型在聊天機器人競技場排行榜上的表現(xiàn)比頂級開源模型高出8.04%。到2025年2月,這一差距縮小至1.70%。

3. 中美AI模型性能差距迅速縮小
2023年,美國的頂級模型顯著優(yōu)于中國同類模型,但這一趨勢在2024年發(fā)生了變化。2023年底,在MMLU、MMMU、MATH和HumanEval等基準測試中,中美模型的性能差距分別為17.5、13.5、24.3和31.6個百分點。到2024年底,這些差距大幅縮小至0.3、8.1、1.6和3.7個百分點。

4. AI模型性能在前沿領(lǐng)域趨于收斂
根據(jù)去年的AI指數(shù),頂級模型與排名第10的模型在聊天機器人競技場排行榜上的Elo分數(shù)差距為11.9%。到2025年初,這一差距縮小至5.4%。同樣,頂級模型與第二名的差距從2023年的4.9%縮小至2024年的0.7%。AI領(lǐng)域的競爭日益激烈,越來越多的開發(fā)者提供了高質(zhì)量的模型。

5. 測試時計算等新推理范式提升模型性能
2024年,OpenAI推出了o1和o3等模型,這些模型旨在通過迭代推理輸出結(jié)果。這種測試時計算方法顯著提升了性能:o1在國際數(shù)學(xué)奧林匹克資格考試中得分為74.4%,而GPT-4o僅為9.3%。然而,這種增強的推理能力也帶來了成本:o1的費用幾乎是GPT-4o的六倍,速度慢30倍。

6. 更具挑戰(zhàn)性的基準測試不斷涌現(xiàn)
隨著傳統(tǒng)AI基準測試(如MMLU、GSM8K和HumanEval)的飽和,以及在MMMU和GPQA等更新、更具挑戰(zhàn)性的基準測試中性能的提升,研究人員正在探索新的評估方法。其中包括“人類最后的考試”(Humanity’s Last Exam),頂級系統(tǒng)得分僅為8.80%;FrontierMath,AI系統(tǒng)僅能解決2%的問題;以及BigCodeBench,AI系統(tǒng)成功率為35.5%,遠低于人類的97%標準。

7. 高質(zhì)量AI視頻生成器取得顯著進步
2024年,多個能夠從文本輸入生成高質(zhì)量視頻的先進AI模型發(fā)布。值得注意的發(fā)布包括OpenAI的SORA、Stable Video Diffusion 3D和4D、Meta的Movie Gen,以及Google DeepMind的Veo 2。這些模型生成的視頻質(zhì)量顯著高于2023年的水平。

8. 小型模型推動性能提升
2022年,在MMLU上得分超過60%的最小模型是PaLM,參數(shù)為5400億。到2024年,微軟的Phi-3-mini僅用38億參數(shù)就達到了這一門檻,兩年內(nèi)參數(shù)減少了142倍。

9. 復(fù)雜推理仍是AI的難題
盡管引入了鏈式推理等機制顯著提升了大型語言模型(LLM)的性能,但這些系統(tǒng)仍無法可靠地解決可以通過邏輯推理找到正確解決方案的問題,例如算術(shù)和規(guī)劃,尤其是在超出其訓(xùn)練范圍的實例上。這對系統(tǒng)的可信度及其在高風(fēng)險應(yīng)用中的適用性產(chǎn)生了重大影響。

10. AI代理展現(xiàn)出初步潛力
2024年推出的RE-Bench為評估AI代理的復(fù)雜任務(wù)提供了一個嚴格的基準。在短時間限制(兩小時預(yù)算)內(nèi),頂級AI系統(tǒng)的得分是人類專家的四倍,但隨著預(yù)算時間的增加,人類表現(xiàn)超過了AI——在32小時預(yù)算時,人類得分是AI的兩倍。AI代理在某些任務(wù)中已經(jīng)與人類專業(yè)知識相當,例如編寫Triton內(nèi)核,同時以更快的速度和更低的成本交付結(jié)果。

03 負責(zé)任的AI
1. 負責(zé)任AI評估標準逐漸興起,但仍不普遍
去年的AI指數(shù)報告指出,大型語言模型(LLM)缺乏標準化的負責(zé)任AI(RAI)基準測試。盡管這一問題仍然存在,但新推出的基準測試如HELM Safety和AIR-Bench正在填補這一空白,為評估AI系統(tǒng)的可靠性和安全性提供了新的工具。

2. AI相關(guān)事故報告數(shù)量創(chuàng)歷史新高
根據(jù)AI事故數(shù)據(jù)庫的統(tǒng)計,2024年報告的AI相關(guān)事故數(shù)量達到233起,較2023年增長56.4%,創(chuàng)下歷史新高。這一趨勢表明,隨著AI技術(shù)的普及,相關(guān)的風(fēng)險和挑戰(zhàn)也在增加。

3. 企業(yè)承認RAI風(fēng)險,但應(yīng)對措施仍顯不足
麥肯錫的一項調(diào)查顯示,盡管許多企業(yè)已經(jīng)識別出關(guān)鍵的RAI風(fēng)險(如準確性、合規(guī)性和網(wǎng)絡(luò)安全),但并非所有企業(yè)都在積極采取措施應(yīng)對。僅有64%、63%和60%的受訪者分別將這些風(fēng)險列為關(guān)注點,顯示出企業(yè)在實際行動上的滯后性。

4. 全球政策制定者對RAI表現(xiàn)出強烈興趣
2024年,全球在AI治理方面的合作進一步加強,重點是制定負責(zé)任AI的共識原則。包括經(jīng)合組織(OECD)、歐盟、聯(lián)合國和非洲聯(lián)盟在內(nèi)的多個主要組織發(fā)布了框架,明確了透明性、可解釋性和可信性等關(guān)鍵RAI問題。
5. 公共數(shù)據(jù)資源迅速減少
AI模型依賴大量公開的網(wǎng)絡(luò)數(shù)據(jù)進行訓(xùn)練,但一項最新研究發(fā)現(xiàn),從2023年到2024年,數(shù)據(jù)使用限制顯著增加。許多網(wǎng)站實施了新協(xié)議以限制AI訓(xùn)練的數(shù)據(jù)抓取。在C4公共爬取數(shù)據(jù)集中,受限token的比例從5-7%躍升至20-33%。這一趨勢對數(shù)據(jù)多樣性、模型對齊和擴展性產(chǎn)生了影響,并可能推動在數(shù)據(jù)限制下學(xué)習(xí)的新方法。

6. 基礎(chǔ)模型研究透明度提升,但仍有改進空間
更新的基礎(chǔ)模型透明度指數(shù)顯示,主要模型開發(fā)者的平均透明度評分從2023年10月的37%提高到2024年5月的58%。盡管這一進展令人鼓舞,但透明度仍有很大的提升空間。

7. 更全面的事實性和真實性基準測試出現(xiàn)
早期的事實性和真實性評估基準(如HaluEval和TruthfulQA)未能在AI社區(qū)中廣泛采用。為此,更新的評估工具如改進版的Hughes Hallucination Evaluation Model排行榜、FACTS和SimpleQA應(yīng)運而生,為更全面地評估AI模型提供了新方法。

8. AI相關(guān)選舉虛假信息全球蔓延,但影響尚不明確
2024年,在十幾個國家和超過10個社交媒體平臺上出現(xiàn)了大量與AI相關(guān)的選舉虛假信息,包括美國總統(tǒng)選舉期間。然而,這種問題的實際影響仍不明確,許多人預(yù)計虛假信息活動對選舉的影響可能比實際情況更深遠。
9. 明確去偏的LLM仍存在隱性偏見
許多先進的大型語言模型(如GPT-4和Claude 3 Sonnet)雖然設(shè)計上采取了措施以減少顯性偏見,但仍表現(xiàn)出隱性偏見。這些模型更傾向于將負面詞匯與黑人關(guān)聯(lián),將女性與人文學(xué)科而非STEM領(lǐng)域關(guān)聯(lián),并更傾向于將男性與領(lǐng)導(dǎo)角色聯(lián)系在一起,從而在決策中強化種族和性別偏見。盡管在標準基準測試中偏見指標有所改善,但AI模型的偏見問題依然普遍存在。

10. 負責(zé)任AI研究在學(xué)術(shù)界獲得更多關(guān)注
2024年,主要AI會議上接受的RAI論文數(shù)量從2023年的992篇增加到1278篇,增長了28.8%。這一持續(xù)上升的趨勢表明,RAI在AI研究社區(qū)中的重要性正在穩(wěn)步提升。

04 經(jīng)濟
1. 全球私人AI投資創(chuàng)紀錄增長
2024年,企業(yè)AI投資總額達到2523億美元,其中私人投資增長44.5%,并購活動增長12.1%。自2014年以來,該領(lǐng)域的總投資增長了13倍以上,顯示出AI行業(yè)的迅猛擴張。

2. 生成式AI投資飆升
2024年,生成式AI的私人投資達到339億美元,較2023年增長18.7%,是2022年的8.5倍以上。該領(lǐng)域目前占所有AI相關(guān)私人投資的20%以上。

3. 美國在全球AI私人投資中擴大領(lǐng)先優(yōu)勢
2024年,美國的私人AI投資達到1091億美元,是中國93億美元的近12倍,英國45億美元的24倍。在生成式AI領(lǐng)域,美國的投資超出中國和歐盟及英國總和254億美元,較2023年的218億美元差距進一步擴大。

4. AI使用率飆升至前所未有的水平
2024年,報告其組織使用AI的調(diào)查受訪者比例從2023年的55%躍升至78%。此外,報告在至少一個業(yè)務(wù)功能中使用生成式AI的受訪者比例從2023年的33%翻倍至71%。

5. AI開始在業(yè)務(wù)功能中產(chǎn)生財務(wù)影響,但大多數(shù)公司仍處于早期階段
盡管大多數(shù)報告AI帶來財務(wù)影響的公司認為其效益有限,但49%使用AI進行服務(wù)運營的受訪者報告了成本節(jié)約,其次是供應(yīng)鏈管理(43%)和軟件工程(41%),但大多數(shù)公司的成本節(jié)約不到10%。在收入方面,71%使用AI進行營銷和銷售的受訪者報告了收入增長,供應(yīng)鏈管理為63%,服務(wù)運營為57%,但最常見的收入增長幅度不到5%。

6. AI使用呈現(xiàn)顯著區(qū)域變化,大中華區(qū)迎頭趕上
盡管北美在組織使用AI方面仍保持領(lǐng)先,但大中華區(qū)顯示出顯著的年度增長率,組織AI使用率提高了27個百分點。歐洲緊隨其后,增長了23個百分點,表明全球AI格局正在迅速演變,國際AI實施競爭日益激烈。

7. 中國在工業(yè)機器人領(lǐng)域的主導(dǎo)地位持續(xù),盡管增速略有放緩
2023年,中國安裝了276,300臺工業(yè)機器人,是日本的六倍,美國的7.3倍。自2013年超過日本以來,中國的全球安裝份額從20.8%上升至51.1%。盡管中國安裝的機器人數(shù)量仍超過世界其他地區(qū)的總和,但這一差距在2023年有所縮小,標志著其快速擴張的適度放緩。

8. 協(xié)作和交互機器人安裝變得更加普遍
2017年,協(xié)作機器人僅占所有新安裝工業(yè)機器人的2.8%,到2023年這一比例上升至10.5%。同樣,2023年,除醫(yī)療機器人外,服務(wù)機器人在所有應(yīng)用類別的安裝數(shù)量都有所增加。這一趨勢表明,不僅機器人安裝總量在增加,而且越來越多地部署機器人以承擔(dān)面向人類的角色。

9. AI推動能源來源的重大轉(zhuǎn)變,核能引發(fā)關(guān)注
微軟宣布了一項16億美元的協(xié)議,用于重啟三哩島核反應(yīng)堆以支持AI運行,而谷歌和亞馬遜也已達成核能協(xié)議,以支持其AI運營。
10. AI提升生產(chǎn)力并縮小技能差距
去年的AI指數(shù)報告首次強調(diào)了AI對生產(chǎn)力的積極影響。今年,更多的研究進一步支持了這一發(fā)現(xiàn),確認AI不僅提升了生產(chǎn)力,而且在大多數(shù)情況下幫助縮小了低技能和高技能工人之間的差距。

05 科學(xué)與醫(yī)學(xué)
1. 更大更強的蛋白質(zhì)測序模型問世
2024年,多個大規(guī)模、高性能的蛋白質(zhì)測序模型(如ESM3和AlphaFold 3)相繼推出。這些模型的規(guī)模不斷擴大,推動了蛋白質(zhì)預(yù)測準確性的持續(xù)提升。

2. AI在科學(xué)發(fā)現(xiàn)中推動快速進步
AI在科學(xué)研究中的作用持續(xù)擴大。繼2022年和2023年AI驅(qū)動的初步突破后,2024年帶來了更大的進展,包括用于生物任務(wù)的LLM代理訓(xùn)練平臺Aviary,以及顯著提升野火預(yù)測能力的FireSat。

3. 頂級LLM的臨床知識持續(xù)提升
OpenAI最近發(fā)布的o1模型在MedQA基準測試中取得了96.0%的最新最佳成績,較2023年的最佳成績提高了5.8個百分點。自2022年底以來,性能提升了28.4個百分點。作為評估臨床知識的關(guān)鍵基準,MedQA可能正接近飽和,表明需要更具挑戰(zhàn)性的評估方法。

4. AI在關(guān)鍵臨床任務(wù)中超越醫(yī)生
一項新研究發(fā)現(xiàn),僅GPT-4在診斷復(fù)雜臨床病例方面就超越了有無AI輔助的醫(yī)生。其他研究表明,AI在癌癥檢測和識別高死亡風(fēng)險患者方面也超過了醫(yī)生。然而,早期研究顯示,AI與醫(yī)生的合作可能帶來最佳效果,這為未來研究提供了重要方向。

5. FDA批準的AI醫(yī)療設(shè)備數(shù)量激增
美國食品藥品監(jiān)督管理局(FDA)在1995年批準了首個AI醫(yī)療設(shè)備。到2015年,僅有6款此類設(shè)備獲批,但到2023年這一數(shù)字飆升至223款。

6. 合成數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域展現(xiàn)出巨大潛力
2024年的研究表明,AI生成的合成數(shù)據(jù)可以幫助模型更好地識別健康的社會決定因素,增強隱私保護的臨床風(fēng)險預(yù)測,并促進新藥物化合物的發(fā)現(xiàn)。

7. 醫(yī)學(xué)AI倫理研究逐年增加
醫(yī)學(xué)AI倫理領(lǐng)域的研究數(shù)量從2020年的288篇增長至2024年的1031篇,四年間增長了三倍以上。

8. 基礎(chǔ)模型進入醫(yī)學(xué)領(lǐng)域
2024年,一系列大規(guī)模醫(yī)學(xué)基礎(chǔ)模型發(fā)布,包括通用多模態(tài)模型Med-Gemini,以及專注于心臟超聲的EchoCLIP和放射學(xué)的ChexAgent等專業(yè)模型。
9. 公共蛋白質(zhì)數(shù)據(jù)庫規(guī)模擴大
自2021年以來,主要公共蛋白質(zhì)科學(xué)數(shù)據(jù)庫的條目數(shù)量顯著增長,包括UniProt(增長31%)、PDB(增長23%)和AlphaFold(增長585%)。這一擴展對科學(xué)發(fā)現(xiàn)具有重要意義。

10. AI研究贏得兩項諾貝爾獎
2024年,AI驅(qū)動的研究獲得了最高榮譽,兩項諾貝爾獎授予了AI相關(guān)突破。谷歌DeepMind的Demis Hassabis和John Jumper因AlphaFold在蛋白質(zhì)折疊方面的開創(chuàng)性工作獲得化學(xué)獎。與此同時,John Hopfield和Geoffrey Hinton因?qū)ι窠?jīng)網(wǎng)絡(luò)的基礎(chǔ)性貢獻獲得物理學(xué)獎。
06 策略和治理
1. 美國各州在AI立法方面領(lǐng)先,聯(lián)邦層面進展緩慢
2016年,僅有一項與AI相關(guān)的州級法律通過,到2023年增加到49項。僅在過去一年中,這一數(shù)字就翻了一番以上,達到131項。盡管聯(lián)邦層面提出的AI相關(guān)法案數(shù)量也在增加,但通過的法案數(shù)量仍然很少。

2. 各國政府大力投資AI基礎(chǔ)設(shè)施
加拿大宣布了一項24億美元的AI基礎(chǔ)設(shè)施計劃,中國啟動了一個475億美元的基金以促進半導(dǎo)體生產(chǎn)。法國承諾投資1170億美元用于AI基礎(chǔ)設(shè)施,印度承諾投資12.5億美元,而沙特阿拉伯的“超越計劃”包括對AI的1000億美元投資。
3. 全球立法程序中AI提及次數(shù)持續(xù)上升
在75個主要國家中,2024年立法程序中提到AI的次數(shù)比2023年增加了21.3%,從1557次增加到1889次。自2016年以來,AI提及的總次數(shù)增長了九倍以上。

4. AI安全研究所全球擴展和協(xié)調(diào)
2024年,世界各國啟動了國際AI安全研究所。第一個研究所于2023年11月在美國和英國成立,隨后在2024年5月的首爾AI峰會上,日本、法國、德國、意大利、新加坡、韓國、澳大利亞、加拿大和歐盟等國家和地區(qū)承諾設(shè)立更多的研究所。

5. 美國AI相關(guān)聯(lián)邦法規(guī)數(shù)量激增
2024年,共出臺了59項AI相關(guān)法規(guī),是2023年25項的兩倍多。這些法規(guī)來自42個不同的機構(gòu),是2023年21個機構(gòu)的兩倍。
6. 美國各州擴大深度偽造法規(guī)
在2024年之前,只有加利福尼亞州、密歇根州、華盛頓州、德克薩斯州和明尼蘇達州五個州頒布了在選舉中監(jiān)管深度偽造的法律。2024年,包括俄勒岡州、新墨西哥州和紐約在內(nèi)的15個州引入了類似措施。此外,到2024年,已有24個州通過了針對深度偽造的法規(guī)。

07 教育
1.美國高中計算機科學(xué)教育現(xiàn)狀
美國高中計算機科學(xué)(CS)課程的參與率和入學(xué)率較上一學(xué)年略有增長,但不同群體之間的差距依然存在。學(xué)生參與情況因州、種族和民族、學(xué)校規(guī)模、地理位置、收入、性別以及殘疾狀況而異。盡管整體趨勢向好,但教育公平性仍是亟待解決的問題。

2.美國計算機科學(xué)教師面臨人工智能教學(xué)困境
盡管81%的美國計算機科學(xué)教師認為,人工智能(AI)的使用和學(xué)習(xí)應(yīng)納入基礎(chǔ)計算機科學(xué)課程,但不到一半的高中計算機科學(xué)教師覺得自己具備教授AI的能力。這一現(xiàn)象表明,教師培訓(xùn)和資源支持仍需加強,以滿足人工智能教育的需求。

3.全球K-12計算機科學(xué)教育進展與挑戰(zhàn)
全球三分之二的國家已提供或計劃提供K-12階段的計算機科學(xué)教育,這一比例自2019年以來翻了一番,非洲和拉丁美洲國家的進展尤為顯著。然而,非洲國家的學(xué)生因?qū)W校缺乏電力供應(yīng),計算機科學(xué)教育的可及性最低,基礎(chǔ)設(shè)施不足仍是主要障礙。

4.美國人工智能碩士畢業(yè)生數(shù)量激增
2022年至2023年間,美國人工智能碩士畢業(yè)生數(shù)量幾乎翻倍。盡管本科和博士學(xué)位的增長可能需要更長時間才能顯現(xiàn),但碩士階段的激增可能預(yù)示著未來所有學(xué)位層次的趨勢。這一現(xiàn)象反映了人工智能領(lǐng)域的關(guān)注度和需求正在快速上升。

5.全球信息技術(shù)與通信專業(yè)畢業(yè)生分布
美國繼續(xù)在全球范圍內(nèi)引領(lǐng)信息技術(shù)與通信(ICT)專業(yè)畢業(yè)生的培養(yǎng),涵蓋所有教育層次。西班牙、巴西和英國緊隨其后,成為不同層次的主要培養(yǎng)國,而土耳其在性別平等方面表現(xiàn)最為突出。這一數(shù)據(jù)表明,盡管全球教育資源分布不均,但部分國家在特定領(lǐng)域仍具有顯著優(yōu)勢。

08 輿論
1.全球?qū)I產(chǎn)品和服務(wù)的謹慎樂觀情緒上升
根據(jù)Ipsos在2022年和2024年對26個國家的調(diào)查,18個國家中認為人工智能(AI)產(chǎn)品和服務(wù)利大于弊的人群比例有所增加。全球范圍內(nèi),這一比例從2022年的52%上升至2024年的55%。盡管增長幅度不大,但顯示出對AI的接受度正在逐步提升。

2.AI對日常生活的影響力被廣泛認可
全球約三分之二的人認為,AI驅(qū)動的產(chǎn)品和服務(wù)將在未來三到五年內(nèi)顯著影響日常生活,這一比例自2022年以來增加了6個百分點。除馬來西亞、波蘭和印度外,其他國家的這一認知均有所提升,其中加拿大(17%)和德國(15%)的增長最為顯著。

3.對AI倫理和公平性的信任下滑
全球范圍內(nèi),對AI公司保護個人數(shù)據(jù)的信心從2023年的50%下降至2024年的47%。同時,認為AI系統(tǒng)無偏見且不歧視的人數(shù)也較去年有所減少,反映出公眾對AI倫理問題的擔(dān)憂正在加劇。

4.AI樂觀態(tài)度的地區(qū)差異依然顯著
自2023年首次報告以來,AI樂觀態(tài)度的地區(qū)差異依然存在。在中國(83%)、印尼(80%)和泰國(77%),大多數(shù)人認為AI產(chǎn)品和服務(wù)利大于弊;而在加拿大(40%)、美國(39%)和荷蘭(36%),持此觀點的人群比例較低。

5.美國公眾對自動駕駛汽車的信任仍顯不足
根據(jù)美國汽車協(xié)會的最新調(diào)查,61%的美國人對自動駕駛汽車感到擔(dān)憂,僅有13%的人表示信任。盡管這一擔(dān)憂比例較2023年的68%有所下降,但仍高于2021年的54%。

6.美國地方政策制定者對AI監(jiān)管的支持顯著增強
2023年,73.7%的美國地方政策制定者(涵蓋鄉(xiāng)鎮(zhèn)、市和縣級)支持對AI進行監(jiān)管,較2022年的55.7%大幅上升。民主黨(79.2%)的支持率高于共和黨(55.5%),但兩黨均較2022年有顯著增長。

7.AI樂觀態(tài)度在曾經(jīng)的懷疑者中顯著上升
全球范圍內(nèi),對AI產(chǎn)品和服務(wù)的樂觀情緒有所增加,尤其是在過去持懷疑態(tài)度的國家。2022年,英國(38%)、德國(37%)、美國(35%)、加拿大(32%)和法國(31%)對AI利大于弊的認同度較低。自那以后,這些國家的樂觀情緒分別增長了8%、10%、4%、8%和10%。

8.AI將重塑工作方式,但取代擔(dān)憂仍較低
全球60%的受訪者認為,AI將在未來五年內(nèi)改變?nèi)藗兊墓ぷ鞣绞?,但只?6%的人擔(dān)心AI會在五年內(nèi)取代他們的工作。這表明,盡管AI對就業(yè)的影響備受關(guān)注,但人們對完全被取代的擔(dān)憂仍相對較低。

9.美國地方政策制定者在AI政策優(yōu)先事項上分歧明顯
盡管美國地方政策制定者普遍支持AI監(jiān)管,但他們在具體優(yōu)先事項上存在分歧。支持率最高的政策包括更嚴格的數(shù)據(jù)隱私規(guī)則(80.4%)、失業(yè)人員再培訓(xùn)(76.2%)和AI部署監(jiān)管(72.5%)。然而,對于執(zhí)法面部識別禁令(34.2%)、工資補貼(22.9%)和普遍基本收入(24.6%)的支持率顯著下降。

10.AI被視為節(jié)省時間與娛樂助推器,但經(jīng)濟影響仍存疑
全球?qū)I的影響看法不一。55%的人認為AI能節(jié)省時間,51%的人期待它提供更好的娛樂選擇。然而,對AI在健康(38%)、經(jīng)濟(36%)、就業(yè)市場(31%)和個人工作(37%)方面的積極影響信心較低。

報告網(wǎng)站:
https://hai.stanford.edu/ai-index/2025-ai-index-report
報告下載:
https://haiproduction.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf
掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
熱門跟貼