美國斯坦福大學“以人為本人工智能研究院”(HAI,Stanford Institute for Human-Centered AI)于近日發(fā)布了其備受全球矚目的第八版《人工智能指數(shù)報告》(AI Index Report 2025)。

自 2017 年首次發(fā)布以來,該報告一直致力于為政策制定者、研究人員、企業(yè)高管和公眾提供準確、嚴謹、全球化的 AI 數(shù)據(jù)和洞察。正如報告聯(lián)合主席 Yolanda Gil 和 Raymond Perrault 在序言中所言,2024 年是人工智能發(fā)展史上具有里程碑意義的一年。AI 已經(jīng)以前所未有的速度融入社會、經(jīng)濟和全球治理的方方面面。從先進模型的性能飛躍到日常生活的深度嵌入,從創(chuàng)紀錄的產(chǎn)業(yè)投資到日益收緊的政府監(jiān)管,AI 正從邊緣走向中心,成為驅(qū)動商業(yè)價值、重塑科研范式乃至影響人類未來的核心力量。

圖丨相關報告(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨相關報告(來源:HAI)

今年的這份報告長達四百多頁,是迄今為止最為全面的一版,新增了對 AI 硬件演進、推理成本估算、AI 出版和專利趨勢的深入分析,并擴大了關于企業(yè)采用負責任 AI 實踐以及 AI 在科學和醫(yī)學領域角色的新鮮數(shù)據(jù)。報告強調(diào),在一個 AI 無處不在、從頂尖實驗室到普通家庭的餐桌都在討論的時代,以數(shù)據(jù)驅(qū)動、獨立客觀的視角來理解 AI 的現(xiàn)狀、演變路徑和未來趨勢,其重要性從未如此凸顯。

報告共八個章節(jié),其核心內(nèi)容可以總結為以下五點:

打開網(wǎng)易新聞 查看精彩圖片

技術前沿:性能狂飆突進,中國緊隨其后,競爭格局日趨擁擠

報告的核心發(fā)現(xiàn)之一是 AI 在嚴苛基準測試上的持續(xù)突破,其速度甚至超出了許多人的預期。

· 基準性能持續(xù)提升:2023 年研究人員引入了 MMMU、GPQA、SWE-bench 等一系列旨在難倒頂尖 AI 的新基準。然而僅一年后,AI 模型在這些基準上的表現(xiàn)就出現(xiàn)了驚人的飛躍,得分分別提升了 18.8、48.9 和 67.3 個百分點。尤其在 SWE-bench(軟件工程基準)上,AI 解決編碼問題的能力從 2023 年的僅 4.4% 飆升至 2024 年的 71.7%。同時,高質(zhì)量視頻生成等領域也取得了重大進展。

圖丨選定的 AI 指數(shù)技術性能基準與人類性能對比(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨選定的 AI 指數(shù)技術性能基準與人類性能對比(來源:HAI)

· 中美差距顯著縮?。?/strong>報告指出,美國仍然是頂尖 AI 模型的“生產(chǎn)大戶”,2024 年發(fā)布了 40 個值得關注的模型,遠超中國的 15 個和歐洲的 3 個。然而,數(shù)量上的領先并不意味著性能上的絕對優(yōu)勢。在 MMLU、HumanEval 等關鍵基準上,中美頂尖模型之間的性能差距已從 2023 年的兩位數(shù)迅速縮小至 2024 年的近乎持平,部分基準差距僅為個位數(shù)甚至零點幾。這表明中國 AI 模型的“質(zhì)量”正在快速追趕。

圖丨美國與中國模型在特定基準上的表現(xiàn)(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨美國與中國模型在特定基準上的表現(xiàn)(來源:HAI)

· 技術前沿趨于收斂:競爭的加劇也體現(xiàn)在技術前沿的“擁擠度”上。報告引用了 LMSYS Chatbot Arena(一個廣泛使用的大模型競技場)的數(shù)據(jù),顯示排名第一和第十的模型之間的 Elo 分數(shù)差距從一年前的 11.9% 縮小到了 5.4%。更值得注意的是,排名前兩位的模型差距從 4.9% 驟降至僅 0.7%。這意味著頂尖模型的性能水平日益接近,高質(zhì)量模型不再是少數(shù)巨頭的專利,開發(fā)者生態(tài)系統(tǒng)正變得越來越有競爭力。正如 HAI 研究主管 Vanessa Parli 在接受媒體采訪時所說:“這創(chuàng)造了一個激動人心的局面。好的地方在于,這些模型不再僅僅是由硅谷的五個人開發(fā)的?!?/p>

圖丨在 LMSYS ChatBot 競技場的不同頂級模型表現(xiàn)(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨在 LMSYS ChatBot 競技場的不同頂級模型表現(xiàn)(來源:HAI)

· 小型模型異軍突起,開源模型奮起直追:另一個顯著趨勢是“小模型”展現(xiàn)出的強大能力。2022 年,在 MMLU 上得分超過 60% 的最小模型是擁有 5400 億參數(shù)的 PaLM。而到 2024 年,微軟僅有 38 億參數(shù)的 Phi-3-mini 就達到了同樣門檻,參數(shù)量縮減了 142 倍。這得益于算法效率的提升。同時,開源/開放權重模型與閉源模型之間的性能差距也幾乎消失。在 Chatbot Arena 上,2024 年初領先的閉源模型比頂尖開放權重模型高出 8.04%,到 2025 年初,這一差距已縮小至 1.70%。這標志著先進 AI 技術的獲取門檻正在快速降低。

(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:HAI)

· 成本效益顯著提升:報告首次對推理成本進行了追蹤。結果顯示,達到 GPT-3.5(在 MMLU 上約 64.8% 準確率)性能水平的 AI 模型,其推理成本從 2022 年 11 月的每百萬 token 20 美元,驟降至 2024 年 10 月的僅 0.07 美元(以 Gemini-1.5-Flash-8B 為例),降幅超過 280 倍。硬件層面,成本每年下降約 30%,而能效每年提升約 40%。這使得 AI 的應用更加經(jīng)濟可行。

圖丨 2022–24 年間在選定基準上的推理成本(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨 2022–24 年間在選定基準上的推理成本(來源:HAI)

· AI Agent(智能體)嶄露頭角:2024 年推出的 RE-Bench 為評估 AI 智能體的復雜任務提供了嚴格的基準測試。在短時間范圍內(nèi)(兩小時),頂級 AI 系統(tǒng)的得分是人類專家的四倍,但當給予更多時間完成任務時,人類表現(xiàn)優(yōu)于 AI,在 32 小時時間框架內(nèi)領先 AI 兩倍。盡管如此,AI 智能體在特定任務上已經(jīng)能與人類專業(yè)知識相匹配,例如編寫特定類型的代碼,同時提供更快的結果。

圖丨 RE-Bench 平均標準化得分(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨 RE-Bench 平均標準化得分(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片

產(chǎn)業(yè)與經(jīng)濟:投資熱情高漲,企業(yè)全面擁抱,AI 驅(qū)動生產(chǎn)力提升

AI 的商業(yè)化進程在 2024 年顯著加速,投資和應用均創(chuàng)下新高。

· 投資再創(chuàng)新高,美國優(yōu)勢擴大:全球私有 AI 投資在經(jīng)歷短暫回調(diào)后,于 2024 年強勁反彈至創(chuàng)紀錄的 2523 億美元(企業(yè)總投資,包括并購等)。其中,私有投資額達到 1,508 億美元,同比增長 44.5%。美國依然是全球 AI 投資的絕對中心,2024 年吸引了 1,091 億美元的私有投資,是中國的 93 億美元的近 12 倍,是英國的 45 億美元的 24 倍。尤其在生成式 AI 領域,美國投資額(2024 年為 290.4 億美元)比中國和歐盟+英國的總和還要多出 254 億美元,差距進一步拉大。生成式 AI 本身也成為吸金熱點,全球共獲得 339 億美元投資,同比增長 18.7%。

(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:HAI)

· 企業(yè)應用空前普及:企業(yè)對 AI 的應用不再停留在實驗階段。麥肯錫的調(diào)查顯示,2024 年報告在其組織中至少一個業(yè)務功能中使用 AI 的受訪者比例從 2023 年的 55% 躍升至 78%。同樣,報告使用生成式 AI 的比例也從 33% 翻倍增長至 71%。AI 正從企業(yè)的邊緣工具轉(zhuǎn)變?yōu)楹诵尿?qū)動力。

(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:HAI)

· 生產(chǎn)力效應顯現(xiàn),但價值兌現(xiàn)尚需時日:越來越多的研究證實了 AI 對生產(chǎn)力的積極影響,尤其是在縮小低技能和高技能工人之間的差距方面。然而,報告也指出,盡管企業(yè)廣泛采用 AI,但多數(shù)公司仍處于價值實現(xiàn)的早期階段。在報告 AI 帶來財務影響的企業(yè)中,大部分表示效益仍處于較低水平。例如,49% 在服務運營中使用 AI 的企業(yè)報告了成本節(jié)約,但多數(shù)節(jié)約幅度低于 10%。同樣,71% 在市場營銷中使用 AI 的企業(yè)報告了收入增長,但最常見的增長幅度也低于 5%。

(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:HAI)

· 機器人領域中國持續(xù)領先:在工業(yè)機器人領域,中國繼續(xù)保持主導地位,2023 年安裝量達 27.63 萬臺,是日本的 6 倍,美國的 7.3 倍,占全球份額的 51.1%。盡管相比 2022 年增速略有放緩,但其領先優(yōu)勢依然巨大。同時,協(xié)作機器人和面向人類的服務機器人安裝量持續(xù)增長,顯示出機器人應用場景的擴展。

圖丨 2023 年各地區(qū)安裝的工業(yè)機器人數(shù)量(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨 2023 年各地區(qū)安裝的工業(yè)機器人數(shù)量(來源:HAI)

· 能源格局的新變化:AI 龐大的算力需求正在推動能源來源的重大變化,吸引了對核能的關注。報告特別提到了微軟投資 16 億美元重啟三里島核反應堆為 AI 數(shù)據(jù)中心供電,以及谷歌、亞馬遜等巨頭紛紛簽署核能協(xié)議,這預示著 AI 發(fā)展可能對未來能源結構產(chǎn)生深遠影響。

打開網(wǎng)易新聞 查看精彩圖片

AI 倫理與治理:風險與規(guī)范并進,挑戰(zhàn)與機遇共存

隨著 AI 能力的增強和應用的普及,負責任 AI(RAI,Responsible AI)的議題變得空前重要。

· AI 相關事件急劇增加:根據(jù) AI 事件數(shù)據(jù)庫的記錄,2024 年報告的 AI 相關負面事件達到 233 起,創(chuàng)下歷史新高,比 2023 年增長了 56.4%。這既反映了 AI 應用的擴大,也凸顯了潛在風險的增加,例如深度偽造、偏見歧視、隱私泄露等。

圖丨 2012 年至 2024 年報告的人工智能事件數(shù)量(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨 2012 年至 2024 年報告的人工智能事件數(shù)量(來源:HAI)

· RAI 評估標準仍待統(tǒng)一:報告指出,盡管 RAI 的重要性日益凸顯,但行業(yè)內(nèi)仍然缺乏針對大型語言模型的標準化 RAI 基準。這使得跨模型的安全性和責任評估變得困難。不過,HELM Safety、AIR-Bench、FACTS 等新興基準的出現(xiàn),為評估模型的真實性、安全性和偏見提供了有希望的工具。

圖丨主要的模型所采用的安全與負責任 AI 基準(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨主要的模型所采用的安全與負責任 AI 基準(來源:HAI)

· 企業(yè)認知與行動存在差距:調(diào)查顯示,雖然許多企業(yè)認識到 RAI 的關鍵風險(如不準確性、合規(guī)性、網(wǎng)絡安全),但在采取具體緩解措施方面仍然滯后。例如,僅有 64% 關注不準確性風險的領導者采取了相應行動。

(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:HAI)

· 全球政策制定者緊迫感加大:與企業(yè)界的謹慎不同,全球政策制定者在 2024 年明顯加大了對 AI 治理的關注和合作力度。OECD、歐盟(通過《AI 法案》)、聯(lián)合國、非盟等主要國際組織紛紛發(fā)布框架和原則,聚焦透明度、可信賴性、公平性等核心 RAI 議題。各國政府也加大了監(jiān)管力度,例如美國聯(lián)邦機構在 2024 年出臺了 59 項 AI 相關法規(guī),是 2023 年的兩倍多。美國各州在規(guī)范深度偽造(尤其是在選舉場景應用)方面也取得了顯著進展。

· 數(shù)據(jù)公共池(Data Commons)正在萎縮:AI 模型的訓練依賴于海量的公開網(wǎng)絡數(shù)據(jù)。然而,研究發(fā)現(xiàn),由于網(wǎng)站所有者對數(shù)據(jù)抓取(scraping)的限制日益增多(例如通過 robots.txt 或服務條款),公開可用的訓練數(shù)據(jù)正在迅速減少。在 C4 Common Crawl 數(shù)據(jù)集中,受限制的 token 比例從 2023 年的 5-7% 躍升至 2024 年的 20-33%。這可能對未來模型的訓練數(shù)據(jù)多樣性、模型對齊和可擴展性帶來挑戰(zhàn),但也可能催生新的數(shù)據(jù)獲取和學習方法(如合成數(shù)據(jù))。

· 模型透明度有所改善,但仍需努力:基礎模型透明度指數(shù)顯示,主流模型開發(fā)者的平均透明度得分從 2023 年 10 月的 37% 提高到 2024 年 5 月的 58%。這表明行業(yè)在披露模型信息方面有所進步,但距離完全透明仍有很長的路要走。

圖丨基礎模型透明度指數(shù)(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨基礎模型透明度指數(shù)(來源:HAI)

· 隱性偏見依然存在:報告強調(diào),即使是那些明確設計了反偏見措施的先進大模型(如 GPT-4、Claude 3.5),仍然表現(xiàn)出隱性偏見。例如,模型可能更容易將負面詞匯與特定種族聯(lián)系起來,或在職業(yè)聯(lián)想上表現(xiàn)出性別刻板印象。消除 AI 偏見仍然是一項艱巨而持續(xù)的任務。

打開網(wǎng)易新聞 查看精彩圖片

AI 與科學、醫(yī)學:加速發(fā)現(xiàn),改變范式

AI 正在成為推動科學發(fā)現(xiàn)和變革醫(yī)療實踐的關鍵力量。

· 科學獎項的認可:2024 年,AI 在科學領域的貢獻獲得了最高榮譽。兩項諾貝爾獎分別表彰了深度學習的基礎工作(物理學獎,John Hopfield 和 Geoffrey Hinton)及其在蛋白質(zhì)折疊預測中的應用(化學獎,AlphaFold 團隊的 Demis Hassabis 和 John Jumper)。圖靈獎則授予了強化學習領域的奠基人。這標志著 AI 已成為科學研究不可或缺的一部分。

· 蛋白質(zhì)研究的飛躍:AlphaFold 3 和 ESM3 等新一代蛋白質(zhì)序列模型在 2024 年發(fā)布,它們規(guī)模更大、性能更強,極大地提高了蛋白質(zhì)結構和功能預測的準確性。這些模型不僅推動了基礎生物學研究,也為藥物設計和合成生物學開辟了新途徑。公開蛋白質(zhì)數(shù)據(jù)庫(如 UniProt、PDB、AlphaFold DB)的規(guī)模也在持續(xù)快速增長。

圖丨 2019–2025 年公共蛋白科學數(shù)據(jù)庫的增長(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨 2019–2025 年公共蛋白科學數(shù)據(jù)庫的增長(來源:HAI)

· 臨床知識與應用:大模型在醫(yī)學知識問答基準(如 MedQA)上的表現(xiàn)持續(xù)提升,OpenAI 的 o1 模型取得了 96.0% 的新 SOTA 分數(shù)。研究表明,在某些復雜的臨床診斷任務中,GPT-4 的表現(xiàn)甚至優(yōu)于醫(yī)生(無論醫(yī)生是否使用 AI 輔助)。AI 在癌癥檢測、高風險患者識別等方面也顯示出超越人類專家的潛力。FDA 批準的 AI 賦能醫(yī)療器械數(shù)量呈爆炸式增長,從 2015 年的僅 6 個激增至 2023 年的 223 個。

圖丨大模型在臨床診斷中的表現(xiàn)(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨大模型在臨床診斷中的表現(xiàn)(來源:HAI)

· 合成數(shù)據(jù)的潛力:研究顯示,AI 生成的合成數(shù)據(jù)在醫(yī)學領域展現(xiàn)出巨大潛力,可用于識別健康的社會決定因素、增強隱私保護下的臨床風險預測,以及加速新藥化合物的發(fā)現(xiàn)。

· 醫(yī)學倫理關注度提升: 隨著 AI 在醫(yī)療領域的廣泛應用,相關的倫理討論也日益增多。醫(yī)學 AI 倫理相關的出版物數(shù)量自 2020 年以來翻了兩番,顯示出學術界對這一領域的高度關注。

打開網(wǎng)易新聞 查看精彩圖片

教育與公眾認知:機遇與挑戰(zhàn)并存,認知差異顯著

AI 的發(fā)展對教育體系和公眾認知提出了新的要求和挑戰(zhàn)。

· CS 與 AI 教育普及,但鴻溝猶存:全球范圍內(nèi),提供或計劃提供 K-12 計算機科學(CS,Computer Science)教育的國家比例已從 2019 年的約三分之一翻倍至三分之二,非洲和拉丁美洲進步最為顯著。然而,基礎設施(如電力缺乏)限制了非洲學生的實際學習機會。在美國,盡管高中 CS 課程的覆蓋率和入學率有所提高,但不同州、族裔、收入水平和性別的學生之間仍然存在顯著差距。雖然 81% 的美國 CS 教師認為應將 AI 納入基礎 CS 教育,但只有不到一半的人感覺自己有能力教授 AI。

(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:HAI)

· 人才培養(yǎng)出現(xiàn)新動向:美國 AI 相關碩士畢業(yè)生的數(shù)量在 2022 年至 2023 年間幾乎翻了一番,這可能預示著未來幾年學士和博士層面也將出現(xiàn)類似的增長。美國在信息、通信和技術領域的畢業(yè)生培養(yǎng)方面繼續(xù)保持全球領先地位。

(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:HAI)

· 全球公眾情緒:謹慎樂觀與深刻分歧:Ipsos 的全球調(diào)查顯示,公眾對 AI 產(chǎn)品和服務的態(tài)度趨于“謹慎樂觀”。認為 AI 利大于弊的全球受訪者比例從 2022 年的 52% 上升到 2024 年的 55%。尤其是在此前較為悲觀的國家(如德國、法國、加拿大、英國、美國),樂觀情緒有了顯著增長(+4% 到+10% 不等)。然而,地區(qū)差異依然巨大。中國(83%)、印尼(80%)、泰國(77%)等亞洲國家民眾普遍更為樂觀,而加拿大(40%)、美國(39%)、荷蘭(36%)等國民眾則相對更為審慎。

圖丨不同國家民眾對于 AI 的態(tài)度(來源:HAI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨不同國家民眾對于 AI 的態(tài)度(來源:HAI)

· 信任度下降,倫理擔憂加?。?/strong>盡管總體樂觀情緒有所上升,但公眾對 AI 公司倫理行為的信任度正在下降。全球范圍內(nèi),相信 AI 公司會保護個人數(shù)據(jù)的受訪者比例從 2023 年的 50% 下降到 47%。認為 AI 系統(tǒng)公正無偏見的比例也在降低。對自動駕駛汽車的不信任感依然很高(美國 61% 的人表示害怕)。

· 對 AI 影響的認知:全球 60% 的受訪者認為 AI 將在未來五年改變他們的工作方式,但只有 36% 的人認為 AI 會取代他們的工作。人們普遍認為 AI 能節(jié)省時間(55%)、提供更好的娛樂(51%),但在經(jīng)濟影響(36% 認為能改善國家經(jīng)濟)和健康改善(38%)方面則信心不足。

圖丨全球?qū)θ斯ぶ悄軐Ξ斍肮ぷ鞯挠绊懙目捶ǎ▉碓矗篐AI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨全球?qū)θ斯ぶ悄軐Ξ斍肮ぷ鞯挠绊懙目捶ǎ▉碓矗篐AI)

完整報告參見:https://hai.stanford.edu/ai-index/2025-ai-index-report

參考資料:

1.https://hai.stanford.edu/ai-index/2025-ai-index-report

2.https://www.wired.com/story/stanford-study-global-artificial-intelligence-index

運營/排版:何晨龍