打開網(wǎng)易新聞 查看精彩圖片

中美 AI 競爭差距縮小,阿里 Qwen 成最大推手之一。

作者丨洪雨欣

編輯丨陳彩嫻

近日,斯坦福大學人工智能研究所發(fā)布了最新一期《2025年人工智能指數(shù)報告》。研究報告顯示,在2024年度全球重要大模型中,中國貢獻15項。從具體機構分布來看,谷歌與OpenAI各占7席并列榜首,阿里巴巴以6個入選模型緊隨其后,排名第三。

打開網(wǎng)易新聞 查看精彩圖片

這份連續(xù)發(fā)布八年的年度報告由斯坦福人工智能實驗室主任李飛飛教授領銜編制,自2017年首度發(fā)布以來,其多維度的評估框架和跨年度的數(shù)據(jù)追蹤,已成為全球?qū)W術界和產(chǎn)業(yè)界觀察AI技術演進的重要參照。

2025年的斯坦福報告指出,中國和美國是全球AI最具影響力的兩大國家,且中美模型的性能差距顯著縮小,性能表現(xiàn)由2023年的17.5%驟降至0.3%,差距接近抹平。

而阿里作為入選重要大模型最多的中國科技公司,其入選的6款模型分別為:Qwen-72B、Qwen1.5-72B、Qwen2-72B、Qwen2.5-72B、Qwen2.5-32B、QwQ-32B,是中國 AI 力量在全球影響力崛起的最大推手。

至今,阿里通義實驗室已開源200多款模型。目前千問在全世界的衍生模型數(shù)破10萬,超越美國Llama成為世界第一開源大模型。

1

中美差距縮小,阿里通義千問功不可沒

美國歷來是人工智能研究和模型開發(fā)的主導。然而,最近的證據(jù)表明,中國模型的性能正在逐步逼近美國。

2024年1月,在LMSYS聊天機器人競技場上,美國頂級模型的表現(xiàn)優(yōu)于中國最佳模型9.26%。到了2025年2月,這一差距縮小至僅1.70%。

打開網(wǎng)易新聞 查看精彩圖片

2023年底,美國領先模型的表現(xiàn)顯著優(yōu)于中國同類模型。在MMLU、MMMU、MATH和HumanEval等基準測試中,中美性能差距分別為17.5、13.5、24.3和31.6個百分點。2024年底,這些差異顯著縮小至僅0.3、8.1、1.6和3.7個百分點。

打開網(wǎng)易新聞 查看精彩圖片

這一重要轉(zhuǎn)變的背后是阿里和DeepSeek的持續(xù)努力和爆發(fā)。2024年5月24日,阿里巴巴發(fā)布開源Qwen2.5,性能超越Llama 405B。2025年1月20日,DeepSeek發(fā)布DeepSeek-R1,同步開源模型權重。前有阿里開荒拓土,后有DeepSeek持續(xù)發(fā)力。如今,阿里和DeepSeek已經(jīng)成為了中國AI在世界舞臺中激烈角逐的兩股領先力量。

根據(jù)斯坦福的報告,阿里是唯一進入全球大模型貢獻前三的中國公司。統(tǒng)計數(shù)據(jù)顯示,在備受關注的全球重大模型榜單中,谷歌與OpenAI分別上榜7個,并列第一。阿里則以6個上榜模型位居全球第三、中國第一。在業(yè)內(nèi)頂級專家評選出的32項“2024年AI領域重要發(fā)布”中,阿里Qwen2、Qwen2.5及DeepSeek-V3三大發(fā)布上榜。

報告顯示,Qwen2.5-72B的訓練數(shù)據(jù)量要略高于Llama-405B和DeepSeek-V3,成為截至2024年訓練數(shù)據(jù)量最大的模型。Qwen2.5全系列模型訓練數(shù)據(jù)量為18 萬億 tokens,而Llama-405B僅僅只有15 萬億tokens的數(shù)據(jù)量。這意味著Qwen2.5擁有更多的知識、更強的編程和數(shù)學能力。

打開網(wǎng)易新聞 查看精彩圖片

報告中對比了中美兩國知名機器學習模型的訓練算力,揭示出一個關鍵趨勢:美國頂級AI模型的算力需求普遍遠超中國同類產(chǎn)品。這說明,在實現(xiàn)頂尖性能的同時,中國模型所需計算資源顯著低于多數(shù)主流大語言模型。下圖顯示,Qwen2.5和DeepSeek-V3的訓練算力低于10B,而以Claude 3.5 Sonnet和Grok-2為代表的頂尖模型,算力需求遠超于此。

打開網(wǎng)易新聞 查看精彩圖片

除此之外,閉源與開源LLM之間顯著的性能差距也進一步縮小。2024年1月初,領先的閉源模型性能超出頂級開源模型8.0%。而截至2025年2月,這一差距已縮小至1.7%。2024年,Qwen系列模型已超越Llama,成為當前全球最大的開源模型。阿里和DeepSeek作為行業(yè)領頭羊,有望繼續(xù)強勢扭轉(zhuǎn)開源落后的局面。

打開網(wǎng)易新聞 查看精彩圖片

在對AI的投入決心方面,阿里在中國是最激進的。就在今年年初,阿里CEO吳泳銘宣布未來三年,阿里預計在AI和云計算領域投入3800億元人民幣,加速云和AI硬件基礎設施建設、提升AI基礎模型的研發(fā)、推動AI應用的轉(zhuǎn)型升級。

2

阿里 AI,當之無愧

事實上,2025 年斯坦福 AI 指數(shù)報告中阿里大模型的亮眼成績并非橫空出世,而是積步千里。

打開網(wǎng)易新聞 查看精彩圖片

早在ChatGPT之前,阿里就開啟了大模型的研究探索。

2023年4月,“通義千問”大模型正式發(fā)布,之后以平均每兩個月的速度迭代一次。同年8月Qwen-7B宣布開源,阿里首次加入自研大模型開源行列。

2024,是通義千問爆發(fā)的一年。阿里分別在5月、6月、9月、12月推出開源模型Qwen2.5、Qwen2-72B、Qwen2.5-72B、QVQ-72B-Preview。

今年2月,視覺生成基座模型通義萬相(Wan)開源,在 VBench中以總分86.22%的成績穩(wěn)居榜首。3月,首個端到端全模態(tài)大模型Qwen2.5-Omni-7B發(fā)布,并于4月登頂Hugging Face開源大模型榜單。

具備強大的、不斷迭代的基礎模型后,阿里不是“閉關鎖國”,而是從 2022 年開始就采取開源措施,將自家的基礎模型開放給 AI 社區(qū),繼而構建了強大的開源生態(tài)。

最新數(shù)據(jù)顯示,通義已接入29萬家企業(yè),包括90%互聯(lián)網(wǎng)公司,90%上市商業(yè)銀行,90%汽車品牌等。

Qwen開源模型在國內(nèi)備受青睞,Manus通過Qwen在國產(chǎn)模型和算力平臺上實現(xiàn)全部功能,迅速走紅于各大社交平臺。DeepSeek使用R1蒸餾出6個開源模型,其中有4個來自Qwen。

目前,海內(nèi)外開源社區(qū)中千問Qwen的衍生模型數(shù)量已突破10萬,穩(wěn)居世界最大AI大模型族群。根據(jù)Huggingface2025年2月10日最新的全球開源大模型榜單,排名前十的開源大模型全部是基于通義千問Qwen開源模型二次開發(fā)的衍生模型。

甚至李飛飛等斯坦福大學研究人員也基于阿里通義千問Qwen2.5-32B-Instruct開源模型為底座,僅用不到50美元,便打造出了性能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。

打開網(wǎng)易新聞 查看精彩圖片

從2023年至今,阿里通義團隊已開源200多款模型,囊括文本生成、語音理解、文生圖及視頻模型等全模態(tài)模型,覆蓋全尺寸參數(shù),支持29種語言。

通義千問促進中國大模型生態(tài)繁榮的背后,是阿里云打下的算力基礎。2023年7月7日,阿里云宣布,將把促進中國大模型生態(tài)的繁榮作為首要目標,向大模型創(chuàng)業(yè)公司提供全方位的服務,包括最強大的智能算力和開發(fā)工具,并在資金和商業(yè)化探索方面提供充分支持。

打開網(wǎng)易新聞 查看精彩圖片

2022年,阿里云在業(yè)界首提MaaS(Model as a Service,模型即服務)理念,提出了一種全新的、以AI模型為核心的開發(fā)范式。阿里云據(jù)此搭建了一套以AI模型為核心的云計算技術和服務架構,并將這套能力將全部向大模型初創(chuàng)企業(yè)和開發(fā)者開放,提供包括模型訓練、推理、部署、精調(diào)、測評、產(chǎn)品化落地等在內(nèi)的全方位服務。

截至目前,中國眾多頭部主流大模型都已通過阿里云對外提供API服務,包括通義系列、Baichuan系列、智譜AI ChatGLM系列等。百川智能創(chuàng)始人兼CEO王小川也曾表示,“百川成立僅半年便發(fā)布了7款大模型,快速迭代背后離不開云計算的支持?!?/p>

一些科研機構和創(chuàng)業(yè)公司還基于千問開發(fā)了自己的模型和產(chǎn)品。中國科學院國家天文臺人工智能工作組基于Qwen開源模型發(fā)布了新一代天文大模型“星語3.0”。中國科學院地球化學研究所與阿里云基于Qwen開發(fā)了國際首個“月球科學多模態(tài)專業(yè)大模型”。千問QwQ-32B也成為AI for Science科研領域最受歡迎的大模型之一,已服務300多家科研院所和高校。

2025 年,大模型技術圈依然熱鬧非凡。繼 DeepSeek 席卷全球后,AI Agent 又開啟新的大模型產(chǎn)品形態(tài)競爭。AI 智能體的進一步發(fā)展正在肉眼可見地加深模型應用與基礎模型的關聯(lián),同時加大推理側(cè)的需求增長。而阿里同時坐擁基礎模型與云平臺基礎設施的兩大“護法”,在新一輪的 AGI 競爭中仍有極大優(yōu)勢,拭目以待。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

更多內(nèi)容,點擊下方關注:

未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權,轉(zhuǎn)載時需標注來源并插入本公眾號名片。

打開網(wǎng)易新聞 查看精彩圖片

最受歡迎開源大模型,為什么是通義?

打開網(wǎng)易新聞 查看精彩圖片

通義千問登頂 Hugging Face 榜首,國產(chǎn)開源大模型趕超 Llama2

打開網(wǎng)易新聞 查看精彩圖片

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

打開網(wǎng)易新聞 查看精彩圖片