文|鄧詠儀

編輯|蘇建勛

4月28日,AI圈子內(nèi)的從業(yè)者們都在等待一件事:Qwen 3。

從中午開始,Qwen 3即將發(fā)布的小道消息,已經(jīng)滿天飛舞。Qwen團(tuán)隊(duì)負(fù)責(zé)人林俊旸也在X上暗示:“看看我們今晚能否完成Qwen 3的工作”。

打開網(wǎng)易新聞 查看精彩圖片

來源:X(Twitter)

《智能涌現(xiàn)》所在的多個業(yè)內(nèi)討論群,充斥著不知真假的Qwen 3模型上傳截圖。AI從業(yè)者瘋狂刷新GitHub、HuggingFace中的Qwen主頁,用AI生成Qwen 3上線海報、現(xiàn)場的模擬圖,刷屏各種表情包,狂歡直至深夜還未停歇。

Qwen 3最終在凌晨5點(diǎn)上線。新一代的Qwen 3參數(shù)量僅為DeepSeek-R1的1/3,首先是成本大幅下降,性能全面超越R1、OpenAI-o1等全球頂尖模型。

更重要的是,Qwen 3搭載了Claude 3.7等頂尖模型的混合推理機(jī)制,將“快思考”與“慢思考”集成進(jìn)同一個模型,大大減少了算力消耗。

Qwen 3的開源一共涉及8款不同架構(gòu)和尺寸的模型,從0.6B開始,大到235B,適用于更多類型的移動端設(shè)備。除了模型之外,Qwen還順帶推出了Agents的原生框架,支持MCP協(xié)議,有著一股“讓所有人都要用上Agents”的勁頭。

DeepSeek爆火后的1月份,大年初一前夜,阿里急速上線了新模型Qwen2.5-VL和Qwen2.5-Max,迅速秀了一把肌肉的同時,也賦予了阿里集團(tuán)更濃郁的“AI味兒”。受此情緒的烘托,阿里股價在春節(jié)前后階段大漲超30%。

但比起這次的旗艦級模型Qwen 3,上述模型都只是前奏。

對Qwen 3的萬眾期待,來自阿里在AI開源社區(qū)的盛譽(yù)——如今Qwen已經(jīng)是全球領(lǐng)先的開源模型系列,根據(jù)最新數(shù)據(jù),阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數(shù)超10萬個,已超越此前的開源霸主Llama。

如果說DeepSeek是一支精銳的小分隊(duì),快速在技術(shù)上沖鋒;那么Qwen就是一個軍團(tuán),對大模型布局更早,也更積極做生態(tài),展現(xiàn)了更廣的覆蓋度和社區(qū)活力。

某種程度上,Qwen也是大模型落地的產(chǎn)業(yè)風(fēng)向標(biāo)。

一個典型的例子是,在DeepSeek R1發(fā)布后,很多企業(yè)和個人想私有化部署“滿血版”DeepSeek(671B),單單硬件成本就要上百萬元,落地成本很高。

阿里Qwen家族提供了更多的模型尺寸和類別,能幫助產(chǎn)業(yè)界更快驗(yàn)證落地價值。用大白話來講,開發(fā)者不用自己裁剪模型,而是拿來即用,繼而快速落地。Qwen 13B及以下的模型,可控性強(qiáng),的確是如今AI應(yīng)用領(lǐng)域最受歡迎的模型之一。

DeepSeek R1成為開源歷史上的錨點(diǎn),也深深影響了大模型競爭的走向。不同于此前模型廠商沉迷于刷Benchmark、刷題,中國大廠們迎來必須要證明自己真正技術(shù)實(shí)力的周期。

Qwen 3的發(fā)布,就是這樣一個時點(diǎn)。

滿血版成本為1/3個DeepSeek R1,性能更強(qiáng)大

2024年9月,阿里云在云棲大會上發(fā)布了上一代模型Qwen 2.5。Qwen2.5 一次性開源了從0.5B至72B共6個尺寸的全系列模型,覆蓋從端側(cè)到云端的全場景需求,在代碼等多個類別中,都能達(dá)到SOTA。

所有模型均允許商業(yè)使用與二次開發(fā),這也被開發(fā)者稱為 “真正開放的AI”。

市場風(fēng)傳新一代的Qwen 3會推出基于MoE架構(gòu),開源更多尺寸,成本能做到比DeepSeek更低——這些猜測都被一一證實(shí)。

Qwen 3 一共開源了8個尺寸的模型,分別為:

  • 兩款MoE(混合專家)模型的權(quán)重(指模型的決策偏好):30B(300億)、235B(2350億)參數(shù)
  • 六款Dense(密集)模型:包括包括0.6B(6億)、1.7B(17億)、4B(40億)、8B(80億)、14B(140億)、32B(320億)

每款模型均達(dá)到了同尺寸開源模型中的SOTA(最佳性能)。

Qwen 3延續(xù)了阿里開源的慷慨風(fēng)格,依舊采用寬松的Apache2.0協(xié)議開源,首次支持119多種語言,全球開發(fā)者、研究機(jī)構(gòu)和企業(yè),都免費(fèi)下載模型并商用。

Qwen 3的最大看點(diǎn),一是成本大幅下降,同時性能還有大幅提高。

在Qwen 3的訓(xùn)練中,阿里投入了令人驚訝的成本。Qwen 3基于36萬億token進(jìn)行預(yù)訓(xùn)練,這是上一代模型Qwen 2.5的兩倍,在全球同等體量的頂尖模型中也能排到前列。

據(jù)Qwen團(tuán)隊(duì)公開的數(shù)據(jù),僅需4張H20即可部署Qwen 3滿血版,顯存占用僅為性能相近模型的三分之一。

成本降低,但性能反而更高了。

Qwen的推理能力有非常顯著的提升。在數(shù)學(xué)、代碼生成和常識邏輯推理方面,Qwen 3均超越先前的推理模型 QwQ(思考模式)和 Qwen2.5 模型(非思考模式)。

而在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,Qwen 3也能與目前的頂尖模型o3-mini、Grok-3 和 Gemini-2.5-Pro等頂尖模型。

打開網(wǎng)易新聞 查看精彩圖片

△Qwen 3性能圖 來源:Qwen 3

另外一個核心亮點(diǎn),是Qwen模型對智能體(Agents)的全面適配。

如果說,OpenAI的o1模型一腳踢開了推理模型的大門,DeepSeek R1的發(fā)布,讓所有用戶見識到了推理模型的魔力:模型有像人類一樣的“思考鏈”,有思考順序,不斷驗(yàn)證是否正確,推演出認(rèn)為合適的答案。

但只有深度思考模式的話,弊端也很明顯。哪怕詢問簡單的天氣、今天穿什么,DeepSeek會來回地糾結(jié),自我設(shè)問,不斷驗(yàn)證,經(jīng)歷少則數(shù)十秒的過度思考——如果DeepSeek沒有將模型的思考鏈展示給用戶,幾乎沒有用戶能夠忍受延遲成這樣的對話體驗(yàn)。

阿里CEO吳泳銘曾在2024年9月的云棲大會表示:“AI最大想象力不在手機(jī)屏幕,而是接管數(shù)字世界,改變物理世界”。

智能體是通往這種愿景的重要路徑。所以,Qwen3做成混合推理模型是相當(dāng)關(guān)鍵的:在單一模型內(nèi),能無縫切換思考模式(用于復(fù)雜邏輯推理、數(shù)學(xué)和編碼)和非思考模式(用于高效的通用對話,比如詢問天氣、歷史知識等簡單信息搜索)。

推理與非推理任務(wù)的融合能力,實(shí)際上是讓模型:

  • 能夠理解數(shù)字世界,更多強(qiáng)調(diào)的是非推理能力,如識別、檢索、分類,
  • 能夠操作數(shù)字世界,更多強(qiáng)調(diào)的是推理能力,模型能自主規(guī)劃、決策、編程,典型應(yīng)用如Manus。

Qwen 3的API可按需設(shè)置“思考預(yù)算”(即預(yù)期最大深度思考的tokens數(shù)量),進(jìn)行不同程度的思考,確保在各種場景下都能達(dá)到最佳性能。

在以前的機(jī)制中,用戶需要手動開關(guān)“深度思考”模式,一次對話中可能只能專注一種模式;但Qwen 3的新機(jī)制將這個選擇交給模型——模型能自動識別任務(wù)場景、選擇思考模式,減少了用戶對模型模式的干預(yù)成本,也會帶來更絲滑的產(chǎn)品體驗(yàn)。

混合推理是目前比較難的技術(shù)方向,需要極其精細(xì)、創(chuàng)新的設(shè)計及訓(xùn)練,難度遠(yuǎn)超訓(xùn)練純推理模型。模型要學(xué)習(xí)兩種不同的輸出分布,要做到兩個模式融合,且基本不影響任何一種模式下的效果。

熱門模型中,現(xiàn)在只有Qwen 3、Claude3.7以及Gemini 2.5 Flash可以做到較好的混合推理。

混合推理會整體提高模型使用的性價比,既提升了智能水平,又整體降低了算力資源消耗。比如,Gemini-2.5-Flash,推理和非推理模式下的價格相差約6倍。

而為了讓所有人都能馬上開發(fā)Agents,Qwen團(tuán)隊(duì)幾乎是提供了保姆式的工具箱:

  • Qwen 3最近火爆的MCP協(xié)議,具備工具調(diào)用(Function Calling)能力,兩者都是Agents的主要框架
  • 原生的Qwen-Agent 框架,封裝了工具調(diào)用模板和工具調(diào)用解析器
  • API服務(wù)也同步上線,企業(yè)可以直接通過通過阿里云百煉調(diào)用。

如果用裝修來舉例,這就像Qwen團(tuán)隊(duì)把房子建好、完成硬裝,還給你提供了部分軟裝,開發(fā)者可以直接用上很多服務(wù)。這將大大降低編碼復(fù)雜性,開發(fā)門檻進(jìn)一步下降,比如很多手機(jī)及電腦Agent操作等任務(wù),就可以高效實(shí)現(xiàn)。

開源模型進(jìn)入新一輪競爭周期

在DeepSeek R1獲得爆炸性聲量,成為全球開源模型的標(biāo)桿之后,模型發(fā)布不再是單純的產(chǎn)品更新,而是代表公司戰(zhàn)略的關(guān)鍵走向。

Qwen 3的發(fā)布正值DeepSeek R1后,開源社區(qū)的新一輪競爭已經(jīng)開始:2025年4月,Meta旗下的Llama 4在4月初正式發(fā)布,但因?yàn)樾Ч患讯庵T多批評;而此前屢屢受挫的AI巨頭Google,也借著Gemini 2.5 pro,在開源領(lǐng)域扳回一城。

通用大模型層的能力仍在快速變遷中,很難有廠商能夠一直保持領(lǐng)先。在這個時點(diǎn)上,大模型團(tuán)隊(duì)如何確定自己的發(fā)展主線,不只是個技術(shù)問題,更是對不同產(chǎn)品路線和商業(yè)判斷的策略問題。

在Qwen 3的發(fā)布上,可以看出一種更務(wù)實(shí)的開源策略。

比如,Qwen3本次提出的模型尺寸,就比Qwen 2.5時的尺寸劃分就更細(xì)致。在資源受限的設(shè)備(如移動端、邊緣計算設(shè)備)上實(shí)現(xiàn)高效運(yùn)行,Qwen 3能同時保證一定的性能,滿足輕量級推理、對話等需求。

阿里仔細(xì)解釋了各個模型的適用場景:

  • 最小參數(shù)模型(如0.6B及1.7B):支持開發(fā)者用于 speculative decoding(推測性解碼) 作實(shí)驗(yàn)?zāi)P陀茫瑢蒲泻苡押茫?/li>
  • 4B模型:推薦在手機(jī)端側(cè)應(yīng)用
  • 8B模型:推薦在電腦或者汽車端側(cè)應(yīng)用
  • 14B模型:適合作落地應(yīng)用,普通開發(fā)者有幾張卡也都能玩轉(zhuǎn)起來
  • 32B模型:開發(fā)者和企業(yè)最喜歡的模型尺寸,支持企業(yè)大規(guī)模部署商用

而在旗艦?zāi)P蜕?,Qwen 3的模型規(guī)模和架構(gòu),也是一個更精煉,更容易落地應(yīng)用的設(shè)計。

以Qwen旗艦版模型235B(235億參數(shù))和DeepSeek R1滿血版做直接對比:

  • Qwen 3 235B采用中等規(guī)模(235B)與高效激活設(shè)計(22B激活,約9.4%),只需4張H20 GPU即可部署;
  • DeepSeek-R1追求超大規(guī)模(671B)與稀疏激活(37B激活,約5.5%),推薦16卡H20配置,約200萬元。

從部署成本看,Qwen 3是滿血版R1的25%-35%,模型部署成本大降六到七成。

DeepSeek R1之后,如果說大模型領(lǐng)域達(dá)成了什么共識,那便是——重新將資源、人力投入到模型層的技術(shù)突破,讓模型能力突破應(yīng)用能力的上限。

如今大模型領(lǐng)域,重新將目光轉(zhuǎn)向模型能力的突破。

從Qwen發(fā)布主題的變化,也能看出如今技術(shù)主線的變遷:Qwen 2.5發(fā)布時,主題還是《擴(kuò)展大型語言模型的邊界》,而到了Qwen 3,則是《思深,行速》,專注提高模型能力的應(yīng)用性能,拉低落地門檻,而非單純擴(kuò)大參數(shù)規(guī)模。

現(xiàn)在,通義千問Qwen在全球下載量超過3億,在HuggingFace社區(qū)2024年全球模型下載量中,Qwen占比已經(jīng)超30%。阿里云的模型開源策略,已經(jīng)走出另一條更清晰的道路:真正成為應(yīng)用的土壤。

歡迎交流

歡迎交流