備受關(guān)注的Qwen3 終于來(lái)了。

此前就陸續(xù)有消息宣稱(chēng)阿里將于4 月更新其 Qwen 系列模型,終于,在四月的最后兩天,阿里巴巴 Qwen Team 對(duì)外發(fā)布了其 Qwen 系列大型語(yǔ)言模型的新成員——Qwen3。

此次發(fā)布的Qwen3 系列涵蓋了從小型到超大型的多個(gè)模型,旨在滿(mǎn)足不同應(yīng)用場(chǎng)景下的需求。其中,最吸引人眼球的當(dāng)屬旗艦?zāi)P?strong>Qwen3-235B-A22B。這是一款采用 MoE(Mixture of Experts, 混合專(zhuān)家)架構(gòu)的大模型,擁有 2350 億總參數(shù)量,在推理時(shí)激活其中的 220 億參數(shù)。

除了旗艦?zāi)P?,Qwen Team 還同時(shí)開(kāi)源了另一款 MoE 模型Qwen3-30B-A3B。該模型總參數(shù)量約為 300 億,激活參數(shù)量為 30 億。官方資料顯示,這款模型的激活參數(shù)量?jī)H為 Qwen 團(tuán)隊(duì)另一款模型 QwQ-32B 的 10%,但在性能上卻表現(xiàn)更優(yōu)。這使得 Qwen3-30B-A3B 在需要高效推理和本地部署的場(chǎng)景下非常具有優(yōu)勢(shì),例如本地編程。

此外,Qwen3 系列還包含六款傳統(tǒng)的 Dense(密集)架構(gòu)模型,參數(shù)規(guī)模從 0.6B 到 32B 不等,具體包括:Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B。這些 Dense 模型采用了更傳統(tǒng)的架構(gòu),所有參數(shù)在推理時(shí)都會(huì)參與計(jì)算。Qwen Team 對(duì)這些模型的權(quán)重也進(jìn)行了全面開(kāi)源。

圖丨模型參數(shù)(來(lái)源:Qwen)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨模型參數(shù)(來(lái)源:Qwen)

基準(zhǔn)測(cè)試結(jié)果顯示,Qwen3 系列的表現(xiàn)相當(dāng)亮眼。

盡管參數(shù)量相對(duì)較小,但旗艦?zāi)P蚎wen3-235B-A22B 在代碼生成與理解、數(shù)學(xué)推理、通用能力等關(guān)鍵領(lǐng)域,與 DeepSeek-R1、o1、o3-mini、Grok-3 以及 Google 的 Gemini-2.5-Pro 等頂級(jí)模型不相上下甚至有所超越。最重要的是,在各項(xiàng)評(píng)估中,它都用不到一半的參數(shù)量實(shí)現(xiàn)了對(duì)直接競(jìng)爭(zhēng)對(duì)手 LLaMA-4-Maverick 的全面超越。

圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Qwen)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Qwen)

小型MoE 模型Qwen3-30B-A3B的表現(xiàn)同樣出色。盡管其激活參數(shù)量?jī)H為 30 億,但在 ArenaHard、LiveCodeBench 等多項(xiàng)測(cè)試中,其性能不僅超越了參數(shù)量更大的 Qwen2.5-72B-Instruct 模型,還在某些項(xiàng)目上接近或超過(guò)了 GPT-4o。甚至參數(shù)量相當(dāng)小的Qwen3-4B,也能在部分基準(zhǔn)測(cè)試中匹敵或超越參數(shù)量遠(yuǎn)大于它的 Qwen2.5-72B-Instruct。

此外,和Gemini 2.5 Flash 一樣,Qwen 3 系列最大的亮點(diǎn)是引入了思考/非思考這兩種可切換的思考模式,這種設(shè)計(jì)允許用戶(hù)根據(jù)任務(wù)需求,在推理深度(可能帶來(lái)更高質(zhì)量的答案)和響應(yīng)速度(效率更高)之間進(jìn)行權(quán)衡。官方稱(chēng)之為“思考預(yù)算”(Thinking Budget)控制。

Qwen 團(tuán)隊(duì)的數(shù)據(jù)顯示,模型的性能提升與分配的計(jì)算推理預(yù)算(以 K tokens 為單位衡量)直接相關(guān),并且展現(xiàn)出可擴(kuò)展且平滑的性能曲線。這意味著用戶(hù)可以通過(guò)調(diào)整預(yù)算,在成本效益和推理質(zhì)量之間找到最佳平衡點(diǎn)。

(來(lái)源:Qwen)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:Qwen)

在實(shí)際使用中,用戶(hù)可以通過(guò)API 調(diào)用時(shí)的參數(shù)(如 enable_thinking=True/False)來(lái)控制默認(rèn)模式。而且,Qwen3 還支持在多輪對(duì)話(huà)中通過(guò)在用戶(hù)輸入中添加特定指令(如 /think 或 /no_think)來(lái)動(dòng)態(tài)切換當(dāng)前輪次的思考模式,模型會(huì)遵循最近的指令。

Qwen3 的另一個(gè)亮點(diǎn)是,在多語(yǔ)言方面做出了重大改善,官方宣布其支持多達(dá)119 種語(yǔ)言和方言。這覆蓋了全球主要的語(yǔ)系,包括:

圖丨Qwen 3 支持的語(yǔ)言(來(lái)源:Qwen)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨Qwen 3 支持的語(yǔ)言(來(lái)源:Qwen)

除了基礎(chǔ)的語(yǔ)言理解和生成能力,現(xiàn)代大型語(yǔ)言模型在執(zhí)行復(fù)雜任務(wù)、與外部工具交互(即Agent 能力)以及編寫(xiě)和理解代碼方面的能力也日益受到重視。Qwen3 在這些方面也進(jìn)行了重點(diǎn)優(yōu)化。

官方表示,Qwen3 模型的 Agent 能力和代碼能力得到了顯著提升,并且加強(qiáng)了對(duì) MCP(Model Context Protocol)的支持,使得 Qwen 3 能更有效地參與到多智能體協(xié)作的場(chǎng)景中。

另外值得一提的是,據(jù) Qwen 團(tuán)隊(duì)研究員鄭楚杰透露,Qwen3 還有一些未在模型卡中透露出的有趣特性,或許能為研究和產(chǎn)品開(kāi)辟出一些新的空間,值得我們期待一下。

圖丨相關(guān)推文(來(lái)源:X)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨相關(guān)推文(來(lái)源:X)

在訓(xùn)練方面,Qwen 3 使用了約 36 萬(wàn)億個(gè) token 進(jìn)行預(yù)訓(xùn)練,幾乎是 Qwen2.5(18 萬(wàn)億 token)的兩倍。團(tuán)隊(duì)不僅從網(wǎng)絡(luò)收集數(shù)據(jù),還從 PDF 文檔中提取信息,并利用 Qwen2.5-VL(Vision Language,視覺(jué)語(yǔ)言)和 Qwen2.5 改善提取內(nèi)容質(zhì)量。為增加數(shù)學(xué)和代碼數(shù)據(jù),團(tuán)隊(duì)還利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個(gè)領(lǐng)域?qū)<夷P秃铣蓴?shù)據(jù)。

預(yù)訓(xùn)練過(guò)程分為三個(gè)階段:首先在超過(guò)30 萬(wàn)億個(gè) token 上進(jìn)行基礎(chǔ)預(yù)訓(xùn)練;其次增加知識(shí)密集型數(shù)據(jù)比例并額外訓(xùn)練 5 萬(wàn)億個(gè) token;最后使用高質(zhì)量長(zhǎng)上下文數(shù)據(jù)將上下文長(zhǎng)度擴(kuò)展到 32K token。

模型架構(gòu)的改進(jìn)也是Qwen3 性能提升的關(guān)鍵因素之一。官方提到,由于模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法,Qwen3 的 Dense 基礎(chǔ)模型在整體性能上已經(jīng)能與參數(shù)量更多的 Qwen2.5 基礎(chǔ)模型相媲美。例如,Qwen3 的 1.7B 到 32B 的 Dense 模型分別能達(dá)到 Qwen2.5 的 3B 到 72B Base 模型的水平。對(duì)于 MoE 模型,在僅使用約 10% 激活參數(shù)的情況下,就能達(dá)到與 Qwen2.5 Dense 基礎(chǔ)模型相似的性能,顯著節(jié)省了訓(xùn)練和推理成本。

圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Qwen)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Qwen)

后訓(xùn)練部分,對(duì)于Qwen3-235B-A22B 等旗艦?zāi)P?,?xùn)練從基礎(chǔ)模型出發(fā),經(jīng)歷了與 DeepSeek- R1 比較類(lèi)似的四個(gè)步驟:

1.長(zhǎng)思維鏈冷啟動(dòng) (Long-CoT Cold Start):使用多樣化的長(zhǎng)思維鏈數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),覆蓋數(shù)學(xué)、代碼、邏輯推理和 STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))等領(lǐng)域,旨在為模型注入基礎(chǔ)的推理能力。

2.長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí) (Long-CoT Reasoning RL):進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),利用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)增強(qiáng)模型的探索和鉆研能力。

3.思維模式融合 (Thinking Mode Fusion):將包含長(zhǎng)思維鏈數(shù)據(jù)和常用指令微調(diào)數(shù)據(jù)的混合數(shù)據(jù)集用于模型微調(diào),目的是將非思考模式無(wú)縫整合到思考模式中,確保推理能力和快速響應(yīng)能力的結(jié)合。

4.通用強(qiáng)化學(xué)習(xí) (General RL):在包括指令遵循、格式遵循和 Agent 能力等在內(nèi)的 20 多個(gè)通用任務(wù)領(lǐng)域應(yīng)用強(qiáng)化學(xué)習(xí),進(jìn)一步增強(qiáng)模型的通用能力并糾正不良行為。

對(duì)于更小的輕量級(jí)模型,則是由強(qiáng)模型進(jìn)行蒸餾。流程圖顯示,這種蒸餾過(guò)程利用了經(jīng)過(guò)復(fù)雜四階段訓(xùn)練的前沿模型作為“教師模型”,將其能力遷移到參數(shù)量較小的“學(xué)生模型”上(這也解釋了輕量級(jí)模型能在相對(duì)較小規(guī)模下繼承強(qiáng)大性能的原因)。

圖丨后訓(xùn)練流程(來(lái)源:Qwen)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨后訓(xùn)練流程(來(lái)源:Qwen)

目前,模型權(quán)重已上架Hugging Face、ModelScope、Kaggle 等平臺(tái)。對(duì)于生產(chǎn)環(huán)境部署,推薦使用 SGLang、vLLM 等框架。同時(shí),Ollama、LMStudio、llama.cpp 等本地工具也提供了支持。官方還提供了詳細(xì)的 Python 代碼示例。

參考資料:

1. https://qwenlm.github.io/zh/blog/qwen3/

排版:溪樹(shù)