2025年4月29日,Qwen家族新成員Qwen3正式發(fā)布,包含多種模型版本。
1. 模型類型與參數(shù)
- MoE模型:有Qwen3-235B-A22B(總參數(shù)2350億,激活參數(shù)220億)和Qwen3-30B-A3B(總參數(shù)300億,激活參數(shù)30億)。
- 密集模型:包括Qwen3-32B、14B、8B、4B、1.7B、0.6B,均為Apache 2.0開源協(xié)議。
2. 上下文長度:密集模型中,0.6B、1.7B、4B為32K,8B及以上為128K;MoE模型均為128K。
模力方舟上的昇騰算力已為您準(zhǔn)備好首批0.6B
、8B
、30B
三款模型,其中 30B 為 Mixture-of-Experts(MoE)模型,覆蓋從輕量部署到高性能推理的多元應(yīng)用需求,助力開發(fā)者輕松擁抱新一代大模型能力。
全面升級的 Qwen3 模型性能表現(xiàn)
1. 基準(zhǔn)測試結(jié)果
- Qwen3-235B-A22B:在ArenaHard(95.6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等測試中,優(yōu)于DeepSeek-R1、o1、Grok-3等模型,僅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。
- Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等測試中,超越QwQ-32B(激活參數(shù)為其10倍)。
- Qwen3-4B:性能可與Qwen2.5-72B-Instruct媲美,如在ArenaHard中為76.6,Qwen2.5-72B-Instruct為81.2。
2. 優(yōu)勢領(lǐng)域:在編碼(如CodeForces Elo Rating)、數(shù)學(xué)(AIME系列)、多語言(MultilF 8 Languages)任務(wù)中表現(xiàn)突出。
Qwen3 關(guān)鍵特性
1. 混合思維模式
思考模式:適合復(fù)雜問題,支持逐步推理,性能隨計算預(yù)算(token量)提升而線性增長。
非思考模式:響應(yīng)快速,適用于簡單任務(wù),可通過參數(shù) enable_thinking 或指令 /no_think / /think 動態(tài)切換。
2. 多語言支持:覆蓋119種語言和方言,包括印歐語系、漢藏語系、阿拉伯語、日語、韓語等。
3. 增強(qiáng)的代理能力:優(yōu)化了編碼和工具調(diào)用能力,推薦搭配Qwen-Agent使用,支持MCP協(xié)議和自定義工具集成。
Qwen3 訓(xùn)練與架構(gòu)
1. 預(yù)訓(xùn)練數(shù)據(jù):使用36萬億token,是Qwen2.5的2倍,涵蓋網(wǎng)頁、PDF文檔(通過Qwen2.5-VL提取文本),并通過Qwen2.5-Math/Code生成數(shù)學(xué)和代碼合成數(shù)據(jù)。
2. 訓(xùn)練階段
S1:基于30萬億token、4K上下文,構(gòu)建基礎(chǔ)語言能力。
S2:增加STEM、編碼等知識密集型數(shù)據(jù),新增5萬億token訓(xùn)練。
S3:使用長上下文數(shù)據(jù),將上下文擴(kuò)展至32K(最終支持128K)。
3. 架構(gòu)優(yōu)化:MoE模型通過稀疏激活降低計算成本,密集模型參數(shù)效率更高,如Qwen3-4B性能相當(dāng)于Qwen2.5-72B。
官方博客:https://qwenlm.github.io/blog/qwen3/
昇騰加速,釋放 MoE 潛能
此次在模力方舟首發(fā)的0.6B、8B、30B三款Qwen3 模型,均基于細(xì)粒度專家調(diào)度機(jī)制,具備更優(yōu)的推理效率與更低的推理成本。支持最大 256K 上下文長度,統(tǒng)一推理與非推理模式,靈活應(yīng)對長文理解、多輪對話、復(fù)雜推理與智能 Agent 開發(fā)等高階任務(wù)。
為釋放Qwen3的強(qiáng)大性能,模力方舟基于昇騰最新發(fā)布的 vLLM Ascend v0.8.4rc2 進(jìn)行適配。 新版 vLLM Ascend 率先實現(xiàn) Ascend W8A8 量化、 DeepSeek 并行機(jī)制適配,并啟用 PyTorch 2.5.1 及 Torch.compile 圖模式特性,在推理性能、兼容性與開發(fā)體驗上全面升級,為大模型部署提供了更高效、更專業(yè)的基礎(chǔ)能力。
在線體驗 Qwen3
https://ai.gitee.com/serverless-api
模力方舟的 AI 模型廣場提供了行業(yè)大模型、文本生成、視覺模型、語音多模態(tài)、圖像生成與處理、3D生成、文檔處理/OCR、視頻生成、自動語音識別、語音合成、向量化和重排、代碼生成、風(fēng)控識別十三大類共 81 款各領(lǐng)域的頂尖開源模型的在線體驗和 API 使用。通過購買模型資源包,即可通過極低的價格即可盡享眾多主流模型。

熱門跟貼