2025年4月29日,Qwen家族新成員Qwen3正式發(fā)布,包含多種模型版本。
1. 模型類型與參數(shù)
- MoE模型:有Qwen3-235B-A22B(總參數(shù)2350億,激活參數(shù)220億)和Qwen3-30B-A3B(總參數(shù)300億,激活參數(shù)30億)。
- 密集模型:包括Qwen3-32B、14B、8B、4B、1.7B、0.6B,均為Apache 2.0開源協(xié)議。
2. 上下文長(zhǎng)度:密集模型中,0.6B、1.7B、4B為32K,8B及以上為128K;MoE模型均為128K。
模力方舟上的昇騰算力已為您準(zhǔn)備好首批0.6B
、8B
、30B
三款模型,其中 30B 為 Mixture-of-Experts(MoE)模型,覆蓋從輕量部署到高性能推理的多元應(yīng)用需求,助力開發(fā)者輕松擁抱新一代大模型能力。
全面升級(jí)的 Qwen3 模型性能表現(xiàn)
1. 基準(zhǔn)測(cè)試結(jié)果
- Qwen3-235B-A22B:在ArenaHard(95.6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等測(cè)試中,優(yōu)于DeepSeek-R1、o1、Grok-3等模型,僅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。
- Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等測(cè)試中,超越QwQ-32B(激活參數(shù)為其10倍)。
- Qwen3-4B:性能可與Qwen2.5-72B-Instruct媲美,如在ArenaHard中為76.6,Qwen2.5-72B-Instruct為81.2。
2. 優(yōu)勢(shì)領(lǐng)域:在編碼(如CodeForces Elo Rating)、數(shù)學(xué)(AIME系列)、多語(yǔ)言(MultilF 8 Languages)任務(wù)中表現(xiàn)突出。
Qwen3 關(guān)鍵特性
1. 混合思維模式
思考模式:適合復(fù)雜問題,支持逐步推理,性能隨計(jì)算預(yù)算(token量)提升而線性增長(zhǎng)。
非思考模式:響應(yīng)快速,適用于簡(jiǎn)單任務(wù),可通過參數(shù) enable_thinking 或指令 /no_think / /think 動(dòng)態(tài)切換。
2. 多語(yǔ)言支持:覆蓋119種語(yǔ)言和方言,包括印歐語(yǔ)系、漢藏語(yǔ)系、阿拉伯語(yǔ)、日語(yǔ)、韓語(yǔ)等。
3. 增強(qiáng)的代理能力:優(yōu)化了編碼和工具調(diào)用能力,推薦搭配Qwen-Agent使用,支持MCP協(xié)議和自定義工具集成。
Qwen3 訓(xùn)練與架構(gòu)
1. 預(yù)訓(xùn)練數(shù)據(jù):使用36萬(wàn)億token,是Qwen2.5的2倍,涵蓋網(wǎng)頁(yè)、PDF文檔(通過Qwen2.5-VL提取文本),并通過Qwen2.5-Math/Code生成數(shù)學(xué)和代碼合成數(shù)據(jù)。
2. 訓(xùn)練階段
S1:基于30萬(wàn)億token、4K上下文,構(gòu)建基礎(chǔ)語(yǔ)言能力。
S2:增加STEM、編碼等知識(shí)密集型數(shù)據(jù),新增5萬(wàn)億token訓(xùn)練。
S3:使用長(zhǎng)上下文數(shù)據(jù),將上下文擴(kuò)展至32K(最終支持128K)。
3. 架構(gòu)優(yōu)化:MoE模型通過稀疏激活降低計(jì)算成本,密集模型參數(shù)效率更高,如Qwen3-4B性能相當(dāng)于Qwen2.5-72B。
官方博客:https://qwenlm.github.io/blog/qwen3/
昇騰加速,釋放 MoE 潛能
此次在模力方舟首發(fā)的0.6B、8B、30B三款Qwen3 模型,均基于細(xì)粒度專家調(diào)度機(jī)制,具備更優(yōu)的推理效率與更低的推理成本。支持最大 256K 上下文長(zhǎng)度,統(tǒng)一推理與非推理模式,靈活應(yīng)對(duì)長(zhǎng)文理解、多輪對(duì)話、復(fù)雜推理與智能 Agent 開發(fā)等高階任務(wù)。
為釋放Qwen3的強(qiáng)大性能,模力方舟基于昇騰最新發(fā)布的 vLLM Ascend v0.8.4rc2 進(jìn)行適配。 新版 vLLM Ascend 率先實(shí)現(xiàn) Ascend W8A8 量化、 DeepSeek 并行機(jī)制適配,并啟用 PyTorch 2.5.1 及 Torch.compile 圖模式特性,在推理性能、兼容性與開發(fā)體驗(yàn)上全面升級(jí),為大模型部署提供了更高效、更專業(yè)的基礎(chǔ)能力。
在線體驗(yàn) Qwen3
https://ai.gitee.com/serverless-api
模力方舟的 AI 模型廣場(chǎng)提供了行業(yè)大模型、文本生成、視覺模型、語(yǔ)音多模態(tài)、圖像生成與處理、3D生成、文檔處理/OCR、視頻生成、自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音合成、向量化和重排、代碼生成、風(fēng)控識(shí)別十三大類共 81 款各領(lǐng)域的頂尖開源模型的在線體驗(yàn)和 API 使用。通過購(gòu)買模型資源包,即可通過極低的價(jià)格即可盡享眾多主流模型。

熱門跟貼