打開網(wǎng)易新聞 查看精彩圖片

Qwen3 性能全面超越 R1、OpenAI-o1 等全球頂尖模型,旗艦型號(hào)的參數(shù)量?jī)H為 DeepSeek-R1 的 1/3。

作者|宛辰
編輯|鄭玄

2025 年已經(jīng)過(guò)去 1/3,如果用關(guān)鍵詞來(lái)概括 AI 領(lǐng)域的發(fā)展你會(huì)想到什么?這是我想到的:開源、創(chuàng)新加速加速加速。

2 月是「DeepSeek」的,R1 以所有人意想不到的方式,讓全球執(zhí)牛耳的 AI 開發(fā)者、創(chuàng)業(yè)者、投資人把目光鎖定在「DeepSeek」「中國(guó)」「開源」上。

4 月是「開源模型」的,發(fā)令槍是 Meta 喊的。被 DeepSeek 蓋過(guò)風(fēng)頭后,2025 年 2 月 19 日,坐不住的 Meta 率先官宣——首個(gè)生成式 AI 開發(fā)者大會(huì) LlamaCon 將于當(dāng)?shù)?4 月 29 日(北京時(shí)間 4 月 30 日)舉行,頗有重新奪回「AI 開源界老大」江湖地位的意欲。

但 AI 領(lǐng)域的產(chǎn)品發(fā)布節(jié)奏就是很微妙,什么時(shí)候發(fā)布似乎取決于對(duì)手的動(dòng)作,作為一種心照不宣的默契,Meta 一聲槍響讓 4 月底成為開源模型的主場(chǎng)。

整個(gè) 4 月甚至更早,AI 開發(fā)者們都在各大社交平臺(tái)「蹲」開源領(lǐng)域「三大頭牌」的新發(fā)布:DeepSeek-R2、Qwen3 以及 Llama4。Llama4 由于本月初的發(fā)布低于預(yù)期,似乎少了一些熱度。

目前看起來(lái),4 月底最受關(guān)注的還是中國(guó)隊(duì),R2 呼之欲出,Qwen3 終于來(lái)了。

4 月 29 日凌晨 5 點(diǎn),阿里巴巴開源新一代通義千問(wèn)模型 Qwen3,參數(shù)量?jī)H為 DeepSeek-R1 的 1/3,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強(qiáng)開源模型。X 平臺(tái)的開發(fā)者網(wǎng)友甚至把今天定義為「Happy Qwen3 Day」,不僅因?yàn)?Qwen3 全面超越 R1,更因?yàn)?Qwen3 家族的多尺寸、內(nèi)置 MCP 支持、支持混合推理等實(shí)用性的功能點(diǎn)。

官方技術(shù)報(bào)告進(jìn)一步給出了 Qwen3 的幾大亮點(diǎn):

  • 「探索智能上限」再突破:通過(guò)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模,實(shí)現(xiàn)了更高層次的智能;

  • 國(guó)內(nèi)首個(gè)「混合推理模型」:無(wú)縫集成了思考模式與非思考模式,為用戶提供了靈活控制思考預(yù)算的能力;

  • 增強(qiáng)了 Agent 能力:正從專注于訓(xùn)練模型的時(shí)代過(guò)渡到以訓(xùn)練 Agent 為中心的時(shí)代。

對(duì)于 Qwen3,個(gè)人用戶現(xiàn)在就可以在「通義」APP 或 chat.qwen.ai 網(wǎng)頁(yè)直接體驗(yàn),夸克也即將全線接入 Qwen3。開發(fā)者和企業(yè)則可以免費(fèi)在魔搭社區(qū)、HuggingFace 等平臺(tái)下載模型并商用,或通過(guò)阿里云百煉調(diào)用 Qwen3 的 API 服務(wù)。

憋了這么久的 Qwen3 到底怎么樣?又代表哪些模型發(fā)展的趨勢(shì)?

01

Qwen3,登頂全球最強(qiáng)開源模型

Qwen3 包含 2 個(gè) MoE 和 6 個(gè)密集模型,阿里云開源了兩個(gè) MoE 模型的權(quán)重,六個(gè) Dense 模型也已開源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 許可下開源。

Qwen3 開源模型家族
打開網(wǎng)易新聞 查看精彩圖片
Qwen3 開源模型家族

其中,旗艦型號(hào) Qwen3-235B-A22B 參數(shù)量?jī)H為 DeepSeek-R1 的 1/3,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強(qiáng)開源模型。

此外,據(jù)阿里云官方介紹,Qwen3 是國(guó)內(nèi)首個(gè)「混合推理模型」。「快思考」與「慢思考」集成進(jìn)同一個(gè)模型,對(duì)簡(jiǎn)單需求可低算力「秒回」答案,對(duì)復(fù)雜問(wèn)題可多步驟「深度思考」,大大節(jié)省算力消耗。

Qwen3 在推理、指令遵循、工具調(diào)用、多語(yǔ)言能力等方面均大幅增強(qiáng),創(chuàng)下所有國(guó)產(chǎn)模型及全球開源模型的性能新高:在奧數(shù)水平的 AIME25 測(cè)評(píng)中,Qwen3 斬獲 81.5 分,刷新開源紀(jì)錄;在考察代碼能力的 LiveCodeBench 評(píng)測(cè)中,Qwen3 突破 70 分大關(guān),表現(xiàn)甚至超過(guò) Grok3;在評(píng)估模型人類偏好對(duì)齊的 ArenaHard 測(cè)評(píng)中,Qwen3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

性能大幅提升的同時(shí),Qwen3 的部署成本還大幅下降,僅需 4 張 H20 即可部署千問(wèn) 3 滿血版,顯存占用僅為性能相近模型的三分之一。

Qwen3 性能|圖片來(lái)源:阿里云
打開網(wǎng)易新聞 查看精彩圖片
Qwen3 性能|圖片來(lái)源:阿里云

此外,小型 MoE 模型Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%,表現(xiàn)更勝一籌,甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。

據(jù)介紹,Qwen3-235B-A22B 是一個(gè)擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的大模型;Qwen3-30B-A3B 則是一個(gè)擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型。

得益于在預(yù)訓(xùn)練、大規(guī)模強(qiáng)化學(xué)習(xí)和推理模式整合方面取得的顯著進(jìn)展,Qwen3 主打「思考更深、行動(dòng)更快」,更好地構(gòu)建 AI 應(yīng)用。Qwen3 預(yù)訓(xùn)練數(shù)據(jù)量達(dá) 36T,并在后訓(xùn)練階段多輪強(qiáng)化學(xué)習(xí),將非思考模式無(wú)縫整合到思考模型中。

值得注意的是,這次 Qwen3 的發(fā)布,主打混合推理,但是需要思考的長(zhǎng)度最短也是 1024tokens,否則如果問(wèn)題所需要的推理預(yù)算用不滿 1024tokens,根本感受不到可以調(diào)節(jié)精度的混合推理模型的好。也就無(wú)法發(fā)揮用 Qwen3 不同程度的思考,靈活滿足 AI 應(yīng)用和不同場(chǎng)景對(duì)性能和成本的多樣需求。

截圖來(lái)源:X
打開網(wǎng)易新聞 查看精彩圖片
截圖來(lái)源:X

02

大模型全面轉(zhuǎn)向

「混合推理模型」和「Agent」

在 Qwen3 發(fā)布的前一天,X 平臺(tái)已有「行業(yè)人士」——日本的大模型廠商 SakanaAI 的一位工程師敏銳地捕捉到了 Qwen3 的重點(diǎn)。當(dāng)天,在 AI 領(lǐng)域最重要的學(xué)術(shù)會(huì)議之一 ICLR 2025 的一個(gè)工作坊上,阿里云通義實(shí)驗(yàn)室通義千問(wèn)負(fù)責(zé)人林俊旸透露了 Qwen 的下一步方向:推理模型和非推理模型的統(tǒng)一,以及面向 agent 的大模型。

打開網(wǎng)易新聞 查看精彩圖片

這正是今天發(fā)布的 Qwen3 最大的兩個(gè)特點(diǎn),同時(shí)也是大模型廠商們正在集體發(fā)生的轉(zhuǎn)向。

2025 年 2 月 25 日,Anthropic 發(fā)布了最新的旗艦?zāi)P?Claude 3.7 Sonnet,同時(shí)也稱作是市場(chǎng)上首個(gè)混合推理模型。這意味著 Claude 3.7 Sonnet 能夠生成即時(shí)的響應(yīng)(快思考),也可以進(jìn)行延展的、逐步的思考(慢思考)。API 用戶還可以細(xì)粒度地控制模型的思考時(shí)長(zhǎng);當(dāng)給定更長(zhǎng)的思考時(shí)間,理論上會(huì)有更高質(zhì)量的答案。

Anthropic 表示,混合推理模型的架構(gòu)代表下一代前沿模型,可以讓模型像人類用同一個(gè)大腦一樣,既能快速反應(yīng)又能深度思考,這既能為用戶創(chuàng)造更無(wú)縫的體驗(yàn),也能讓用戶通過(guò) API 使用 Claude 3.7 Sonnet 時(shí),可以控制思考的預(yù)算。比如:可以告訴 Claude 最多思考 N 個(gè) token,N 的取值可以達(dá)到其輸出限制的 128K token,從而在回答質(zhì)量與速度(及成本)之間進(jìn)行權(quán)衡。

「混合推理架構(gòu)」也得到了 OpenAI 的青睞。Sam Altman 在更早的時(shí)間看到,當(dāng)前的模型和產(chǎn)品供應(yīng)已經(jīng)變得非常復(fù)雜,希望 AI 能「開箱即用」、簡(jiǎn)化產(chǎn)品供應(yīng),「我們和你一樣討厭模型選擇器,想要回歸神奇的統(tǒng)一智能,之后,我們的一個(gè)重要目標(biāo)是通過(guò)創(chuàng)建能夠使用我們所有工具、知道何時(shí)需要長(zhǎng)時(shí)間思考或不需要的系統(tǒng),統(tǒng)一 o 系列模型和 GPT 系列模型,整體上能廣泛適用于各種任務(wù)?!?/p>

就像在 DeepSeek-R1 里一樣,點(diǎn)選「深度思考」背后調(diào)用的是推理模型 R1 做的長(zhǎng)推理,不選則調(diào)用的是基座模型 V3 即時(shí)生成的答案?,F(xiàn)在,模型廠商把「思考的顆粒度」這個(gè)選擇權(quán)更靈活、廣泛地交給用戶來(lái)控制推理預(yù)算。

在 Qwen3 中,可以滑動(dòng)「思考預(yù)算」的按鈕,來(lái)控制思考的最大長(zhǎng)度,從而匹配合適的推理質(zhì)量和成本。

打開網(wǎng)易新聞 查看精彩圖片

在思考模式下,Qwen3 模型會(huì)逐步推理,經(jīng)過(guò)深思熟慮后給出最終答案,適合需要深入思考的復(fù)雜問(wèn)題。在非思考模式下,模型提供快速、近乎即時(shí)的響應(yīng),適用于那些對(duì)速度要求高于深度的簡(jiǎn)單問(wèn)題。這種靈活性使用戶能夠根據(jù)具體任務(wù)控制模型進(jìn)行「思考」的程度。這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的「思考預(yù)算」控制能力,在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

另一個(gè)模型廠商的轉(zhuǎn)向則是 Agent。隨著 Manus 驗(yàn)證了 Claude 3.5 Sonnet 達(dá)到了通用 agent 的一些能力,加上模型調(diào)用工具、實(shí)現(xiàn) agent 能力的統(tǒng)一協(xié)議——MCP 在越來(lái)越大的范圍內(nèi)被擁抱,下一代模型要面向 agent、面向?qū)嶋H場(chǎng)景來(lái)優(yōu)化。

打開網(wǎng)易新聞 查看精彩圖片

就 Qwen3 來(lái)說(shuō),正在邁向以訓(xùn)練 Agent 為中心的階段,當(dāng)前 Qwen3 優(yōu)化了 Agent 和 代碼能力,同時(shí)也加強(qiáng)了對(duì) MCP 的支持。據(jù)稱,Qwen3 原生支持 MCP 協(xié)議,并具備強(qiáng)大的工具調(diào)用(function calling)能力,結(jié)合封裝了工具調(diào)用模板和工具調(diào)用解析器的 Qwen-Agent 框架,將大大降低編碼復(fù)雜性,實(shí)現(xiàn)高效的手機(jī)及電腦 Agent 操作等任務(wù)。

 發(fā)布 Qwen3,阿里云拉開新一輪開源模型競(jìng)賽的序幕
打開網(wǎng)易新聞 查看更多視頻
發(fā)布 Qwen3,阿里云拉開新一輪開源模型競(jìng)賽的序幕
在該示例中,Qwen3 思考并自主調(diào)用工具到 Github 數(shù)開源模型獲得的 star,繼續(xù)思考并調(diào)用繪圖工具制作圖片,并調(diào)用工具保存。|視頻來(lái)源:阿里云

03

開源模型新一輪競(jìng)賽開啟

Qwen3 的發(fā)布,意味著開源模型領(lǐng)域新一輪「三國(guó)殺」已然開始。

事實(shí)上,隨著 DeepSeek 的橫空出世,加上 OpenAI、字節(jié)等大廠調(diào)整對(duì)開源的態(tài)度,開源已然成為大模型賽道的大勢(shì)所趨。而 Llama、Qwen 和 DeepSeek,正是目前開源領(lǐng)域最有競(jìng)爭(zhēng)力的玩家。

打開網(wǎng)易新聞 查看精彩圖片

Hugging Face 聯(lián)合創(chuàng)始人、CEO Clement Delangue 發(fā)推暗示 DeepSeek 即將帶來(lái)新發(fā)布。|截圖來(lái)源:X

而此前 OpenAI 和 DeepSeek 的成功已經(jīng)證明,互聯(lián)網(wǎng)時(shí)代的生態(tài)、用戶和產(chǎn)品壁壘,今天在 AI 時(shí)代并沒(méi)有互聯(lián)網(wǎng)時(shí)代那樣牢不可摧,模型能力才是基礎(chǔ)大模型公司的核心競(jìng)爭(zhēng)力。而 Llama、Qwen 和 DeepSeek 的勝者,有可能在下一個(gè)發(fā)布周期到來(lái)前(至少在 OpenAI 的開源模型發(fā)布前),成為整個(gè) AI 行業(yè)的引領(lǐng)者。

雖然新一代模型能力的強(qiáng)弱,還要等待 Llama 和 DeepSeek 的發(fā)布,但值得關(guān)注的是,這三家開源模型廠商的生態(tài)策略亦有差異,這點(diǎn)從模型的側(cè)重點(diǎn)就能看出端倪。

DeepSeek 和 Meta 的側(cè)重點(diǎn)也有不同,但一個(gè)共同點(diǎn)都是不太重視 ToB,至少是在服務(wù)生態(tài)的建設(shè)上并不成功。而這點(diǎn)也是 Qwen 和其背后的阿里云最重視的部分。

極客公園曾在此前的文章里寫過(guò),脫胎于阿里云 Qwen,是最有以開源模型技術(shù)領(lǐng)先性、廣泛全面開源的策略,追求生態(tài)建設(shè)的架勢(shì)。阿里的 AI 戰(zhàn)略里除了追求 AGI,也同樣重視 AI 基礎(chǔ)設(shè)施建設(shè),以及更上層的與阿里的電商、釘釘、夸克等 AI 應(yīng)用的結(jié)合。

此前,阿里云智能集團(tuán)資深副總裁、公共云事業(yè)部總裁劉偉光表示,「阿里云是全世界唯一一家積極研發(fā)基礎(chǔ)大模型并全方位開源、全方位貢獻(xiàn)的云計(jì)算廠商。」

而 Qwen 模型下載量和衍生模型數(shù)量這兩個(gè)衡量的生態(tài)的指標(biāo)也同樣領(lǐng)先。根據(jù)阿里云官方的最新數(shù)據(jù),阿里通義已開源 200 余個(gè)模型,全球下載量超 3 億次,千問(wèn)衍生模型數(shù)超 10 萬(wàn)個(gè),已經(jīng)超越 Llama 位居全球開源模型的第一。

而新模型選擇在進(jìn)一步優(yōu)化推理成本、混合推理和 Agent 上發(fā)力,顯然 Qwen 瞄準(zhǔn)的是開發(fā)者和 B 端用戶的部署需求。這也將成為 Qwen 與 DeepSeek、Llama、OpenAI 等競(jìng)爭(zhēng)對(duì)手最大的不同,也是阿里能否贏得 AI 時(shí)代的一張船票的關(guān)鍵所在。

*頭圖來(lái)源:視覺(jué)中國(guó)

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問(wèn)

你如何看待 Qwen3?

阿里 Qwen3 發(fā)布,性能超越 R1、OpenAI-o1,成本大幅下降。

點(diǎn)贊關(guān)注極客公園視頻號(hào),