當了這么多年 AI 界的汪峰,阿里 Qwen3 這回終于上了一把熱搜。

距離 2.5 發(fā)布才過去 7 個月,就在今天凌晨,千問又掏出來了全新的開源全家桶,包含六款 Dense( 稠密 )模型和兩款 MoE( 混合專家 )模型,能支持 119 種語言和方言。
比起 Qwen2.5 最高 72B 的參數(shù)量,千問這回的旗艦?zāi)P?Qwen3-235B-A22B 打出超級加倍,總參數(shù)量達到了龐大的 235B。
根據(jù)官方放出來的測試結(jié)果,Qwen3 在多個測試集上的表現(xiàn)毫不遜色國內(nèi)外主流大模型,尤其是在代碼和數(shù)學(xué)方面略勝一籌。

具體它的表現(xiàn)如何,我們也上手小測了一波旗艦?zāi)P?Qwen3-235B-A22B。
總的來說,使用體驗很不錯,而且在針對深度思考功能的設(shè)計上還有一些小巧思。
之前大家總嫌大模型一加深度思考就根本停不下來,想的時間太久,給的答案太細。但是不加深度思考嘛,答案的質(zhì)量上又差點意思。
這回 Qwen3 把指揮棒交到用戶手里,你讓它想到啥程度都可以,大大提高了模型的靈活性。
不過,簡單題讓它簡單想,難題還是得讓它多琢磨琢磨。我們在測試中發(fā)現(xiàn),不同的思考長度對模型的表現(xiàn)影響還是很明顯的。
舉個栗子,為了測試它的代碼能力,我們想讓 Qwen3 寫個小游戲。
給出的提示詞很簡單直接,讓它寫一個網(wǎng)頁上的俄羅斯方塊。其他各種游戲玩法、交互、美術(shù)相關(guān)的細節(jié),那不是人類該操心的事,讓千問通過深度思考自己解決去。
而當思考長度設(shè)置在 1024 token 的時候,千問像個剛開始學(xué)代碼的清澈大學(xué)生。給出的程序存在少量 bug,根本玩不起來。
但預(yù)算拉滿之后,它成了熟練的老碼農(nóng),只花幾分鐘就能搓出來一個完全體俄羅斯方塊。
接下來,我們讓中文互聯(lián)網(wǎng)上難度最高深莫測的邏輯測試集開始表演:
“平時燒水很麻煩,為什么不一次性燒好多水然后凍起來,等需要的時候再拿出來呢?”
在關(guān)閉深度思考的時候,模型還會一本正經(jīng)地胡說八道:

《節(jié)省時間》、《節(jié)能》、《確實方便》,說得這么有理有據(jù),我信了。
而一旦啟動深度思考,模型一眼看出來這就是個奇葩問題,直接對邏輯提出異議。

前段時間,OpenAI 在 o3 的官方文檔中就表示,它們發(fā)現(xiàn)模型的推理時間越長,效果越好。
而 Qwen3 的這些個例子算是證明了,通過更長時間的深度思考,大模型確實智商猛漲。

另外,既然代碼和邏輯都難不住它,那就再試試千問在多模態(tài)上的表現(xiàn)咋樣。
前一陣子 GPT-o3 的圖片推理都讓大家伙兒脊背一涼,這次大升級的 Qwen3 也會成為開盒神器嗎?
會的兄弟,會的。
有的差友可能還記得,前不久我們做了一期 o3 開盒,它靠著民宿的招牌定位到了夢想小鎮(zhèn)。
這回 Qwen3 更離譜,下面這張照片里沒有一個字,你知道它是用什么驗證猜測的嗎?

沒錯,是照片左側(cè)的一個愛心雕塑。怕大家看不出來,我特意在上面用紅框圈了一下,沒注意的差友可以再仔細找找。

這回不能說人家靠照片內(nèi)置信息作弊了,千問開盒和馬斯克的智駕一樣,純視覺。
除了以上這些傳統(tǒng)藝能,Qwen3 還追上了 MCP 的熱潮。雖然目前還在測試中沒有開放,但官方秀出了兩個案例。
給它一個 Github 庫,千問可以自己去瀏覽查詢網(wǎng)頁上的信息,總結(jié)每個項目的 star 數(shù),再畫出柱狀圖。
讓它分類歸納亂亂的桌面文件也是小菜一碟。
先幫你把文件夾創(chuàng)建好,然后一秒合并同類項,縱享絲滑。
我只想說:這些功能什么時候上線?自動收集數(shù)據(jù)作圖是真實存在的嗎,摸魚星人狠狠心動了!
測試看完了,有的差友可能對 Qwen3 的技術(shù)細節(jié)還有點疑惑:它到底跟之前的大模型都有啥區(qū)別?
簡單來說,之前的大模型,推理和快速回答都是分開的。比如 DeepSeek-R1 和 GPT-o3 屬于推理模型,而 DeepSeek-V3 和 GPT-4o 負責(zé)快速響應(yīng)。
現(xiàn)在的 Qwen3-235B-A22B,則是一個“ 混合推理模型 ”,相當于 R1+V3,o3+4o。
但模型加功能可不是做個加法這么簡單。Qwen3 具體是怎么訓(xùn)練出來這個二合一模型的呢?
官方在文檔里展示的后訓(xùn)練四步走,解答了這個問題。
謎底就在 post-training 第三階段,Qwen3 把長思維鏈的數(shù)據(jù)和普通的常用指令放在一起對模型進行了微調(diào)。
這樣就可以把快速回答模式整合到深度思考模型中,確保推理和快速響應(yīng)能力的無縫結(jié)合。
Qwen3 post-training 四階段

目前,這種混合大模型,國外有個閉源 Claude 3.7 Sonnet,而國內(nèi)只千問一家,團隊還把它慷慨開源了!
說到這里,有的小伙伴肯定已經(jīng)在摩拳擦掌準備沖了。
但這 235B 的參數(shù)量是不是看起來有點。。。

別慌,MoE 模型有一個大大的好處就是,解答問題不用全員上陣,大部分員工都在休息,所以每次激活的參數(shù)量并不大,只有 22B,而真正吃性能的,也只有這 22B。
也就是說,速度更快,成本更低了。官方表示,部署 Qwen3-235B-A22B 只需要 DeepSeek-R1 35% 的成本。
而 Qwen3 剛一上線也是備受關(guān)注,迅速攀升 Hugging Face 熱搜榜。

這回千問團隊同樣提供了不同規(guī)模的蒸餾模型,一共 8 款任君挑選,最小的 0.6B 模型在移動端都能跑,總有一個符合你的需求。

我們也把 0.6B 的版本的 Qwen3,迅速部署到了手機上,試用了一下,效果還挺樂的:

不過這已經(jīng)是最小的模型了嘛,要求不能太高,至少好玩。
總的來說,這一次的 Qwen3 更新,又給大模型的開源圈帶來了一大波狠貨。
Qwen 在大模型開源圈兒的地位,也進一步得到了鞏固,按照阿里云官方說法,在開源圈發(fā)育了這么久,目前千問的衍生模型已經(jīng)超 10 萬個,全球下載量超 3 了億次,甚至把之前的開源第一 Llama 系列都甩在了后頭。
甚至在某種程度上,AI 圈處處都有千問的影子。
比如,為啥叫千問 AI 圈汪峰呢?因為它每次出新品的時候,總被更狠的活兒壓下去。

Qwen2.5-Max 撞了 DeepSeek-R1, 3 月 QwQ-32B 又撞 Manus。
但其實,DeepSeek-R1 論文中的蒸餾模型案例,是通過千問和 Llama 整的;Manus 的創(chuàng)始人也公開表示,他們的產(chǎn)品也用了是在千問的基礎(chǔ)上微調(diào)開發(fā)的。
所以,雖然這個熱搜遲到了,但通義千問在國產(chǎn)大模型的發(fā)展歷程中,其實一直沒咋缺席。
最后,求求 DeepSeek 再加個速吧,R2已經(jīng)等不及辣!
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
莫莫實測、不咕實測
http://qwenlm.github.io/blog/qwen3/ https://github.com/QwenLM/Qwen3
https://www.usenix.org/system/files/atc23-zhai.pdf
https://huggingface.co/ https://ollama.com/library/deepseek-r1:8b
https://arxiv.org/pdf/2501.12948
https://baijiahao.baidu.com/s?id=1826262065502821151&wfr=spider&for=pc https://openai.com/index/introducing-o3-and-o4-mini/

熱門跟貼