国产又黄又爽又色的视频,久久综合日韩亚洲欧美,91av入口在线观看,人妻碰碰久久,秋霞午夜久久一区三区

今天（4 月 29 日）凌晨，阿里巴巴推出了 4 月壓軸的一款大語言模型——Qwen3 系列。

而在這個月，Meta、字節(jié)跳動、OpenAI、Google、百度都在稍早前推出了新的大模型，OpenAI 甚至一次性拿出三款大模型，百度也在這周舉行的 Create 2025 百度 AI 開發(fā)者大會上發(fā)布了兩款大模型。

但在這一眾新模型中，阿里還能搞出什么新意？事實上還真有，除了繼續(xù)保持開源路線，Qwen3 系列作為阿里定位中的旗艦大模型，在模型性能上也有了不小的進步，再次縮小與頂尖大模型之間的能力差。

此外，Qwen3 系列還是一款混合推理模型，甚至官方博文的標題就是《Qwen3：思深，行速》。簡單來說，Qwen3 支持思考模式和非思考模式，而不像 DeepSeek 深度思考下是 R1，關閉深度思考其實是 V3。

圖/雷科技

關于混合推理模型，雷科技在今年 2 月就報道并介紹了首款混合推理模型，以及混合推理的優(yōu)勢所在，并指出：「混合推理模式」可能會成為大模型發(fā)展的下一個標準配置。

而回到阿里剛剛發(fā)布的 Qwen3 系列，作為國內(nèi)首個混合推理模型，也是首個混合推理開源模型，再加上模型性能方面的進步，也難怪 Qwen3 推出僅僅四個小時后，就在全球最大開發(fā)者社區(qū) Github 拿到了 1.7 萬個 Star。

問題在于，在模型跑分越來越受爭議的今天，Qwen3 系列實際上真能兌現(xiàn)跑分體現(xiàn)出的能力，以及混合推理模型的優(yōu)勢嗎？

跑分追上頂級閉源模型，阿里 Qwen3 成色幾何？

毫無疑問，Qwen3 系列最大的亮點之一就是通過引入混合推理設計，實現(xiàn)了同一模型的「思考模式」與「非思考模式」，阿里這次是把這兩種「腦回路」都塞進了同一個模型里，還開放給用戶和開發(fā)者自由選擇。

非思考模式下，Qwen3 系列會充分發(fā)揮快速響應的優(yōu)勢，更像傳統(tǒng)語言模型的輸出方式——快速直接地生成結果。而在思考模式下，模型則會進行深入地思考和推理，比如先分解問題、做一步步的邏輯推導，再得出結論。

圖/雷科技

這種架構并不是第一次被提出，但 Qwen3 系列是國內(nèi)首個真正落地混合推理并完全開源的模型。

在全球范圍內(nèi)，除了首先采用這種設計 Claude-3.7-Sonnet，也只有 Google 在 4 月中旬才推出的 Gemini 2.5 Flash 上做出了類似嘗試，包括 OpenAI 盡管早早表明了「混合推理」的目標，但仍在開發(fā)中。

不僅如此，Qwen3 系列還是一個多尺寸的系列模型，覆蓋包括 0.6B、1.7B、4B、8B、14B、32B，一共 6 個尺寸的稠密模型，以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 共 2 個適用于復雜任務的 MoE 混合專家模型，并且全部支持 119 種語言和方言。

Qwen3 不只是架構上「動了腦子」，性能表現(xiàn)也確實有料。阿里宣稱，小模型如 Qwen3-4B 的性能已可媲美上一代的 Qwen2.5-72B-Instruct，同時 MoE 模型更是在基準測試上表現(xiàn)出了媲美頂尖閉源模型的能力。

圖/阿里

尤其是參數(shù)規(guī)模達到 2350 萬億的 Qwen3-235B-A22B，在數(shù)學推理基準 AIME25 上，得分達到 81.5，刷新開源模型紀錄；在代碼能力測試 LiveCodeBench 中得分超過 70，超過 Grok-3；在人類偏好評估 ArenaHard 中，得分 95.6，超過 OpenAI o1 和 DeepSeek-R1。

這些進步，在一定程度上也解釋了為何 Qwen3 系列一經(jīng)發(fā)布就受到社區(qū)熱烈歡迎。

另一方面，Qwen3 團隊還強調(diào)了 Agent 能力的增強以及對 MCP 的支持，算是順理成章，但目前還沒有看出亮眼的地方。主要可能還是，AI 開發(fā)者打造 Agent 的好選擇又多了一個。

不過 Qwen3 系列當然還談不上十全十美。在實際推理表現(xiàn)上，Qwen3-235B-A22B 距離今天的頂級模型還有明顯的差異，實測即便在滿血狀態(tài)下，遇到困難問題還是容易陷入「冗長而無用」的推理中，最后的結果也不理想。

比如雷科技在OpenAI-o3 上手測試中提出的問題，o3 可以條理清晰地回答「父親崩潰的原因」，但 Qwen3-235B-A22B 則遇到了和 DeepSeek-R1 類似的問題——思考太久且不斷重復方向，甚至沒有抓住「女兒是色盲」這一關鍵的可能性。

圖/雷科技

包括在 Hacker News 上，也有網(wǎng)友指出 Qwen3-235B-A22B 面對復雜問題時的表現(xiàn)。

圖/ Hacker News

不過降低一點難度，在經(jīng)典過河問題上稍作改造來提問 Qwen3-235B-A22B，詢問怎么把卷心菜、山羊、狼和獅子完整拉過河。盡管采用了窮舉的方式，但還是找到了安全的路徑，關鍵是對規(guī)則的理解非常到位。

當然，時間有限我們暫時只是簡單地上手，但也大體能看出 Qwen3 最強版本的「成色」，如果從基準測試的分數(shù)來看，最好還是放低一下期待。但放到今天的大模型戰(zhàn)場來看，Qwen3 系列依然稱得上最強開源模型，并且混合推理的設計也給用戶和開發(fā)者帶來了更靈活的選擇。

放大鏡下的 Qwen3，阿里的一次關鍵補強

放在更大的時間尺度上來看，Qwen3 系列的發(fā)布，并不僅僅是一次模型升級這么簡單，而是可以看作阿里在 AI 戰(zhàn)略上的一次重要補強。

過去兩年里，阿里在大模型領域的布局其實并不算慢，通義千問體系逐步完善，開源也走得比較早。但無論是在模型的全球聲量，還是在開源社區(qū)的話語權上，始終未能真正站到最前排。

在 4 月爆料 Qwen3 即將發(fā)布（雖然發(fā)布時間推遲了）的報道中，虎嗅還指出，基礎模型團隊在阿里內(nèi)部最重要的考核維度是「模型影響力」，高層希望可以在業(yè)內(nèi)成功塑造「最強模型」的心智。

想復制 DeepSeek 的影響力，很難。圖/ X

不過 OpenAI、DeepSeek、Google 以及 Anthropic 等公司接連發(fā)布的強力模型，阿里此前更多是追隨者角色，很難形成技術引領的姿態(tài)。Qwen3 系列的推出，無疑是一場重要的補強，也在某種程度上緩解了這種局面。

尤其是在開源模型領域，Qwen3 覆蓋了從小參數(shù)到大參數(shù)、稠密模型到混合專家模型的一整套體系，支持 119 種語言和方言，同時在 Hugging Face、GitHub 等開發(fā)者社區(qū)迅速獲得了不錯的反響。這不僅擴展了阿里在開源生態(tài)中的存在感，也為更多模型應用、工具鏈建設打下了基礎。

而從商業(yè)化的角度來看，Qwen3 系列也直接回應了當前模型商業(yè)應用的兩大痛點：推理成本高，以及靈活適配性不足。通過引入 MoE 架構大幅降低推理成本，同時又在推理機制上支持思考與非思考的靈活切換，Qwen3 在推理效率、推理成本之間嘗試找到相對平衡的位置。

對于阿里云現(xiàn)有的 AI 服務體系，尤其是政企、制造、金融等行業(yè)客戶來說，更低的部署門檻和更高的適配靈活性，無疑可以增強阿里在大模型商業(yè)化競爭中的籌碼。更重要的是，大模型能力注定是未來 AI 云競爭的「勝負手」。