又长又大又硬又爽又黄的视频,中出网站在线观看,99 热精品在线,jk制服一区二区,91国自产拍精品

Qwen這波，能處。

作者丨洪雨欣

編輯丨陳彩嫻

4月29日，通義App與通義網(wǎng)頁版全面上線阿里新一代通義千問開源模型 Qwen3。用戶可以第一時(shí)間在通義 App 和網(wǎng)頁版中的專屬智能體 “千問大模型”，以及主對話頁面，體驗(yàn)到最強(qiáng)開源模型的智能能力。

Qwen3 一經(jīng)發(fā)布便登頂全球最強(qiáng)開源模型，包含 8 款不同尺寸，均為全新的“混合推理模型”，智能水平大幅提升的同時(shí)也更省算力。

其中，旗艦?zāi)Ｐ?Qwen3-235B-A22B 是一款混合專家（MoE）模型，該模型創(chuàng)下所有國產(chǎn)模型及全球開源模型的性能新高。在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中，Qwen3-235B-A22B 展現(xiàn)出多項(xiàng)具有競爭力的數(shù)據(jù)，直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型。

除此之外，小型 MoE 模型 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%，表現(xiàn)更勝一籌。而 Qwen3-32B是一款稠密（Dense）模型，部署成本低、穩(wěn)定高效，是企業(yè)部署首選。

通義還開源了兩個(gè) MoE 模型的權(quán)重：一個(gè)是擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的 Qwen3-235B-A22B，一個(gè)是擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型 Qwen3-30B-A3B。此外，六個(gè) Dense 模型也已開源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 許可下開源。

目前， Qwen3-30B-A3B等經(jīng)過后訓(xùn)練的模型已在 Hugging Face、ModelScope 和 Kaggle 等平臺(tái)上開放使用。用戶可在 Qwen Chat 網(wǎng)頁版 (chat.qwen.ai) 和通義 APP 中試用 Qwen3。

深思考，多語言

Qwen3 支持兩種思考模式：

深入思考：在這種模式中，模型會(huì)逐步推理，經(jīng)過深思熟慮后給出最終答案，非常適合需要深入思考的復(fù)雜問題。
快速思考：在這種模式中，模型提供快速、近乎即時(shí)的響應(yīng)，適用于那些對速度要求高于深度的簡單問題。

用戶可以根據(jù)具體任務(wù)控制模型進(jìn)行“思考”的程度，復(fù)雜的問題可以通過深入思考來解決，而簡單的問題則可以通過快速作答。

值得關(guān)注的是，這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力，讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算，在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

除了多種思考模式，Qwen3 模型還支持多語言功能，涵蓋了 119 種語言和方言。

X上網(wǎng)友也紛紛給出好評！

網(wǎng)友表示，Qwen 3 能快能慢，答案精準(zhǔn)。對于編碼，它運(yùn)行良好。對于數(shù)學(xué)，它保持平靜。對于語言，它非常真實(shí)。

“開源模型已經(jīng)很久沒有這么好了?！?/p>

預(yù)訓(xùn)練，后訓(xùn)練

Qwen3 預(yù)訓(xùn)練實(shí)現(xiàn)了三重升級：

第一重，數(shù)據(jù)增強(qiáng)。預(yù)訓(xùn)練語料規(guī)模達(dá)36萬億token，是Qwen2.5的2倍，覆蓋119種語言。通義通過多源數(shù)據(jù)構(gòu)建了強(qiáng)大的數(shù)據(jù)集：

1. 網(wǎng)絡(luò)數(shù)據(jù)+PDF文檔提取（Qwen2.5-VL處理）

2. 專家模型合成數(shù)學(xué)/代碼數(shù)據(jù)（Qwen2.5-Math/Coder生成教材/問答/代碼）

第二重，階段訓(xùn)練。預(yù)訓(xùn)練過程分為三個(gè)階段：

1. S1基礎(chǔ)訓(xùn)練：30萬億token（上下文長度為4K token），建立基礎(chǔ)能力

2. S2知識強(qiáng)化：5萬億token，提升STEM/編程/推理數(shù)據(jù)占比

3. S3長文本適應(yīng)：32K token上下文訓(xùn)練，優(yōu)化長文本處理

第三重，性能突破。

Dense模型：小參數(shù)量對標(biāo) Qwen2.5（如1.7B≈3B），STEM/編程/推理能力反超 Qwen2.5
MoE模型：使用10%激活參數(shù)達(dá)到Qwen2.5 Dense水平，訓(xùn)練推理成本大幅降低

后訓(xùn)練方面，通義實(shí)施了一個(gè)四階段的訓(xùn)練流程：

1. 長思維鏈冷啟動(dòng)：涵蓋數(shù)學(xué)、代碼、邏輯推理和 STEM 問題等多種任務(wù)和領(lǐng)域，配備基本推理能力

2. 長思維鏈強(qiáng)化學(xué)習(xí)：大規(guī)模強(qiáng)化學(xué)習(xí)，基于規(guī)則的獎(jiǎng)勵(lì)增強(qiáng)模型的探索和鉆研能力

3. 思維模式融合：整合非思考模式，確保推理和快速響應(yīng)能力無縫結(jié)合

4. 通用強(qiáng)化學(xué)習(xí)：應(yīng)用強(qiáng)化學(xué)習(xí)于指令遵循、格式遵循和 Agent 能力等在內(nèi)的 20 多個(gè)通用領(lǐng)域，增強(qiáng)模型的通用能力并糾正不良行為

Qwen3使用演示

首先來看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的標(biāo)準(zhǔn)示例：

要禁用思考模式，只需對參數(shù) enable_thinking 進(jìn)行如下修改：

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4來創(chuàng)建一個(gè)與 OpenAI API 兼容的 API endpoint：

若要禁用思考模式，可以通過移除參數(shù) --reasoning-parser（以及 --enable-reasoning）。

如果用于本地開發(fā)，可以通過運(yùn)行簡單的命令 ollama run qwen3:30b-a3b 來使用 ollama 與模型進(jìn)行交互，也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代碼庫進(jìn)行本地開發(fā)。

還有一種軟切換機(jī)制，允許用戶在 enable_thinking=True 時(shí)動(dòng)態(tài)控制模型的行為，只需在用戶提示或系統(tǒng)消息中添加 /think 和 /no_think，就可以逐輪切換模型的思考模式：

Qwen3 在工具調(diào)用方面同樣表現(xiàn)出色。Qwen-Agent 內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器，降低代碼復(fù)雜性：

今年1月份千問發(fā)布Qwen2.5-Max，性能比肩DeepSeek V3、GPT-4和Claude-3.5-Sonnet。短短三個(gè)月又迎來 Qwen3，阿里在AGI這條路上又完成了一個(gè)里程碑。此次的亮點(diǎn)旨在"雙模推理"技術(shù)——允許用戶在深度推理的思考模式與及時(shí)響應(yīng)的非思考模式間自由切換，并提供計(jì)算資源動(dòng)態(tài)分配接口，為不同場景需求提供精準(zhǔn)算力支持。

未來，通義團(tuán)隊(duì)計(jì)劃從擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長上下文長度、拓寬模態(tài)范圍等方面提升模型性能，從訓(xùn)練模型的時(shí)代，慢慢過渡到訓(xùn)練 Agent 的時(shí)代。

參考資料：https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A