

大家好,我是 Ai 學(xué)習(xí)的老章
極簡(jiǎn)結(jié)論:Qwen3 是可以本地部署的最強(qiáng)開(kāi)源寫(xiě)代碼大模型
我只有 4 張 4090 顯卡,本文嘗試本地部署 Qwen3:32B,搭配 OpenwebUI 聊天 Bot,簡(jiǎn)單看看其推理速度
本地部署
Mac 部署
下載模型
模型部署
openwebui 聊天助手
測(cè)試
模型頁(yè):https://ollama.com/library/qwen3
運(yùn)行:ollama run qwen3
其他尺寸,在后面加參數(shù)即可,比如:ollama run qwen3:32b
可以在提示詞后輸入 /no_think 來(lái)切換 Ollama 中的無(wú)思考模式。
備注??:ollama 運(yùn)行的是量化版,效果有折扣

需要升級(jí)到 v0.8.4 以上,最好 v0.8.5
地址:https://github.com/vllm-project/vllm/issues/17327
vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4
SGLang需要升級(jí)到SGLang 0.4.6.post1
地址:https://github.com/sgl-project/sglang
pip3 install "sglang[all]>=0.4.6.post1" python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3 python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3

可以用 llama.cpp 運(yùn)行起 Qwen3 量化版本、動(dòng)態(tài)量化版本!
地址:https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

Xeon 鉑金 4 代 + 4090 運(yùn)行 Qwen3-235B-A22B 單個(gè)請(qǐng)求可以達(dá)到 13.8 token/s, 4 個(gè)請(qǐng)求并行可以達(dá)到總計(jì) 24.4 token/s
地址:http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac 上也可以跑 Qwen3 了
地址:https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16
pip install -U mlx-lm # or conda install -c conda-forge mlx-lm
支持設(shè)備
iPhone: 0.6B, 4B
Macbook: 8B, 30B, 3B/30B MoE
M2, M3 Ultra: 22B/235B MoE

有網(wǎng)友測(cè)試Qwen3-235B-A22B-4bit
量化版本在 Apple Mac Studio M2 Ultra 能跑到 28 toks/sec,大概占用 132GB 內(nèi)存
下載模型
模型文件:https://modelscope.cn/models/Qwen/Qwen3-32B/files

在下載前,先通過(guò)如下命令安裝 ModelScope
pip install modelscope
命令行下載完整模型庫(kù)
modelscope download --model Qwen/Qwen3-32B
下載單個(gè)文件到指定本地文件夾(以下載 README.md 到當(dāng)前路徑下“dir”目錄為例)
modelscope download --model Qwen/Qwen3-32B README.md --local_dir ./dir
模型大小約 64GB

用 vllm 拉起大模型,我有 4 張 4090 顯卡,tensor-parallel-size 設(shè)置為 4
pip install --upgrade vllm vllm serve . --served-model-name Qwen3:32B --port 3001 --enble-reasoning --reasoning-parse deepseek_r1 --tensor-parallel-size 4

卡沒(méi)被占滿(mǎn),還有空余拉起 reranker 模型

openwebui 聊天助手OpenWebUI 旨在為 AI 和 LLMs 構(gòu)建最佳用戶(hù)界面,為那些互聯(lián)網(wǎng)訪(fǎng)問(wèn)受限的人提供利用 AI 技術(shù)的機(jī)會(huì)。OpenWebUI 通過(guò) Web 界面本地運(yùn)行 LLMs,使 AI 和 LLMs 更安全、更私密。
安裝 openwebui 是我見(jiàn)過(guò)所有 chatbot 中最簡(jiǎn)單的了
# 安裝 pip install open-webui # 啟動(dòng) open-webui serve
瀏覽器打開(kāi) http://locahost:8080
如果是服務(wù)器部署,把 localhost 改為服務(wù)器 ip
正常注冊(cè)登陸

右上角點(diǎn)擊頭像,點(diǎn)擊管理員面板

然后回到前端,左上角添加模型那里就可以找到 Qwen3:32B 了
teminal 頁(yè)面會(huì)實(shí)時(shí)輸出模型推理時(shí)的性能

速度還蠻快的,如果開(kāi)啟 reasoning 會(huì)慢很多,關(guān)閉的話(huà),vllm 那里改成下面即可
vllm serve . --served-model-name Qwen3:32B --port 3001 --tensor-parallel-size 4
測(cè)試
我看了xhs上一些網(wǎng)友評(píng)價(jià),很多說(shuō)效果遠(yuǎn)遠(yuǎn)不如官方公布的結(jié)果,還有說(shuō)幻覺(jué)嚴(yán)重

有些是直接用 ollama 運(yùn)行的量化版,效果不好很正常
有些是在官方網(wǎng)站上測(cè)試的,這個(gè)就見(jiàn)仁見(jiàn)智了,我還是覺(jué)得個(gè)例的參考價(jià)值不大
用腦經(jīng)急轉(zhuǎn)彎和弱智吧的問(wèn)題去測(cè)試大模型,屬實(shí)腦經(jīng)不轉(zhuǎn)彎。
看兩個(gè)獨(dú)立測(cè)評(píng)
evalscope 做了測(cè)試,結(jié)果 - Qwen3-32B 模型在思考模式下,其準(zhǔn)確率與 QwQ-32B 相當(dāng)(在 Accuracy 折線(xiàn)上兩者重合),都達(dá)到了最好的水平。隨著問(wèn)題難度的增加,模型的輸出長(zhǎng)度都隨問(wèn)題難度增加而增加,這表明模型在解答更復(fù)雜問(wèn)題時(shí)需要更長(zhǎng)的"思考時(shí)間",與 Inference-Time Scaling 現(xiàn)象相符。

推上 karminski3 測(cè)試了其寫(xiě)代碼能力
極簡(jiǎn)結(jié)論:Qwen3 是可以本地部署的最強(qiáng)開(kāi)源寫(xiě)代碼大模型

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
熱門(mén)跟貼