機器之心報道
機器之心編輯部
谷歌 Gemma 3 上線剛剛過去一個月,現(xiàn)在又出新版本了。

該版本經(jīng)過量化感知訓(xùn)練(Quantization-Aware Training,QAT)優(yōu)化,能在保持高質(zhì)量的同時顯著降低內(nèi)存需求。

比如經(jīng)過 QAT 優(yōu)化后,Gemma 3 27B 的 VRAM 占用量可以從 54GB 大幅降至 14.1GB,使其完全可以在 NVIDIA RTX 3090 等消費級 GPU 上本地運行!

Chatbot Arena Elo 得分:更高的分數(shù)(最上面的數(shù)字)表明更大的用戶偏好。點表示模型使用 BF16 數(shù)據(jù)類型運行時所需的 NVIDIA H100 GPU 預(yù)估數(shù)量。
機器之心在一臺配備了 RTX 3070 的電腦上簡單測試了其中的 12B 版本,可以看到雖然 Gemma 3 的 token 輸出速度不夠快,但整體來說還算可以接受。
基于量化感知訓(xùn)練的 Gemma 3
在 AI 模型中,研究者可以使用更少的位數(shù)例如 8 位(int8)甚至 4 位(int4)進行數(shù)據(jù)存儲。
采用 int4 量化意味著每個數(shù)值僅用 4 bit 表示 —— 相比 BF16 格式,數(shù)據(jù)大小縮減至 1/4。
但是,這種量化方式通常會導(dǎo)致模型性能下降。
那谷歌是如何保持模型質(zhì)量的?答案是采用 QAT。
與傳統(tǒng)在模型訓(xùn)練完成后才進行量化的方式不同,QAT 將量化過程直接融入訓(xùn)練階段 —— 通過在訓(xùn)練中模擬低精度運算,使模型在后續(xù)被量化為更小、更快的版本時,仍能保持準確率損失最小化。
具體實現(xiàn)上,谷歌基于未量化的 checkpoint 概率分布作為目標,進行了約 5,000 步的 QAT 訓(xùn)練。當量化至 Q4_0(一種常見的量化格式) 時,困惑度下降了 54%。
這樣帶來的好處之一是加載模型權(quán)重所需的 VRAM 大幅減少:
- Gemma 3 27B:從 54 GB(BF16)降至僅 14.1 GB(int4)
- Gemma 3 12B:從 24 GB(BF16)縮減至僅 6.6 GB(int4)
- Gemma 3 4B:從 8 GB(BF16)精簡至 2.6 GB(int4)
- Gemma 3 1B:從 2 GB(BF16)降至僅 0.5 GB(int4)

此圖僅表示加載模型權(quán)重所需的 VRAM。運行該模型還需要額外的 VRAM 用于 KV 緩存,該緩存存儲有關(guān)正在進行的對話的信息,并取決于上下文長度。
現(xiàn)在看來,用戶在消費級設(shè)備上就能運行更大、更強的 Gemma 3 模型,其中:
- Gemma 3 27B (int4):現(xiàn)在可以輕松安裝在單張 NVIDIA RTX 3090(24GB VRAM)或類似顯卡上,本地就能運行最大的 Gemma 3 版本;
- Gemma 3 12B (int4):可在 NVIDIA RTX 4060 GPU(8GB VRAM)等筆記本電腦 GPU 上高效運行,為便攜式設(shè)備帶來強大的 AI 功能;
- 更小的型號(4B、1B):為資源較為有限的系統(tǒng)(包括手機和烤面包機)提供更強大的可訪問性。

來自 Two Minute Papers 頻道的玩笑
官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上線。谷歌還與眾多熱門開發(fā)者工具合作,讓用戶無縫體驗基于 QAT 的量化 checkpoint:
- Ollama:從今天起,只需一個簡單命令即可原生支持 Gemma 3 QAT 模型。
- LM Studio:通過用戶友好界面,輕松下載并在桌面上運行 Gemma 3 QAT 模型。
- MLX:利用 MLX 在蘋果芯片上對 Gemma 3 QAT 模型進行高效推理。
- Gemma.cpp:使用專用的 C++ 實現(xiàn),直接在 CPU 上進行高效推理。
- llama.cpp:得益于對 GGUF 格式 QAT 模型的原生支持,可輕松集成到現(xiàn)有工作流程中。
激動的網(wǎng)友已經(jīng)無法抑制內(nèi)心的喜悅:「我的 4070 就能運行 Gemma 3 12B,這次谷歌終于為即將破產(chǎn)的開發(fā)者做了一些事情。」

「希望谷歌朝著 1bit 量化使使勁?!?/p>
這個可以本地運行的 Gemma 3 你用了嗎,效果如何,歡迎大家評論區(qū)留言。
參考鏈接:https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718
熱門跟貼