北航聯(lián)合團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

Qwen3強勢刷新開源模型SOTA,但如何讓其在資源受限場景中,既能實現(xiàn)低比特量化,又能保證模型“智商”不掉線?

來自北京航空航天大學(xué)西安電子科技大學(xué)蘇黎世聯(lián)邦理工學(xué)院的聯(lián)合研究團(tuán)隊找到了破局關(guān)鍵。

團(tuán)隊對Qwen3的5種后訓(xùn)練量化技術(shù)進(jìn)行了首次系統(tǒng)性評估,涵蓋從1比特到8比特的位寬和多個數(shù)據(jù)集,此外還與LLaMA3進(jìn)行了量化比較。

研究發(fā)現(xiàn),Qwen3在中度位寬下保持了競爭性能,但在超低精度下,語言任務(wù)性能顯著下降,和LLaMA3相比差異則更加明顯,亟需進(jìn)一步解決方案以減輕性能損失。

打開網(wǎng)易新聞 查看精彩圖片

Qwen3登場:優(yōu)勢與挑戰(zhàn)并存

Qwen3登場:優(yōu)勢與挑戰(zhàn)并存

阿里巴巴集團(tuán)開發(fā)的Qwen系列,是基于Transformer架構(gòu)、極具競爭力的開源自回歸大型語言模型(LLM)。

自發(fā)布以來,Qwen展現(xiàn)出了卓越的可擴展性,其70億參數(shù)模型在某些基準(zhǔn)測試中甚至可與更大的專有模型,如GPT-3.5相媲美。

最近推出的Qwen3,參數(shù)規(guī)模從6億到2350億不等,通過在多樣化、高質(zhì)量語料庫上的精煉預(yù)訓(xùn)練進(jìn)一步提升了性能。

這使得Qwen家族成為最具能力的開源LLM之一,適應(yīng)多種部署場景。

盡管Qwen3具有諸多優(yōu)勢,但其實際部署因高計算和內(nèi)存需求而面臨挑戰(zhàn)。

低比特量化已成為緩解這些問題的重要技術(shù),能夠在資源受限設(shè)備上實現(xiàn)高效推理。然而,量化往往會導(dǎo)致性能下降。

Qwen3的尖端能力為重新評估量化技術(shù)提供了及時機會,以揭示其在尖端模型上的效能與局限性。

在本實證研究中,系統(tǒng)性地評估了Qwen3在后訓(xùn)練量化(PTQ)方法下的魯棒性。

團(tuán)隊測試了5種經(jīng)典PTQ方法,包括Round-To-Nearest(RTN)GPTQ、AWQ、SmoothQuantBiLLM,覆蓋從1比特到8比特的位寬。

評估涵蓋多種語言任務(wù),使用了如Perplexity(WikiText2、C4)、0-shot常識推理(PIQA、ARC-Easy/Challenge、HellaSwag、Winogrande、BoolQ)5-shot MMLU等基準(zhǔn)測試。

本研究旨在:

  1. 基準(zhǔn)量化引起的性能權(quán)衡。
  2. 識別特定位寬下的最佳方法。
  3. 突出未解決的挑戰(zhàn),特別是在超低比特場景中。

團(tuán)隊希望研究結(jié)果能為未來研究提供指導(dǎo),推動壓縮模型實現(xiàn)更高精度,提升Qwen3及后續(xù)LLM的實用性。

深度剖析Qwen3量化的背后

深度剖析Qwen3量化的背后

實驗設(shè)置

團(tuán)隊評估了Qwen3后訓(xùn)練模型(0.6B、1.8B、4B、7B、14B和72B)及其預(yù)訓(xùn)練版本(Qwen3-0.6/1.8/4/7/14B-Base)的低比特量化性能,預(yù)訓(xùn)練權(quán)重來源于官方倉庫。

  • 量化方法:

為全面評估Qwen3的量化魯棒性,研究人員選擇了5種具有代表性的后訓(xùn)練量化(PTQ)方法,涵蓋多種技術(shù)路線。

所有實現(xiàn)均遵循其原始開源代碼庫。實驗在1塊NVIDIA A800 80GB GPU上進(jìn)行,以確保評估條件一致。

  • 量化協(xié)議:

為確保所有量化方法的公平比較,研究人員保持以下三項一致性措施:

  1. 所有方法使用相同的校準(zhǔn)數(shù)據(jù)(來自C4數(shù)據(jù)集的128個樣本,序列長度為2048)。對于每組量化,通道分組采用128的塊大小,遵循LLM量化的既定實踐。
  2. 對于每組量化,通道分組采用128的塊大小,遵循LLM量化的既定實踐。
  3. 權(quán)重量化統(tǒng)一應(yīng)用于1到8比特。

這些控制變量使得量化方法的性能可以直接比較,同時最大限度減少干擾因素。

在權(quán)重-激活量化方法中,激活值被量化為4或8比特,這是最常用的設(shè)置,因為更低位寬通常會導(dǎo)致顯著的性能下降。

  • 評估協(xié)議:

為進(jìn)行全面的PTQ評估,團(tuán)隊在WikiText2和C4的256個樣本子集上測量困惑度(PPL)序列長度為2048。

零樣本準(zhǔn)確性通過六個公認(rèn)的推理基準(zhǔn)測試進(jìn)行評估:PIQA、Winogrande、ARC-Easy、ARC-Challenge、HellaSwag和BoolQ

少樣本能力通過5-shot MMLU進(jìn)一步檢驗。這一多維評估框架為量化后的Qwen3在不同任務(wù)類型和難度水平上的能力提供了嚴(yán)格評估。

PTQ結(jié)果

下面詳細(xì)展示了實驗結(jié)果(表1,表2,表3,表4),并根據(jù)數(shù)據(jù)提供了直觀的視覺圖示(圖1,圖2,圖3,圖4)。

表1展示了Qwen3-Base模型每通道2到8位的PTQ結(jié)果,展現(xiàn)了在Wikitext2和c4上的困惑度、零樣本推理任務(wù)以及5樣本MMLU性能。其中W表示權(quán)重量化位寬,A表示激活量化位寬。

打開網(wǎng)易新聞 查看精彩圖片

表2是Qwen3模型每通道2到8位的PTQ結(jié)果。

打開網(wǎng)易新聞 查看精彩圖片

表3是Qwen3-Base模型每組1到8位的PTQ結(jié)果,驗證了在Wikitext2和c4上的困惑度、零樣本推理任務(wù)以及5樣本的MMLU性能。其中G表示組大小。

打開網(wǎng)易新聞 查看精彩圖片

表4是Qwen3模型每組1到8位的PTQ結(jié)果。

打開網(wǎng)易新聞 查看精彩圖片

  • 權(quán)重量化的影響:

在8比特時,Qwen3始終保持接近無損的性能,表明高比特量化在實際部署中仍具有很大潛力。

然而,當(dāng)位寬降低到4比特時,所有量化方法均顯示出明顯的性能下降。例如,Qwen-8B的MMLU分?jǐn)?shù)從74.7降至69.3。

當(dāng)位寬進(jìn)一步降至3比特時,盡管AWQ仍保留一定能力,但原始模型的大部分優(yōu)勢已喪失。

在2比特時,僅有像GPTQ這樣利用校準(zhǔn)補償?shù)姆椒軌虮3肿畹拖薅鹊男阅堋?/p>

同時,團(tuán)隊觀察到二值化方法Bi-LLM表現(xiàn)出相對有前景的結(jié)果,在32B模型中甚至超越了3比特的AWQ,凸顯了二值化的潛力。

  • 激活量化的影響:

在應(yīng)用經(jīng)典激活量化方法SmoothQuant時,團(tuán)隊觀察到即使在w8a8設(shè)置下,與全精度模型相比,性能已有明顯下降。

當(dāng)位寬降至w4a8時,模型性能顯著下降,遠(yuǎn)不如僅權(quán)重量化。

這一結(jié)果與近期研究發(fā)現(xiàn)一致,表明大型模型可能對激活量化特別敏感,可能是由于激活值異常導(dǎo)致的顯著性能下降。

圖1:Qwen3-Base在C4數(shù)據(jù)集上按照per-group的困惑度
打開網(wǎng)易新聞 查看精彩圖片
圖1:Qwen3-Base在C4數(shù)據(jù)集上按照per-group的困惑度
圖2:Qwen3-Base每組量化的0樣本常識推理準(zhǔn)確率
打開網(wǎng)易新聞 查看精彩圖片
圖2:Qwen3-Base每組量化的0樣本常識推理準(zhǔn)確率

  • 不同參數(shù)規(guī)模的比較:

團(tuán)隊觀察到較大模型在量化下表現(xiàn)出更強的穩(wěn)定性。

具體來說,Qwen3-14B在4比特GPTQ下的MMLU性能僅下降1%,而Qwen3-0.6B在相同設(shè)置下下降約10%,這凸顯了較大參數(shù)空間緩解量化噪聲的能力。

  • 與LLaMA3的比較:

團(tuán)隊此前對LLaMA3進(jìn)行了經(jīng)典方法的實驗。

與LLaMA3的先前結(jié)果相比,Qwen3在低比特量化(3比特或更低)下表現(xiàn)出更顯著的性能下降。

具體來說,在LLaMA3-8B中,AWQ的w3a16g128量化使C4上的PPL從9.2僅增至11.6,而在Qwen3-8B-Base中,相同AWQ設(shè)置使PPL從10.4增至23.8。

這與團(tuán)隊之前的實證觀察和假設(shè)一致:更徹底的預(yù)訓(xùn)練過程可能導(dǎo)致更強的LLM中冗余表示更少,使其對量化更敏感。

圖3:Qwen3在C4數(shù)據(jù)集上per-group和per-channel量化方法的困惑度
打開網(wǎng)易新聞 查看精彩圖片
圖3:Qwen3在C4數(shù)據(jù)集上per-group和per-channel量化方法的困惑度
圖4:Qwen3 per-group量化和per-channel量化方法的0樣本常識推理
打開網(wǎng)易新聞 查看精彩圖片
圖4:Qwen3 per-group量化和per-channel量化方法的0樣本常識推理

結(jié)論與展望

結(jié)論與展望

新發(fā)布的Qwen3系列已成為最強大的開源大型語言模型(LLM)家族之一,吸引了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

本研究首次系統(tǒng)性地評估了Qwen3在多種低比特量化方案下的魯棒性,特別聚焦于后訓(xùn)練量化方法。

通過全面的量化分析,旨在為在資源受限場景下部署Qwen3建立實際界限。

實驗結(jié)果表明,Qwen3在較高位寬(4比特及以上)下保持了競爭性能,但與前幾代模型相比,在量化為3比特或以下時,性能下降更為明顯。

這一觀察與團(tuán)隊的假設(shè)一致,即Qwen3廣泛采用的先進(jìn)預(yù)訓(xùn)練技術(shù)往往生成參數(shù)冗余較少的模型,從而使其對量化引起的信息損失更為敏感,尤其在復(fù)雜推理任務(wù)和少樣本學(xué)習(xí)場景中,性能下降尤為顯著。

這些發(fā)現(xiàn)凸顯了兩個關(guān)鍵含義:

  1. 當(dāng)前的量化技術(shù)需要進(jìn)一步創(chuàng)新,以更好地保留Qwen3的先進(jìn)能力;
  2. 對于尖端LLM,模型壓縮與性能保留之間的權(quán)衡需要仔細(xì)重新考慮。

研究團(tuán)隊相信,這一實證分析為LLM量化的未來研究方向提供了寶貴指導(dǎo),特別是在開發(fā)能夠在超低位寬下保持高準(zhǔn)確性的方法方面。

隨著領(lǐng)域的進(jìn)步,研究團(tuán)隊期待這些見解將有助于像Qwen3這樣強大模型的更高效部署,最終在降低計算開銷的同時推動大型語言模型的實際應(yīng)用。

未來該團(tuán)隊計劃評估更高級的量化方法,例如基于通道重排序的方法基于旋轉(zhuǎn)的量化策略,以評估Qwen3在這些技術(shù)下的性能,特別是它們對激活量化的影響。

論文鏈接:https://arxiv.org/pdf/2505.02214
項目鏈接:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b