這些年大模型的發(fā)展史,某種程度上也是模型規(guī)模不斷擴(kuò)張的歷史。更大規(guī)模的模型參數(shù)帶來(lái)了性能的不斷提升,但與此同時(shí),計(jì)算成本也急劇增加。
為了降低計(jì)算成本,低精度訓(xùn)練與推理成為了一種行之有效的策略,它能通過(guò)減少計(jì)算量和內(nèi)存占用來(lái)提升訓(xùn)練效率和推理速度。例如 Llama-3 405B,就采用了 BF16(即 16 位浮點(diǎn),而非傳統(tǒng)的 32 位)精度進(jìn)行訓(xùn)練。
源:MAARTEN GROOTENDORST)](http://dingyue.ws.126.net/2024/1113/75e31cb0j00smw5sl009ed000u000j8m.jpg)
且隨著硬件支持的逐漸發(fā)展,專門為低精度計(jì)算設(shè)計(jì)的計(jì)算單元和優(yōu)化的內(nèi)存架構(gòu)不斷涌現(xiàn),使得 FP8、FP4 等更低精度的訓(xùn)練方式逐漸成為可能,能在減少計(jì)算和存儲(chǔ)成本的同時(shí),保持模型的數(shù)值穩(wěn)定性和性能。于是,目前有關(guān)縮放定律的研究似乎并未充分考慮精度這一因素的影響。
那么,代價(jià)是什么呢?
在這一背景下,來(lái)自哈佛大學(xué)、斯坦福大學(xué)與 MIT 等機(jī)構(gòu)的合作團(tuán)隊(duì)提出:隨著模型規(guī)模的不斷擴(kuò)大,低精度的量化或?qū)⒉辉儆行А?/p>
相關(guān)論文以《精度感知的縮放定律》(Scaling Laws for Precision)為題,發(fā)表在預(yù)印本網(wǎng)站arXiv上 [1]。

在低精度訓(xùn)練中,模型的 Scaling Laws 變得更加復(fù)雜,因?yàn)榱炕瘞?lái)的誤差可能影響模型的準(zhǔn)確性,尤其是在處理大量數(shù)據(jù)時(shí)。傳統(tǒng)的 Scaling Laws 多基于高精度訓(xùn)練,并未考慮低精度帶來(lái)的誤差放大效應(yīng)。
為此,團(tuán)隊(duì)提出了一種“精度感知”(precision-aware)的縮放定律,相比以往研究,該定律不僅考慮了模型參數(shù)的數(shù)量和數(shù)據(jù)規(guī)模,還引入了精度這一新的維度,來(lái)研究其對(duì)訓(xùn)練和推理?yè)p失的影響。
為了探索這一問題,研究團(tuán)隊(duì)對(duì) 465 個(gè)語(yǔ)言模型進(jìn)行了實(shí)驗(yàn),這些模型的規(guī)模從 3000 萬(wàn)到 17 億個(gè)參數(shù)不等,并使用了包含 260 億 tokens 的數(shù)據(jù)集進(jìn)行訓(xùn)練。實(shí)驗(yàn)中涵蓋了不同精度的組合,從 3 位到 16 位,模擬了多種低精度環(huán)境,以研究其對(duì)模型性能和計(jì)算效率的影響。

首先,研究分析了后訓(xùn)練量化(Post-Train Quantization, PTQ)的影響。后訓(xùn)練量化是指在模型完成訓(xùn)練后,將其高精度的權(quán)重量化為低精度,以減少推理時(shí)的存儲(chǔ)需求。這種方法通常被用于深度學(xué)習(xí)模型的部署階段,以節(jié)省硬件資源。
然而,團(tuán)隊(duì)發(fā)現(xiàn),后訓(xùn)練量化帶來(lái)的模型性能損失會(huì)隨著訓(xùn)練數(shù)據(jù)量的增加而增加,特別是在低精度下,這種損失可能非常顯著。

具體來(lái)說(shuō),隨著數(shù)據(jù)量的增加,模型的權(quán)重逐漸變得更加“緊湊”,而這種緊湊性使得在進(jìn)行低精度量化時(shí),模型更容易出現(xiàn)較大的性能損失。因此,增加訓(xùn)練數(shù)據(jù)并不總是能帶來(lái)推理階段的性能提升,尤其是在需要進(jìn)行量化的情況下,這樣的訓(xùn)練數(shù)據(jù)量可能會(huì)使模型的推理性能下降。
為了進(jìn)一步理解低精度訓(xùn)練的影響,研究者對(duì)不同部分的低精度訓(xùn)練進(jìn)行了單獨(dú)實(shí)驗(yàn),包括僅量化權(quán)重的“量化感知訓(xùn)練”(Quantization-Aware Training)和對(duì)權(quán)重、激活及 KV 緩存同時(shí)量化的“低精度訓(xùn)練”(Low-Precision Training)。
通過(guò)這些實(shí)驗(yàn),研究者分別觀察了各組件在不同精度設(shè)置下對(duì)模型損失的影響,并總結(jié)了低精度訓(xùn)練對(duì)模型整體性能的作用機(jī)制。
實(shí)驗(yàn)結(jié)果顯示,在較低精度下,增加權(quán)重的位精度所帶來(lái)的收益很大,但在較高精度下會(huì)趨于飽和。

相比之下,激活和 KV 緩存在更低精度下的量化則可能顯著增加模型的損失。
通過(guò)這些實(shí)驗(yàn),研究者意識(shí)到各個(gè)組件的低精度效果是相對(duì)獨(dú)立的,但同時(shí)存在一個(gè)共同的現(xiàn)象:模型的總有效參數(shù)數(shù)會(huì)隨著各組件精度的降低而顯著下降,進(jìn)而導(dǎo)致模型損失的上升。

雖然在權(quán)重精度較低時(shí),增加模型參數(shù)可以使模型達(dá)到與高精度小模型相似的性能。但對(duì)于那些極低精度(例如 INT3 或 FP4)的訓(xùn)練,即使模型的總參數(shù)數(shù)量增加,其學(xué)習(xí)能力和表現(xiàn)也可能大幅度下降,因?yàn)檫@些低精度參數(shù)無(wú)法完全捕捉復(fù)雜的數(shù)據(jù)特征。
所以,隨著數(shù)據(jù)量的增加,使用更高的訓(xùn)練精度可以更好地利用這些數(shù)據(jù),從而提高模型的性能。
為了將訓(xùn)練與推理階段的精度、參數(shù)和數(shù)據(jù)之間的相互作用統(tǒng)一起來(lái),研究團(tuán)隊(duì)提出了一種統(tǒng)一的精度縮放定律。該定律綜合了訓(xùn)練中的損失、后訓(xùn)練量化中的損失,以及它們?cè)诓煌仍O(shè)置下的表現(xiàn),其公式如下:

通過(guò)將訓(xùn)練損失和推理?yè)p失結(jié)合在一起,研究由此提供了一個(gè)統(tǒng)一的框架來(lái)預(yù)測(cè)低精度訓(xùn)練和量化后的性能。這種精確的建模使得研究者能夠預(yù)測(cè)在不同訓(xùn)練和推理精度組合下的性能變化,從而為未來(lái)模型的精度選擇提供了理論依據(jù)。
團(tuán)隊(duì)指出,盡管 16 位精度(BF16)已成為訓(xùn)練大規(guī)模模型的常規(guī)選擇,但實(shí)際上 7 到 8 位精度可能在計(jì)算成本與性能之間達(dá)到更優(yōu)的平衡點(diǎn),并進(jìn)一步指出在極低精度(如 4 位以下)下,模型的有效參數(shù)數(shù)將顯著減少,導(dǎo)致需要成倍增加參數(shù)量以維持模型性能,這在實(shí)際中或許行不通。
綜上,這項(xiàng)研究通過(guò)一系列精度實(shí)驗(yàn)與理論推導(dǎo),揭示了低精度訓(xùn)練對(duì)模型性能的深遠(yuǎn)影響。通過(guò)精度感知的擴(kuò)展規(guī)律,研究者不僅為低精度模型訓(xùn)練提供了科學(xué)依據(jù),也為未來(lái)模型的精度優(yōu)化指明了方向。

有學(xué)者表示,“這是長(zhǎng)期以來(lái)最重要的一篇論文。它以強(qiáng)有力的證據(jù)表明,我們正在達(dá)到量化的極限”,它或許意味著,我們的思維模式“將很快從規(guī)?;D(zhuǎn)變?yōu)椤覀兡苡矛F(xiàn)有資源做什么’”。
參考資料:
1.https://arxiv.org/abs/2411.04330
2.https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
3.https://x.com/Tim_Dettmers/status/1856338255408517388
運(yùn)營(yíng)/排版:何晨龍
熱門跟貼