
大數(shù)據(jù)文摘出品
微軟的BitNet b1.58 2B4T 的技術(shù)報(bào)告悄然上線(xiàn)。
其實(shí)在開(kāi)源社區(qū)里,關(guān)于極致低比特量化的大模型早就有各種傳聞,這次微軟研究院終于亮出底牌。
——全球首個(gè)原生1-bit、規(guī)模高達(dá)20億參數(shù)的開(kāi)源大模型。

圖注:這張圖表明,在同等內(nèi)存占用下,BitNet b1.58 2B模型取得了更高的性能分?jǐn)?shù),比當(dāng)前主流開(kāi)源模型更高效
別看名字有點(diǎn)拗口,b1.58 2B4T,背后可不簡(jiǎn)單,這玩意不僅在性能上追平甚至部分超越同級(jí)別全精度模型,更是把內(nèi)存、能耗和推理速度都拉低到令人發(fā)指的地步。
而且,模型權(quán)重直接上 Hugging Face,推理代碼 GPU、CPU 雙版本全開(kāi)源,門(mén)檻之低,真是讓人有點(diǎn)小震撼。
01 BitNet b1.58 2B4T 到底是什么?
一句話(huà)總結(jié):
這是世界首個(gè)原生1-bit、20億參數(shù)、性能媲美全精度的開(kāi)源大模型。
大家都知道,大模型開(kāi)源越來(lái)越卷,LLaMA、Qwen、Gemma、MiniCPM 各種百花齊放。但有個(gè)痛點(diǎn)始終沒(méi)解決——太吃資源。
于是,極致量化被推上風(fēng)口——1-bit(極端比特化,只允許權(quán)重取-1、0、+1)。
說(shuō)起來(lái)簡(jiǎn)單,真要規(guī)?;涞兀阅芡宦淝д?,之前不是只能做小模型,就是性能掉得讓人心疼。
BitNet b1.58 2B4T 這次直接原生1-bit訓(xùn)練,參數(shù)上到2B,訓(xùn)練數(shù)據(jù)高達(dá)4萬(wàn)億token,目標(biāo)就是:
做到極致高效的同時(shí),性能絕不妥協(xié)。
圖注:在蘋(píng)果M2 CPU上都能快速運(yùn)行
02 架構(gòu)和訓(xùn)練怎么煉成的?
核心創(chuàng)新點(diǎn)有三:
1.BitLinear 層
用自研 BitLinear 替換掉傳統(tǒng) Transformer 的全精度線(xiàn)性層。權(quán)重量化到1.58 bit(三值:-1、0、+1),激活也量化到8 bit。這樣不僅模型文件暴減,推理也能用比特操作加速。
2.訓(xùn)練方案極致調(diào)優(yōu)
預(yù)訓(xùn)練用兩階段學(xué)習(xí)率+權(quán)重衰減,先大步快走,再精細(xì)收斂。
數(shù)據(jù)集涵蓋超大規(guī)模網(wǎng)頁(yè)、代碼、數(shù)學(xué)合成數(shù)據(jù),兩階段分別喂不同質(zhì)量的數(shù)據(jù)。
SFT(監(jiān)督微調(diào))和 DPO(直接偏好優(yōu)化)全都用上,還專(zhuān)門(mén)調(diào)大了學(xué)習(xí)率和輪數(shù),讓1-bit模型也能吃透任務(wù)。
3.推理實(shí)現(xiàn)
為了讓1.58-bit和8-bit混合矩陣乘法在GPU/CPU上都能跑起來(lái),團(tuán)隊(duì)還專(zhuān)門(mén)造了 CUDA kernel 和 C++ 庫(kù),模型權(quán)重直接高效打包,能在普通筆電、服務(wù)器、邊緣設(shè)備都無(wú)壓力上線(xiàn)。

03 性能表現(xiàn):效率+能力雙豐收
內(nèi)存占用:0.4GB(非embedding部分),是同級(jí)全精度模型的1/4甚至更低。
推理延遲:29ms/Token(CPU上),比LLaMA 1B等快出一大截。
能耗:僅0.028J/Token,低到離譜。
綜合能力:平均分 54.19,逼近 Qwen2.5-1.5B(55.23),大幅超越 MiniCPM、Gemma、LLaMA 等同級(jí)模型。
單項(xiàng)指標(biāo):在 ARC-Challenge、GSM8K、CommonsenseQA 等關(guān)鍵任務(wù)上還反超大部分對(duì)手。

圖注:如圖所示,BitNet b1.58 2B 在內(nèi)存、延遲、能耗三項(xiàng)指標(biāo)上全面領(lǐng)先
更狠的是,和常見(jiàn)的 INT4 量化模型比,BitNet b1.58 2B4T 在內(nèi)存進(jìn)一步壓縮的情況下,性能反而更穩(wěn),幾乎沒(méi)有明顯損失。
而且,不只是干掉傳統(tǒng)PTQ量化,放到同類(lèi)1-bit模型里,BitNet b1.58 2B4T 也是一騎絕塵,甚至比部分更大參數(shù)、后量化的模型還強(qiáng)。
04 one more thing
BitNet b1.58 2B4T 已經(jīng)是1-bit模型的天花板,但團(tuán)隊(duì)還留了不少懸念:
如何實(shí)現(xiàn)更大規(guī)模擴(kuò)展(7B、13B)?
怎樣支持更長(zhǎng)上下文,挑戰(zhàn)大段落、復(fù)雜推理任務(wù)?
多語(yǔ)言、多模態(tài)集成,讓1-bit模型也能“看圖說(shuō)話(huà)”
軟硬件協(xié)同,期待新一代AI芯片為低比特模型量身定做
理論層面,1-bit訓(xùn)練為啥能這么有效?還有哪些魔法值得挖掘?
附:模型和推理工具全開(kāi)源
技術(shù)報(bào)告:https://arxiv.org/abs/2504.12285
GPU/CPU推理庫(kù):https://aka.ms/bitnet
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!
掃碼了解詳情?

熱門(mén)跟貼