
未來(lái)AI或無(wú)需超級(jí)計(jì)算機(jī),BitNet b1.58 2B4T模型開(kāi)啟新可能
當(dāng)前主流AI模型普遍采用16位或32位浮點(diǎn)數(shù)存儲(chǔ)神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù),但這種高精度方案需要付出巨大代價(jià):最大模型的存儲(chǔ)需求可達(dá)數(shù)百GB,響應(yīng)查詢時(shí)復(fù)雜的矩陣運(yùn)算更需消耗海量算力。
微軟通用人工智能研究組最新發(fā)布的神經(jīng)網(wǎng)絡(luò)模型顛覆了這一范式,僅用-1、0、1三個(gè)整數(shù)值存儲(chǔ)權(quán)重。這項(xiàng)基于 權(quán)重精簡(jiǎn)之路 權(quán)重簡(jiǎn)化并非全新概念。過(guò)去數(shù)年,量化技術(shù)持續(xù)探索如何將神經(jīng)網(wǎng)絡(luò)權(quán)重壓縮至更小內(nèi)存空間。近年來(lái),最激進(jìn)的量化嘗試聚焦于"BitNet"架構(gòu),用單比特(+1/-1)表示每個(gè)權(quán)重。 新型BitNet b1.58模型雖未采用單比特方案,但其三元系統(tǒng)被稱作"1.58位"(因log(3)/log(2)=1.58)。該模型的突破性在于:作為"首個(gè)開(kāi)源原生1位大語(yǔ)言模型",其基于4萬(wàn)億token訓(xùn)練集構(gòu)建出20億參數(shù)規(guī)模。研究人員強(qiáng)調(diào)"原生"特質(zhì)——傳統(tǒng)量化技術(shù)僅對(duì)全精度預(yù)訓(xùn)練模型進(jìn)行后處理壓縮,往往導(dǎo)致"性能顯著劣化";而原生訓(xùn)練的BitNet模型此前規(guī)模有限,"尚無(wú)法與大型全精度模型抗衡"。 小身材大能量 權(quán)重簡(jiǎn)化最直觀優(yōu)勢(shì)在于內(nèi)存占用:BitNet b1.58僅需0.4GB內(nèi)存,而同等參數(shù)規(guī)模的全精度模型需2-5GB。 簡(jiǎn)化的權(quán)重體系還帶來(lái)推理效率革命。模型運(yùn)算更多依賴加法指令,而非計(jì)算密集型乘法。研究人員估算,相比全精度模型,BitNet b1.58能耗降低85%-96%。通過(guò)專為BitNet架構(gòu)優(yōu)化的內(nèi)核程序,其運(yùn)行速度可達(dá)傳統(tǒng)全精度transformer的數(shù)倍。團(tuán)隊(duì)表示,在單CPU環(huán)境下,模型"可達(dá)到接近人類(lèi)閱讀速度(每秒5-7個(gè)token)"(用戶可下載針對(duì)ARM/x86 CPU的優(yōu)化內(nèi)核程序,或通過(guò)網(wǎng)頁(yè)演示體驗(yàn))。 在數(shù)學(xué)推理、知識(shí)測(cè)試等基準(zhǔn)評(píng)估中,BitNet平均表現(xiàn)"接近同規(guī)模頂尖模型"。不過(guò)該結(jié)論尚未獲得獨(dú)立驗(yàn)證。 未解之謎 盡管概念驗(yàn)證成功,研究人員坦言尚未完全理解三元權(quán)重體系的理論基礎(chǔ):"大規(guī)模1位訓(xùn)練的有效性機(jī)制仍是未解之謎。"要讓BitNet模型在參數(shù)量級(jí)和上下文窗口上比肩當(dāng)今最大模型,仍需深入研究。 這項(xiàng)研究為應(yīng)對(duì)GPU硬件與能耗成本飆升提供了新思路。當(dāng)前全精度模型如同高油耗肌肉跑車(chē),而B(niǎo)itNet或許預(yù)示著"經(jīng)濟(jì)型轎車(chē)"時(shí)代——用更少能耗實(shí)現(xiàn)相近性能。未來(lái)AI模型的演進(jìn)方向,或?qū)⒁蜻@項(xiàng)突破發(fā)生根本性轉(zhuǎn)變。 關(guān)注【黑客聯(lián)盟】帶你走進(jìn)神秘的黑客世界
熱門(mén)跟貼