量子位智庫(kù)
量子位 | 公眾號(hào) QbitAI
在大模型爭(zhēng)霸的時(shí)代,算力與效率的平衡成為決定勝負(fù)的關(guān)鍵。
端側(cè)部署一直是大模型落地的最后一公里,卻因算力瓶頸困難重重。
面壁智能和清華走出了一條與MoE不同的路徑——神經(jīng)元級(jí)稀疏激活,讓模型在保持性能的同時(shí)大幅降低資源消耗。
這次技術(shù)探索的背后,是一個(gè)融合腦科學(xué)靈感與工程創(chuàng)新的故事。

△《Configurable Foundation Models: Building LLMs from a Modular Perspective》論文
本期「大模型創(chuàng)新架構(gòu)」主題訪談,量子位邀請(qǐng)到面壁智能&清華CFM論文作者肖朝軍,聊聊這場(chǎng)算力與效率的博弈以及大模型架構(gòu)創(chuàng)新的未來(lái)。
以下為量子位與面壁智能&清華CFM論文作者肖朝軍的對(duì)話實(shí)錄整理:
探索原生稀疏
量子位:能簡(jiǎn)單介紹一下CFM(Configurable Foundation Models)技術(shù)的核心優(yōu)勢(shì)嗎?
肖朝軍:CFM是一種原生稀疏技術(shù),利用模型本來(lái)就有的稀疏激活性質(zhì),相比MoE可以極大提升模型參數(shù)效率。
量子位:參數(shù)效率是什么?極大提升參數(shù)效率意味著哪些優(yōu)勢(shì)?
肖朝軍:參數(shù)效率是指模型單位參數(shù)的有效性,一般能夠反映在相同參數(shù)規(guī)模下,模型是否表現(xiàn)更好。參數(shù)效率提升最直接的影響就是省顯存、省內(nèi)存。
尤其手機(jī)端不可能像云端一樣用好幾臺(tái)GPU服務(wù)器一起推幾千億參數(shù)規(guī)模的模型。手機(jī)內(nèi)存有限,操作系統(tǒng)占一部分,個(gè)人應(yīng)用需要一部分,如果大模型把內(nèi)存占滿,那手機(jī)基本上就不可用了,所以參數(shù)效率在端側(cè)應(yīng)用里非常重要。
量子位:CFM與MoE(Mixture of Experts)的區(qū)別在哪里?
肖朝軍:我們的稀疏粒度更細(xì),更強(qiáng)調(diào)神經(jīng)元級(jí)別的稀疏,可以說(shuō)CFM的顆粒度比其他許多在FFN層做稀疏化改進(jìn)的工作要更細(xì),在稀疏化上走得更極致。
現(xiàn)在超大參數(shù)規(guī)模的MoE稀疏化可能已經(jīng)成為主流,但不適合端側(cè)。MoE的稀疏粒度是專家級(jí)別,CFM是神經(jīng)元級(jí)別,而且CFM動(dòng)態(tài)性也強(qiáng)于MoE。MoE固定激活Top k個(gè)expert,CFM是靠模型自己的激活函數(shù)來(lái)定義具體激活多少expert。
任務(wù)難的話可能需要激活10-100個(gè),任務(wù)簡(jiǎn)單可能就激活1-2個(gè)。

△CFM積木式組合構(gòu)建高效任務(wù)模型
量子位:為什么MoE不使用你們這種更強(qiáng)的動(dòng)態(tài)性?
肖朝軍:本質(zhì)是參數(shù)效率原因。
MoE的目的是增大模型參數(shù),比如600B的模型無(wú)法在一臺(tái)機(jī)器上放下,必須在訓(xùn)練過(guò)程就卡死激活專家的數(shù)量,必須限制住最多激活top k或top p個(gè)專家,要不然就可能算不下了。
他們必須在訓(xùn)練階段就要有負(fù)載均衡的loss,使每個(gè)expert和每個(gè)token大致均衡。而我們參數(shù)效率高,所有參數(shù)可以放在一起像傳統(tǒng)稠密模型的FFN一樣計(jì)算。

△涌現(xiàn)模塊的形成過(guò)程示意圖
模型架構(gòu)之爭(zhēng)
量子位:你怎么看待像Mamba、RWKV這些計(jì)算復(fù)雜度為線性的非transformer架構(gòu)模型帶來(lái)的挑戰(zhàn)?
肖朝軍:從模型效果上來(lái)說(shuō),transformer仍是天花板最高的架構(gòu)。當(dāng)前所有其他的非transformer架構(gòu)探索都是在做效率,而不是效果。
我觀察目前優(yōu)化路徑大概有兩種:
一種是線性派,包括Mamba、Linear Attention、Gated Linear Attention、RWKV等;
另一種是基于transformer,但對(duì)KV cache做管理,比如KV eviction、KV compression等。做FFN改進(jìn)的其實(shí)不多,我們強(qiáng)調(diào)的稀疏可能是FFN改進(jìn)中非常重要的一點(diǎn)。
量子位:很多非transformer架構(gòu)都在多個(gè)測(cè)試集上打敗了主流transformer模型,你怎么看?
肖朝軍:需要辯證看待。
首先要考慮公平性,比如Mamba實(shí)際上有固定的memory,在短文本時(shí)可能memory size更大,這可能是用更多存儲(chǔ)換取更好效果。
像RULER等一系列長(zhǎng)文本評(píng)測(cè)中,線性模型目前還是打不過(guò)transformer。大家報(bào)的結(jié)果都是”在某方面比transformer好”,但為什么沒(méi)有廣泛應(yīng)用?因?yàn)闆](méi)辦法全面打敗transformer。
量子位:今年1月份大模型六小強(qiáng)中的一家訓(xùn)的千億參數(shù)線性attention模型在RULER上打敗了GPT-4o、Claude-3.5-Sonnet等transformer模型,你怎么看?
肖朝軍:他們的模型是混合架構(gòu),純線性很難做到同樣的表現(xiàn)。但能有這樣的成績(jī)說(shuō)明他們混合之后的效果還是很厲害的。
量子位:如何才能客觀評(píng)價(jià)模型架構(gòu)之間的優(yōu)劣?
肖朝軍:確實(shí)很難有一個(gè)放之四海而皆準(zhǔn)的評(píng)判方式。transformer之所以取代CNN和RNN成為主流,是因?yàn)樗娴哪躶caling。
之前的架構(gòu)是scaling不了的,transformer帶來(lái)了一種新可能性:我們可以訓(xùn)練很大的模型,用很多數(shù)據(jù)獲得更多智能。而且它不需要任何trick,不需要人為調(diào)參就能獲得好效果。
量子位:你認(rèn)為transformer成為主流架構(gòu)有偶然性嗎?
肖朝軍:既有偶然性也有必然性。有個(gè)概念叫“硬件彩票”。
軟件往往走在硬件前面,我們會(huì)開(kāi)發(fā)很多算法,但真正實(shí)現(xiàn)加速的是被硬件廠商選中的那種。transformer高強(qiáng)度對(duì)著GPU設(shè)計(jì),真能打滿GPU利用率,所以踩中了硬件彩票。
現(xiàn)在的Mamba、RWKV誰(shuí)能踩中下一波硬件彩票,誰(shuí)也說(shuō)不準(zhǔn)。

△硬件彩票內(nèi)涵
小模型與智能未來(lái)
量子位:目前一個(gè)小模型的定義是多大size?最小能在什么尺寸的模型里壓縮進(jìn)主流大模型的能力?這個(gè)極限在哪?
肖朝軍:現(xiàn)在小模型的大小沒(méi)有明確定義,基本上端側(cè)的話,可能還是在2-3B的范圍算小模型。
關(guān)于模型壓縮極限,我們發(fā)表過(guò)Densing Law的論文,但極限在哪里我們確實(shí)還不知道。很多人問(wèn)未來(lái)是不是用64個(gè)比特就能放下GPT-4,那顯然不可能,但具體極限還不明確。
量子位:智能的本質(zhì)是壓縮嗎?
肖朝軍:這樣說(shuō)有點(diǎn)怪。之前有一篇“語(yǔ)言模型即壓縮”的論文,只是把壓縮率和PPL做了轉(zhuǎn)換,這很難說(shuō)成本質(zhì)。
Ilya最早提出智能本質(zhì)是壓縮這個(gè)思想的時(shí)候,強(qiáng)調(diào)的是“壓縮器”能夠很好地建模數(shù)據(jù)分布規(guī)律,而不是直接用語(yǔ)言模型來(lái)構(gòu)建數(shù)據(jù)壓縮器。
Hinton說(shuō)過(guò),智能的本質(zhì)是學(xué)習(xí),就是學(xué)習(xí)能力才是智能的本質(zhì)。我認(rèn)為抽象能力可能更接近智能本質(zhì)。你看語(yǔ)言本身就是一種符號(hào),能表征世間萬(wàn)物,承載人類知識(shí),是抽象和總結(jié)的載體。
量子位:面壁智能的小模型落地情況如何?
肖朝軍:我們開(kāi)源的最大模型是是MiniCPM-3-4B,也有一些未開(kāi)源的項(xiàng)目級(jí)模型可能有幾十B。
我們的端側(cè)場(chǎng)景很廣泛,包括手機(jī)端、電腦端、智能家居等都在射程范圍。

△面壁智能官網(wǎng)
量子位:精度優(yōu)化方面,你們?cè)趺纯碏P8等低精度計(jì)算?
肖朝軍:精度降低后模型效果會(huì)變差,需要非常多的設(shè)計(jì)才能保證效果。
但現(xiàn)在DeepSeek已經(jīng)開(kāi)源FP8算子部分了,只要跟著做一些補(bǔ)全就行,現(xiàn)在再訓(xùn)新模型的只要有卡肯定都上FP8了,25年會(huì)更多人做FP8,做的更實(shí)用更激進(jìn)。未來(lái)還會(huì)有FP4,一步步發(fā)展。
量子位:小模型在多模態(tài)方面有限制嗎?
肖朝軍:效果都挺好的。小模型在多模態(tài)這塊,從打榜上看差異沒(méi)有那么大。你會(huì)發(fā)現(xiàn)多模態(tài)現(xiàn)在還沒(méi)有一個(gè)非常漂亮的scaling law。
而且也還沒(méi)有一個(gè)統(tǒng)一共識(shí)的多模態(tài)模型架構(gòu)。知識(shí)能力上,小模型可能還有差距,差距主要體現(xiàn)在對(duì)知識(shí)的調(diào)度和理解上。
量子位:你怎么看o1的這條技術(shù)路線?
肖朝軍:o1主要是用強(qiáng)化學(xué)習(xí)和高質(zhì)量數(shù)據(jù),強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)和推理的scaling。
當(dāng)前強(qiáng)化學(xué)習(xí)整個(gè)推理過(guò)程很慢,硬件利用率也不高,這會(huì)使強(qiáng)化學(xué)習(xí)過(guò)程需要使用大量算力但模型思考步數(shù)不深、探索空間不夠。
未來(lái)肯定會(huì)繼續(xù)往高效的深思考方向發(fā)展,讓模型能夠生成超長(zhǎng)的思維鏈,之后會(huì)像pre-training一樣,先把強(qiáng)化學(xué)習(xí)的訓(xùn)練規(guī)模做上來(lái),然后再往小做、往高效做。
量子位:超長(zhǎng)文本推理會(huì)是transformer架構(gòu)的下一個(gè)突破點(diǎn)嗎?
肖朝軍:對(duì),CoT(思維鏈)是目前很重要的方向。這種長(zhǎng)思考一定是下一波大家要突破的點(diǎn)。
目前o1這種長(zhǎng)思維鏈和普通的長(zhǎng)文本大海撈針完全不同。大海撈針只是找到信息就完事了,而o1的長(zhǎng)思維鏈需要回到當(dāng)時(shí)的狀態(tài),重新做推理、重新搜索。
思考的時(shí)候走一條路走到底之后,可能還要繼續(xù)之前考慮過(guò)的另一條路。現(xiàn)有測(cè)試集都很難全面評(píng)測(cè)o1這種長(zhǎng)思維鏈能力。

△直接推理與思維鏈區(qū)別示意
o1之后,我覺(jué)得下一步還有一個(gè)很重要的問(wèn)題是創(chuàng)新能力的問(wèn)題。就像OpenAI的技術(shù)規(guī)劃,到后面有個(gè)innovation。
現(xiàn)在的搜索還是在已有的語(yǔ)義空間去搜索,但是真的要讓AI去做創(chuàng)新出之前沒(méi)有的東西,去探索一些新的未知的事物的時(shí)候,它一定要跳出之前預(yù)訓(xùn)練階段見(jiàn)過(guò)的所有的東西去突破,但這個(gè)事情咋做?還不知道。
量子位:對(duì)于長(zhǎng)文本推理,線性架構(gòu)會(huì)有優(yōu)勢(shì)嗎?
肖朝軍:目前沒(méi)有實(shí)證研究證明純RNN模型的推理能力,我個(gè)人認(rèn)為類RNN的線性架構(gòu)技術(shù)路線大概率會(huì)失敗,混合架構(gòu)另當(dāng)別論。
效果為王,解決不了效果問(wèn)題,談效率是不現(xiàn)實(shí)的。
現(xiàn)有RNN模型其實(shí)等價(jià)于滑動(dòng)窗口,在推理中會(huì)對(duì)記憶不斷乘一個(gè)遺忘系數(shù)。即使遺忘系數(shù)連續(xù)一萬(wàn)步都是0.999這么大,那一萬(wàn)步之前的內(nèi)容也會(huì)遺忘完,上限天然太低。
量子位:大模型不可能三角(大模型無(wú)法同時(shí)實(shí)現(xiàn)低計(jì)算復(fù)雜度、高性能和并行化)問(wèn)題有解決方案嗎?

△大模型不可能三角示意
肖朝軍:這個(gè)問(wèn)題依舊存在,Mamba也依然沒(méi)有解決。如果真解決了,現(xiàn)在大家都會(huì)用起來(lái)。
Mamba等線性模型在短文本上能與transformer打平或更好,但長(zhǎng)文本上仍有壓縮,而壓縮一定代表信息損失。我們還是無(wú)法兼顧計(jì)算復(fù)雜度和效果。
這個(gè)問(wèn)題也許長(zhǎng)期來(lái)看可以解決,因?yàn)槿祟愃伎家膊皇荗(n2)復(fù)雜度的,不需要把之前所有KV都算一遍。但人腦存儲(chǔ)可能是分級(jí)的,有長(zhǎng)期記憶和短期記憶,還可能利用外部工具如筆記本。具體怎么解決,目前還沒(méi)有摸到答案。
論文地址:
https://arxiv.org/abs/2409.02877
熱門跟貼