量子位智庫量子位 | 公眾號 QbitAI
Transformer架構(gòu)主導(dǎo)著生成式AI浪潮的當(dāng)下,但它并非十全十美,也并非沒有改寫者。
MiniMax-01就以變革者之姿攪動開源社區(qū),押注線性注意力機制并將其擴展到前所未有的參數(shù)規(guī)模。
這是一場技術(shù)冒險,也可能是架構(gòu)創(chuàng)新的下一個里程碑。

MiniMax-01技術(shù)文檔
本期「大模型創(chuàng)新架構(gòu)」主題訪談量子位邀請到MiniMax-01架構(gòu)負(fù)責(zé)人鐘怡然,聊聊線性注意力從實驗室走向工業(yè)級大模型的全過程,以及他對模型架構(gòu)的思考和洞藏。
以下為量子位MiniMax鐘怡然的對話實錄整理:
非主流技術(shù)路線先行者
量子位:能否先簡單介紹一下自己?
MiniMax鐘怡然:我是鐘怡然,現(xiàn)在是MiniMax的高級研究總監(jiān),主要負(fù)責(zé)網(wǎng)絡(luò)架構(gòu)的設(shè)計和多模態(tài)理解大模型。在MiniMax主要工作是主導(dǎo)設(shè)計MiniMax-01的網(wǎng)絡(luò)結(jié)構(gòu)。
之前我在上海人工智能實驗室擔(dān)任青年科學(xué)家新架構(gòu)探索組的PI,負(fù)責(zé)非transformer架構(gòu)的高效訓(xùn)練建模方法,以及視聽語言多模態(tài)融合的研究。
量子位:你是什么時候開始研究線性attention的?為什么選擇這條技術(shù)路線?
MiniMax鐘怡然:最早是在2021年7月份開始研究線性attention。這其實源于我2020年博士畢業(yè)時做的一篇論文《invertible attention》,當(dāng)時可逆神經(jīng)網(wǎng)絡(luò)和attention機制都比較火,我們就把兩者結(jié)合起來研究。

《invertible attention》論文
后來,我們團隊中有成員對數(shù)學(xué)很感興趣,而linear attention這樣的高效序列建模方法對數(shù)學(xué)要求較高,需要很多公式推導(dǎo),正好契合了團隊的興趣,所以我們選擇了這個方向。
量子位:當(dāng)時linear attention在行業(yè)內(nèi)是什么狀態(tài)?
MiniMax鐘怡然:當(dāng)時它是非常非主流的,做的人很少,因為那時大部分研究者都在做transformer。transformer在NLP領(lǐng)域基本上已經(jīng)有大一統(tǒng)的趨勢。
我們當(dāng)時想著,與其繼續(xù)做transformer泯然眾人,不如做something different。
量子位:你如何判斷l(xiāng)inear attention路線的技術(shù)潛力?
MiniMax鐘怡然:我們的初衷很直接——解決transformer二次計算復(fù)雜度的問題。當(dāng)時我們也測試了很多方法,包括sparse transformer和linear attention。
結(jié)果發(fā)現(xiàn)sparse transformer確實能work,顯存和速度都比transformer快,而linear attention效果不好,速度也很慢。但我們?nèi)赃x擇了linear attention。
一方面是因為它在數(shù)學(xué)上很有意思,我們認(rèn)為它的效果不應(yīng)該這么差;另一方面,我們認(rèn)為sparse attention的上限就是full attention,它很難超越,而linear attention還有超越的可能性
量子位:能否介紹一下什么是線性attention?
MiniMax鐘怡然:線性attention本質(zhì)上是一個kernel trick。在transformer中,Q、K、V三個矩陣相乘時,因為維度不同,先乘QK還是先乘KV會導(dǎo)致計算復(fù)雜度不同。
先乘KV可以把計算復(fù)雜度變成線性,但問題是QK相乘后會經(jīng)過softmax,而softmax不滿足交換律,無法簡單地拆分成先乘KV。所以linear attention的第一步就是要去掉softmax。
但去掉softmax會影響結(jié)果,接下來的任務(wù)就是在去掉softmax的情況下,讓結(jié)果保持一致性,這就是linear attention要做的事情

MiniMax-Text-01架構(gòu)示意
量子位:線性注意力與稀疏attention、線性RNN架構(gòu)有什么本質(zhì)區(qū)別?
MiniMax鐘怡然:稀疏attention本質(zhì)上仍是一個softmax attention,只是它計算的點比dense attention矩陣要少,比如sliding window attention只計算窗口內(nèi)的attention score,通過少算來達(dá)到加速目的。
而linear RNN和linear attention本質(zhì)上是一個東西,只是有些人把它叫RNN,有些人把它叫attention。
因為所有東西都可以寫成RNN形式。比如lightning attention對應(yīng)rwkv4,而rwkv-7其實是改進版的gated delta net,它們雖然本質(zhì)相似,但實現(xiàn)細(xì)節(jié)不同。

《RWKV-7 “Goose” with Expressive Dynamic State Evolution》論文
量子位:對線性注意力機制的研究有哪些關(guān)鍵節(jié)點?
MiniMax鐘怡然:最早大概在2018-19年,有研究發(fā)現(xiàn)可以通過kernel trick降低transformer softmax attention的理論計算復(fù)雜度,但當(dāng)時效果不好,效率也低。
2019-20年,主流還是sparse attention,谷歌等公司提出了很多sparse attention變種。之后linear attention才開始出現(xiàn),但面臨效果不好、速度不快的局面。
研究人員主要采取兩條路線改進一是通過對softmax函數(shù)的逼近,讓分布符合softmax;二是我們選擇的路線,不再關(guān)心怎么逼近softmax,而是用完全不同的方法建模。
我們在2021年10月發(fā)表了第一篇論文《COSFORMER : RETHINKING SOFTMAX IN ATTENTION》,用cos函數(shù)取代了softmax操作,讓計算可以拆分。
2022年上半年,我們發(fā)表了第二篇《The Devil in linear transformer》,分析了linear attention效果變差的原因并給出解決方案,這是lightning attention的前身

《The Devil in linear transformer》論文
后來我們還研究了專門為linear attention服務(wù)的位置編碼,以及長卷積,發(fā)表了TNN,《TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING》,這是與S4(mamba的前身)類似的方法。
最后我們推出了lightning attention,通過改進decay方式和網(wǎng)絡(luò)結(jié)構(gòu),效果上match了transformer,并通過分塊算法(tiling technique)使速度更快。
量子位:怎么看待目前非transformer架構(gòu)的技術(shù)路線?
**鐘怡然:linear attention其實就是非transformer的方法。非transformer架構(gòu)現(xiàn)在除了類RNN的路線,其他路線都式微了。
比如CNN像那個長卷積、大核卷積,效果不好逐漸就被淘汰了的感覺,不過在某些方面其實還蠻強,在序列建模,比如說異常檢測任務(wù)上面還是有一定效果的。
非transformer架構(gòu)其實就三個,一個是linear attention,一個是長卷積,一個是linear RNN
但實際上這三個都可以統(tǒng)一成一個,我們把它叫做linear complexity model**。我們寫了一篇文章把這三個事情都囊括在一起了。

《Unlocking the Secrets of linear Complexity Sequence Model from A Unified Perspective》論文
量子位:lightning attention與Mamba、RWKV的核心區(qū)別是什么?
MiniMax鐘怡然:最核心的區(qū)別是lightning attention是最簡單的linear attention。Mamba和RWKV都使用data dependent decay,而lightning attention為了速度,使用的是handcraft decay,即人為指定的decay。
雖然可學(xué)習(xí)的decay效果會更好一些,但會犧牲速度。比如RWKV-7比gating delta net慢10-15%,而gated delta net速度又比lightning attention慢一半左右。
RWKV的建模效果確實比lightning attention好,但速度慢,且仍未解決retrieval問題。
量子位:線性注意力的上限高且可行,現(xiàn)在是行業(yè)共識了嗎?
MiniMax鐘怡然:不是,如果是共識的話,大家都會去scale up linear attention模型了。而且去現(xiàn)在也不是共識,如果現(xiàn)在是共識,大家也會全部做linear,但可以看到并沒有。
但對我們來說,在23年下半年的時候就已經(jīng)看到了這一點。當(dāng)時我問了很多人,跟很多人聊過,他們最常提出的點是他們知道linear attention在小規(guī)模上確實work,但覺得一旦scale up上去就會不行
我當(dāng)時就想那我就把它scale上去給大家看看?,F(xiàn)在minimax-01出來之后,就沒人懷疑linear attention在大規(guī)模下的能力了。
從小嘗試到大落地
量子位:你認(rèn)為linear attention的上限能超越full attention嗎?
MiniMax鐘怡然:我們現(xiàn)在可以看到hybrid架構(gòu)比純transformer要好。但純linear attention的最大問題是retrieval能力,這是學(xué)術(shù)界目前難以解決的問題。
現(xiàn)有方法雖然復(fù)雜,速度也慢,仍然無法完全解決,這也是為什么必須走向hybrid架構(gòu)的原因。
量子位:當(dāng)時決定從實驗室出來是因為觀察到了什么樣的節(jié)點?
MiniMax鐘怡然:在2023年5-6月份,我們內(nèi)部已經(jīng)有l(wèi)ightning attention 2,這是當(dāng)時世界上第一個速度比Flash attention還快的linear attention實現(xiàn)。
我們認(rèn)為它已經(jīng)越過了工業(yè)紅線,技術(shù)成熟度非常高,可以scale up了。
量子位:如何定義這個工業(yè)紅線?
MiniMax鐘怡然:首先效果上比transformer好,其次比transformer快。這樣它就具備取代transformer的能力了。我們當(dāng)時在15B規(guī)模的dense model上驗證了這一點。
量子位:當(dāng)時從實驗室出來的節(jié)點上,為什么最終和MiniMax走到了一起?
MiniMax鐘怡然:當(dāng)時其實和一些大廠都有聊過。但最后還是和MiniMax把這個事做成了。
首先cosformer是我跟俊杰合作的文章,我們之間有合作的基礎(chǔ),俊杰之前在商湯的時候就是我老板。23年底的時候俊杰就約我吃飯,他是比較相信技術(shù)的這些前沿的可能性。我的理解是他當(dāng)時也在找技術(shù)突破的點
當(dāng)時MiniMax已經(jīng)完成了對Moe的研究,下一步的技術(shù)突破點其實很少了。當(dāng)時lightning attention已經(jīng)發(fā)了,mamba也火了,所以在他眼里是一個可行的方向。
量子位:這和MiniMax做互動陪伴產(chǎn)品有關(guān)系嗎?
MiniMax鐘怡然:沒有什么關(guān)聯(lián),閆俊杰更關(guān)心的是模型的上限,怎么能夠進一步突破這個天花板。
量子位:linear attention在大眾視野里可能更多是一個突破效率的方向,而不是突破天花板。
MiniMax鐘怡然:這里面的點是在于,首先每個廠商的算力是恒定的,能把模型加速得越快,能吃的數(shù)據(jù)就越多,產(chǎn)出的模型就越好。在算力恒定的情況下,就是模型越快越好
量子位:現(xiàn)在有觀察到數(shù)據(jù)見頂?shù)那闆r嗎?
MiniMax鐘怡然:現(xiàn)在還沒有吧。數(shù)據(jù)還是在一直scale的階段,但可能不會像23年那么激進。
因為數(shù)據(jù)永遠(yuǎn)在增加,每天都會有新的數(shù)據(jù)出來,對于模型來說,它每天都有新數(shù)據(jù)去處理?;ヂ?lián)網(wǎng)每天生產(chǎn)的數(shù)據(jù)就是有那么多,通過清洗,我們?nèi)匀荒艿玫叫碌臄?shù)據(jù)出來。
量子位:相比于人類發(fā)展這么多年已經(jīng)存在的數(shù)據(jù)來說,數(shù)據(jù)增速放緩了嗎?
MiniMax鐘怡然:其實不一定,你看中國上下五千年積攢出來的也就那幾本書。但隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量的增長是非常陡峭的一個曲線,可能互聯(lián)網(wǎng)之前產(chǎn)生的整體數(shù)據(jù),比不上之后一年產(chǎn)生的數(shù)據(jù)
量子位:在scale up過程中,lightning attention面臨了哪些挑戰(zhàn)?
MiniMax鐘怡然:為了驗證它的可擴展性,我們首先做了scaling law實驗,從小模型逐步擴展到7B、9B,最后scale到400多B的模型。
而且我們從理論上證明了linear的容量比transformer大
我們把容量定義為RNN的current states大小。對transformer來說,容量大小是O(d),d是size;對linear attention來說,容量大小是d2/h,由于d遠(yuǎn)大于h,所以容量更大。
最終實現(xiàn)上我們也驗證了hybrid模型比純transformer效果更好。
量子位:4M長度的序列窗口是如何實現(xiàn)的?
MiniMax鐘怡然:對lightning來說,訓(xùn)練長度可以是任意的。只要算力打滿,訓(xùn)練8K、32K或128K的速度是一樣的,TGS(token per GPU per second)是相同的。
而transformer因為是n2的計算復(fù)雜度,sequence越長,計算復(fù)雜度增長太快,latency呈二次曲線上升。在1M長度時,softmax attention的latency是lightning attention的2,700倍
量子位:后續(xù)做到無限上下文窗口還有哪些技術(shù)挑戰(zhàn)需要應(yīng)對?
MiniMax鐘怡然:我們現(xiàn)在的hybrid架構(gòu)中還有1/8的softmax attention,在1M長度下這是瓶頸,這1/8帶來的latency遠(yuǎn)高于剩下7/8的linear attention。
如果要進行長文本優(yōu)化,肯定要考慮優(yōu)化softmax attention部分,可以借鑒稀疏注意力方式,讓它更快、更輕。
另外,我們也考慮讓softmax和linear attention的混合比例更極端,不再是1/8,可能是1/16或1/32。最激進的方案是整個模型只放一層softmax,但為了保險我們沒有采用,主要考慮是對retrieval能力的影響。
量子位:為什么retrieval能力對模型如此重要?
MiniMax鐘怡然:**retrieval是in-context learning的基礎(chǔ),是必要條件**。
你必須記住上下文中的信息才能做in-context learning,而in-context learning是現(xiàn)在所有大模型高階能力的基礎(chǔ),比如CoT(Chain of Thought),特別是long CoT它們都依賴retrieval能力
決勝新架構(gòu)
量子位:你有關(guān)注到行業(yè)內(nèi),對FFN和attention最新的架構(gòu)改進嗎?
MiniMax鐘怡然:FFN的改進就是Moe,我也關(guān)注了字節(jié)的Ultra Mem,但我覺得它是一個有損的東西,是有損的壓縮,未來它scale up上去可能會有問題,不過我們沒有scale up,我只能說它可能會有問題。

《ULTRA-SPARSE MEMORY NETWORK 》論文
因為FFN基本上就是這些。Moe這塊我們的改進無外乎從之前的大專家改成現(xiàn)在的小專家模式,讓它變得更加稀疏,然后再往下做一些加速,還需要進一步研究。
再對它進行優(yōu)化的話,因為FFN就是矩陣乘法了,優(yōu)化就只能像Nvidia他們在CUDA層面上做一些矩陣乘法的最底層優(yōu)化。
量子位:有關(guān)注到行業(yè)內(nèi)對attention架構(gòu)方面的改進嗎?
MiniMax鐘怡然:attention上的改進基本上就是linear。我們也在考慮未來會不會做一個更強的Linear,在目前基礎(chǔ)上,把Linear attention做進一步加速
改進方向有很多種方案,一個是改decay,還有就是改里面的一些小trick,具體可以期待我們的新paper
量子位:咱們目前的上下文長度和推理成本的這個比率算是比較先進嗎?
MiniMax鐘怡然:**一旦牽涉到把sequence length拉長的話,我們是有很明顯的算力成本優(yōu)勢**,越長,成本優(yōu)勢會越明顯,無論是推理還是訓(xùn)練。
比如說在1M上,linear attention所消耗的算力是full attention的1/2700。相比之下,因為我們?nèi)匀挥?/8的full attention,那基本上就是它就是transformer架構(gòu)的1/8,因為linear attention基本上不算開銷了,基本沒有開銷。

linear attention處理長輸入效率和全球頂尖模型對比
量子位:計算開銷這么低的話能實現(xiàn)計算瓶頸嗎?
MiniMax鐘怡然:現(xiàn)在確實是訪存瓶頸,decoding的時候是訪存瓶頸,而不是計算瓶頸。因為lightning很快,實在太快了,沒有辦法讓訪存也像計算占用一樣少的資源。主要是因為實際應(yīng)用中的序列長度都不夠長
未來如何讓它成為計算瓶頸,那就是看怎么樣去優(yōu)化訪存了。這些會是工程那邊需要負(fù)責(zé)的事情。
量子位:如果線性注意力成為下一代主流架構(gòu)了,什么樣的硬件適配改進會更適合它呢?
MiniMax鐘怡然:這里面非常tricky的一件事情就是,我們需要考慮的是序列長度。如果你的序列長度關(guān)注于8K、32K,那么attention總共也就占比百分之十幾,剩下的百分之八十幾都是后面的FFN部分。
即使你把attention全部優(yōu)化到極致,到了0,你也只優(yōu)化了百分之十幾的時延。但如果把序列長度拉長的話,attention的占比就會越來越大,這是相比于full attention來說,但對linear attention來說,它的占比是不變的。
因為FFN也是線性的,linear attention也是線性的,它的占比大概是10%左右,這個是幾乎不變的,即使在1M情況下它也是百分之十幾的占比。
但如果是full attention的話,attention計算可能就占了百分之99,后面的FFN只占了百分之1了。所以linear attention只會在長文上有優(yōu)勢。
如果線性架構(gòu)成為主流的話,后面可能就是追求低能耗的硬件,只能把能耗降低。包括脈沖神經(jīng)網(wǎng)絡(luò)芯片(Spiking Neural Network, SNN)可能會更適合,其實也有人在做。

脈沖神經(jīng)網(wǎng)絡(luò)芯片示意
展望AGI之路
量子位:對模型開源效果有哪些期待呢?
MiniMax鐘怡然:首先是宣傳上的效果。我個人覺得開源除了展示一些肌肉以外,最重要的還是看大家后續(xù)怎么能夠用起來,我覺得小模型開源可能是未來我們比較考慮做的
還有怎么讓大家能夠finetune的一些基建做起來,可能也是需要考慮的。開源是我們以后長期的事情,之后旗艦?zāi)P蛻?yīng)該會持續(xù)開源
量子位:未來非hybrid的某個純血架構(gòu)有跑出來的可能嗎?
MiniMax鐘怡然:目前沒有方法能比hybrid做得更好,特別是在速度方面。加入一小部分softmax attention,在序列長度不是特別長的情況下,速度優(yōu)勢非常明顯,特別是flash attention出現(xiàn)后。
純血架構(gòu)的研究仍在進行,但難度很大,已經(jīng)沒有低垂的果實了。我們有一些技術(shù)方案,但實現(xiàn)都不簡單,最終取決于我們需要做到多長的序列長度。
另一個問題是,超長文本是否有強烈的剛需?雖然像Claude等模型已達(dá)到200K上下文,但用戶似乎對當(dāng)前已有長度也很滿意。未來agent應(yīng)用可能會帶來對超長序列的需求,但目前還沒有成熟的benchmark。
但我覺得這個問題就像Nvidia會為未來的游戲開發(fā)超前性能的顯卡一樣,雖然現(xiàn)在還用不上,但這是面向未來的技術(shù)。
比如deep research需要模型讀取幾十個網(wǎng)站的內(nèi)容,處理時間在幾十分鐘級別,這可能是長文本的一個應(yīng)用方向。
量子位:你覺得CoT之后的下一個大事情可能會是什么呢?
MiniMax鐘怡然:這個我們想過,首先現(xiàn)在的reasoning model是比較火的,今年的主流還會是reasoning這一塊。之后的話,我們很難想到純語言模型未來還有什么特別大的變革。
我也跟別的老師聊過,他們的感覺是大家會去重新減少模型開銷,就讓reasoning的速度越來越快,讓它的價格變得越來越低,在維持效果的情況下把成本往下壓
因為天花板很快就接近了,現(xiàn)在絕大多數(shù)的情況都是在對大模型能力進行查漏補缺。但如果說還有更大的技術(shù)突破,短期內(nèi)可能比較少見,我們還沒看到。
量子位:MiniMax在探索了線性注意力之后,下一個可能探索的方向是什么呢?
MiniMax鐘怡然:下一個可能是去探索多模態(tài)的架構(gòu),具體指的是我們要不要做這種原生的生成理解統(tǒng)一大模型的架構(gòu)
量子位:以AGI為終點,計算復(fù)雜度O(n2)還是O(n)的模型會是更好的答案?
MiniMax鐘怡然:那當(dāng)然是O(n)了。從擬人化來說,人肯定是O(n)復(fù)雜度的。就比如說打個比方,如果人的復(fù)雜度是O(n2),那么我跟你說話的速度會變得越來越慢。
因為對transformer來說,它的inference的complexity是O(n2)的計算復(fù)雜度,也就是我吐第一個token和吐第100個token的時延是不一樣的。
我們?nèi)祟悷o法想象這樣的事情,因為人從降生下來之后總沒有重啟過,是一直在吐東西的,所以人的計算復(fù)雜度就是恒定的
量子位:人一定是智能的最優(yōu)解嗎?
MiniMax鐘怡然:我們目前只能這么想,還有一些人做仿生智能的路線,我們沒有太關(guān)注那些方向。
量子位:以AGI為終局的話,模型哪些方向的改進是最重要的事情?
MiniMax鐘怡然:除了語言建模以外,還有一個就是學(xué)習(xí)方式的問題。你怎樣去學(xué)習(xí),以及從環(huán)境當(dāng)中學(xué)習(xí),與環(huán)境的交互當(dāng)中學(xué)習(xí)很重要,畢竟現(xiàn)在的多模態(tài)理解還是非常的缺數(shù)據(jù)。
而且機器即使是few-shot的學(xué)習(xí)目前也都是帶標(biāo)注的,但人的學(xué)習(xí)是不帶標(biāo)注的。那么怎么把所有的東西統(tǒng)一在一個自建構(gòu)的框架下面,也是一個問題。
代碼:https://github.com/MiniMax-AI/MiniMax-01
模型:https://huggingface.co/MiniMaxAI/MiniMax-Text-01,https://huggingface.co/MiniMaxAI/MiniMax-VL-01
技術(shù)報告:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
熱門跟貼