量子位智庫量子位 | 公眾號(hào) QbitAI
Transformer架構(gòu)主導(dǎo)著生成式AI浪潮的當(dāng)下,但它并非十全十美,也并非沒有改寫者。
MiniMax-01就以變革者之姿攪動(dòng)開源社區(qū),押注線性注意力機(jī)制并將其擴(kuò)展到前所未有的參數(shù)規(guī)模。
這是一場(chǎng)技術(shù)冒險(xiǎn),也可能是架構(gòu)創(chuàng)新的下一個(gè)里程碑。

MiniMax-01技術(shù)文檔
本期「大模型創(chuàng)新架構(gòu)」主題訪談量子位邀請(qǐng)到MiniMax-01架構(gòu)負(fù)責(zé)人鐘怡然,聊聊線性注意力從實(shí)驗(yàn)室走向工業(yè)級(jí)大模型的全過程,以及他對(duì)模型架構(gòu)的思考和洞藏。
以下為量子位MiniMax鐘怡然的對(duì)話實(shí)錄整理:
非主流技術(shù)路線先行者
量子位:能否先簡(jiǎn)單介紹一下自己?
MiniMax鐘怡然:我是鐘怡然,現(xiàn)在是MiniMax的高級(jí)研究總監(jiān),主要負(fù)責(zé)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)和多模態(tài)理解大模型。在MiniMax主要工作是主導(dǎo)設(shè)計(jì)MiniMax-01的網(wǎng)絡(luò)結(jié)構(gòu)。
之前我在上海人工智能實(shí)驗(yàn)室擔(dān)任青年科學(xué)家新架構(gòu)探索組的PI,負(fù)責(zé)非transformer架構(gòu)的高效訓(xùn)練建模方法,以及視聽語言多模態(tài)融合的研究。
量子位:你是什么時(shí)候開始研究線性attention的?為什么選擇這條技術(shù)路線?
MiniMax鐘怡然:最早是在2021年7月份開始研究線性attention。這其實(shí)源于我2020年博士畢業(yè)時(shí)做的一篇論文《invertible attention》,當(dāng)時(shí)可逆神經(jīng)網(wǎng)絡(luò)和attention機(jī)制都比較火,我們就把兩者結(jié)合起來研究。

《invertible attention》論文
后來,我們團(tuán)隊(duì)中有成員對(duì)數(shù)學(xué)很感興趣,而linear attention這樣的高效序列建模方法對(duì)數(shù)學(xué)要求較高,需要很多公式推導(dǎo),正好契合了團(tuán)隊(duì)的興趣,所以我們選擇了這個(gè)方向。
量子位:當(dāng)時(shí)linear attention在行業(yè)內(nèi)是什么狀態(tài)?
MiniMax鐘怡然:當(dāng)時(shí)它是非常非主流的,做的人很少,因?yàn)槟菚r(shí)大部分研究者都在做transformer。transformer在NLP領(lǐng)域基本上已經(jīng)有大一統(tǒng)的趨勢(shì)。
我們當(dāng)時(shí)想著,與其繼續(xù)做transformer泯然眾人,不如做something different。
量子位:你如何判斷l(xiāng)inear attention路線的技術(shù)潛力?
MiniMax鐘怡然:我們的初衷很直接——解決transformer二次計(jì)算復(fù)雜度的問題。當(dāng)時(shí)我們也測(cè)試了很多方法,包括sparse transformer和linear attention。
結(jié)果發(fā)現(xiàn)sparse transformer確實(shí)能work,顯存和速度都比transformer快,而linear attention效果不好,速度也很慢。但我們?nèi)赃x擇了linear attention。
一方面是因?yàn)樗跀?shù)學(xué)上很有意思,我們認(rèn)為它的效果不應(yīng)該這么差;另一方面,我們認(rèn)為sparse attention的上限就是full attention,它很難超越,而linear attention還有超越的可能性
量子位:能否介紹一下什么是線性attention?
MiniMax鐘怡然:線性attention本質(zhì)上是一個(gè)kernel trick。在transformer中,Q、K、V三個(gè)矩陣相乘時(shí),因?yàn)榫S度不同,先乘QK還是先乘KV會(huì)導(dǎo)致計(jì)算復(fù)雜度不同。
先乘KV可以把計(jì)算復(fù)雜度變成線性,但問題是QK相乘后會(huì)經(jīng)過softmax,而softmax不滿足交換律,無法簡(jiǎn)單地拆分成先乘KV。所以linear attention的第一步就是要去掉softmax。
但去掉softmax會(huì)影響結(jié)果,接下來的任務(wù)就是在去掉softmax的情況下,讓結(jié)果保持一致性,這就是linear attention要做的事情

MiniMax-Text-01架構(gòu)示意
量子位:線性注意力與稀疏attention、線性RNN架構(gòu)有什么本質(zhì)區(qū)別?
MiniMax鐘怡然:稀疏attention本質(zhì)上仍是一個(gè)softmax attention,只是它計(jì)算的點(diǎn)比dense attention矩陣要少,比如sliding window attention只計(jì)算窗口內(nèi)的attention score,通過少算來達(dá)到加速目的。
而linear RNN和linear attention本質(zhì)上是一個(gè)東西,只是有些人把它叫RNN,有些人把它叫attention。
因?yàn)樗袞|西都可以寫成RNN形式。比如lightning attention對(duì)應(yīng)rwkv4,而rwkv-7其實(shí)是改進(jìn)版的gated delta net,它們雖然本質(zhì)相似,但實(shí)現(xiàn)細(xì)節(jié)不同。

《RWKV-7 “Goose” with Expressive Dynamic State Evolution》論文
量子位:對(duì)線性注意力機(jī)制的研究有哪些關(guān)鍵節(jié)點(diǎn)?
MiniMax鐘怡然:最早大概在2018-19年,有研究發(fā)現(xiàn)可以通過kernel trick降低transformer softmax attention的理論計(jì)算復(fù)雜度,但當(dāng)時(shí)效果不好,效率也低。
2019-20年,主流還是sparse attention,谷歌等公司提出了很多sparse attention變種。之后linear attention才開始出現(xiàn),但面臨效果不好、速度不快的局面。
研究人員主要采取兩條路線改進(jìn)一是通過對(duì)softmax函數(shù)的逼近,讓分布符合softmax;二是我們選擇的路線,不再關(guān)心怎么逼近softmax,而是用完全不同的方法建模。
我們?cè)?021年10月發(fā)表了第一篇論文《COSFORMER : RETHINKING SOFTMAX IN ATTENTION》,用cos函數(shù)取代了softmax操作,讓計(jì)算可以拆分。
2022年上半年,我們發(fā)表了第二篇《The Devil in linear transformer》,分析了linear attention效果變差的原因并給出解決方案,這是lightning attention的前身

《The Devil in linear transformer》論文
后來我們還研究了專門為linear attention服務(wù)的位置編碼,以及長(zhǎng)卷積,發(fā)表了TNN,《TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING》,這是與S4(mamba的前身)類似的方法。
最后我們推出了lightning attention,通過改進(jìn)decay方式和網(wǎng)絡(luò)結(jié)構(gòu),效果上match了transformer,并通過分塊算法(tiling technique)使速度更快。
量子位:怎么看待目前非transformer架構(gòu)的技術(shù)路線?
**鐘怡然:linear attention其實(shí)就是非transformer的方法。非transformer架構(gòu)現(xiàn)在除了類RNN的路線,其他路線都式微了。
比如CNN像那個(gè)長(zhǎng)卷積、大核卷積,效果不好逐漸就被淘汰了的感覺,不過在某些方面其實(shí)還蠻強(qiáng),在序列建模,比如說異常檢測(cè)任務(wù)上面還是有一定效果的。
非transformer架構(gòu)其實(shí)就三個(gè),一個(gè)是linear attention,一個(gè)是長(zhǎng)卷積,一個(gè)是linear RNN
但實(shí)際上這三個(gè)都可以統(tǒng)一成一個(gè),我們把它叫做linear complexity model**。我們寫了一篇文章把這三個(gè)事情都囊括在一起了。

《Unlocking the Secrets of linear Complexity Sequence Model from A Unified Perspective》論文
量子位:lightning attention與Mamba、RWKV的核心區(qū)別是什么?
MiniMax鐘怡然:最核心的區(qū)別是lightning attention是最簡(jiǎn)單的linear attention。Mamba和RWKV都使用data dependent decay,而lightning attention為了速度,使用的是handcraft decay,即人為指定的decay。
雖然可學(xué)習(xí)的decay效果會(huì)更好一些,但會(huì)犧牲速度。比如RWKV-7比gating delta net慢10-15%,而gated delta net速度又比lightning attention慢一半左右。
RWKV的建模效果確實(shí)比lightning attention好,但速度慢,且仍未解決retrieval問題。
量子位:線性注意力的上限高且可行,現(xiàn)在是行業(yè)共識(shí)了嗎?
MiniMax鐘怡然:不是,如果是共識(shí)的話,大家都會(huì)去scale up linear attention模型了。而且去現(xiàn)在也不是共識(shí),如果現(xiàn)在是共識(shí),大家也會(huì)全部做linear,但可以看到并沒有。
但對(duì)我們來說,在23年下半年的時(shí)候就已經(jīng)看到了這一點(diǎn)。當(dāng)時(shí)我問了很多人,跟很多人聊過,他們最常提出的點(diǎn)是他們知道linear attention在小規(guī)模上確實(shí)work,但覺得一旦scale up上去就會(huì)不行
我當(dāng)時(shí)就想那我就把它scale上去給大家看看?,F(xiàn)在minimax-01出來之后,就沒人懷疑linear attention在大規(guī)模下的能力了。
從小嘗試到大落地
量子位:你認(rèn)為linear attention的上限能超越full attention嗎?
MiniMax鐘怡然:我們現(xiàn)在可以看到hybrid架構(gòu)比純transformer要好。但純linear attention的最大問題是retrieval能力,這是學(xué)術(shù)界目前難以解決的問題。
現(xiàn)有方法雖然復(fù)雜,速度也慢,仍然無法完全解決,這也是為什么必須走向hybrid架構(gòu)的原因。
量子位:當(dāng)時(shí)決定從實(shí)驗(yàn)室出來是因?yàn)橛^察到了什么樣的節(jié)點(diǎn)?
MiniMax鐘怡然:在2023年5-6月份,我們內(nèi)部已經(jīng)有l(wèi)ightning attention 2,這是當(dāng)時(shí)世界上第一個(gè)速度比Flash attention還快的linear attention實(shí)現(xiàn)。
我們認(rèn)為它已經(jīng)越過了工業(yè)紅線,技術(shù)成熟度非常高,可以scale up了。
量子位:如何定義這個(gè)工業(yè)紅線?
MiniMax鐘怡然:首先效果上比transformer好,其次比transformer快。這樣它就具備取代transformer的能力了。我們當(dāng)時(shí)在15B規(guī)模的dense model上驗(yàn)證了這一點(diǎn)。
量子位:當(dāng)時(shí)從實(shí)驗(yàn)室出來的節(jié)點(diǎn)上,為什么最終和MiniMax走到了一起?
MiniMax鐘怡然:當(dāng)時(shí)其實(shí)和一些大廠都有聊過。但最后還是和MiniMax把這個(gè)事做成了。
首先cosformer是我跟俊杰合作的文章,我們之間有合作的基礎(chǔ),俊杰之前在商湯的時(shí)候就是我老板。23年底的時(shí)候俊杰就約我吃飯,他是比較相信技術(shù)的這些前沿的可能性。我的理解是他當(dāng)時(shí)也在找技術(shù)突破的點(diǎn)
當(dāng)時(shí)MiniMax已經(jīng)完成了對(duì)Moe的研究,下一步的技術(shù)突破點(diǎn)其實(shí)很少了。當(dāng)時(shí)lightning attention已經(jīng)發(fā)了,mamba也火了,所以在他眼里是一個(gè)可行的方向。
量子位:這和MiniMax做互動(dòng)陪伴產(chǎn)品有關(guān)系嗎?
MiniMax鐘怡然:沒有什么關(guān)聯(lián),閆俊杰更關(guān)心的是模型的上限,怎么能夠進(jìn)一步突破這個(gè)天花板。
量子位:linear attention在大眾視野里可能更多是一個(gè)突破效率的方向,而不是突破天花板。
MiniMax鐘怡然:這里面的點(diǎn)是在于,首先每個(gè)廠商的算力是恒定的,能把模型加速得越快,能吃的數(shù)據(jù)就越多,產(chǎn)出的模型就越好。在算力恒定的情況下,就是模型越快越好
量子位:現(xiàn)在有觀察到數(shù)據(jù)見頂?shù)那闆r嗎?
MiniMax鐘怡然:現(xiàn)在還沒有吧。數(shù)據(jù)還是在一直scale的階段,但可能不會(huì)像23年那么激進(jìn)。
因?yàn)閿?shù)據(jù)永遠(yuǎn)在增加,每天都會(huì)有新的數(shù)據(jù)出來,對(duì)于模型來說,它每天都有新數(shù)據(jù)去處理。互聯(lián)網(wǎng)每天生產(chǎn)的數(shù)據(jù)就是有那么多,通過清洗,我們?nèi)匀荒艿玫叫碌臄?shù)據(jù)出來。
量子位:相比于人類發(fā)展這么多年已經(jīng)存在的數(shù)據(jù)來說,數(shù)據(jù)增速放緩了嗎?
MiniMax鐘怡然:其實(shí)不一定,你看中國(guó)上下五千年積攢出來的也就那幾本書。但隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量的增長(zhǎng)是非常陡峭的一個(gè)曲線,可能互聯(lián)網(wǎng)之前產(chǎn)生的整體數(shù)據(jù),比不上之后一年產(chǎn)生的數(shù)據(jù)
量子位:在scale up過程中,lightning attention面臨了哪些挑戰(zhàn)?
MiniMax鐘怡然:為了驗(yàn)證它的可擴(kuò)展性,我們首先做了scaling law實(shí)驗(yàn),從小模型逐步擴(kuò)展到7B、9B,最后scale到400多B的模型。
而且我們從理論上證明了linear的容量比transformer大
我們把容量定義為RNN的current states大小。對(duì)transformer來說,容量大小是O(d),d是size;對(duì)linear attention來說,容量大小是d2/h,由于d遠(yuǎn)大于h,所以容量更大。
最終實(shí)現(xiàn)上我們也驗(yàn)證了hybrid模型比純transformer效果更好。
量子位:4M長(zhǎng)度的序列窗口是如何實(shí)現(xiàn)的?
MiniMax鐘怡然:對(duì)lightning來說,訓(xùn)練長(zhǎng)度可以是任意的。只要算力打滿,訓(xùn)練8K、32K或128K的速度是一樣的,TGS(token per GPU per second)是相同的。
而transformer因?yàn)槭莕2的計(jì)算復(fù)雜度,sequence越長(zhǎng),計(jì)算復(fù)雜度增長(zhǎng)太快,latency呈二次曲線上升。在1M長(zhǎng)度時(shí),softmax attention的latency是lightning attention的2,700倍
量子位:后續(xù)做到無限上下文窗口還有哪些技術(shù)挑戰(zhàn)需要應(yīng)對(duì)?
MiniMax鐘怡然:我們現(xiàn)在的hybrid架構(gòu)中還有1/8的softmax attention,在1M長(zhǎng)度下這是瓶頸,這1/8帶來的latency遠(yuǎn)高于剩下7/8的linear attention。
如果要進(jìn)行長(zhǎng)文本優(yōu)化,肯定要考慮優(yōu)化softmax attention部分,可以借鑒稀疏注意力方式,讓它更快、更輕。
另外,我們也考慮讓softmax和linear attention的混合比例更極端,不再是1/8,可能是1/16或1/32。最激進(jìn)的方案是整個(gè)模型只放一層softmax,但為了保險(xiǎn)我們沒有采用,主要考慮是對(duì)retrieval能力的影響。
量子位:為什么retrieval能力對(duì)模型如此重要?
MiniMax鐘怡然:**retrieval是in-context learning的基礎(chǔ),是必要條件**。
你必須記住上下文中的信息才能做in-context learning,而in-context learning是現(xiàn)在所有大模型高階能力的基礎(chǔ),比如CoT(Chain of Thought),特別是long CoT它們都依賴retrieval能力
決勝新架構(gòu)
量子位:你有關(guān)注到行業(yè)內(nèi),對(duì)FFN和attention最新的架構(gòu)改進(jìn)嗎?
MiniMax鐘怡然:FFN的改進(jìn)就是Moe,我也關(guān)注了字節(jié)的Ultra Mem,但我覺得它是一個(gè)有損的東西,是有損的壓縮,未來它scale up上去可能會(huì)有問題,不過我們沒有scale up,我只能說它可能會(huì)有問題。

《ULTRA-SPARSE MEMORY NETWORK 》論文
因?yàn)镕FN基本上就是這些。Moe這塊我們的改進(jìn)無外乎從之前的大專家改成現(xiàn)在的小專家模式,讓它變得更加稀疏,然后再往下做一些加速,還需要進(jìn)一步研究。
再對(duì)它進(jìn)行優(yōu)化的話,因?yàn)镕FN就是矩陣乘法了,優(yōu)化就只能像Nvidia他們?cè)贑UDA層面上做一些矩陣乘法的最底層優(yōu)化。
量子位:有關(guān)注到行業(yè)內(nèi)對(duì)attention架構(gòu)方面的改進(jìn)嗎?
MiniMax鐘怡然:attention上的改進(jìn)基本上就是linear。我們也在考慮未來會(huì)不會(huì)做一個(gè)更強(qiáng)的Linear,在目前基礎(chǔ)上,把Linear attention做進(jìn)一步加速
改進(jìn)方向有很多種方案,一個(gè)是改decay,還有就是改里面的一些小trick,具體可以期待我們的新paper
量子位:咱們目前的上下文長(zhǎng)度和推理成本的這個(gè)比率算是比較先進(jìn)嗎?
MiniMax鐘怡然:**一旦牽涉到把sequence length拉長(zhǎng)的話,我們是有很明顯的算力成本優(yōu)勢(shì)**,越長(zhǎng),成本優(yōu)勢(shì)會(huì)越明顯,無論是推理還是訓(xùn)練。
比如說在1M上,linear attention所消耗的算力是full attention的1/2700。相比之下,因?yàn)槲覀內(nèi)匀挥?/8的full attention,那基本上就是它就是transformer架構(gòu)的1/8,因?yàn)閘inear attention基本上不算開銷了,基本沒有開銷。

linear attention處理長(zhǎng)輸入效率和全球頂尖模型對(duì)比
量子位:計(jì)算開銷這么低的話能實(shí)現(xiàn)計(jì)算瓶頸嗎?
MiniMax鐘怡然:現(xiàn)在確實(shí)是訪存瓶頸,decoding的時(shí)候是訪存瓶頸,而不是計(jì)算瓶頸。因?yàn)閘ightning很快,實(shí)在太快了,沒有辦法讓訪存也像計(jì)算占用一樣少的資源。主要是因?yàn)閷?shí)際應(yīng)用中的序列長(zhǎng)度都不夠長(zhǎng)
未來如何讓它成為計(jì)算瓶頸,那就是看怎么樣去優(yōu)化訪存了。這些會(huì)是工程那邊需要負(fù)責(zé)的事情。
量子位:如果線性注意力成為下一代主流架構(gòu)了,什么樣的硬件適配改進(jìn)會(huì)更適合它呢?
MiniMax鐘怡然:這里面非常tricky的一件事情就是,我們需要考慮的是序列長(zhǎng)度。如果你的序列長(zhǎng)度關(guān)注于8K、32K,那么attention總共也就占比百分之十幾,剩下的百分之八十幾都是后面的FFN部分。
即使你把a(bǔ)ttention全部?jī)?yōu)化到極致,到了0,你也只優(yōu)化了百分之十幾的時(shí)延。但如果把序列長(zhǎng)度拉長(zhǎng)的話,attention的占比就會(huì)越來越大,這是相比于full attention來說,但對(duì)linear attention來說,它的占比是不變的。
因?yàn)镕FN也是線性的,linear attention也是線性的,它的占比大概是10%左右,這個(gè)是幾乎不變的,即使在1M情況下它也是百分之十幾的占比。
但如果是full attention的話,attention計(jì)算可能就占了百分之99,后面的FFN只占了百分之1了。所以linear attention只會(huì)在長(zhǎng)文上有優(yōu)勢(shì)。
如果線性架構(gòu)成為主流的話,后面可能就是追求低能耗的硬件,只能把能耗降低。包括脈沖神經(jīng)網(wǎng)絡(luò)芯片(Spiking Neural Network, SNN)可能會(huì)更適合,其實(shí)也有人在做。

脈沖神經(jīng)網(wǎng)絡(luò)芯片示意
展望AGI之路
量子位:對(duì)模型開源效果有哪些期待呢?
MiniMax鐘怡然:首先是宣傳上的效果。我個(gè)人覺得開源除了展示一些肌肉以外,最重要的還是看大家后續(xù)怎么能夠用起來,我覺得小模型開源可能是未來我們比較考慮做的
還有怎么讓大家能夠finetune的一些基建做起來,可能也是需要考慮的。開源是我們以后長(zhǎng)期的事情,之后旗艦?zāi)P蛻?yīng)該會(huì)持續(xù)開源
量子位:未來非hybrid的某個(gè)純血架構(gòu)有跑出來的可能嗎?
MiniMax鐘怡然:目前沒有方法能比hybrid做得更好,特別是在速度方面。加入一小部分softmax attention,在序列長(zhǎng)度不是特別長(zhǎng)的情況下,速度優(yōu)勢(shì)非常明顯,特別是flash attention出現(xiàn)后。
純血架構(gòu)的研究仍在進(jìn)行,但難度很大,已經(jīng)沒有低垂的果實(shí)了。我們有一些技術(shù)方案,但實(shí)現(xiàn)都不簡(jiǎn)單,最終取決于我們需要做到多長(zhǎng)的序列長(zhǎng)度。
另一個(gè)問題是,超長(zhǎng)文本是否有強(qiáng)烈的剛需?雖然像Claude等模型已達(dá)到200K上下文,但用戶似乎對(duì)當(dāng)前已有長(zhǎng)度也很滿意。未來agent應(yīng)用可能會(huì)帶來對(duì)超長(zhǎng)序列的需求,但目前還沒有成熟的benchmark。
但我覺得這個(gè)問題就像Nvidia會(huì)為未來的游戲開發(fā)超前性能的顯卡一樣,雖然現(xiàn)在還用不上,但這是面向未來的技術(shù)。
比如deep research需要模型讀取幾十個(gè)網(wǎng)站的內(nèi)容,處理時(shí)間在幾十分鐘級(jí)別,這可能是長(zhǎng)文本的一個(gè)應(yīng)用方向。
量子位:你覺得CoT之后的下一個(gè)大事情可能會(huì)是什么呢?
MiniMax鐘怡然:這個(gè)我們想過,首先現(xiàn)在的reasoning model是比較火的,今年的主流還會(huì)是reasoning這一塊。之后的話,我們很難想到純語言模型未來還有什么特別大的變革。
我也跟別的老師聊過,他們的感覺是大家會(huì)去重新減少模型開銷,就讓reasoning的速度越來越快,讓它的價(jià)格變得越來越低,在維持效果的情況下把成本往下壓
因?yàn)樘旎ò搴芸炀徒咏?,現(xiàn)在絕大多數(shù)的情況都是在對(duì)大模型能力進(jìn)行查漏補(bǔ)缺。但如果說還有更大的技術(shù)突破,短期內(nèi)可能比較少見,我們還沒看到。
量子位:MiniMax在探索了線性注意力之后,下一個(gè)可能探索的方向是什么呢?
MiniMax鐘怡然:下一個(gè)可能是去探索多模態(tài)的架構(gòu),具體指的是我們要不要做這種原生的生成理解統(tǒng)一大模型的架構(gòu)
量子位:以AGI為終點(diǎn),計(jì)算復(fù)雜度O(n2)還是O(n)的模型會(huì)是更好的答案?
MiniMax鐘怡然:那當(dāng)然是O(n)了。從擬人化來說,人肯定是O(n)復(fù)雜度的。就比如說打個(gè)比方,如果人的復(fù)雜度是O(n2),那么我跟你說話的速度會(huì)變得越來越慢。
因?yàn)閷?duì)transformer來說,它的inference的complexity是O(n2)的計(jì)算復(fù)雜度,也就是我吐第一個(gè)token和吐第100個(gè)token的時(shí)延是不一樣的。
我們?nèi)祟悷o法想象這樣的事情,因?yàn)槿藦慕瞪聛碇罂倹]有重啟過,是一直在吐東西的,所以人的計(jì)算復(fù)雜度就是恒定的
量子位:人一定是智能的最優(yōu)解嗎?
MiniMax鐘怡然:我們目前只能這么想,還有一些人做仿生智能的路線,我們沒有太關(guān)注那些方向。
量子位:以AGI為終局的話,模型哪些方向的改進(jìn)是最重要的事情?
MiniMax鐘怡然:除了語言建模以外,還有一個(gè)就是學(xué)習(xí)方式的問題。你怎樣去學(xué)習(xí),以及從環(huán)境當(dāng)中學(xué)習(xí),與環(huán)境的交互當(dāng)中學(xué)習(xí)很重要,畢竟現(xiàn)在的多模態(tài)理解還是非常的缺數(shù)據(jù)。
而且機(jī)器即使是few-shot的學(xué)習(xí)目前也都是帶標(biāo)注的,但人的學(xué)習(xí)是不帶標(biāo)注的。那么怎么把所有的東西統(tǒng)一在一個(gè)自建構(gòu)的框架下面,也是一個(gè)問題。
代碼:https://github.com/MiniMax-AI/MiniMax-01
模型:https://huggingface.co/MiniMaxAI/MiniMax-Text-01,https://huggingface.co/MiniMaxAI/MiniMax-VL-01
技術(shù)報(bào)告:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
熱門跟貼