昨天MiniMax開源著實在AI圈子引發(fā)了不小的震動,比如人工智能大V博主AK一連發(fā)了多條帖子。MiniMax到底強在哪里?昨天我認(rèn)真學(xué)習(xí)了下68頁的開源技術(shù)報告,真的有被震驚到。 這次開源最大的技術(shù)創(chuàng)新,是MiniMax自研了一個新架構(gòu),直接挑戰(zhàn)傳統(tǒng)Transformer架構(gòu)。 新模型三大亮點: 混合注意力機制:每 7 個線性注意力層后插入一個 Softmax 注意力層 長上下文:訓(xùn)練窗口100萬token,推理窗口400萬token,而且超便宜 混合專家(MoE)架構(gòu),總參數(shù):4560億,激活參數(shù):459億,專家數(shù)量32 最大的技術(shù)亮點,就是這個叫做“閃電注意力機制Lightning Attention”的Scaling Law。 簡單解釋下:傳統(tǒng)注意力機制下,序列長度與計算量是平方關(guān)系,所以上下文越長,計算量越大,模型也就越昂貴,顯然是成本的不能承受之重。而線性注意力機制是一種改進的注意力機制,線性注意力機制通過將計算復(fù)雜度降低到線性,使得模型能夠更高效地處理長序列數(shù)據(jù)。 線性注意力機制已經(jīng)提出好多年了,但此前只停在實驗室與小規(guī)模階段。MiniMax要解決線性注意力機制在大規(guī)模訓(xùn)練后如何高效計算的問題。因此,MiniMax團隊在2024年提出Lightning Attention,是一種線性注意力變體的I/O感知實現(xiàn)。 MiniMax創(chuàng)始人去年8月還說過:“在做線性注意力機制的過程中,我們非常驚喜地發(fā)現(xiàn),其實GPT-4o也是這么做的?!?而現(xiàn)在,MiniMax開源新模型成功驗證了Lightning Attention在大規(guī)模集群訓(xùn)練的可行性,并將長文本擴展到400萬token的時代。 這件事有什么意義?一旦長文本輸入的成本與高效計算問題被解決,那么各種各樣的Agent就離真正的大規(guī)模落地不遠(yuǎn)了。想象一下,我直接把一本專業(yè)的編程書籍發(fā)給Agent,讓它協(xié)助整個編程項目;或者我把成千上萬的法律案例發(fā)給Agent,讓它直接化身AI律師。 現(xiàn)在由于成本與技術(shù)的限制,沒有哪個模型能做到這么長的文本以及低成本的并行計算,MiniMax是第一個做到的。 最最重要的是,這個技術(shù)是國產(chǎn)大模型公司發(fā)布的?。?!說一句MiniMax是國產(chǎn)之光,不過分吧。#乘風(fēng)計劃,動態(tài)激勵#
昨天MiniMax開源著實在AI圈子引發(fā)了不小的震動,比如人工智能大V博主AK一連發(fā)了多條帖子。MiniMax到底強在哪里?昨天我認(rèn)真學(xué)習(xí)了下68頁的開源技術(shù)報告,真的有被震驚到。 這次開源最大的技術(shù)創(chuàng)新,是MiniMax自研了一個新架構(gòu),直接挑戰(zhàn)傳統(tǒng)Transformer架構(gòu)。 新模型三大亮點: 混合注意力機制:每 7 個線性注意力層后插入一個 Softmax 注意力層 長上下文:訓(xùn)練窗口100萬token,推理窗口400萬token,而且超便宜 混合專家(MoE)架構(gòu),總參數(shù):4560億,激活參數(shù):459億,專家數(shù)量32 最大的技術(shù)亮點,就是這個叫做“閃電注意力機制Lightning Attention”的Scaling Law。 簡單解釋下:傳統(tǒng)注意力機制下,序列長度與計算量是平方關(guān)系,所以上下文越長,計算量越大,模型也就越昂貴,顯然是成本的不能承受之重。而線性注意力機制是一種改進的注意力機制,線性注意力機制通過將計算復(fù)雜度降低到線性,使得模型能夠更高效地處理長序列數(shù)據(jù)。 線性注意力機制已經(jīng)提出好多年了,但此前只停在實驗室與小規(guī)模階段。MiniMax要解決線性注意力機制在大規(guī)模訓(xùn)練后如何高效計算的問題。因此,MiniMax團隊在2024年提出Lightning Attention,是一種線性注意力變體的I/O感知實現(xiàn)。 MiniMax創(chuàng)始人去年8月還說過:“在做線性注意力機制的過程中,我們非常驚喜地發(fā)現(xiàn),其實GPT-4o也是這么做的?!?而現(xiàn)在,MiniMax開源新模型成功驗證了Lightning Attention在大規(guī)模集群訓(xùn)練的可行性,并將長文本擴展到400萬token的時代。 這件事有什么意義?一旦長文本輸入的成本與高效計算問題被解決,那么各種各樣的Agent就離真正的大規(guī)模落地不遠(yuǎn)了。想象一下,我直接把一本專業(yè)的編程書籍發(fā)給Agent,讓它協(xié)助整個編程項目;或者我把成千上萬的法律案例發(fā)給Agent,讓它直接化身AI律師。 現(xiàn)在由于成本與技術(shù)的限制,沒有哪個模型能做到這么長的文本以及低成本的并行計算,MiniMax是第一個做到的。 最最重要的是,這個技術(shù)是國產(chǎn)大模型公司發(fā)布的?。?!說一句MiniMax是國產(chǎn)之光,不過分吧。#乘風(fēng)計劃,動態(tài)激勵#