打開網(wǎng)易新聞 查看精彩圖片

此前,不少讀者都在后臺(tái)討論,DeepSeek雖然牛逼,但是在其之上還有ChatGPT等更強(qiáng)的AI模型,難道僅憑開源就能夠引起如此廣泛的關(guān)注?再說回來,DeepSeek能夠被AI從業(yè)者反復(fù)琢磨和研究,到底是有哪些過人之處?

打開網(wǎng)易新聞 查看精彩圖片

圖源:DeepSeek

對(duì)于這個(gè)問題,其實(shí)有不少專業(yè)文章都做過解釋,不過大家未必會(huì)想去看萬字長(zhǎng)文,也對(duì)枯燥的學(xué)術(shù)概念沒啥興趣。所以小雷這次打算用通俗易懂的方式,向大家解釋一下DeepSeek在AI模型的訓(xùn)練和設(shè)計(jì)中,到底有哪些讓人眼前一亮的創(chuàng)新。

憑“MoE+MLA+MTP”成為效率狂魔

憑“MoE+MLA+MTP”成為效率狂魔

自打DeepSeek-V2發(fā)布以來,這個(gè)AI模型就以高效而聞名,大家對(duì)此估計(jì)也都有所耳聞,甚至一度被網(wǎng)友稱為“三低一高”:低推理成本、低參數(shù)量、低硬件要求、高推理性能。

不少網(wǎng)友都認(rèn)為DeepSeek之所以比ChatGPT等AI模型更高效,是因?yàn)槭褂昧讼∈杞Y(jié)構(gòu)。這個(gè)結(jié)論并沒有錯(cuò),只是稀疏架構(gòu)并非DeepSeek獨(dú)創(chuàng),是泛指在運(yùn)行過程中會(huì)選擇性激活一部分網(wǎng)絡(luò)單元,而非激活全網(wǎng)絡(luò)單元的AI模型,其最早在深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)應(yīng)用中被提出,并成為AI領(lǐng)域的主流結(jié)構(gòu)之一。

稀疏結(jié)構(gòu)的優(yōu)勢(shì)是可以用更少的算力資源來運(yùn)行和訓(xùn)練更大參數(shù)量的模型,并且在實(shí)際的推理過程中擁有更高的效率,不過也因此會(huì)導(dǎo)致其出現(xiàn)其他缺陷,這個(gè)我們?cè)诮酉聛碓僭敿?xì)說明。

而ChatGPT等AI模型則是采用的稠密結(jié)構(gòu),也就是為每一個(gè)數(shù)據(jù)塊都進(jìn)行單獨(dú)標(biāo)記,并且每一個(gè)數(shù)據(jù)塊都與前一層所有數(shù)據(jù)塊相連,形成密集的數(shù)據(jù)矩陣。當(dāng)你在進(jìn)行推理/訓(xùn)練時(shí),本質(zhì)上會(huì)讀取整個(gè)模型的所有參數(shù),借助龐大的參數(shù)量可以進(jìn)行更復(fù)雜的計(jì)算和更準(zhǔn)確的回答,缺點(diǎn)則是當(dāng)參數(shù)量過大時(shí),效率會(huì)愈發(fā)低下。

從AI大模型的角度來說,其實(shí)并不存在最好的選擇,稀疏和稠密都有各自的優(yōu)缺點(diǎn),目前主流的AI企業(yè)基本對(duì)兩種結(jié)構(gòu)都有所研究,只是根據(jù)各自模型的特性和應(yīng)用范圍,會(huì)選擇不同的結(jié)構(gòu)。

以ChatGPT這種全通用型的AI模型為例,為了覆蓋盡可能多的領(lǐng)域,其用的就是稠密架構(gòu),但是也讓ChatGPT-5一直難產(chǎn),即使以O(shè)penAI的龐大算力矩陣也難以解決龐大參數(shù)量所導(dǎo)致的超高算力消耗和效率下降問題。

而DeepSeek-R1也有著671B參數(shù)量,但是因?yàn)椴捎孟∈杓軜?gòu),實(shí)際上每次只激活其中32B的參數(shù),加上DeepSeek的思維鏈優(yōu)化等技術(shù),就可以實(shí)現(xiàn)近似于ChatGPT-4o和o1的推理能力。

DeepSeek如何做到這點(diǎn)的?接下來讓我們隆重介紹一下DeepSeek-R1的核心——MoE+MLA+MTP。

首先,DeepSeek創(chuàng)新性地應(yīng)用MoE架構(gòu)提高訓(xùn)練效率。

首先需要明確的是,MoE并非DeepSeek首創(chuàng),其最早在20世紀(jì)90年代就已經(jīng)被提出,隨后在機(jī)器學(xué)習(xí)領(lǐng)域的專家Jordan和Jacobs的完善下,在1994年進(jìn)一步發(fā)展成“分層混合專家”模型的概念。

打開網(wǎng)易新聞 查看精彩圖片

圖源:Hugging Face

隨后,2017年時(shí)由谷歌的研究團(tuán)隊(duì)首先將其用在了深度學(xué)習(xí)領(lǐng)域,提出一個(gè)具有1370億參數(shù)的稀疏MoE模型,并且展示了在MoE架構(gòu)下進(jìn)行高效推理的可能。MoE架構(gòu)到底是什么?簡(jiǎn)單來說,就是將一個(gè)巨大的AI模型切割成多個(gè)子模型,相當(dāng)于將一個(gè)全科天才拆分成語文、數(shù)學(xué)、化學(xué)、生物等不同學(xué)科的專家(實(shí)際劃分并非如此,而是更復(fù)雜)。

在MoE架構(gòu)下,當(dāng)你提出一個(gè)問題時(shí),AI會(huì)首先判斷這個(gè)問題涉及哪些專家,然后跳過那些不相關(guān)的專家,把對(duì)應(yīng)領(lǐng)域的專家喊過來討論你的問題,然后得出結(jié)果。而傳統(tǒng)的Dense架構(gòu)則是全科天才需要處理所有問題,雖然能力強(qiáng)大,但是當(dāng)問題變多時(shí)就會(huì)顯得效率十分低下,而且其消耗的資源也遠(yuǎn)超“普通專家”。

聽起來,MoE架構(gòu)似乎更合理,那么為何國外主流AI模型沒有使用呢?實(shí)際上并非如此,ChatGPT-4等模型都有使用MoE架構(gòu)的部分特性強(qiáng)化效率,只不過最終還是選擇以Dense(密集)架構(gòu)為主。而沒有將MoE作為主架構(gòu)的原因主要是這個(gè)架構(gòu)存在訓(xùn)練不穩(wěn)定、通信成本高、模型復(fù)雜度高、微調(diào)困難等問題,說白了就是你得對(duì)模型進(jìn)行精雕細(xì)琢,無法通過單純的堆高算力和加大參數(shù)量來得到顯著提升。

打開網(wǎng)易新聞 查看精彩圖片

圖源:DeepSeek

只能說“窮人家”的孩子早當(dāng)家,DeepSeek在沒有龐大算力支持的情況下,只能轉(zhuǎn)而對(duì)模型進(jìn)行深度優(yōu)化,放棄了DeepSeek-V1的Dense路線,轉(zhuǎn)向在同等算力下有著更高效率的MoE,并且針對(duì)MoE的各種問題開發(fā)了一系列的解決措施。比如設(shè)計(jì)了一種創(chuàng)新的無輔助損失負(fù)載均衡策略,通過預(yù)先設(shè)置的負(fù)載均衡邏輯來動(dòng)態(tài)調(diào)整負(fù)載,拋棄傳統(tǒng)的額外的損失函數(shù)方案。

簡(jiǎn)單來說,傳統(tǒng)方法是經(jīng)理總攬全局,如果看到哪個(gè)產(chǎn)線過度繁忙,就會(huì)通知那個(gè)產(chǎn)線的工人你們要被罰款了,不想扣錢就把工作讓給隔壁沒活干的產(chǎn)線。因?yàn)樾枰?jīng)理不停發(fā)出指令調(diào)整分配,所以實(shí)質(zhì)上增加了管理復(fù)雜度,并且難以應(yīng)付大量的數(shù)據(jù)請(qǐng)求。

而DeepSeek則是選擇給每個(gè)產(chǎn)線都增加一個(gè)智能控制器,當(dāng)控制器檢測(cè)到產(chǎn)線負(fù)載逐漸增加時(shí)就會(huì)自動(dòng)調(diào)低自己的優(yōu)先級(jí),讓系統(tǒng)將任務(wù)分配給優(yōu)先級(jí)更高的其余空余產(chǎn)線。從而實(shí)現(xiàn)在無人管理的情況下,多數(shù)產(chǎn)線都可以得到均衡的負(fù)載,確保訓(xùn)練和推理的效率一直保持在高位。

打開網(wǎng)易新聞 查看精彩圖片

圖源:DeepSeek

其次,DeepSeek用MLA創(chuàng)造性地提高推理效率。

解決了訓(xùn)練效率等問題,DeepSeek很快將注意力放到了進(jìn)一步解決推理效率的問題上,然后在某位研究員的“靈光一閃”下開發(fā)出了MLA——多頭潛在注意力機(jī)制。從技術(shù)角度來說,就是通過將注意力頭的鍵和值進(jìn)行線性變換,將他們壓縮到一個(gè)共享的低維潛在向量空間,接下來推理時(shí)只需要拿著壓縮后的縮略圖倒騰即可,在得到結(jié)論后再把對(duì)應(yīng)的壓縮包解壓,計(jì)算其中的鍵和值并輸出最終答案。

讓我們用一個(gè)更簡(jiǎn)單的比喻,你可以把傳統(tǒng)多頭注意力機(jī)制看作一個(gè)老圖書館,每本書都擁有對(duì)應(yīng)的詳細(xì)索引卡,此時(shí)進(jìn)來一個(gè)人要借書,然后AI開始翻動(dòng)索引卡,嘗試從浩如煙海的圖書中找到對(duì)方要的書,雖然AI的查找速度奇快,但是這樣做的效率肯定不會(huì)高。

而DeepSeek的MLA就是在編好索引卡后對(duì)書籍又按照類別進(jìn)行歸檔,為每個(gè)類型的書籍建立一個(gè)上級(jí)索引,然后又建立了一個(gè)智能化的檢索機(jī)制。當(dāng)借書人在輸入書名后,系統(tǒng)會(huì)自動(dòng)判斷所屬類型,然后直接鎖定大致區(qū)間,接下來只需要檢索這一片書架就能把書找出來,直接節(jié)省了大量的無效檢索時(shí)間。

打開網(wǎng)易新聞 查看精彩圖片

圖源:Hugging Face

最后,DeepSeek引入MTP機(jī)制提高預(yù)測(cè)能力。

解決了訓(xùn)練和推理等問題,DeepSeek就很自然地開始對(duì)預(yù)測(cè)機(jī)制下手,預(yù)測(cè)機(jī)制涉及AI的訓(xùn)練效率、推理速度和回答質(zhì)量等各個(gè)方面,可以說是AI模型的核心機(jī)制之一。傳統(tǒng)的AI在預(yù)測(cè)時(shí)都是“循規(guī)蹈矩”,就像解一道數(shù)學(xué)題一樣,做完一段推理后再進(jìn)入下一階段。

而DeepSeek則是引入了MTP機(jī)制(多令牌預(yù)測(cè)),簡(jiǎn)單來說就是讓你多了好幾只手,然后把數(shù)學(xué)題的解題過程一分為五,五只手同時(shí)驗(yàn)算,最后再進(jìn)行組合生成答案。正是通過這種方式,DeepSeek極大地提高了模型的訓(xùn)練效率,同時(shí)也使其推理效率得到顯著提升。

打開網(wǎng)易新聞 查看精彩圖片

圖源:DeepSeek

而且,MTP機(jī)制下生成出來的文字內(nèi)容會(huì)更加流暢和自然,因?yàn)镸TP機(jī)制就等于將“走一步看一步”的寫作方式,變成了“先擬大綱再填充字詞”。DeepSeek先想好要寫什么,然后再通過MTP生成一系列字詞,選擇其中相關(guān)性更強(qiáng)的部分組合,這也是為什么大家在看DeepSeek生成的文字內(nèi)容時(shí),會(huì)感覺更有“人”味,因?yàn)檫@就是人類的寫作方法。

從DeepSeek-V2引入MoE并完善MLA,再到DeepSeek-V3加入MTP,最終才有了DeepSeek-R1的誕生基礎(chǔ)。

如何讓AI學(xué)會(huì)“自主學(xué)習(xí)”?

如何讓AI學(xué)會(huì)“自主學(xué)習(xí)”?

DeepSeek-R1也就是我們現(xiàn)在常說的“滿血版”DeepSeek,是在V3的基礎(chǔ)上經(jīng)過“強(qiáng)化學(xué)習(xí)”進(jìn)化而來的。什么是強(qiáng)化學(xué)習(xí)?

要回答這個(gè)問題,首先我們來了解下傳統(tǒng)AI的訓(xùn)練模式——監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí)就是把AI當(dāng)成一個(gè)“笨”學(xué)生,他只能理解你明確標(biāo)注出來的知識(shí)點(diǎn)。比如他看到一個(gè)“白鴨子”,即使他此前已經(jīng)記住了“黑鴨子”,但是在你把“白鴨子”的名字標(biāo)注出來,并將其與“黑鴨子”歸為一類之前,AI都不知道擺在自己面前的“白色奇怪物體”是什么。

當(dāng)你標(biāo)注的數(shù)據(jù)足夠多后,AI才能在后續(xù)的推理過程中,根據(jù)現(xiàn)有的數(shù)據(jù)特點(diǎn)來自主判斷面前的“紅鴨子”是一只“鴨子”。這種模式下,需要通過AI的交叉標(biāo)注和人工手動(dòng)微調(diào)來引導(dǎo)AI一點(diǎn)點(diǎn)累積知識(shí),在AI大模型發(fā)展的初期倒也還好,但是隨著AI模型的參數(shù)量突破千億、萬億,標(biāo)注效率下降的同時(shí)成本會(huì)大幅度上升,只能通過不斷堆高算力來“大力出奇跡”。

打開網(wǎng)易新聞 查看精彩圖片

圖源:Medium

所以,對(duì)于DeepSeek這樣算力有限的公司來說,監(jiān)督學(xué)習(xí)是個(gè)一眼就能看到盡頭的死路,想進(jìn)一步強(qiáng)化AI就只能走出一條新的路,于是他們想到了機(jī)器學(xué)習(xí)領(lǐng)域的強(qiáng)化學(xué)習(xí)概念,決定讓AI自己教自己學(xué)習(xí),又稱“左腳踩右腳上天”法。

DeepSeek拋棄了復(fù)雜的標(biāo)注和獎(jiǎng)懲機(jī)制,選擇了更簡(jiǎn)單的方案:給出問題,提供正確答案,然后讓AI自主推理。在完成前期的數(shù)據(jù)標(biāo)注后,不再干涉推理過程,讓AI自行比對(duì)結(jié)果與標(biāo)準(zhǔn)答案的區(qū)別,將低于一定得分的結(jié)果直接廢棄,并在更接近標(biāo)準(zhǔn)答案的結(jié)果上進(jìn)行新一輪推理,重復(fù)多次直到最終得出正確答案為止。

然后DeepSeek的研究人員就發(fā)現(xiàn),隨著AI的訓(xùn)練步數(shù)增加,AI的思維鏈也越來越長(zhǎng),并且開始出現(xiàn)自我反思的能力,AI會(huì)為了更快地接近正確答案而回頭檢索出錯(cuò)的推理過程,然后將其標(biāo)記避免自己再犯同樣的錯(cuò)誤。

DeepSeek第一個(gè)完全由強(qiáng)化學(xué)習(xí)方式訓(xùn)練的AI被命名為DeepSeek-R1-Zero,在這個(gè)模型的相關(guān)論文中,DeepSeek的研究人員甚至提到R1-Zero在強(qiáng)化學(xué)習(xí)過程中會(huì)出現(xiàn)奇怪的舉動(dòng)。當(dāng)他在計(jì)算某個(gè)問題,并且開始接近正確答案時(shí),會(huì)突然出現(xiàn)與推理過程相關(guān)性不大的感慨“Wait, wait, Wait. That's an aha moment I can flag here.(論文原話)”,翻譯過來就是:等等,等等,等等。這是一個(gè)我可以標(biāo)記的‘啊哈’時(shí)刻。

打開網(wǎng)易新聞 查看精彩圖片

圖源:DeepSeek

看起來就像你在冥思苦想一個(gè)數(shù)學(xué)難題,突然靈光一閃后情不自禁發(fā)出的感慨,因此DeepSeek也將這種現(xiàn)象稱為“aha moment”,也就是“頓悟”。

DeepSeek-R1-Zero直接證明了一個(gè)結(jié)論,那就是只要基礎(chǔ)模型足夠強(qiáng)大,那么就可以讓這個(gè)模型在強(qiáng)化學(xué)習(xí)的過程中,自我進(jìn)化出一個(gè)更強(qiáng)大的模型。理論上,未來的AI模型可以直接脫離人類的幫助,在不停地自問自答中進(jìn)化到更高的智能水平。

當(dāng)然現(xiàn)階段還是不行的,AI仍然需要人類進(jìn)行事先的標(biāo)注,確認(rèn)條件、對(duì)比結(jié)果等數(shù)據(jù),然后才能進(jìn)入自主強(qiáng)化學(xué)習(xí)階段,但是從目前各個(gè)AI大廠的進(jìn)度來看,我們距離AI完全自主學(xué)習(xí)的階段可能并不遙遠(yuǎn)。

DeepSeek的強(qiáng)化學(xué)習(xí)理念可以說徹底顛覆了主流AI訓(xùn)練的理念,在狂堆算力和參數(shù)的“暴力模式”之外,指出了一條更適合多數(shù)人的新捷徑。當(dāng)然,之前并非沒有其他人嘗試過強(qiáng)化學(xué)習(xí),但是他們都沒有一個(gè)足夠高效且出色的基礎(chǔ)模型,而且也沒能解決強(qiáng)化學(xué)習(xí)中遇到的一系列問題,所以最終只有DeepSeek成功并打造出了DeepSeek-R1。

不過隨著DeepSeek-R1及相關(guān)訓(xùn)練技術(shù)的開源,不少AI大廠都已經(jīng)在嘗試引入相關(guān)機(jī)制來訓(xùn)練模型,并在他們?cè)械膹?qiáng)化學(xué)習(xí)架構(gòu)上根據(jù)DeepSeek的經(jīng)驗(yàn)進(jìn)行優(yōu)化,或許我們很快就會(huì)迎來一次新的AI性能暴漲。

NSA:全新注意力機(jī)制,下一代「核彈」?

NSA:全新注意力機(jī)制,下一代「核彈」?

DeepSeek在2月18號(hào)還公布的一篇新論文,這篇由DeepSeek創(chuàng)始人之一梁文鋒親自掛名的論文,短短兩小時(shí)就獲得了三十萬瀏覽量(截止到19號(hào)晚,閱讀量已接近200萬)。

在這篇論文中,DeepSeek提出了一種新的注意力機(jī)制——NSA,這是一個(gè)可以用于超快長(zhǎng)上下文訓(xùn)練和推斷的本地可訓(xùn)練的稀疏注意力機(jī)制,并且具有硬件對(duì)齊特性,從論文的描述來看,可以將64K長(zhǎng)文本的訓(xùn)練速度提升9倍,推理速度提升11.6倍。

打開網(wǎng)易新聞 查看精彩圖片

圖源:DeepSeek

這是什么概念呢?簡(jiǎn)單的說,如果之前訓(xùn)練一段64k長(zhǎng)度的文本需要100秒,那么現(xiàn)在只需要11秒,推理相同長(zhǎng)度的文本內(nèi)容,從100秒直接降低到10秒以內(nèi)。不僅如此,使用NSA訓(xùn)練的AI在64k文本里的命中準(zhǔn)確率從傳統(tǒng)的35%提升到100%,并且保持效率優(yōu)化不變。

而且不止是強(qiáng)化文本推理,在數(shù)學(xué)推理等方面,NSA也讓AI的準(zhǔn)確率得到顯著提升,在省下90%算力的情況下還能提升推理正確率,我們一般用兩個(gè)字來形容:逆天。

基于NSA注意力機(jī)制,AI模型可以用原本十分之一的算力來處理64k文本,也可以中同樣算力的情況下,將可處理文本擴(kuò)大十倍,理論上基于新的機(jī)制可以處理最高640k的超長(zhǎng)文本,遠(yuǎn)超現(xiàn)有的已公開AI模型上限。

看起來或許只是效率提升,實(shí)際上對(duì)整個(gè)AI的理解和推理效果都將帶來質(zhì)的提升。比如說讓AI看一本書,如果字?jǐn)?shù)是30萬字的長(zhǎng)篇小說,那么傳統(tǒng)模式下的AI受64k文本限制,一次只能記住約五分之一的內(nèi)容,需要在讀完五分之一后先建立一個(gè)記憶存檔,然后開始讀取下一部分。

當(dāng)你詢問AI剛剛他讀的某一段內(nèi)容的看法時(shí),他需要先檢索出對(duì)應(yīng)的記憶模塊,再通過此前生成的對(duì)應(yīng)摘要來定位內(nèi)容位置,接著再重新閱讀上下文并進(jìn)行推理。但是受限于64k的檢索范圍,實(shí)際上AI只能根據(jù)內(nèi)容所在的前后共64k的內(nèi)容來進(jìn)行推論,在算力不足或受限的情況下,你會(huì)發(fā)現(xiàn)AI經(jīng)常答了后面忘了前面,記憶力似乎還不如你。

這也是為什么現(xiàn)在的AI在長(zhǎng)篇小說創(chuàng)作、解讀等方面的表現(xiàn)不如人意,根本原因就是AI記不住這么長(zhǎng)的文字內(nèi)容,不僅受限于算法,也受限于算力。而DeepSeek則打算徹底改變這個(gè)現(xiàn)狀,打造一套“基于塊(blockwise)進(jìn)行選擇”,并采用了壓縮、篩選、滑動(dòng)窗口三種注意力機(jī)制并行優(yōu)化計(jì)算效率的系統(tǒng)。

DeepSeek的NSA注意力機(jī)制就是將長(zhǎng)文本切割成512字的數(shù)據(jù)塊,然后再對(duì)數(shù)據(jù)塊進(jìn)行簡(jiǎn)略標(biāo)記,接著再通過編寫動(dòng)態(tài)篩選機(jī)制,讓AI自主決定需要檢索哪些數(shù)據(jù)塊,并通過持續(xù)的訓(xùn)練來進(jìn)一步優(yōu)化篩選機(jī)制。

在篩選出“有用”的數(shù)據(jù)塊后,AI再對(duì)數(shù)據(jù)塊進(jìn)行全面檢索,也就是進(jìn)入傳統(tǒng)AI的遍歷模式,以此來提升推理準(zhǔn)確率,同時(shí)還會(huì)啟動(dòng)上下文檢索機(jī)制,快速查找是否還存在其他相關(guān)信息,避免AI根據(jù)篩選的內(nèi)容“斷章取義”,給出錯(cuò)誤的回答。

DeepSeek的這個(gè)技術(shù)以一種巧妙的方式,輕松實(shí)現(xiàn)了過去難以解決的長(zhǎng)文本推理和創(chuàng)作問題,讓AI可以直接閱讀數(shù)十萬字的巨作,并且記住其中絕大多數(shù)的細(xì)節(jié)。換言之,即使你突然丟給AI一本自己寫的超長(zhǎng)小說,他也可以在短時(shí)間內(nèi)閱讀并記住,然后與你討論整部小說的設(shè)定和細(xì)節(jié),彼時(shí)或許才是多數(shù)小說作家的“革命之時(shí)”。

NSA的提出意味著AI模型在處理超長(zhǎng)文本、復(fù)雜推理任務(wù)時(shí)邁向了新的階段,為未來的大模型發(fā)展提供了重要的技術(shù)方向,也讓人好奇DeepSeek到底打算把開源做到怎樣的地步?

DeepSeek開源:授人以漁,改變世界

DeepSeek開源:授人以漁,改變世界

DeepSeek采取開源架構(gòu),在前不久的“開源周”上,它大方地開放了多個(gè)技術(shù)/工具/架構(gòu),每一個(gè)都將對(duì)AI大模型產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)影響。

1、FlashMLA:給AI開個(gè)“外掛”。

打開網(wǎng)易新聞 查看精彩圖片

圖源:雷科技

FlashMLA,官方的解釋是一款面向Hopper GPU的高效MLA解碼內(nèi)核,并針對(duì)可變長(zhǎng)度序列的服務(wù)場(chǎng)景進(jìn)行了優(yōu)化。

用更通俗的說法來解釋,就是一個(gè)針對(duì)H系列計(jì)算卡的超頻“外掛”,為什么叫外掛而非工具?因?yàn)镕lashMLA的效果實(shí)在是太炸裂了。根據(jù)DeepSeek給出的參數(shù),經(jīng)過FlashMLA優(yōu)化的H800計(jì)算卡,在計(jì)算受限的情況下仍然能擁有高達(dá)580TFLOPS的算力,內(nèi)存帶寬達(dá)到3000GB/s。

這是什么概念?這么說吧,H800是由H100閹割而來的性能殘缺版,但是在優(yōu)化后算力已經(jīng)超越了H100的默認(rèn)算力(495TFLOPS),并且內(nèi)存帶寬接近顯存的理論上限值,對(duì)比默認(rèn)狀態(tài)下帶寬提升約50%的性能,接近H100經(jīng)過專屬優(yōu)化后的巔峰性能。

換句話說,DeepSeek硬生生將H800優(yōu)化成了超頻版的H100,突破了算力的限制。不僅如此,針對(duì)長(zhǎng)序列推理時(shí)出現(xiàn)的顯存碎片問題,F(xiàn)lashMLA通過將分頁KV緩存切割為64-block粒度的技術(shù),將顯存利用率大幅度提高,并顯著降低實(shí)際推理過程中無效算力的占比,并讓長(zhǎng)序列推理的端到端時(shí)延降低40%,直接提升了實(shí)時(shí)對(duì)話和長(zhǎng)文本生成等實(shí)用場(chǎng)景下的體驗(yàn)。

FlashMLA開源后,一些開發(fā)者直接將DeepSeek稱為“源神”(開源之神),因?yàn)檫@相當(dāng)于把DeepSeek-R1最核心的效率工具之一免費(fèi)貢獻(xiàn)給整個(gè)AI行業(yè)。不管是直接部署使用還是在此基礎(chǔ)上進(jìn)行更多硬件的適配和優(yōu)化,都可以顯著提升模型的算力效率并降低推理成本,用“榨干GPU的每一絲潛力”來形容都不為過。

2、DeepEP:MoE模型的通信革命。

打開網(wǎng)易新聞 查看精彩圖片

圖源:雷科技

從官方描述來看,DeepEP是一款針對(duì)MoE模型訓(xùn)練和推理所設(shè)計(jì)的EP(專家并行)通信庫,旨在解決這類模型在常規(guī)通信機(jī)制下的高延遲、低數(shù)據(jù)傳輸速率等問題。

我們前面說到過MoE是由一個(gè)個(gè)“專家”組成的數(shù)據(jù)矩陣,而且這些專家還位于不同的GPU內(nèi)核,為了可以攜手解決問題,自然需要進(jìn)行交流和通訊,分享自己掌握的數(shù)據(jù)。如果說傳統(tǒng)的通信機(jī)制類似于發(fā)電報(bào),那么DeepEP就等于裝上了語音電話,不僅讓兩個(gè)專家可以即時(shí)交流,還能邊交流邊思考。

官方發(fā)布的基準(zhǔn)測(cè)試?yán)铮?jīng)過優(yōu)化后的帶寬通信利用率高達(dá)92%,是英偉達(dá)官方解決方案的3倍,而通信時(shí)延也從毫秒級(jí)降到了微秒級(jí),同時(shí)支持FP8低精度運(yùn)算??梢哉f,這就是DeepSeek為了強(qiáng)化MoE模型的訓(xùn)練和推理,而專門定制的一套方案。

但是這玩意的離譜之處就在于,DeepEP實(shí)際上可以適配H系列的各種GPU內(nèi)核,并且提供了一鍵部署方案,只是還需要大家在此基礎(chǔ)上做進(jìn)一步適配優(yōu)化來達(dá)到最佳效果。這項(xiàng)技術(shù)的開源,可以說直接給MoE模型的訓(xùn)練提供了一個(gè)很好的優(yōu)化思路,并且已經(jīng)在實(shí)際使用中得到了充分驗(yàn)證。

3、DeepGEMM:壓箱底的“寶貝”。

打開網(wǎng)易新聞 查看精彩圖片

圖源:雷科技

DeepGEMM是一個(gè)專為簡(jiǎn)潔高效的 FP8通用矩陣乘法(GEMM)設(shè)計(jì)的庫,具有細(xì)粒度縮放功能,支持普通和混合專家(MoE)分組的 GEMM。以上是官方解釋,一般讀者可能看不懂,不過沒關(guān)系,因?yàn)榇蠖鄶?shù)人都是一樣的,咳咳。

簡(jiǎn)單的講,這就是一個(gè)教你如何在FP8精度下訓(xùn)練AI大模型,同時(shí)還保證AI大模型的訓(xùn)練不會(huì)出問題的玩意。什么是“精度”?直觀解釋就是數(shù)據(jù)的準(zhǔn)確性,舉個(gè)例子,“小明的身高是1米7”這就是FP8,“小明的身高是1米72”這就是FP16,精度越高所含的數(shù)據(jù)就越精準(zhǔn),在AI大模型訓(xùn)練中就可以得出更準(zhǔn)確的結(jié)果。

但是高精度也會(huì)帶來問題,那就是數(shù)據(jù)包本身會(huì)占用更大的算力資源,F(xiàn)P16的內(nèi)存占用幾乎是FP8的兩倍,而且還會(huì)因此影響到傳輸速度等各方面的效率。所以實(shí)際訓(xùn)練中FP16的效率是遠(yuǎn)不如FP8的,只不過FP8一直也存在嚴(yán)重各種問題,以至于在公開范圍內(nèi),還沒有哪個(gè)AI大模型是以FP8精度完成訓(xùn)練的。

而DeepSeek此前公布訓(xùn)練成本時(shí),其實(shí)就已經(jīng)指出高效的背后與FP8精度訓(xùn)練脫不開關(guān)系,其中的關(guān)鍵就是DeepGEMM。該代碼庫用一種雙重驗(yàn)證+智能糾錯(cuò)的方式,讓FP8在實(shí)際訓(xùn)練中也能夠擁有媲美高精度訓(xùn)練的準(zhǔn)確率,并且解決了溢出等各種問題。

當(dāng)然DeepGEMM的作用不止于此,不過這是最核心的應(yīng)用之一(更詳細(xì)的解讀大家可以去看看知乎大佬們的解答)。你可以認(rèn)為DeepSeek這波就是把真正的壓箱底玩意拿出來分享了,大家可以根據(jù)DeepGEMM的思路,將AI大模型的訓(xùn)練成本大幅度降低,并且提高整個(gè)AI大模型的運(yùn)行效率。

DeepGEMM的整個(gè)執(zhí)行代碼只有約300行,堪稱極致的精簡(jiǎn)和效率,以至于有外國網(wǎng)民評(píng)價(jià):這是一份可以直接入選教科書的代碼,讓我重新領(lǐng)略到了代碼的美。

DeepSeek啟示錄:與其重復(fù)造輪子,不如推廣「好用的輪子」

不得不說,DeepSeek真的是將開源精神貫徹到極致。從DeepSeek-R1及相關(guān)算法的完全開源,到開源周的壓箱底技術(shù)大放送,幾乎都采用MIT或類MIT的開源協(xié)議,所有人都可以自由地使用、復(fù)制、修改、合并、發(fā)布、分發(fā)、再許可及銷售軟件及軟件的副本,不受任何制約,而且不強(qiáng)制要求使用開源庫的項(xiàng)目進(jìn)行開源。

從商業(yè)公司的角度來看DeepSeek的做法簡(jiǎn)直匪夷所思,因?yàn)镈eepSeek本可以借助這些技術(shù)優(yōu)勢(shì)來獲取更大的利潤(rùn),但是卻選擇了完全開源,以此換取整個(gè)AI行業(yè)的躍升。這個(gè)形容并不夸張,畢竟從DeepSeek開源的一系列技術(shù)來看,AI模型的推理成本有望在今年降低50%甚至更多,而且在實(shí)時(shí)交互等方面都將有顯著的體驗(yàn)提升。

而且,DeepSeek的開源做法也使得更多的AI企業(yè)開始考慮加入開源陣營,從根本上促進(jìn)了整個(gè)AI行業(yè)的交流與學(xué)習(xí),讓AI企業(yè)從“重復(fù)造輪子”的閉源困境中解脫,從這個(gè)角度來看,稱DeepSeek的開源為AI發(fā)展史上的重要節(jié)點(diǎn)也毫不為過。

雖然DeepSeek的大多創(chuàng)新都是在已有的概念上,進(jìn)行極致「工業(yè)化」的成果。但是就像英國鐵匠托馬斯制造了第一臺(tái)真正實(shí)用的蒸汽機(jī),但是卻只能用來抽礦井積水,而詹姆斯·瓦特則將其變得更具效率且更通用,最終為工業(yè)革命徹底奠定了基礎(chǔ)。

DeepSeek的開源就像把自己的「通用技術(shù)」拿了出來,讓大家都能用上了「通用蒸汽機(jī)」,在DeepSeek的影響下,AI的普及將比預(yù)料的更快。對(duì)于普通人來說,DeepSeek的最大意義在于讓我們不用再忍受低質(zhì)量的AI模型困擾。而對(duì)于AI行業(yè)來說,他的意義在于從根本上改變了整個(gè)行業(yè)的動(dòng)向,讓開源變得更受重視,讓強(qiáng)化學(xué)習(xí)機(jī)制的潛力得到進(jìn)一步認(rèn)可。

最后,文章開頭的問題答案其實(shí)很簡(jiǎn)單,DeepSeek的創(chuàng)新總結(jié)起來無非就三點(diǎn):更高效、更自主(指AI訓(xùn)練)和更開放。