新年,寫下公眾號(hào)第二篇。第一篇有幸10萬(wàn)+了(),希望這篇也值得大家一讀。

作為相關(guān)背景從業(yè)者(北美PhD,前 Meta AI,目前AI創(chuàng)業(yè)),DeepSeek 帶給我的震撼是巨大的。整個(gè)春節(jié)的大部分時(shí)間,我都在捧著他們的每一篇論文,一邊拍大腿一邊感嘆:為什么這么牛X?(笑)

冷靜下來(lái)思考,發(fā)現(xiàn) DeepSeek 同時(shí)顛覆了中國(guó)人和美國(guó)人對(duì)創(chuàng)新的認(rèn)識(shí)。我想這背后一定存在一種深層次的結(jié)構(gòu)性能力,一種新范式,是梁文鋒和團(tuán)隊(duì)有意或者無(wú)意間塑造的。

而這,可能才是 DeepSeek 給世界最大的啟示:

DeepSeek的創(chuàng)新三重門:

小天才的規(guī)?;?+ 華為式的軍團(tuán)平推 + 原創(chuàng)(哲學(xué)式)思想

小天才們的勝利

讀 DeepSeek 的論文們(Math, V2, V3, R1, Janus),第一感覺(jué)是什么呢?一個(gè)接一個(gè)的原創(chuàng)研究工作,像雨點(diǎn)一樣噼里啪啦打在你的臉上。

大模型訓(xùn)練是一個(gè)相當(dāng)復(fù)雜的軟硬一體的工程,而 DeepSeek 幾乎重新設(shè)計(jì)了絕大部分關(guān)鍵組件:MLA,GRPO,DeepSeekMoE,DualPipe,F(xiàn)P8混合精度,R1-Zero,MTP 等等。范圍之廣,密度之大,非常震撼。

從學(xué)術(shù)視角看,這些創(chuàng)新中很多單拿出來(lái),都達(dá)到頂會(huì)最佳論文的水平。所以這第一重門,我們從一張圖說(shuō)起,DeepSeek 的小天才們

打開網(wǎng)易新聞 查看精彩圖片

這張圖很多人看過(guò),但調(diào)研之后我發(fā)現(xiàn)還有很多人不在其中。其中有許多都擁有國(guó)際競(jìng)賽背景(吳作凡,任之洲,周雨楊,羅煜翔等),好多甚至是實(shí)習(xí)或者剛開始讀博(DS-Math的作者邵智宏/Peiyi Wang,Zihan Wang等)。對(duì),就是這群年輕人,創(chuàng)造了剛才提到的一系列技術(shù)。

小天才式的創(chuàng)新,更有名的例子來(lái)自于美國(guó):GPT 的最早提出者 Alec Radford,思維鏈 CoT 的提出者 Jason Wei,Sora 的主力貢獻(xiàn)者 Bill Peebles,都是初入職場(chǎng),甚至沒(méi)有博士訓(xùn)練的年輕人。

打開網(wǎng)易新聞 查看精彩圖片

我們把這些人稱之為 “小天才們”,因?yàn)樗麄儾粌H有天才般的 learn 的能力,更重要的是,他們沒(méi)有 unlearn 的負(fù)擔(dān)。

DeepSeek 中小天才式的創(chuàng)新

如果給"小天才式的創(chuàng)新"一個(gè)定義,那就是:給定約束,尋找最優(yōu)解的能力。

我們來(lái)舉例 DeepSeek 的三個(gè)核心算法模塊:

  • MLA:傳統(tǒng) Attention 內(nèi)存占用太大,怎么辦?改造 Attention 模塊,通過(guò)低秩壓縮,讓 KV Cache 的效率達(dá)到最優(yōu)。

  • DeepSeekMoE:傳統(tǒng) MoE 專家不夠精細(xì),激活參數(shù)大,怎么辦?改造 MoE,通過(guò)增加共享專家和細(xì)粒度專家,大幅提升了 MoE 中的專家學(xué)習(xí)的效果。

  • GRPO:傳統(tǒng) PPO 需要訓(xùn)練兩個(gè)模型,效率低,怎么辦?通過(guò)去掉 Value Model,引入 Group-Relative 作為 baseline,大大提升了訓(xùn)練效率。

拋開專業(yè)術(shù)語(yǔ),用人話來(lái)理解背后的模式是:一個(gè)非常優(yōu)秀的工程師,遇到問(wèn)題會(huì)嘗試不同的技術(shù)選型,選一個(gè)最好的方案。而小天才會(huì)說(shuō):在座的都不夠好,為什么不重寫一個(gè)?然后寫出了行業(yè)最佳方案。

這樣的例子,在 DeepSeek 的文章里非常多,而每一個(gè)背后,都站著一個(gè)小天才。

小天才的規(guī)?;?/strong>

相信個(gè)人,尤其是年輕人的創(chuàng)造力,在硅谷的文化中非常常見?;蛟S我自己的經(jīng)歷可以佐證:我畢業(yè)后加入 Meta,半年后向主管提出想做一個(gè)全新的內(nèi)容理解引擎。一個(gè)月后,10人左右的虛擬團(tuán)隊(duì)就成立了。

我想梁文鋒應(yīng)該從 OpenAI 的經(jīng)驗(yàn)中參考了很多,他在暗涌的采訪中,多次提到類似的觀點(diǎn):

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

他自己說(shuō)過(guò),這樣的小天才式的創(chuàng)新,在硅谷每天都在發(fā)生。但這不能抹殺 DeepSeek 出現(xiàn)的意義,因?yàn)樗粌H證明了中國(guó)能孕育硅谷型的創(chuàng)新文化,甚至還可以進(jìn)一步規(guī)?;@種模式。

畢竟,我們有著全世界最多的小天才們(笑)。

想象一下,這樣的文化,擴(kuò)散到更多的創(chuàng)新型公司,成為主流,會(huì)是怎樣的一種盛況?

這是創(chuàng)新的第一重門。

華為式的軍團(tuán)平推

如果說(shuō),DeepSeek 只是復(fù)制了硅谷的小天才模式,為什么會(huì)讓那些發(fā)明這個(gè)模式的 OpenAI 們,如此緊張?這就要提到第二個(gè)關(guān)鍵要素。

當(dāng)你深度閱讀完 DeepSeek 的論文,尤其是 V3,一種新的感受會(huì)慢慢浮現(xiàn):這是一個(gè)從底層硬件到上層算法的復(fù)雜大系統(tǒng),以優(yōu)雅的頂層設(shè)計(jì)環(huán)環(huán)相扣,以大破大立的方式平推完成。

這就是創(chuàng)新的第二重門:軍團(tuán)式的協(xié)同創(chuàng)新。而這,恰恰就是中國(guó)擅長(zhǎng)的模式,也是我借用華為之名的原因。

硅谷教父 Peter Thiel,對(duì)這種創(chuàng)新有過(guò)一個(gè)深刻的表述。他認(rèn)為一個(gè)真正的壟斷式創(chuàng)新,需要構(gòu)建 Complex, Vertically Integrated System,許多不同層面的創(chuàng)新必須同時(shí)發(fā)生,并以一種高度協(xié)同的方式組合在一起。

他認(rèn)為 Elon Musk 成功的根本,就來(lái)自于對(duì)這種協(xié)同復(fù)雜系統(tǒng)的追求。而 Elon Musk,也被認(rèn)為某些方面是最接近中國(guó)企業(yè)的(不僅是卷,笑)。

DeepSeek 是如何平推創(chuàng)新的?

在第一重門,我們拿著放大鏡,看 DeepSeek 在三個(gè)算法上的極致優(yōu)化。但這些單點(diǎn)優(yōu)化,也容易引入超越算法范疇的問(wèn)題。

所以讓我們切換視角,從更全局的視角,來(lái)重新理解 DeepSeek 的創(chuàng)新結(jié)構(gòu),第一條線是模型的迭代節(jié)奏(這里忽略了很多支線) :

  • 2023年6月,DeepSeek 成立

  • 2024年2月,發(fā)表 DeepSeek-Math,提出 GRPO

  • 2024年5月,推出 V2,提出 MLA 和 DeepSeek-MoE

  • 2024年11月,推出 V3,提出了 MTP 和一整套軟硬一體優(yōu)化方案等

  • 2025年1月,推出 R1,提出 R1-Zero

震撼吧?從 DeepSeek-Math 的第一次推出,到最后走到 R1,不到12個(gè)月。但速度甚至都不是我們討論的重點(diǎn)。

而是另一條縱向的主線:他幾乎從基礎(chǔ)設(shè)施搭建,到底層硬件優(yōu)化,到模型算法創(chuàng)新,一整個(gè)自己重做了一套。更關(guān)鍵的是,他們是高度協(xié)同優(yōu)化,逢山開路,遇水搭橋,充滿了整體的邏輯性。我來(lái)盡最大努力,試著梳理一下:

注:不用糾結(jié)技術(shù)術(shù)語(yǔ),因?yàn)槲覍懙臅r(shí)候也似懂非懂。

(0) 首先構(gòu)建自己的集群(螢火),為了更高效的并行訓(xùn)練,那就自研 HAI LLM訓(xùn)練框架

(1) 發(fā)現(xiàn)傳統(tǒng) Attention 的 KV Cache 開銷太大,那就用 low-rank 來(lái)重新設(shè)計(jì) MLA,緩存量下降 90% 以上

(2) 發(fā)現(xiàn)傳統(tǒng) MoE 缺乏共享專家和細(xì)粒度專家,涌現(xiàn)能力不夠,那就設(shè)計(jì)自己的 DeepSeekMoE 解決專家精細(xì)度和共享知識(shí)問(wèn)題

(3) 發(fā)現(xiàn)引入的細(xì)粒度專家在訓(xùn)練中負(fù)載均衡有挑戰(zhàn),那就自研專家偏好的路由算法,保證每個(gè)專家都訓(xùn)練充分

(4) 發(fā)現(xiàn) MoE 在管線并行(大模型不同層次分卡訓(xùn)練)中很多通信帶寬和計(jì)算帶寬無(wú)法對(duì)齊,造成浪費(fèi),那自己設(shè)計(jì) DualPipe 算法解決

(5) 為了確保上面的帶寬完全對(duì)齊,直接寫 PTX 這種底層語(yǔ)言來(lái)繞過(guò) CUDA 限制,來(lái)精準(zhǔn)控制 GPU SM 的數(shù)量和 Warp 數(shù)量做通信處理

(6) 發(fā)現(xiàn) NVLink 和 IB 的帶寬有三倍差距,那就確保 MoE 算法設(shè)計(jì)中只路由四個(gè)節(jié)點(diǎn)的專家,每個(gè)節(jié)點(diǎn)內(nèi)平均訪問(wèn)三個(gè)專家來(lái)對(duì)齊帶寬

(7) 發(fā)現(xiàn) Tensor Parallelism 通信開銷大,通過(guò)在 MLA 上重計(jì)算等方法釋放顯存來(lái)直接跳過(guò) TP 步驟

(8) 為了進(jìn)一步提升訓(xùn)練效率,開發(fā)了精細(xì)化的 FP8 混合精度(細(xì)粒度量化),在保證訓(xùn)練效果的情況下大幅減少計(jì)算和通信

(9) 為了更進(jìn)一步提升訓(xùn)練表現(xiàn),在訓(xùn)練過(guò)程中引入 MTP 讓每次訓(xùn)練密度更高

(10) 為了提高 V3 的推理能力,那就拿 R1 來(lái) distill V3 的推理

(11) 為了在強(qiáng)化學(xué)習(xí)中少訓(xùn)練一個(gè) Value Model,開發(fā)出 GRPO

(12) 為了解決小推理模型 Self-play 推理學(xué)習(xí)的不足,就把大模型學(xué)出來(lái)的推理通過(guò) Distill 注入到小模型里

(13) .... more

然后高潮來(lái)了:在介紹完方案的最后,V3 專門開辟章節(jié),提出了一系列對(duì)硬件廠商設(shè)計(jì)下一代芯片的方案,包含大量的對(duì)通信,量化算子的設(shè)想。

打開網(wǎng)易新聞 查看精彩圖片

于是我恍然大悟,在 DeepSeek 的腦海中,是把創(chuàng)造 AGI 這件事情,看成一個(gè)大藍(lán)圖的,而這個(gè)藍(lán)圖是沒(méi)有邊界的。算法?通信?數(shù)據(jù)?硬件?都在我需要解決的范疇內(nèi),而且高度協(xié)同的平推下去。我甚至覺(jué)得,如果給他們足夠的精力和錢,他們會(huì)做自己的硬件,造自己的電網(wǎng)。

這是真正創(chuàng)新者的樣子,就像喬布斯說(shuō)過(guò):

真正在乎軟件的人,應(yīng)該去制造屬于自己的硬件

背后的中國(guó)元素

和小天才模式不同,這種模式恰恰是硅谷文化中相對(duì)忽視的,馬斯克除外。

2019年我回國(guó),發(fā)現(xiàn)字節(jié)和快手的推薦能力比 Meta 強(qiáng),當(dāng)時(shí)很意外。然后我開始了解到華為,到今天,以華為為代表的中國(guó)式組織,在國(guó)際競(jìng)爭(zhēng)中釋放了巨大的能量,電動(dòng)車、內(nèi)容分發(fā)、智能硬件甚至電商。

只不過(guò),今天是 AGI 這個(gè)會(huì)改變文明走向的領(lǐng)域,DeepSeek 以如此迅猛的姿態(tài)登場(chǎng),再一次刷新了全世界的認(rèn)知。

這就是創(chuàng)新的第二重門。

可以看到在 DeepSeek,當(dāng)我們把創(chuàng)新的第一重門(小天才式)和第二重門(體系協(xié)同式)融合在一起,Boom!威力相當(dāng)大。

原創(chuàng)(哲學(xué)性)思想

那是否還可以繼續(xù)往下挖掘?是否存在一種更底層的創(chuàng)新元素?一個(gè)類似 o1 或者 R1 這樣的顛覆式創(chuàng)新系統(tǒng),構(gòu)建于什么基礎(chǔ)之上?

答案是一個(gè)原創(chuàng)的、全新的系統(tǒng)結(jié)構(gòu)。那這個(gè)原創(chuàng)的結(jié)構(gòu),又從何而來(lái)?

回答這個(gè),我想引用一段我很喜歡的 Ilya 的話(視頻前2分鐘):

我喜歡思考非?;镜膯?wèn)題...幾乎可以將這些問(wèn)題視為哲學(xué)問(wèn)題。例如,什么是學(xué)習(xí)?什么是經(jīng)驗(yàn)?什么是思考?... 我認(rèn)為技術(shù)就像是一種自然力量,但看起來(lái)我們可以通過(guò)設(shè)計(jì)算法,來(lái)做有用的事情,同時(shí)解答這些(哲學(xué)問(wèn)題)。這就像是一種 應(yīng)用哲學(xué)。

沒(méi)錯(cuò),第三重門的答案,是一種近乎哲學(xué)式的,原創(chuàng)的思想。

如果我們把視角拉遠(yuǎn),看一下過(guò)去十年 AI 的創(chuàng)新源頭。分別是:Google 2017年的Transformer,DeepMind 2017年的AlphaZero,以及 OpenAI 2018年的自回歸模型GPT。

但是這不僅僅是三個(gè)模型啊,內(nèi)核是三個(gè)哲學(xué)性思想,關(guān)于“學(xué)習(xí)”的本質(zhì):

(1) 用什么結(jié)構(gòu)來(lái)理解世界萬(wàn)物,和他們的內(nèi)在關(guān)系(Transformer)

(2) 如何通過(guò)不斷的預(yù)測(cè),把世界萬(wàn)物的復(fù)雜性壓縮到直覺(jué)中(GPT)

(3) 怎么基于直覺(jué)構(gòu)建深度思考,完成對(duì)世界的進(jìn)一步抽象(Zero)

我們今天看到的 OpenAI o1,或者 DeepSeek R1,都是這三個(gè)哲學(xué)性思想,組合后的產(chǎn)物。從思想出發(fā),先搭建了一個(gè)基礎(chǔ)的系統(tǒng)結(jié)構(gòu),然后通過(guò)第一重門和第二重門的創(chuàng)新,把這個(gè)結(jié)構(gòu)極致的打磨和再組合,顯化成今天改變世界的產(chǎn)品。

哲學(xué)性思想的創(chuàng)造為何如此美妙?因?yàn)樗麄儾⒉皇菫榱苏业揭粋€(gè)優(yōu)秀的解法,而是為了問(wèn)出更本質(zhì)的問(wèn)題。

DeepSeek 跨越第三重門了嗎?

我想梁文鋒可能也會(huì)說(shuō),今天的 DeepSeek,還沒(méi)有展現(xiàn)出這種原創(chuàng)(哲學(xué)性)的創(chuàng)新。但我卻在讀他們的文字中,瞥見了藏在背后的希望。

第一個(gè)例子,是關(guān)于 MLA 的產(chǎn)生,來(lái)源于一個(gè)研究者 “總結(jié)了 Attention 架構(gòu)的演進(jìn)規(guī)律”:

打開網(wǎng)易新聞 查看精彩圖片

第二個(gè)例子,是 DeepSeek-Math 文章中很大篇幅,分享了對(duì)所有后訓(xùn)練過(guò)程的統(tǒng)一框架的認(rèn)識(shí)。盡管有類似的思想存在過(guò),但你似乎可以感受到那些背后無(wú)邊界的熱烈討論。

打開網(wǎng)易新聞 查看精彩圖片

第三個(gè)例子,則是他們?cè)?R1 中展開的 R1-Zero 的探索,這個(gè)大膽的嘗試,希望跳過(guò)所有的后訓(xùn)練步驟,讓大模型在直覺(jué)模型的基礎(chǔ)上,完全不依賴標(biāo)注數(shù)據(jù),自我演進(jìn)成一個(gè)有思維能力的模型。R1-Zero 沒(méi)有用到最終的 R1產(chǎn)品 中,但論文中卻濃墨重彩的探討他的啟發(fā)意義。對(duì),以及那個(gè) Aha Moment,原文是這樣寫的:“這不僅僅是模型的 Aha,也是觀察模型的研究者的 Aha!”

所以,你感受到了嗎?在克制的技術(shù)語(yǔ)言背后,藏著一種無(wú)法掩蓋的興奮和熱愛。這是無(wú)邊界的好奇心的味道,這是迫不及待想和世界分享的味道。

是原創(chuàng)的、哲學(xué)式的思想,呼之欲出的味道。

最后一塊拼圖

我不知道梁文鋒是不是中國(guó)的 Ilya Sutskever,但我堅(jiān)信一個(gè)跨過(guò)創(chuàng)新三重門的組織,需要一個(gè)思想性的領(lǐng)袖。說(shuō)到這里,今天 OpenAI 最缺的,不就是這個(gè)嗎?(寫第一篇時(shí)的心情重現(xiàn))

誰(shuí)都無(wú)法預(yù)測(cè)未來(lái)。但也許哪一天,在 DeepSeek 的新論文中,會(huì)出現(xiàn) Transformer 和 AlphaZero 級(jí)別的全新思想。

更大膽一點(diǎn),如果我們?cè)?DeepSeek 的啟發(fā)下,產(chǎn)生了許多全新時(shí)代的創(chuàng)新型組織,在各自的領(lǐng)域跨過(guò)創(chuàng)新的第一重門和第二重門,并進(jìn)一步產(chǎn)生了一批顛覆式的思考者,和原創(chuàng)的、哲學(xué)性的思想。

再大膽一點(diǎn),如果這些思想和創(chuàng)新成果,以透明和開放的方式分享給全世界。這樣的世界,你會(huì)更愿意參與嗎?

我想這才是 DeepSeek,會(huì)真正讓歷史記住的東西。

注:本文的參考資料主要來(lái)自于 DeepSeek V2/V3/R1/Math 論文及行業(yè)人士對(duì) DeepSeek 的解讀,而非嚴(yán)格的事實(shí)論證,存在錯(cuò)誤請(qǐng) DeepSeek 團(tuán)隊(duì)見諒。

MindCode 文兄的讀后感:這篇文章讓我對(duì)我自己最近思考的一問(wèn)題有了進(jìn)一步的洞察,那個(gè)問(wèn)題就是:AI是否能形成壟斷,以及,如果能,那這個(gè)壟斷會(huì)是怎樣的形式?

你有什么收獲,啟發(fā),敢想嗎?歡迎在下面留言區(qū)發(fā)表。