打開網(wǎng)易新聞 查看精彩圖片

Web3天空之城·城主

【城主說】這是和國內(nèi)頂級(jí)的并行計(jì)算及編譯優(yōu)化專家黃新平(Wesley)的一次深度談話,關(guān)于AI,關(guān)于最近持續(xù)火熱的DeepSeek R1,特別是首次深度探討了國產(chǎn)算力卡在DeepSeek適配上的進(jìn)展,以及國產(chǎn)AI算力平臺(tái)的討論,還有在這個(gè)AI時(shí)代的工作和創(chuàng)業(yè)。

本城已經(jīng)持續(xù)發(fā)布眾多國際科技大佬的播客訪談文字版,在今后也將隨緣和國內(nèi)外科技江湖的高人們深談 -- 不只停留在表面的泛談,而希望類似國外的科技播客比如Lex,在幾個(gè)小時(shí)的時(shí)間跨度里靜心探討這個(gè)AI時(shí)代的科技和人文。好的內(nèi)容都值得記錄,并與各位分享。

關(guān)于黃新平(Welsey):貫穿軟硬件全棧的系統(tǒng)級(jí)專家。從摩托羅拉、英特爾時(shí)代的芯?指令集驗(yàn)證和編譯器、工具鏈開發(fā),到 Solaris 內(nèi)核優(yōu)化并推動(dòng) AVX 指令集落地;構(gòu)建愛奇藝?撐億級(jí)流量的深度學(xué)習(xí)平臺(tái),實(shí)現(xiàn)BERT模型33倍性能躍升的TVM編譯器深度改造,在AI?程化領(lǐng)域,其開發(fā)的SparseAdagrad GPU算?性能提升30倍,成功將推薦系統(tǒng)響應(yīng)時(shí)間從50ms壓縮?7ms,為愛奇藝創(chuàng)造巨大增收。

作為創(chuàng)業(yè)者,黃新平以技術(shù)合伙人身份創(chuàng)?某科技公司,憑借HPC云解決?案于 2015 年登陸新三板,?撐國家重大科研項(xiàng)?;2023年創(chuàng)建的始智AI社區(qū),三個(gè)?打造中國版 Hugging Face,收獲 2 萬開發(fā)者;最新創(chuàng)?的算??由科技有限公司,四個(gè)?即推出?向開發(fā)者的算力服務(wù)平臺(tái) gpufree.cn,持續(xù)破解 AI 算?使用瓶頸。其創(chuàng)辦的三家科技企業(yè),精準(zhǔn)卡位計(jì)算架構(gòu)迭代周期,形成從芯?層到應(yīng)?層的完整技術(shù)?態(tài)。

這次訪談分為以下幾章節(jié),全文約三萬字:

  • AI時(shí)代漫談

  • DeepSeek的深入探討

  • 國產(chǎn)算力卡的適配進(jìn)展

  • 算力平臺(tái)和算力自由

  • AI時(shí)代的工作和創(chuàng)業(yè)

AI的時(shí)代

城主:

現(xiàn)在的網(wǎng)絡(luò)世界似乎被 AI 占據(jù)了。我們今天討論 AI,未來可能還會(huì)帶著我家小朋友樂樂一起來。

黃新平:

確實(shí),她是 AI 原生代。對(duì)她來說,AI 的存在是理所當(dāng)然的,不像我們這代人感覺 AI 還是個(gè)新事物。她會(huì)覺得 AI 從她出生起就存在于她的世界中。

城主:

很高興能進(jìn)行這次對(duì)話。實(shí)際上,這樣的交流我已經(jīng)期待很久了。我們在軟件領(lǐng)域深耕多年,現(xiàn)在正處于一個(gè)非常有趣的時(shí)間點(diǎn)。你又是軟硬件編譯優(yōu)化和分布式架構(gòu)領(lǐng)域的頂級(jí)專家,所以我想(請?jiān)试S我這樣說)我們非常適合一起來聊聊 AI,以及最近備受矚目的 DeepSeek。

黃新平:最近關(guān)于 AI 的討論很多。一個(gè)事物一旦“出圈”,各種聲音都會(huì)出現(xiàn),其中自然也夾雜著不少雜音。

城主:是的。那么我們先回到 AI 本身。你是什么時(shí)候開始注意到所謂的 AI 時(shí)代到來的呢?

黃新平:

比較早了,大概是 2016 年。當(dāng)時(shí)我還在從事高性能計(jì)算領(lǐng)域的工作。那時(shí)我就在思考,高性能計(jì)算是一個(gè)既深?yuàn)W又相對(duì)小眾的領(lǐng)域,在整個(gè)數(shù)據(jù)中心的投資中,HPC 只占 2%。當(dāng)時(shí)我在想,什么能夠擴(kuò)大它的應(yīng)用范圍?我看到了兩個(gè)新的機(jī)會(huì):一個(gè)是 AI,另一個(gè)是加密貨幣。當(dāng)時(shí)我認(rèn)為,加密貨幣可能會(huì)被國家接管,而人工智能才是更光明的方向。

城主:

那確實(shí)很早了。因?yàn)榇蠹移毡檎J(rèn)為 AI 時(shí)代是從 GPT 開始的,也就是 2022 年 10 月。再往前追溯,我個(gè)人關(guān)注到 AI 是在 AI 繪畫模型出現(xiàn)的時(shí)候,那時(shí)候還不是 Transformer 模型,而是 Stable Diffusion,屬于生成式模型的第一代。

生成式模型的出現(xiàn),可能讓大眾開始關(guān)注 AI,因?yàn)橄?AI 繪畫這樣的模型已經(jīng)直接影響到了普通人,更不用說后來的 GPT 了。你認(rèn)為 AI 給我們這些技術(shù)從業(yè)者帶來了哪些影響呢?

黃新平:

有一個(gè)比方,可以將 AI 的發(fā)展與人類歷史上的工業(yè)革命相提并論。工業(yè)革命將機(jī)械化帶入了人類發(fā)展史,隨后是電氣化革命,自動(dòng)流水線等電氣化技術(shù)融入了人們的生活。再后來是軟件,而現(xiàn)在,更進(jìn)一步的就是人工智能。人工智能是人類在地球歷史上第一次,無論是發(fā)明創(chuàng)造還是偶然發(fā)現(xiàn),遇到了一個(gè)在智力上能與自己匹敵的對(duì)象。

城主:

有個(gè)有趣的說法是,無論是科幻電影還是小說,都曾幻想 AI 出現(xiàn)后會(huì)首先幫助人類解決體力勞動(dòng)。結(jié)果卻發(fā)現(xiàn),AI 首先解決了腦力勞動(dòng),取代了人類的智力活動(dòng),而且首先受到?jīng)_擊的是腦力勞動(dòng)者。這是所有人都沒有預(yù)料到的。

黃新平:

是的,大家都以為 AI 會(huì)幫我們洗衣做飯,而我們則可以去寫詩作畫。結(jié)果現(xiàn)在是 AI 在寫詩作畫,而我們在洗衣做飯。

城主:

這些事情正在真實(shí)發(fā)生,讓人覺得有些不可思議。幾年前,我們還認(rèn)為這是不可能發(fā)生的。最初,像 AI 模型,它直接導(dǎo)致了很多美術(shù)人員失業(yè),一些美術(shù)同學(xué)甚至轉(zhuǎn)行去開了燒烤店??陀^上來說,這并沒有什么善惡之分,只是 AI 將效率提高了幾百、幾千甚至上萬倍之后,人類確實(shí)難以在產(chǎn)出效率上與之匹敵?,F(xiàn)在,我們可能更關(guān)注像 Cursor、Windsurf 這些 AI 編程工具在過去一年里的成熟。我自己也已經(jīng)用 Windsurf 編寫了上萬行代碼,它確實(shí)極大地提高了生產(chǎn)力。有時(shí)候想想,這些事情真的令人難以置信,AI 竟然能生成真正可用的生產(chǎn)級(jí)代碼。

黃新平:

類似的事情在人類歷史上也曾發(fā)生過。我還在摩托羅拉工作的時(shí)候,當(dāng)時(shí)的全球 CTO 原本是學(xué)自動(dòng)化的。他告訴我們,最早的時(shí)候,自動(dòng)化工程師設(shè)計(jì)自動(dòng)化流水線,后來自動(dòng)化工程師又設(shè)計(jì)了自動(dòng)化流水線的設(shè)計(jì)工具,結(jié)果自動(dòng)化流水線的設(shè)計(jì)工程師就失業(yè)了,這和現(xiàn)在的 AI 發(fā)展是同樣的道理。用剛才的比方來說,電氣化帶來了流水線作業(yè),實(shí)現(xiàn)了體力勞動(dòng)的自動(dòng)化。而這次 AI,尤其是生成式 AI 的出現(xiàn),將會(huì)實(shí)現(xiàn)智力勞動(dòng)的自動(dòng)化過程。這樣一來,失業(yè)的顯然是那些從事相對(duì)不需要太多創(chuàng)造性、高度重復(fù)的智力勞動(dòng)的人。

城主:“高度重復(fù)”這個(gè)詞,以前程序員可能從來沒想過會(huì)出現(xiàn)在自己身上,對(duì)吧?

黃新平:是的。

城主:這是一個(gè)真實(shí)的新現(xiàn)象。你身邊有沒有看到一些程序員朋友,無論是年長的還是年輕的,因?yàn)?AI 或者 AI 編程而被裁員或者失去工作的?

黃新平:

我這邊還沒有看到太多這樣的例子,更多的是一些資深的程序員在轉(zhuǎn)型。他們正在使用 AI 編程來提高自己的效率。從另一個(gè)層面上來說,可能是公司整體需要雇傭的人數(shù)減少了,因?yàn)樾侍岣吡?。我曾?jīng)明顯看到過這樣的例子,原來需要幾個(gè)月的工程,現(xiàn)在可能只需要一個(gè)月左右就能完成,而且質(zhì)量還不錯(cuò)。在這種情況下,其實(shí)從整個(gè)就業(yè)市場來看是萎縮了,不再需要雇傭那么多人。你會(huì)發(fā)現(xiàn),更有創(chuàng)造力的小公司反而變得更容易生存了,因?yàn)槿伺c人之間的溝通和協(xié)作成本是很高的。當(dāng)一個(gè)“小而美”的公司能夠發(fā)揮巨大作用的時(shí)候,它的效率會(huì)非常高。

城主:

我非常認(rèn)同。我認(rèn)為 AI,特別是具備智能化編程能力的 AI 成熟之后,確實(shí)會(huì)導(dǎo)致一些以前需要 10 人或者 100 人的公司,現(xiàn)在只需要十分之一甚至更少的人員,幾個(gè)人就能完成以前上百人公司的工作。

我一直在思考,這對(duì)資深程序員來說可能反而是件好事。因?yàn)樗麄兘?jīng)驗(yàn)豐富、知識(shí)面廣,可能以前只是沒有時(shí)間去實(shí)際操作那么多東西。以前,一個(gè)總監(jiān),甚至一個(gè) CTO,他可能不是不想干活,而是沒有時(shí)間干活,光是 review 代碼、看文檔都忙不過來?,F(xiàn)在,他不需要管理那么多人,也不需要去批評(píng)那些代碼寫得不好的人,他可以直接告訴 AI 他要做什么。甚至對(duì)于一些他以前沒有做過的事情,他也能大致了解,然后交給 AI 去完成。AI 會(huì)給他反饋,他看一眼就能知道是什么情況。

黃新平:

這正是 AI 特別有用的地方。在我實(shí)際的實(shí)踐中也發(fā)現(xiàn),程序員是一個(gè)熟練工種,只要長期使用,就會(huì)對(duì)某種編程語言或框架非常熟悉。但如果隔一段時(shí)間不用,很快就會(huì)忘記很多細(xì)節(jié)。而回憶這些細(xì)節(jié)是非常耗時(shí)的。實(shí)際上,一個(gè)資深程序員是知道應(yīng)該怎么做的,只是在細(xì)節(jié)上需要去回憶。而現(xiàn)在有了 AI,他可以將這部分工作完全交給 AI 去完成,反而覺得更輕松。

舉個(gè)例子,我是一個(gè)長期從事后端開發(fā)的人,如果讓我去寫前端代碼,我雖然寫過一些,也知道前端框架是怎么回事,但我不像專業(yè)的前端人員那么熟悉,寫起來會(huì)非常非常慢。但如果有了 AI 的輔助,一切都會(huì)變得非常簡單。

城主:

的確如此。有時(shí)候會(huì)覺得,這真的是一個(gè)新時(shí)代的到來。你看,就在今天我們出來之前,我看到 Unity 引擎宣布了大裁員。前兩天 Meta 也進(jìn)行了新一輪裁員。之前很少見到美國的大廠裁員,但在這兩年 AI 快速發(fā)展的情況下,包括 Google、微軟在內(nèi)的很多公司都進(jìn)行了明確的裁員。我認(rèn)為這很可能,或者說確實(shí)是因?yàn)?AI 完成了大部分人的工作,那么對(duì)公司來說,就只有從效率上進(jìn)行優(yōu)化。這可能是這個(gè)時(shí)代美國需要經(jīng)歷的。

黃新平:我覺得這一點(diǎn),就剛才我說我沒有看到太多的朋友因?yàn)檫@個(gè)而失業(yè),我覺得這一點(diǎn)也體現(xiàn)了中美在這個(gè)應(yīng)用上有一定的差距。

城主:有一定的差距,你是說因?yàn)橹袊赡軟]有那么快會(huì)在大廠層面……

黃新平:

因?yàn)檫€有一個(gè)原因,中國的基礎(chǔ)大模型的能力相對(duì)來說要弱一些。無論是 WindSurf 還是 Cursor,它們背后其實(shí)要么是 Claude,要么就是 ChatGPT,而這些服務(wù)都不對(duì)中國開放。所以導(dǎo)致中國獲取這些服務(wù)的可獲取性是比較差的。而現(xiàn)在因?yàn)?DeepSeek 出現(xiàn)之后,我覺得這股浪潮會(huì)在中國出現(xiàn)。

DeepSeek的探討

城主:

我覺得這是一個(gè)關(guān)鍵點(diǎn),剛好我們可以談?wù)?DeepSeek。就像你說的,在 DeepSeek 出現(xiàn)之前,在中國,雖然我們知道有各種方法可以獲取到國外最頂級(jí)的 AI 服務(wù),但是從正式的渠道來說,你是無法使用的。更不用說 GPT-4 這樣的頂級(jí)模型,肯定是訪問不了的。即使是 Claude 3.5 Sonnet 這樣的模型,實(shí)際上也很難訪問。但是可能一夜之間,DeepSeek R1 就改變了一切。我不知道 Wesley 你怎么看,在我看來,DeepSeek 的出現(xiàn),比我預(yù)想的還要重要,而且全世界的反應(yīng)還在持續(xù),甚至比我預(yù)料的還要強(qiáng)烈。

黃新平:

沒錯(cuò),我關(guān)注 DeepSeek,或者說圈內(nèi)人關(guān)注 DeepSeek 其實(shí)比較早了,尤其是從它之前的 V2 開始,基本上在圈內(nèi)已經(jīng)小有名氣。但是這次它能夠“出圈”,我覺得有一個(gè)比方。最近也經(jīng)常有人問,為什么 DeepSeek 會(huì)這么火,一下子火到這個(gè)程度?我想了很久,覺得有一個(gè)比方比較恰當(dāng):假設(shè) ChatGPT,包括 OpenAI,是美國研發(fā)出的第一顆原子彈,奧本海默引爆了那顆原子彈,大家都看到了,哇,有這么大威力的武器。然后大家開始用 LLaMA 等各種模型去復(fù)現(xiàn)它,做了很多所謂的基礎(chǔ)大模型。但實(shí)際上,你會(huì)發(fā)現(xiàn)它們的威力可能都只是“大炸彈”,遠(yuǎn)遠(yuǎn)沒有達(dá)到核武器的級(jí)別。而 DeepSeek 呢,我認(rèn)為它是第二顆原子彈。有人說這是中國的“氫彈”,甚至是“于敏型氫彈”。我的意思是,它不僅威力更大,而且在可部署性、可應(yīng)用性上有了更高的表現(xiàn)。這才是讓中國 AI 真正活躍起來的原因。我覺得再加上開源,DeepSeek 實(shí)際上是用它的技術(shù)文檔明確地告訴你,我是怎樣做到這一步的,這點(diǎn)的意義更為重大。而且這幾天你也看到了,有很多團(tuán)隊(duì)在復(fù)現(xiàn),然后在原來的小模型上用 DeepSeek 的方法訓(xùn)練,得到的模型在智能上遠(yuǎn)超原來的那些方法訓(xùn)練出的小模型。我覺得這才是剛剛開始。

城主:

我覺得圍繞 DeepSeek 可以談?wù)摰膬?nèi)容有很多。我們看到網(wǎng)上有很多相關(guān)的文章,每天都有。我覺得我們今天可以深入地探討一下。我們都知道,這次 AI 浪潮,也就是生成式 AI,最早是源于 Google 的一篇論文《Attention is all you need》。大家可能都知道,它其實(shí)在當(dāng)時(shí)只是為了做搜索引擎而寫的。沒有人想到它會(huì)產(chǎn)生如此深遠(yuǎn)的影響。

但是從那時(shí)到現(xiàn)在,我們是不是可以說,像美國這些 AI 大廠也好,包括這些創(chuàng)新公司 OpenAI、Claude,他們沒有對(duì) Transformer 的整體結(jié)構(gòu)做出很重大的改變?

黃新平:

Transformer 的結(jié)構(gòu)其實(shí)變化很小,更多的是在它之上的優(yōu)化。其中一個(gè)很重要的就是 Scaling Law。Scaling Law 實(shí)際上應(yīng)該是 2022 年 OpenAI 的一篇論文提出來的。它指出,模型的表現(xiàn)與數(shù)據(jù)量、計(jì)算量和參數(shù)量這三個(gè)因素之間存在著某種指數(shù)關(guān)系,呈現(xiàn)出一種線性關(guān)系。隨著這三個(gè)因素的增加,模型的智能也會(huì)隨之增加。

但實(shí)際上,其中最重要的一個(gè)因素是,當(dāng)它超過某一條線之后,會(huì)出現(xiàn)“涌現(xiàn)”現(xiàn)象?!坝楷F(xiàn)”現(xiàn)象就是說,我無法預(yù)測它會(huì)產(chǎn)生什么樣的結(jié)果,也就是說,它產(chǎn)生了一種人類其實(shí)很難解釋的智能。

城主:

“涌現(xiàn)”這個(gè)詞,我們應(yīng)該關(guān)注到的是它的指數(shù)級(jí)的躍升。如果我們從數(shù)據(jù)的角度來看,它實(shí)際上就是指數(shù)的躍升。然后他們給“涌現(xiàn)”取了一個(gè)特別好聽的名字,一下子它的性能就“爆”上去了。

你相信 Transformer 整個(gè)結(jié)構(gòu),它其實(shí)和我們?nèi)四X的智力結(jié)構(gòu)是相同的,或者至少是類似的方向嗎?

黃新平:非常非常像。我個(gè)人觀點(diǎn),我覺得非常像。

城主:但這實(shí)際上是一個(gè)沒有任何證據(jù)能夠證明的事情。

黃新平:沒錯(cuò)。這是一個(gè)類比。所以“涌現(xiàn)”現(xiàn)象可以解釋為低等動(dòng)物向高等動(dòng)物轉(zhuǎn)化,當(dāng)它的神經(jīng)元達(dá)到一定規(guī)模之后,它的智能就會(huì)出現(xiàn)飛躍性的發(fā)展。

城主:我們沒有任何……因?yàn)槲覀冏约阂矝]有搞清楚(人腦的智力結(jié)構(gòu))。

黃新平:因?yàn)閷?duì)于意識(shí)、對(duì)于這些,我們其實(shí)還沒有研究透徹。

城主:

但最終發(fā)現(xiàn),可能確實(shí)就是和我們發(fā)明的 AI 一樣。當(dāng)你把足夠多的單元組合到一起,達(dá)到幾千億個(gè)參數(shù),它可能自然而然就會(huì)出現(xiàn)這種所謂的智能現(xiàn)象。

因?yàn)槲覀兌贾?DeepSeek R1,它推出來就是對(duì)標(biāo)了最強(qiáng)大的大模型,也就是OpenAI的推理大模型 GPT-4o。那你覺得它里面具體有哪些創(chuàng)新是最核心的,讓DeepSeek R1模型能夠“出圈”,而且性能能夠那么優(yōu)秀呢?

黃新平:

實(shí)際上,DeepSeek R1 在基礎(chǔ)技術(shù)層面上并沒有什么全新的、原創(chuàng)性的東西。但是它組合了很多很多已有的技術(shù)。比如說,一個(gè)我認(rèn)為比較重要的創(chuàng)新就是利用強(qiáng)化學(xué)習(xí)來對(duì)齊模型的訓(xùn)練。這個(gè)東西其實(shí)在此之前就有很多論文,也有很多實(shí)踐在做,但是做到這么大規(guī)模、效果這么好的,DeepSeek R1 絕對(duì)是第一個(gè)。

強(qiáng)化學(xué)習(xí)是這樣構(gòu)成的:它有一個(gè) policy(策略)模型,還有一個(gè) value(評(píng)價(jià))模型。強(qiáng)化學(xué)習(xí)是通過獎(jiǎng)勵(lì)機(jī)制來實(shí)現(xiàn)的,就像訓(xùn)練人一樣。你去摸一個(gè)東西,然后會(huì)掉下來一個(gè)蘋果;你摸另一個(gè)東西會(huì)觸電。那么這個(gè)模型就會(huì)導(dǎo)致你肯定不會(huì)再去摸那個(gè)觸電的東西,你會(huì)去摸蘋果。這就是一個(gè)獎(jiǎng)勵(lì)模型。

獎(jiǎng)勵(lì)模型中有一部分叫做 policy,就是給你一個(gè)規(guī)則,然后你按照這個(gè)規(guī)則去進(jìn)行各種推理和運(yùn)算,最后得到一個(gè)結(jié)果。將這個(gè)結(jié)果和真實(shí)的結(jié)果進(jìn)行對(duì)比,這就是 value 模型。但這個(gè)結(jié)果可能差距很大。比如我告訴你 1 加 1 等于幾,你告訴我等于 3,我就會(huì)打一下你的手心,這就是 value 模型。通過這樣的反饋,你就知道自己錯(cuò)了。就像兩個(gè)人玩游戲一樣。

這就是一個(gè)強(qiáng)化學(xué)習(xí)的過程。但原來 policy 模型和 value 模型都是需要人工去指定的。而在 DeepSeek R1里面是靠它自己去學(xué)習(xí)、去探索。你可以說 1 加 1 等于 3,我不干預(yù)你,但是當(dāng)你繼續(xù)推理的時(shí)候,你會(huì)發(fā)現(xiàn)你得到了一個(gè)錯(cuò)誤的結(jié)果。

城主:把結(jié)果推出來就行了。

黃新平:

把結(jié)果推出來。有可能你最后發(fā)現(xiàn)自己錯(cuò)了,就再回頭去修正。

以這樣一個(gè)機(jī)制實(shí)際上會(huì)……你想,如果我訓(xùn)練你,規(guī)則是我給你的,這意味著你訓(xùn)練的結(jié)果不會(huì)超出這個(gè)規(guī)則之外。而當(dāng)我不給你規(guī)則的時(shí)候,就能夠發(fā)揮你的創(chuàng)造性。我們都知道,當(dāng)你給小孩限制,這個(gè)不許做,那個(gè)不許做的時(shí)候,他可能什么都不會(huì)做,或者做得畏畏縮縮的。但當(dāng)你不給他設(shè)置限制條件,只是告訴他,因?yàn)槟切┑胤教kU(xiǎn)了,不能……剩下的全部讓他自由發(fā)揮的時(shí)候,他會(huì)發(fā)揮他的創(chuàng)造性,你就會(huì)發(fā)現(xiàn)他會(huì)得到超出你想象之外的結(jié)果。我覺得這一點(diǎn)很形象地體現(xiàn)出來了。

然后它最后拿出了 R1 模型。你可以看到,它的訓(xùn)練過程造就了它具有非常好的效果。

城主:

我覺得有個(gè)事情比較有趣。因?yàn)?DeepSeek R Zero 其實(shí)完全就是致敬 AlphaZero。AlphaZero 是兩個(gè)機(jī)器自我學(xué)習(xí),然后訓(xùn)練出了比人類更強(qiáng)大的圍棋 AI。所以它肯定是致敬。這個(gè)思路其實(shí)就是機(jī)器自己跟自己對(duì)弈,自己學(xué)習(xí)。這個(gè)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室的思路不是新的,已經(jīng)被上一代(AlphaGo)驗(yàn)證過了。但我覺得有趣的是,你看,美國沒有做出來。

黃新平:

這個(gè)過程其實(shí)是非常難的,工程難度和實(shí)踐難度都非常大。舉一個(gè)形象化的例子,你一定看過原來谷歌發(fā)布的一個(gè)視頻,關(guān)于如何訓(xùn)練一個(gè)機(jī)器人在一個(gè)完全自由的、符合物理規(guī)則的環(huán)境下學(xué)會(huì)自主行走嗎?機(jī)器人一開始躺在地上,扭動(dòng)胳膊,扭動(dòng)腿,然后經(jīng)過很長很長時(shí)間,可能上萬個(gè)小時(shí),它都沒有學(xué)會(huì)怎樣控制自己的腿和腳。

所以,強(qiáng)化學(xué)習(xí)本身就是一個(gè)不一定能夠保證得到結(jié)果的學(xué)習(xí)過程,你很難確定它一定能成功。這里面有很多很多的技巧,tricky 的地方。另外,這也需要一點(diǎn)運(yùn)氣,需要更多的工程能力來支撐你完成這件事。

這也是為什么我現(xiàn)在聽說很多人想去復(fù)現(xiàn) DeepSeek,但進(jìn)展并不是特別快的一個(gè)根本原因。

城主:

一開始我都覺得 DeepSeek 至少把過程和論文都闡述清楚了,大家去復(fù)現(xiàn)應(yīng)該是很快就能復(fù)現(xiàn)出來的。但事實(shí)上,這個(gè)過程并沒有想象中那么快。

黃新平:沒錯(cuò),大家都訓(xùn)練過強(qiáng)化學(xué)習(xí)模型,知道它有多難。

城主:

所以最終,可能大家都知道路徑是這樣的,但誰能夠把這條路走到底,并且相信它一定能成功。而且在相信它能成功的過程中,你還要找到真正正確的那條路,把它做成。這過程中,變數(shù)太多了,對(duì)不對(duì)?即使你在訓(xùn)練過程中,比如說你參數(shù)調(diào)錯(cuò)了一點(diǎn),可能就走歪了。

黃新平:沒錯(cuò)。

城主:而且你都不知道是參數(shù)調(diào)錯(cuò)了,還是你的方法本來就不對(duì)。

黃新平:對(duì)。

城主:這點(diǎn)還是很有趣的,就是你有一個(gè)全新的想法,然后能夠按照全新的想法一直做到底。

黃新平:

這也是我覺得為什么 DeepSeek 會(huì)出現(xiàn)在這家公司,這個(gè)模型為什么會(huì)出現(xiàn)在 DeepSeek 這家公司的原因。

首先來說,我們都知道 DeepSeek 是幻方梁文峰創(chuàng)立的。他沒有融資,手里有很多算力卡,所以他就沒有那種需要“交作業(yè)”的焦慮。如果你拿了融資,你肯定要按照計(jì)劃一步一步走,每一步都要實(shí)現(xiàn)什么,都要“交作業(yè)”。即使沒有達(dá)到預(yù)期,也要說一些好聽的話,大家要“湊”出一個(gè)作業(yè)來交差。

沒有這種“交作業(yè)”的壓力時(shí),他就變成了一種“無欲則剛”的狀態(tài)。他完全可以說,我認(rèn)定了這條路是對(duì)的,我就沿著這條路走。至于時(shí)間長短,至于具體細(xì)節(jié),那可能都不是最重要的。更重要的是,大家一步一步地驗(yàn)證這個(gè)方法,一步一步地用工程能力去實(shí)現(xiàn)它。

當(dāng)然,另外一個(gè)原因是,我覺得幻方這家公司本身在工程方面的能力非常強(qiáng),包括優(yōu)化、算法框架的核心底層,甚至包括硬件級(jí)別的能力。我覺得這些都是其他公司無法比擬的。所以這兩種因素結(jié)合在一起,才產(chǎn)生了這樣一個(gè)特殊的現(xiàn)象。所以我認(rèn)為其他公司要復(fù)現(xiàn) DeepSeek,其實(shí)很難。

城主:

首先是說簡單點(diǎn),就是他們不差錢。有一個(gè)我們叫做“初心”的東西,有了初心之后,還能集結(jié)起一批人,然后真的是朝著一個(gè)方向去做。

黃新平:

最初的技術(shù)直覺非常關(guān)鍵。他認(rèn)定了這條路肯定是可行的。如果遇到了挫折,那只是我們的方法不夠好,再換一個(gè)方法試一試。

城主:

這很難,這個(gè)我們都知道很難。因?yàn)樵谝粋€(gè)漫長的時(shí)間里,你怎么知道你堅(jiān)持的方向是對(duì)的呢?萬一你堅(jiān)持的方向是錯(cuò)的呢?

這里有一些細(xì)節(jié)。他們在 2022 年,DeepSeek 出來的時(shí)候,他們都提出了一個(gè)很重要的概念,叫做“多頭注意力”,是在 V2 里面,2022 年提出的。而且最近因?yàn)?R1 模型的發(fā)布,國外 AI 大佬 Ilya 也點(diǎn)贊說,2022 年的一個(gè)“蝴蝶翅膀”就扇動(dòng)了。他指的其實(shí)就是多頭注意力。

那你想想看,多頭注意力出現(xiàn)后,實(shí)際上在業(yè)界或者在我們這些關(guān)注整個(gè)行業(yè)的人看來,其實(shí)都……我相信至少到今年,或者說去年上半年,其實(shí)沒有太多人關(guān)注到它。雖然業(yè)內(nèi)已經(jīng)開始討論,但并沒有引起廣泛關(guān)注。所以這件事就是這樣,它整個(gè)研發(fā)或者技術(shù)迭代是在一個(gè)非常正確的道路上,但是需要很長時(shí)間。

當(dāng)年 OpenAI 也是這樣,OpenAI 主要在 GPT-1、GPT-2 階段是對(duì)的,但它還是打不過 Google 的 BERT,直到 GPT-3 才爆發(fā),然后才認(rèn)準(zhǔn)了生成式這條避免“雙向”的道路更強(qiáng)大。所以看起來 DeepSeek 也有一個(gè)類似的路徑。

因?yàn)榭赡艽_實(shí)是件特別的事情,就是沒有那么多外界的壓力,能夠?qū)W⒂谧鲞@件事。如果計(jì)劃出來了就一定能成功,那是因?yàn)橥饨绲母蓴_太多了。我們剛才提到了它的多頭注意力,這是一個(gè)很重要的機(jī)制。你能不能比較一下,它這個(gè)機(jī)制和傳統(tǒng)的注意力機(jī)制有什么區(qū)別?

黃新平:

沒錯(cuò)。是這樣的。當(dāng)時(shí)你想,GPT 和 BERT 的路線完全不同,你怎么證明你一個(gè)創(chuàng)業(yè)公司比一個(gè)擁有全世界最牛的 AI 專家的公司的判斷更準(zhǔn)確呢?這個(gè)東西實(shí)際上從直覺上,你再怎么說,都會(huì)面臨這種壓力。所以你的技術(shù)定義非常非常重要。我就認(rèn)定了這個(gè)方向是這樣的,而且它有確定性。我覺得對(duì)這件事情,或者說它能夠全身心投入進(jìn)去,不受外界干擾,這一點(diǎn)非常非常關(guān)鍵。很難,對(duì)吧?你很容易放棄。融了資,外面要“交作業(yè)”,那就“抄”一個(gè),然后訓(xùn)練一個(gè)“拉滿”算力的模型,這個(gè)太容易“交作業(yè)”了。所以“偉大”是無法被計(jì)劃的。

DeepSeek 實(shí)際上是多頭“潛”注意力,實(shí)際上是多加了一個(gè)“潛”注意力的部分。如果從技術(shù)角度來說,它加了一層“潛空間”。

城主:它是“潛空間”嗎?

黃新平:

我們說的注意力機(jī)制不是 QKV 三個(gè)矩陣的運(yùn)算嗎?它加了一套 Q'、K'、V' 這種“潛”注意力機(jī)制,嗯?這個(gè)說起來太技術(shù)了。你可以認(rèn)為它有一點(diǎn)模擬的是,你讀過《思考,快與慢》這本書嗎?人是有兩套系統(tǒng)的,TPP(Thought Process Prompting)也提到了,我有快系統(tǒng),有慢系統(tǒng)。慢系統(tǒng)里面其實(shí)是你深度思考的一個(gè)結(jié)果,很多時(shí)候是來源于你潛意識(shí)的一部分。DeepSeek 實(shí)際上是模擬了這個(gè)過程。我覺得從可以理解的角度上,可以用這種方式來解釋。

你會(huì)看到你跟 R1 模型對(duì)話的時(shí)候,它整個(gè)思考的過程,那個(gè)思考過程很多是來自于“潛”注意力。它其實(shí)是因?yàn)榘炎⒁饬C(jī)制用 Multi-head Latent Attention(MLA) 這種方式來表現(xiàn)出來,節(jié)省了非常多的硬件資源。它的“潛”層和“明”層之間有很多共享。

城主:

OK。這里面有一個(gè)非常有趣的事情,大家都認(rèn)為沒有辦法在整個(gè)框架、整個(gè)性能上面做優(yōu)化的時(shí)候,DeepSeek 做出了 10 倍的重大創(chuàng)新。最有趣的是,這個(gè)創(chuàng)新其實(shí)要過了一年到兩年,才因?yàn)?R1 模型被大家所認(rèn)識(shí)到。

黃新平:

是的?;蛘邚牧硗庖粋€(gè)更大的角度來說,大家都知道 Scaling Law。Scaling Law 最早是 OpenAI 提出的。那時(shí)候 Scaling Law 最主要的含義是什么呢?最早 Scaling Law 指的是預(yù)訓(xùn)練階段,模型的性能與數(shù)據(jù)量、參數(shù)量和計(jì)算量這三個(gè)因素之間的關(guān)系。預(yù)訓(xùn)練模型的能力取決于這三個(gè)因素。但實(shí)際上,在后續(xù)的微調(diào)、對(duì)齊,甚至推理階段,也存在著 Scaling Law。DeepSeek R1 實(shí)際上把 Scaling Law 的概念拓展到了后續(xù)的訓(xùn)練階段,這部分其實(shí)是之前 Google 的 Gemini 模型所做的。而在推理階段的 Scaling Law,實(shí)際上是 DeepSeek 真正做出來的。

所以 DeepSeek 完整地拓展了 Scaling Law 的概念。

如果要更深入地回顧 DeepSeek 的發(fā)展歷程,除了剛才提到的 R1 模型的多頭注意力機(jī)制,以及 V3 階段的 多詞元預(yù)測 (MTP,可以理解為一次預(yù)測多個(gè) token),MTP 采用了一種類似“投機(jī)”的方式,先進(jìn)行預(yù)測,如果預(yù)測不準(zhǔn)確,就進(jìn)行修正;如果預(yù)測準(zhǔn)確,就直接采用。這種方法大大降低了推理成本,顯著提高了推理速度。

城主:因?yàn)槲覀兌贾?,生成式模型的基本原理就是預(yù)測下一個(gè) token。通常的說法是,預(yù)測下一個(gè) token。

黃新平:

預(yù)測下一個(gè) token”這個(gè)概念非常直觀,也很有意思。如果一次只預(yù)測一個(gè) token,速度太慢了。所以 DeepSeek 的做法是,一次預(yù)測多個(gè) token。其實(shí),這在某種程度上也更接近人腦的工作方式。比如,你聽到我說“貓?jiān)谧贰保?dāng)你聽到“貓”這個(gè)詞的時(shí)候,其實(shí)你已經(jīng)排除了很多不相關(guān)的詞,你的大腦里浮現(xiàn)的都是跟動(dòng)物或者寵物相關(guān)的詞。然后你的認(rèn)知范圍可能進(jìn)一步縮小,你立刻就能推理出很多東西,最后你選中了其中一個(gè)。

我覺得,如果你遇到一個(gè)說話特別慢的人,你的大腦的反應(yīng)其實(shí)就是這個(gè)過程。

城主:沒錯(cuò)。DeepSeek 這種一次預(yù)測多個(gè) token 的方式,反而更像人腦。

黃新平:更像人腦。

城主:它并不是只預(yù)測下一個(gè)詞,它可能預(yù)測了“一批”詞。

黃新平:

對(duì)。所以原來的說法是,人工智能無法與人腦相比,因?yàn)樗碾娏刻?,而?shí)現(xiàn)的智能卻有限。但我認(rèn)為隨著各種優(yōu)化手段的出現(xiàn),隨著各種對(duì)人腦機(jī)制的模擬,包括小模型能力的增強(qiáng),我相信真的有一天,AI 的能耗比會(huì)與人腦相當(dāng),甚至達(dá)到一到兩個(gè)數(shù)量級(jí)的差距。到那時(shí),將會(huì)發(fā)生革命性的變化。

城主:

我想起一件事。在你提到的視頻生成領(lǐng)域,在去年 4 月份,也就是 SORA 發(fā)布之前,主流的方法都是使用 Stable Diffusion 這種 AI 模型來逐幀生成圖像。

黃新平:對(duì)。

城主:逐幀生成的結(jié)果就是,視頻的連貫性會(huì)出問題,對(duì)吧?

黃新平:是的。

城主:會(huì)變形,怎么調(diào)整都不而且生成速度很慢,因?yàn)樗恰白冃位钡摹?/p>

黃新平:它對(duì)視頻中 token 的數(shù)量影響很大,上下文無法保持連貫,所以它很難生成一個(gè)連貫的視頻,它對(duì)整個(gè)世界是沒有理解的。

城主:

SORA,我們都知道它實(shí)際上是采用了 Transformer 架構(gòu)。它一次預(yù)測應(yīng)該是 4 秒左右,這是標(biāo)準(zhǔn)的。也就是說,你生成的視頻,每次它都會(huì)按照 4 秒的數(shù)據(jù)來預(yù)測下一個(gè)視頻片段。所以這多少也有點(diǎn)像我們之前討論的“多 Token 預(yù)測”,它是一批一批地生成,沒錯(cuò)。

只是不知道,像這種一次預(yù)測多個(gè) token 的技術(shù),它有沒有上限。因?yàn)槲覀冎?,現(xiàn)在的視頻生成,它可以在一小段內(nèi)保持非常好,就像它一次預(yù)測的一小段。但再往前推進(jìn),它可能就會(huì)出現(xiàn)偏差,需要依賴“延續(xù)”?!把永m(xù)”其實(shí)有點(diǎn)像推理,對(duì)不對(duì)?

我覺得這很有意思。如果用語言模型的推理來類比視頻生成,實(shí)際上,當(dāng)一個(gè)視頻向前推進(jìn)時(shí),它就是在預(yù)測后面的內(nèi)容。按照這樣來看的話,其實(shí)推理模型本身也是……

黃新平:

一樣的。不管怎么樣,你只能一次性生成有限的內(nèi)容。但是,作為推理,我可以根據(jù)上下文來保證邏輯的連貫性。

城主:

我在 2022 年的時(shí)候,AI 繪畫模型剛出來,有一篇帖子寫的,就是預(yù)測說,可能過幾年,AI 就可以寫小說了。當(dāng)時(shí)我覺得這不太現(xiàn)實(shí),因?yàn)樵谕评砟P?,就?GPT-o1 出現(xiàn)之前,AI 模型都只能處理一小部分內(nèi)容,然后就“拓寬”(指超出上下文長度)。

黃新平:

一部小說的上下文長度遠(yuǎn)超出了當(dāng)時(shí)模型能夠容納的范圍。AI 模型必須要有推理能力,它能總結(jié)出一個(gè)梗概、一個(gè)框架,然后用這個(gè)框架來指導(dǎo)它繼續(xù)創(chuàng)作,這樣才能夠完成一部小說的創(chuàng)作。

而且人自己寫小說,也并不是說一開始就完全知道所有情節(jié)的。它有一個(gè)大致的方向,在寫作的過程中,所有的邏輯都會(huì)引導(dǎo)你朝著這個(gè)方向前進(jìn)。這實(shí)際上與最近的現(xiàn)場有關(guān)系。但是有很多時(shí)候是長線的,而長線的內(nèi)容往往只有那么幾條,它貫穿了整個(gè)故事。你可以理解為策略也好,大綱也好,它貫穿了整個(gè)故事。但是在某一個(gè)瞬間,有的小說家會(huì)說,我無法決定這個(gè)主角的行為和生死,因?yàn)檫@是由他自己決定的。這實(shí)際上是指,角色有他內(nèi)在的邏輯,這個(gè)邏輯是一個(gè)很小范圍內(nèi)的邏輯。

城主:

那個(gè)邏輯,其實(shí)本質(zhì)上也是作家基于整個(gè)小說的情節(jié)推進(jìn),進(jìn)行的一種推演。所以這很有趣,很有可能我們已經(jīng)越來越像 AI,或者 AI 越來越像我們,或者說越來越接近人類的智力表現(xiàn)。因?yàn)槲覀冏鳛槿?,其?shí)很多時(shí)候想事情也是一樣的,你只能有一個(gè)有限的上下文。就像我們,不說別的,就說做技術(shù)、寫代碼,上下文也是有限的。

我們的大腦中,你確實(shí)只能關(guān)注到一小部分內(nèi)容。沒錯(cuò)。然后我們發(fā)現(xiàn),不管做 AI 也好,或者做什么樣的大模型也好,最終,它確實(shí)會(huì)和人腦一樣,你有一個(gè)有限容量的內(nèi)存,有限的上下文。然后有什么方式讓它能夠保持邏輯性呢?其實(shí)“邏輯”這個(gè)詞本身也值得探討,“邏輯”到底是什么?在 AI 這個(gè)層面來說,“邏輯”是不是就是指“符合某種規(guī)則”?這樣說起來就涉及的內(nèi)容太多了,因?yàn)槲覀冋f“推理”,“推理”就是指能夠形成一個(gè)邏輯上的上下文。所以“有因果”,是不是指有因果關(guān)系,前后不矛盾,等等。

黃新平:是這樣。

城主:

但最終我們發(fā)現(xiàn),可能確實(shí)就像我們發(fā)明的 AI 一樣,最終當(dāng)你把足夠多的單元組合到一起,達(dá)到幾千億個(gè)參數(shù),它可能自然而然就會(huì)出現(xiàn)這種所謂的“智能”現(xiàn)象。

但不管怎么樣,我覺得,在 DeepSeek R1 里面有很多創(chuàng)新。剛才說到像 DeepSeek V2,其實(shí)它的多頭注意力機(jī)制;然后 V3,我們說到了它一次推演多個(gè) token。包括用強(qiáng)化學(xué)習(xí)來進(jìn)行訓(xùn)練,強(qiáng)化學(xué)習(xí)。這都是 R1 的一部分。但 R1 這部分,DeepSeek 拿出了一個(gè)純強(qiáng)化學(xué)習(xí)的路徑。對(duì)。其實(shí)現(xiàn)在回過頭來看,就是復(fù)盤整個(gè)過程,DeepSeek 確實(shí)是每一步都非常扎實(shí)地給出了一個(gè)新東西。是因?yàn)槲也恢滥阌袥]有去對(duì)比其他一些大模型的一些進(jìn)展,我感覺其實(shí)不是每一個(gè)大模型公司,都能像 DeepSeek 那樣,每一步都有一個(gè)特別扎實(shí)、明確的東西。

黃新平:

實(shí)際上來講,你會(huì)發(fā)現(xiàn),很多大模型公司所做的事情是在追趕 ChatGPT,而 OpenAI 不共享技術(shù)方案,還放出了很多“煙霧彈”。在這個(gè)追趕過程中,(大家)其實(shí)浪費(fèi)了很多力量。

城主:

坦誠地說,我沒有預(yù)料到像 DeepSeek 這么強(qiáng)有力的一個(gè)國產(chǎn)模型出現(xiàn)。這個(gè)東西估計(jì)大家也都沒有太預(yù)料到。甚至 DeepSeek 自己可能也沒想到這個(gè)模型會(huì)引起這么大的轟動(dòng)。它發(fā)布的時(shí)候,只是悄悄地在網(wǎng)上、推特上發(fā)了一下,在 ArXiv 上發(fā)了一下。但是瞬間就有了上百萬的瀏覽量,因?yàn)樘痼@了。所以他們就直接說,我們拿出了一個(gè)模型,它和 GPT-o1 一樣。我們還有一篇論文給你看。

黃新平:

而且,其實(shí)從公眾的感受來說,我覺得有一個(gè)很明顯的(區(qū)別):當(dāng)你跟 R1 對(duì)話的時(shí)候,它展現(xiàn)了它的思考過程,這一點(diǎn)非常關(guān)鍵。如果你只是展現(xiàn)了一個(gè)最終的結(jié)果,你可能會(huì)被這個(gè)結(jié)果震驚一下。但是我會(huì)懷疑,你是不是恰好碰巧回答了這個(gè)問題。但是,當(dāng)它展現(xiàn)了思考過程之后,會(huì)讓我覺得這個(gè)結(jié)果無比的可信,甚至?xí)X得“對(duì)方”非常聰明,非常值得信賴,從而產(chǎn)生了一種情感連接。這一下子就“出圈”了。

城主:甚至,這一點(diǎn)是 DeepSeek 首先做到的。GPT-o1 沒有做這件事,GPT-o1 就保持神秘感嘛,就是不告訴你我是怎么做的,我是怕被“偷師”。

黃新平:后來發(fā)布的模型,也有點(diǎn)對(duì)不上。

城主:很多人可能都知道了,英文的 Prompt 得到的是中文的推理,這就讓人產(chǎn)生很大的疑問:為什么一個(gè)美國的公司,它的模型推理是用中文的?

黃新平:但是這個(gè)東西,我倒覺得從學(xué)術(shù)上來說無可厚非。因?yàn)槿绻憧催^ R1 的論文,它里面其實(shí)也承認(rèn),它自己的推理過程也不完全是中文的,也有英文。它專門指出了自己的一個(gè)缺陷,也會(huì)有中英文混雜。

城主:我其實(shí)是這么想的:中國人做的模型有中英文是很正常的,因?yàn)橛⒄Z語料很多。但你(GPT-o3)……當(dāng)然我們可以認(rèn)為,OK,我們可以認(rèn)為是不是 GPT-o3mini 在訓(xùn)練過程中也用到了中文語料?那這個(gè)中文推理的語料是從哪里來的呢? 這個(gè)就很有意思了。

黃新平:這個(gè)就沒有答案了,大家只能憑自己的猜測。

城主:

DeepSeek R1 已經(jīng)是一個(gè)非常大的進(jìn)展。如果我們站在一個(gè)更高的角度,如果要對(duì)它進(jìn)行進(jìn)一步的優(yōu)化,比如面向代碼開發(fā)者或硬件廠商,你認(rèn)為還可以從哪些方面入手?

黃新平:

總體來看,我認(rèn)為 DeepSeek 目前使用的訓(xùn)練語料是一個(gè)精選的高質(zhì)量小語料集。它與 ChatGPT那種語料在數(shù)量級(jí)上是有區(qū)別的,但是它的質(zhì)量非常高,這是另外一個(gè)層面??傮w來看,DeepSeek 宣稱過他們的數(shù)據(jù)量大概是多少 TB,具體的數(shù)字我有點(diǎn)忘記了。所以它的量級(jí)和 ChatGPT 是不太一樣的。我認(rèn)為下一步,Scaling Law 仍然會(huì)是有效的。

所以說,擴(kuò)大模型規(guī)模,當(dāng)然,擴(kuò)大規(guī)模就意味著他們在工程上挑戰(zhàn)更大。在一個(gè)千卡集群上做分布式訓(xùn)練,保證加速比是一個(gè)層級(jí);如果在萬卡集群上,則進(jìn)入另外一個(gè)階段,所以對(duì)工程團(tuán)隊(duì)的挑戰(zhàn)會(huì)非常大。在語料方面,DeepSeek 仍然需要堅(jiān)持使用高質(zhì)量語料,因此語料的清洗和整理工作也會(huì)非常巨大,工程量非常大。如果數(shù)量級(jí)大到這種程度,算法的有效性是否一定能夠延續(xù)下去呢?

我覺得在這個(gè)層面上,可能也會(huì)有很多困難。從這幾個(gè)層面來說,我認(rèn)為 Scaling Law 繼續(xù)有效,繼續(xù)擴(kuò)大是有用的,但是難度也會(huì)非常大。當(dāng)然,梁文峰是想朝著 AGI(通用人工智能)這個(gè)方向去的,我認(rèn)為這一步他是必然要往下走的。

城主:

那反過來也可以這么看,DeepSeek R1 用到的機(jī)器規(guī)模、訓(xùn)練規(guī)模、數(shù)據(jù)量規(guī)模都遠(yuǎn)小于對(duì)方,卻能拿出可以與之類比的結(jié)果。這也很厲害,這也是為什么它會(huì)這么火的原因。這確實(shí)是,有時(shí)候我覺得很多人都沒有見過這種事情。

黃新平:

對(duì),這也可以說是大模型“民主化”的一部分,對(duì)吧?“民主化”是美國之外的民主化,所有美國人之外……對(duì),但是美國人其實(shí)原來也只是他們自己使用,但是你想重現(xiàn)它是做不到的,還是個(gè)“獨(dú)裁體系”嘛。

城主:對(duì),還是掌握在少數(shù)公司手里。我覺得最感慨的是,美國的各個(gè)大學(xué)機(jī)構(gòu),第一時(shí)間用上了 R1。

黃新平:商業(yè)公司也有。

城主:因?yàn)橹皼]有多少人有這種財(cái)力,負(fù)擔(dān)不起這么大的模型,而且之前的大模型還收費(fèi),但現(xiàn)在DeepSeek R1是免費(fèi)的。

黃新平:

是的,而且 DeepSeek R1 使用的是 MIT 許可證,這個(gè)許可證非常非常寬泛。你會(huì)看到各種大模型的授權(quán),其實(shí),你可以認(rèn)為它們都是一個(gè)私有化的、商業(yè)級(jí)的授權(quán)。它不管你做什么,但是它會(huì)限制你的各種使用。比如 LLaMA 是不允許你用于商業(yè)的。然后,當(dāng)然,如果你的公司規(guī)模大到一定程度,也是不允許使用的。所以從某種角度來說,它并沒有完全開放。

城主:

所以很了不起。這一定是一個(gè)有初心的團(tuán)隊(duì),有情懷。情懷當(dāng)然有很多客觀條件(才能實(shí)現(xiàn))。我們并不能說別人要商業(yè)化或者要賺錢就不對(duì)。但最終,這是一個(gè)天時(shí)、地利、人和的結(jié)果。

而且你提到“人”,我們都知道 DeepSeek 團(tuán)隊(duì)里有一個(gè)最有趣的點(diǎn),就是說他的團(tuán)隊(duì)都是年輕人。根據(jù)各方的消息,他們都是本土或者國內(nèi)頂級(jí)大學(xué)的年輕人。當(dāng)然,這是主力。我肯定不能說沒有海歸,一定是有的。但是,綜合各方面的信息來看,基本上都是國內(nèi)頂級(jí)大學(xué)的畢業(yè)生。

對(duì)于這一點(diǎn),我不知道你怎么看?至少我自己來說,是覺得這是一件很有影響力的事情。它能夠證明,中國的有才華的人,在中國的頂級(jí)大學(xué)接受教育,就能做出世界頂級(jí)的東西,你不需要跑到斯坦福,不需要跑到麻省理工。當(dāng)然,去交流肯定是很有必要的。但是,不是說一定要在那里讀個(gè)書,讀四年、讀八年。你怎么看?

黃新平:

這一點(diǎn)其實(shí)說來一點(diǎn)也不奇怪。之前就有人說,人工智能是“Chinese in US Vs. Chinese in China”(在美國的華人對(duì)在中國的華人)。有一個(gè)笑話說,一個(gè)團(tuán)隊(duì)如果創(chuàng)業(yè),說是做人工智能的,一看沒有中國人,就會(huì)問:“那你們誰干活呢?”

所以我覺得中國人在這個(gè)領(lǐng)域做出來這樣的成績并不奇怪。實(shí)際上,我覺得中國的基礎(chǔ)教育層面還是非常強(qiáng)的,這個(gè)能力毋庸置疑。從業(yè)界的角度來看,我覺得中國無論從教育還是其他方面,真正存在的一點(diǎn)點(diǎn)差距在哪里呢?是真正掌握一些比較新的底層技術(shù)。我們原來都是做編譯器、做芯片這些層面,中國其實(shí)很少有機(jī)會(huì)能接觸到這個(gè)層面,因此存在一定的差距。但是我認(rèn)為,量化公司自身的需求,讓他們接觸到了計(jì)算機(jī)的核心:性能的極致、通信的極致、硬件的極致。這些都會(huì)讓他們接觸到,這給他們提供了一個(gè)很好的訓(xùn)練機(jī)會(huì),他們的人才可以在這里面得到訓(xùn)練。我認(rèn)為這是根本的原因。

所以說,這些年輕人并不僅僅是在學(xué)校里訓(xùn)練,而是在公司里有機(jī)會(huì)進(jìn)行實(shí)踐。還記得當(dāng)年做編譯器的時(shí)候,招的人不可能有編譯器的經(jīng)驗(yàn),招的都是 C 語言基礎(chǔ)比較好、計(jì)算機(jī)基礎(chǔ)非常好的人,然后經(jīng)過半年一年的時(shí)間,他們逐漸就把這條路打通了,就能掌握很底層的東西。我認(rèn)為(中國)人是很聰明的,這一點(diǎn)毋庸置疑。你的學(xué)術(shù)基礎(chǔ)和理論基礎(chǔ)都在,只是你沒有機(jī)會(huì)接觸。如果給你一個(gè)機(jī)會(huì),你就能學(xué)到。所以這是根本的原因。

城主:

所以,能不能說也是因?yàn)?,有一點(diǎn)在于 AI 的理論,包括深度學(xué)習(xí)、AI,其實(shí)是近兩年飛速發(fā)展,把以前所有的,比如上一代的 AI 理論都推翻了?,F(xiàn)在只是用深度學(xué)習(xí)的 Transformer 去訓(xùn)練。所以,可能就給了年輕人機(jī)會(huì),在 NLP(自然語言處理)路徑上的積累恐怕沒有那么重要了。所以這幾年最新的內(nèi)容,才決定一切。

有時(shí)候想想這個(gè)事情也比較有意思。我記得在我剛開始在大公司的時(shí)候,會(huì)去講機(jī)器學(xué)習(xí)、支持向量機(jī)的概念,很多都是以前的概念。就像過往的前輩積累的所有東西……但有些殘酷的是,在深度學(xué)習(xí) AI 這個(gè)分界或者說分水嶺,這些東西其實(shí)是用不上的。

黃新平:

也不完全是用不上。但是可以像原來評(píng)價(jià)諸葛亮的那句話——“亮獨(dú)觀其大略,不求甚解”。你其實(shí)要知道那些基礎(chǔ)知識(shí),因?yàn)橥行﹦?chuàng)新是從原來的那些(基礎(chǔ)知識(shí))……遷移或者發(fā)展出來。所以你其實(shí)要有這個(gè) sense,這個(gè)東西是解決了什么問題的,在什么場景下解決這個(gè)問題的,而不是它里面的技術(shù)細(xì)節(jié)。比如 SVM(支持向量機(jī))里高維的轉(zhuǎn)化,然后它的核函數(shù)怎么寫的,這些東西都可能已經(jīng)沒有用了。

DeepSeek國產(chǎn)卡適配和優(yōu)化

城主:

我覺得有一個(gè)很有趣的話題,也是我很期待去探討的話題,就是說國產(chǎn)硬件上面在跑 DeepSeek 的情況。

你以前工作里面曾經(jīng)去運(yùn)營過像十萬臺(tái)這樣規(guī)模的服務(wù)器。就在那個(gè)時(shí)候,那接觸的時(shí)候,有多少是國產(chǎn)的?

黃新平:

那時(shí)候是非常少的,因?yàn)槲夷菚r(shí)候是做的高性能計(jì)算。

高性能計(jì)算里面,當(dāng)時(shí)因?yàn)橹忻狸P(guān)系還不至于差到這個(gè)程度,所以主流還是英特爾的 CPU,或者是英特爾的一些運(yùn)算加速器。因?yàn)楦咝阅苡?jì)算最主要還是 64 位計(jì)算,跟現(xiàn)在不一樣。然后那時(shí)候國產(chǎn)的芯片還沒有什么太多的機(jī)會(huì),主要是國產(chǎn)芯片只用在一些特殊的,比如說軍工、一些特殊保密行業(yè),國家有一些研究院所會(huì)出,比如的“太湖之光”,然后這樣的國產(chǎn)芯片。那時(shí)候國產(chǎn)芯片在整個(gè)(高性能計(jì)算)上面并不是主流。

城主:

是啊,所以你看,就是這幾年,由于大家都知道的原因,我們就必須要在芯片上面國產(chǎn)化,然后再追趕。那你怎么看這個(gè)事情呢?就是說這個(gè)事情對(duì)整個(gè)(行業(yè))……我們可以大膽地說,這整個(gè)行業(yè)可能迫使中國的行業(yè)能夠有芯片行業(yè)自主化。這一方面它其實(shí)真的限制了很多,比如說,遠(yuǎn)的不說,就說一些大家確實(shí)就是最新的 5090D,就直接限制了 AI 算力,是做得非常極致。所以你怎么看這些事情?

黃新平:

是這樣。我覺得從另外一個(gè)角度來看的話,就是所謂的“文明競爭”,然后“國家競爭”,中美(的競爭)其實(shí)相當(dāng)于世界誰說了算,或者誰是世界第一。這個(gè)一直是一個(gè)競爭的主題。

雖然中國一直聲明不追求霸權(quán),從中國幾千年的歷史來看,可能確實(shí)沒有在追求霸權(quán)。然而,美國人并不這么認(rèn)為,他們“做老大”做慣了。如果剝奪了他們“做老大”的權(quán)利,他們會(huì)失去很多。所以這種沖突幾乎是不可避免的。在這樣的背景下,中美之間,現(xiàn)在認(rèn)為下一代的核心是人工智能。如果人工智能變成“國運(yùn)之爭”,那么這種“硬碰硬”幾乎也是不可避免的。

美國能想到的……大家都知道人工智能是“算法 + 算力 + 數(shù)據(jù)”。數(shù)據(jù)他們管不了,算法可能也管不了,中國有人才。他們只能管控算力。算力用半導(dǎo)體,相對(duì)來說,掐斷源頭也就那么幾家,甚至說白了就是只有一家,那就是臺(tái)積電。

從這個(gè)層面上,臺(tái)積電的生產(chǎn)能力加上英偉達(dá)的設(shè)計(jì)能力,形成了一種壟斷性質(zhì)的算力供應(yīng)局面。所以美國一定會(huì)限制中國。中國在人工智能應(yīng)用方面,現(xiàn)在特別廣泛。除了對(duì)未來的期許,比如將來在工業(yè)上,所有行業(yè)的人工智能轉(zhuǎn)化,將會(huì)帶來一個(gè)全新的世界。就好像還在使用刀矛長槍的時(shí)候,別人已經(jīng)發(fā)明了火器,根本無法競爭。

所以一定要在這個(gè)領(lǐng)域做出些事情來。國家在這個(gè)層面上是不遺余力地在推動(dòng)。如果限制中國的算力,中國一定會(huì)想辦法彌補(bǔ)。中國從政策層面上支持幾家大的半導(dǎo)體廠商,提供各種政策支持。實(shí)際上,如果沒有這些行動(dòng),在世界是平的情況下,國產(chǎn)芯片很難有機(jī)會(huì),這是必然的。

經(jīng)濟(jì)學(xué)上有馬太效應(yīng),“贏家通吃”。英偉達(dá)又便宜又好,生態(tài)又好,這種情況下,你怎么可能有生存空間?所以中美在 AI 領(lǐng)域的競爭,恰恰給中國的半導(dǎo)體廠商提供了一個(gè)生存的“庇護(hù)”。本來你要做生態(tài),最難的一件事情是要有人用你。有人用你的時(shí)候,會(huì)發(fā)現(xiàn)問題,讓你有改進(jìn)的機(jī)會(huì)。這個(gè)生態(tài)其實(shí)就是因?yàn)槲矣貌涣擞ミ_(dá)的,被迫要用國內(nèi)的,那就給了他一個(gè)迭代的機(jī)會(huì)。再痛苦幾年,光刻機(jī)我也覺得不是一個(gè)不可攻克的任務(wù)。只要光刻機(jī)解決了,我覺得中國這最后一道坎就過去了。

城主:

其實(shí)我會(huì)想這個(gè)事情。當(dāng)然,我們很希望它解決得越快越好,或者越高越好。但實(shí)際上,芯片這件事,就是首先要有,然后再好一點(diǎn)。不一定要百分之百最好。你做到了 80 分,其實(shí)可能就夠用了。

黃新平:

實(shí)際上,從另一個(gè)角度來說,你看 28 納米,和 28 納米以上的制程,其實(shí)是中國(的強(qiáng)項(xiàng))。你看全球的出貨量就知道了,中國壟斷了這部分行業(yè)。而實(shí)際上,這部分其實(shí)就跟“冰山”一樣,這是冰山的下面,是非常賺錢的一部分。

然后貿(mào)易額也巨大的一部分,真正的,比如 16 納米以下的,反而是高精尖的這一部分。我覺得就是咱們常說的“農(nóng)村包圍城市”,一定會(huì)有機(jī)會(huì)反超,可能就像 DeepSeek 一樣。就是大家追趕上去,總有一天會(huì)冒出一個(gè)大家意想不到的結(jié)果。剛才講的就是國產(chǎn)芯片,大家都知道,這個(gè)春節(jié)期間,可能國產(chǎn)芯片的工程師們也沒休息好,被叫起來各種適配,幾乎就成了國產(chǎn)芯片的一個(gè)“秀場”。

DeepSeek 的適配,各家國產(chǎn)芯片廠商都會(huì)說,DeepSeek 已經(jīng)適配了。雖然背后適配的大部分可能是蒸餾模型,能夠做全尺寸模型的可能還是非常少。但是這個(gè)態(tài)度一定要表明,不表明就說明你落伍了。但在這方面,從真正的應(yīng)用層面來說,其實(shí)我覺得現(xiàn)在還處在炒作曲線的“希望之巔”,也就是高速增長期之后,迅速進(jìn)入絕望的低谷之前。大家都希望用國產(chǎn)的 GPU、國產(chǎn)芯片、國產(chǎn)卡去適配 DeepSeek。現(xiàn)在是最初的“熱潮期”,還沒有冷卻。

真正到“冷靜期”的時(shí)候,情況會(huì)非常殘酷。例如,你能推理多少 tokens/秒?你的上下文窗口能開多大?(訓(xùn)練自己的衍生模型時(shí))剛才說的 MLA(注意力)“頭”數(shù)你要設(shè)多少?這些指標(biāo)會(huì)直接決定最終的表現(xiàn)。如果效果能夠像現(xiàn)在 DeepSeek 官方的那樣,你會(huì)發(fā)現(xiàn)很多東西可能是不可用的。然后,有技術(shù)能力的人一定會(huì)在這個(gè)上面“絕地反擊”,達(dá)到可用的地步,這樣就進(jìn)入了真正的應(yīng)用期。

城主:是的。我知道你在這里面做了很多工作。你分享一下,你覺得國產(chǎn)卡適配最大的挑戰(zhàn)是什么?

黃新平:

我覺得國產(chǎn)卡分兩類:一類是本來就兼容 CUDA 指令的。這種適配相對(duì)容易一些,因?yàn)槟憧赡苡玫耐评硪?,它們都?CUDA 兼容的。可能會(huì)遇到個(gè)別算子不兼容,或者有一些精度的問題,但調(diào)整起來相對(duì)容易得多。這部分可能很快就能完成,比如小的蒸餾模型的部分適配,這個(gè)太容易了。至于大的、全尺寸的……

那真的就是像剛才那幾個(gè)指標(biāo),你完全達(dá)到實(shí)用地步,那你還是需要做一些功課的。但總體來說,我覺得難度會(huì)變低,沒有那么大。然后,反正我就把自己的性能發(fā)揮出來就行了。我也不會(huì)強(qiáng)求更多。另外一部分是 CUDA 不兼容的,那這部分其實(shí)難度就會(huì)比較大。而恰好中國幾個(gè)比較頭部的公司都是不兼容的。華為啊,這兩個(gè)都是不兼容的。但他們做的事情也是在兼容(適配),在底層方面去做這個(gè)事。

城主:

對(duì),在底層上來做這個(gè)事情。這是我特別有興趣去探討的一個(gè)事情。是因?yàn)槟阒?,CUDA 本身就是一個(gè)……其實(shí)不僅僅是針對(duì)中國,就是對(duì)好像 AMD 也是一個(gè)非常……我能說“咬牙切齒”的一個(gè)事。像 AMD 以前是用這個(gè)開源的框架去模擬了這個(gè) CUDA,就被 AMD 也叫停了。

黃新平:是的,AMD去兼容是不允許的。

城主:對(duì),然后還說他們兩家是親戚,這個(gè)親戚就肯定沒得做了。

黃新平:……AMD 的蘇媽還是 “姑媽”好像。

城主:這個(gè)親戚沒得做。所以是很好玩。所有人都說,包括他們自己也說,CUDA 就是最大的“護(hù)城河”,對(duì)吧?

黃新平:對(duì),沒錯(cuò)。生態(tài)是最深的一個(gè)“護(hù)城河”。

城主:是的。而我們也知道,像之前國產(chǎn)卡,不是說做不出來。雖然可能弱一點(diǎn),可以做出來。但最終是你要兼容那個(gè) CUDA 軟件層,那就其實(shí)是很痛苦的一個(gè)事情。

黃新平:是。

城主:其實(shí)就相當(dāng)于是兼容一個(gè)另外一個(gè)硬件,你怎么去……這總是很多事情。

黃新平:對(duì)。而這個(gè)在芯片設(shè)計(jì)上面,相當(dāng)于說,你的所謂的指令集架構(gòu),ISA 這一層,你要做一定的兼容。然后如果不能完全兼容的話,你要靠這個(gè)軟件層面來做一層兼容。

城主:

這個(gè)其實(shí)我會(huì)覺得,確實(shí)就很“頭大”。這肯定也是各大國產(chǎn)卡廠商想,我怎么就能夠繞開它?而 DeepSeek 就是繞開 CUDA,用底層的語言,肯定是因?yàn)橐恍┮蛩亍K赡芤驗(yàn)榭赡懿粔驈?qiáng)勁,必須親自去從性能層面上去做一個(gè)事。那回過頭來說,像你去優(yōu)化,去在國產(chǎn)卡上適配,他就不得不去做底層的控制。你覺得這個(gè)過程難嗎?

黃新平:

這個(gè)東西其實(shí)分兩個(gè)方面。DeepSeek 很多的技術(shù)能力,包括像剛才說的,所謂的繞開 CUDA。實(shí)際上,它是因?yàn)?CUDA 相當(dāng)于是個(gè)高級(jí)語言,就像你寫很多更高性能的程序的時(shí)候,你要用匯編來寫一樣。他用 PTX 來寫,就相當(dāng)于在匯編層面上寫。他要精確地控制計(jì)算與通訊的關(guān)系。原來計(jì)算和通訊交給 Runtime 來做,交給編譯器來做。現(xiàn)在他要精確地控制這個(gè),以達(dá)到確定性的效果。他明確地在論文里寫了“沒有空泡”,“沒有空泡”你就知道這個(gè)有多難。就是數(shù)據(jù),每一個(gè)數(shù)據(jù),來了我就被處理,來了就被處理,不會(huì)有任何的等待的過程。

這個(gè)就是性能是最優(yōu)化的過程。所以,他更多的是在訓(xùn)練階段,這個(gè)工程能力體現(xiàn)在訓(xùn)練階段。一旦訓(xùn)練完成了這個(gè)模型之后,其實(shí)他對(duì)這些機(jī)制的依賴就會(huì)變得很低。所以,國產(chǎn)卡的這個(gè)適配分兩個(gè)部分:如果你想代替英偉達(dá)來訓(xùn)練 DeepSeek,說句不好聽的話,很殘酷的話,現(xiàn)在幾乎是不可能的,是沒有能力做的。他做了這么多工程的實(shí)踐,其實(shí)是嚴(yán)重依賴于英偉達(dá)的卡的硬件特性。其實(shí)他很難遷移出來,非常難。

城主:就是說DeepSeek只是在英偉達(dá)的卡上面去做模型訓(xùn)練的底層優(yōu)化。

黃新平:沒錯(cuò)。就相當(dāng)于說我用 X86 的匯編寫的代碼,你想移植到 ARM 上,這個(gè)是幾乎變成了一個(gè)不可能的事情。

城主:就是深度依賴于英偉達(dá),對(duì)吧?

黃新平:

如果你假設(shè)都用 C 來寫的話,那我們移植可能還有一些可能性。所以訓(xùn)練會(huì)變得非常難。

但是推理這個(gè)東西,其實(shí)對(duì)這個(gè)東西的依賴并不大。簡單的移植這個(gè)東西可以運(yùn)行,其實(shí)是一件很容易的事情。但是有一點(diǎn),你運(yùn)行的效果好壞,是留了很多很多可能的空間。

城主:最好奇的一點(diǎn)就是,當(dāng)你移植到國產(chǎn)卡之后,看到的性能是什么?

黃新平:

這個(gè)其實(shí)全尺寸的效果非常不理想。因?yàn)榭傮w來看的話,就是一個(gè)強(qiáng)制性的移植到國產(chǎn)卡可以運(yùn)行。運(yùn)行的結(jié)果來看的話,它有很多很多的額外的東西在做。實(shí)際上,它的適配是非常差,導(dǎo)致了它的性能其實(shí)沒有發(fā)揮出來,性能非常不正常。

城主:所以還要進(jìn)一步的去優(yōu)化,只是說現(xiàn)在能跑起來。

黃新平:現(xiàn)在能跑起來,但是離真正能夠?qū)嵱闷饋?,是有很大的差別,尤其是大規(guī)模的對(duì)外服務(wù)。

城主:

其實(shí)這里有個(gè)很有趣的點(diǎn)。如果只是個(gè)人在一臺(tái)機(jī)器上跑DeepSeek R1,這其實(shí)根本就完全不是“企業(yè)服務(wù)”。英偉達(dá)它最重要的,不僅僅是它的卡,還有它的卡間互聯(lián),它有 NVLink。這其實(shí)是它的“殺手锏”之一。這是不是也會(huì)限制在網(wǎng)絡(luò)上去做推理?

黃新平:這個(gè)層面呢,要看你最終實(shí)現(xiàn)的方式。就是你推理引擎上的實(shí)現(xiàn)。其實(shí)是個(gè)軟件問題,不完全是一個(gè)硬件問題。

城主:這是軟件問題?

黃新平:對(duì),是個(gè)軟件問題。就是推理層面。因?yàn)楸旧砟阋仓?,DeepSeek 是一個(gè) MoE (Mixture of Experts) 的結(jié)構(gòu)。MoE 的話,其實(shí)它只有一部分的“機(jī)能”,它是一個(gè)高度稀疏化的模型。我一次就“進(jìn)入”一個(gè)專家,這個(gè)專家的體量比較小,那這個(gè)體量有可能就能做到在一塊卡上運(yùn)行。

城主:這么精確的要求,所有的專家都能跑在一塊卡上?

黃新平:

對(duì)。所以就是看你的顯存有多大。你還記得它有一個(gè)存儲(chǔ)壓縮的機(jī)制,就是 KV cache 的那個(gè)數(shù)據(jù)的壓縮。這個(gè)壓縮,其實(shí)也使得它的存儲(chǔ)量也好,它最終在你的推理里面,對(duì)顯存的需求量也好,都會(huì)有縮小。這個(gè)其實(shí)有一個(gè)很精細(xì)的優(yōu)化,是可以從某種程度上避免掉顯卡之間的鏈路。當(dāng)然,如果你避免不了的時(shí)候,NVLink 就會(huì)成為很關(guān)鍵的一點(diǎn)。

城主:

是。所以其實(shí)這是兩個(gè)問題。你覺得現(xiàn)在國產(chǎn)化里面,多大的顯存是可以避免“卡間”線路的?現(xiàn)在大概估計(jì)一下,這個(gè)程度上有多少?

黃新平:我覺得至少要 80GB 以上。

城主:80GB?

黃新平:對(duì)。

城主:新一代國產(chǎn)卡是不是差不多有一些確實(shí)能夠達(dá)到這個(gè)水平?因?yàn)榧语@存比其他指標(biāo)要容易得多。

黃新平:有很多都能夠達(dá)到。

城主:

現(xiàn)在我看起來,我們仿佛就到了這么一個(gè)層面上,OK,大家都知道,這兩三周國內(nèi)都在PR嘛。所有的大廠,所有的平臺(tái),不管是不是競品,全都說“我已經(jīng)部署了DeepSeek”。現(xiàn)在相當(dāng)于有一個(gè)免費(fèi)能拿到的最頂級(jí)的大模型,我現(xiàn)在只要有卡,我就能用了,我就可以用起來。

黃新平:

所以就變成了……OK,現(xiàn)在就變成所有推理的問題。因?yàn)槟阍谧约业?CPU 上部署一個(gè),其實(shí)沒有任何意義。其實(shí)你能不能支撐到你的業(yè)務(wù),其實(shí)感覺現(xiàn)在就是一個(gè)考驗(yàn)。推理的時(shí)候,如果反過來,在我們國產(chǎn)卡市場上面,如果是說,先不看訓(xùn)練,在開始訓(xùn)練的時(shí)候,他可能深度整合英偉達(dá)的卡,我們解決不了。

城主:

那么現(xiàn)在在推理上面,你覺得國產(chǎn)卡可以發(fā)揮以前可能發(fā)揮不了的作用,然后成為R1推理的一個(gè)主要算力部分。

黃新平:

我覺得是有可能的。首先是現(xiàn)狀,剛才也說了,性能是比較差。然后,包括像全尺寸的這塊的一個(gè)優(yōu)化,還都沒有開始做。但是我覺得這個(gè)層面上,比那個(gè)完全沒有,是 0 和 1(的問題),(對(duì)比性能做好),是 1 到 10 的問題,兩者之間是有一個(gè)質(zhì)的差別。

城主:對(duì)。因?yàn)橐郧罢f國產(chǎn)卡跑最牛的大模型,誰都不敢想?,F(xiàn)在至少是跑起來了。

黃新平:

是跑起來了。然后剩下的就變成了它的優(yōu)化能力。那就真的是“拼”技術(shù),就是“拼”各個(gè)廠商的軟件團(tuán)隊(duì)的能力。因?yàn)橛布呀?jīng)是這樣了?!捌础备鱾€(gè)廠商的軟件團(tuán)隊(duì)的能力,他們能如何把這個(gè)推理的模型充分地發(fā)揮起來,然后能認(rèn)知到,就是在推理的整個(gè)過程當(dāng)中,每一步在硬件上體現(xiàn)了什么,硬件上要做哪些事情,甚至要去改一改它的這個(gè)推理模型的某些運(yùn)算的順序啊、結(jié)構(gòu)啊,這樣的,甚至做一些算子融合啊,做這些層面的優(yōu)化。最終把結(jié)果拿出來。

城主:不管怎么樣,僅僅適配一個(gè) R1 的推理,要比適配整個(gè)CUDA庫要容易得多。

黃新平:給了大家一個(gè)明確的目標(biāo)。

城主:這里面的難度,有可能是差兩個(gè)量級(jí),都不只一個(gè)量級(jí)。

黃新平:就是大家至少有個(gè)“奔頭”了。

城主:因?yàn)槟阋嫒菡麄€(gè) CUDA,實(shí)際上那簡直是……“絕望”,有點(diǎn)“絕望”。

黃新平:沒錯(cuò)?,F(xiàn)在我不需要兼容那么多了,因?yàn)樗腥硕加肈eepSeek R1……。

城主:對(duì)。只要我的卡能跑DeepSeek R1,那就差不多了。

黃新平:沒錯(cuò)?,F(xiàn)在市場可能就是,你告訴我可以跑DeepSeek R1,我覺得很好,行,我可以買單了。我不需要你們跑所有的 CUDA。這個(gè)可能真的就給了機(jī)會(huì)。

城主:我覺得所謂“國運(yùn)”級(jí)的科技成果,可能……不大夸張,就是因?yàn)樗@里改變了很多。

黃新平:

對(duì)。如果說以前,你一定要去建立一個(gè)大的生態(tài),確實(shí)很“缺”。我知道我們可能有很多這種跑法,你原來跑一個(gè)模型,然后跑下來,然后你發(fā)現(xiàn)它只是其中一個(gè)“市場”,你不可能只吃一個(gè)市場,吃不飽。然后你被迫要去做很多模型,很多模型的適配,在意味著你要做CUDA適配。

城主:現(xiàn)在不用想那么多,只要你支持 R1。

黃新平:只要你支持 R1,至少你可以把這部分“吃掉”……至于還要不要支持其他的,也許會(huì)變成一個(gè)不那么重要的事情。

城主:

因?yàn)?R1 足夠強(qiáng),所以我相信很多更上層的公司,即使偷偷使用其他的模型,也會(huì)轉(zhuǎn)到 R1 上。因?yàn)槠鋵?shí)并不是不想支持國產(chǎn)模型,只是國產(chǎn)模型模型比國外差一兩個(gè)版本,不得不選擇,對(duì)吧?現(xiàn)在 R1 這么方便,那我為什么不支持呢?一定是大家都支持。

黃新平:

是的。R1,包括 V3 這部分的能力,基礎(chǔ)大模型的能力非常非常關(guān)鍵。它做好了之后,在市場上的智能體開發(fā)才有可能。

城主:

其實(shí)對(duì)我個(gè)人而言,在平常使用AI做一些工作的時(shí)候,就發(fā)現(xiàn),并沒有想著頻繁換模型。如果用習(xí)慣了,可能就在一個(gè)模型上用。因?yàn)椴煌哪P?,可能輸出的感覺還有點(diǎn)差別。所以,喜歡一個(gè)模型,我就用它,我用得順手。

黃新平:

對(duì),這就跟人類一樣。假設(shè)你明明認(rèn)識(shí)一個(gè)專家,然后你問他的問題,他總是回答不對(duì),或者總是差那么一層。另外一個(gè)醫(yī)生,假設(shè)是醫(yī)生,另外一個(gè)醫(yī)生“一針見血”,講出了問題的本質(zhì),告訴你要怎么做,非常清晰。那你肯定會(huì)找第二個(gè)醫(yī)生,哪怕他的診費(fèi)不便宜,對(duì)吧?

城主:

所以這真是很有趣。我覺得我們在見證一個(gè)全新的開始,下一代模型”什么時(shí)候出現(xiàn),不知道。因?yàn)?GPT-o3 并沒有明顯的“好”。今天早上才看到新聞,奧特曼在推特上宣布馬上要出 GPT-5 了。估計(jì)他發(fā)現(xiàn) GPT-4 “卡不住”,要趕緊拿出要拿出新模型。

我想到一個(gè)挺有趣的話題。就是剛才一直說到 CUDA。據(jù)你所知,有沒有可能在國產(chǎn)卡里面,在國產(chǎn)替代里面,會(huì)出現(xiàn)一個(gè)類似 CUDA 的生態(tài)呢?

黃新平:

這個(gè)問題,其實(shí)每個(gè)廠家都有這個(gè)夢想。CUDA 這個(gè)“護(hù)城河”有多么好,其實(shí)人人都想有。但是CUDA的存在,其實(shí)是“天時(shí)地利人和”,也不是計(jì)劃出來的。黃教主曾經(jīng)“絕望”到要“賣身”,差點(diǎn)要把公司賣掉。然后,最終成了。其實(shí)這個(gè)并不是說想做就一定能做的。

從我國的一些實(shí)際情況來看,國家的部門其實(shí)考慮過我們能不能制定一套標(biāo)準(zhǔn),讓國產(chǎn)的卡都遵循這個(gè)標(biāo)準(zhǔn),然后變成全國一個(gè)接口。但是從我的角度來說,從一個(gè)技術(shù)人的角度來說,一個(gè)愿望很美好,實(shí)際上是不可行的。

原因很簡單,技術(shù)層面,待會(huì)兒再說,因?yàn)樘?xì)節(jié)了。

從歷史教訓(xùn)來看,其實(shí)也有很多人想做這個(gè),包括很著名的 OpenCL。OpenCL 你也知道是 Intel、AMD、惠普三家,當(dāng)年他們在做的時(shí)候,那個(gè)勢力完全“不可當(dāng)”的時(shí)候,然后想做這么一個(gè)開放的計(jì)算語言標(biāo)準(zhǔn)。結(jié)果怎么樣?它沒有“成”。沒有“成”并不是說他們技術(shù)能力不夠,而是因?yàn)樗烊坏赜龅搅艘粋€(gè)問題。這個(gè)問題就在于說,你硬件的性能、極致的性能,一定是緊貼著硬件。你去寫 CUDA 程序,CUDA 里面一個(gè)“warp”里面有多少個(gè) thread這個(gè)數(shù)據(jù),都會(huì)影響到你編程的結(jié)構(gòu)。這么細(xì)節(jié)的東西必須被暴露出來,才能拿到極致的性能。你如果想掩蓋一切硬件的細(xì)節(jié),想實(shí)現(xiàn)一個(gè)統(tǒng)一的接口,這兩個(gè)之間是矛盾的,就是“既要……又要……”,我既要通用性,又要性能,這是不可能的一件事情。

城主:

明白。所以核心其實(shí)是說,要去兼容不同的“卡”,又要得到同樣的性能的一個(gè)軟件層,本身就是矛盾的。

黃新平:

確實(shí)是。因?yàn)?CUDA 自己雖然是個(gè)軟件層,但其實(shí)只針對(duì)自己的硬件。它就是可以軟硬協(xié)同地去做到極致的……以至到 DeepSeek 這一次,它覺得 CUDA 都還不夠快,還要用 PTX 去寫。

城主:是。所以即使是有一層(類似CUDA的軟件層),最終性能達(dá)不到。本身你在不同的硬件上去兼容,本身就是個(gè)“偽命題”。

黃新平:

對(duì)。現(xiàn)在還有多少人寫 CPU 的程序是用匯編?除非當(dāng)你面對(duì)極端的問題,比如那幾個(gè)數(shù)學(xué)庫的時(shí)候,還都是用匯編來寫的。

算力自由之路

城主:

最后一部分咱們聊聊算力吧。正好我對(duì)Wesley你現(xiàn)在做的事情很感興趣,這個(gè)“算力自由”的AI算力平臺(tái)。能不能跟我講講,“算力自由”這個(gè)名字的由來?以及你為什么要做這件事情?

黃新平:

好的。是這樣,在2022年底到2023年初,大模型剛剛興起的時(shí)候,正好有幾個(gè)朋友,都是清華的,大家就說,現(xiàn)在機(jī)會(huì)很好,大模型這么火熱,因?yàn)楫?dāng)時(shí)我也一直在關(guān)注。然后呢,就提議說,咱們要不要一起創(chuàng)業(yè)?

我當(dāng)時(shí)想了一下,感覺大模型可能是我這個(gè)年齡段能接觸到的一個(gè)非常非常大的機(jī)遇,絕對(duì)值得為之努力。而且它會(huì)是一個(gè)持續(xù)很長時(shí)間的事情。當(dāng)時(shí)的第一反應(yīng),大家在討論的時(shí)候,第一反應(yīng)就是,那我們要做什么呢?

然后就想到,中國版的 HuggingFace 是我們最初的想法。因?yàn)榭赡艽蠹叶加羞@種情懷吧,想做一個(gè)社區(qū),來活躍中國的,或者說為中國大模型的發(fā)展、人工智能的發(fā)展,做一份貢獻(xiàn),并且能夠從中獲得應(yīng)有的回報(bào)。這更多的是出于這樣的考慮。但是開始做的時(shí)候,你也知道,HuggingFace 在國內(nèi)訪問是受限的。一個(gè)活躍的社區(qū),實(shí)際上除了能讓大家很容易獲取到信息、模型數(shù)據(jù)、模型介紹、數(shù)據(jù)介紹、代碼,甚至一些演示之類的東西,本身就很有價(jià)值。

此外,很重要的一個(gè)價(jià)值是讓大家去交互。你會(huì)發(fā)現(xiàn),HuggingFace 上,前段時(shí)間不是剛發(fā)布嗎,它有上百萬的模型,這些模型顯然大部分都是衍生模型。衍生模型非常有價(jià)值,因?yàn)樗窃诨A(chǔ)模型之上,按照用戶的需求,或者用特定的方法訓(xùn)練出來的,解決某個(gè)特定問題的。要么展現(xiàn)某種方法論,要么解決一個(gè)實(shí)際問題。這些問題都會(huì)啟發(fā)大家去思考,這就是社區(qū)存在的價(jià)值。當(dāng)時(shí)就開始準(zhǔn)備做這個(gè),但是很不幸,這個(gè)商業(yè)模式你也知道,你憑什么賺錢呢?

對(duì)吧?投資人肯定會(huì)問這個(gè)問題,你的商業(yè)模式是什么?然后發(fā)現(xiàn)很難回答這個(gè)問題。

城主:因?yàn)榧词故?HuggingFace,它也還在不斷摸索。我想起來了,它也是依靠算力。

黃新平:

對(duì),它最后才做算力的。因?yàn)樗畛醯陌l(fā)展是源于 Transformer 那個(gè)庫,從而聚集了很多人。這其實(shí)也很偶然,它原來好像是做語音識(shí)別的,后來做了一個(gè) Transformer 庫,因?yàn)樵?PyTorch 上,它是第一個(gè)開源的。然后大家都開始使用,使用的過程就使得它形成了一個(gè)很強(qiáng)的社區(qū)。因?yàn)樗喈?dāng)于一個(gè) Hub,大家都從那里獲取資源。然后它就想,為什么不在 Transformer 庫里面加上一條語句叫 load data, load model 呢?

這樣一來,就把代碼和服務(wù)連接起來了,形成了一個(gè)社區(qū)。但后來它發(fā)現(xiàn),很多人只是下載這些東西,根本沒有條件去訓(xùn)練。他們需要一個(gè) MySpace,來體驗(yàn)一下。有些用戶做出來的模型,愿意花錢買一些算力,讓大家來上面體驗(yàn),這是雙贏的,對(duì)雙方都有利。所以它就做了這樣一個(gè)平臺(tái),后來逐漸地轉(zhuǎn)向了算力。

所以那時(shí)候,在剛開始做的時(shí)候就想到了,我們做到后面,第一步是平臺(tái),先讓人聚集起來;第二步呢,再來做算力相關(guān)的服務(wù)。在算力方面,當(dāng)時(shí)主要的算力使用場景包括預(yù)訓(xùn)練、后訓(xùn)練(Finetune),還有推理,這三種場景。預(yù)訓(xùn)練這個(gè)市場里面,其實(shí)只有頭部的幾個(gè)玩家,六小龍也好,四小龍也好,等等之類的,就這幾個(gè)頭部玩家,大廠除外。大廠他們自己可以搞定所有的一切。剩下的這些創(chuàng)業(yè)公司,一是用戶少,二是他們對(duì)硬件的要求非常高,必須是互聯(lián)要非常好,例如千卡一個(gè)大集群,甚至萬卡一個(gè)集群,這樣的規(guī)模。再加上因?yàn)橹忻涝谌斯ぶ悄芊矫娴牟┺模瑖視?huì)有大量的補(bǔ)貼。

然后這些補(bǔ)貼放上去,就導(dǎo)致了預(yù)訓(xùn)練的算力市場,實(shí)際上已經(jīng)不是市場經(jīng)濟(jì)了。因?yàn)橛心敲炊嘌a(bǔ)貼在里面,他們可以拿到很便宜的價(jià)格來訓(xùn)練。所以,我覺得這塊我不碰,因?yàn)檫@是國家的事情。然后就是后訓(xùn)練市場和推理市場。但推理市場那時(shí)候還沒有起來,2022、2023年中的時(shí)候,還沒有起來。因?yàn)榇蠹一旧隙际窃谟?xùn)練基礎(chǔ)大模型,至于用到哪里,落地應(yīng)用,大家都在探索落地,所以那時(shí)候是沒有推理市場的。那時(shí)候其實(shí)真正的是后訓(xùn)練市場,你會(huì)做大量的微調(diào)。那時(shí)你也會(huì)發(fā)現(xiàn),工具層出不窮。

現(xiàn)在像 RAG 的工具、Llama Index 等,各種各樣的工具,那個(gè)時(shí)間段就是這種工具,特別特別多。然后你會(huì)發(fā)現(xiàn),算法人員和工程人員是完全兩類人,算法人員碰到一個(gè)很小的工程問題,他是解決不了的。那時(shí)候真正的后訓(xùn)練市場都是算法人員在使用,而且很多是創(chuàng)業(yè)公司,這些創(chuàng)業(yè)公司很難找到合適的工程人員。當(dāng)時(shí)就在想,如果我們原來也做過這些實(shí)踐,原來在愛奇藝做過整個(gè)的深度學(xué)習(xí)平臺(tái)的架構(gòu),當(dāng)時(shí)我們服務(wù)內(nèi)部的科學(xué)家,那其實(shí)解決的更多的是工程問題。

如果我能做一個(gè)開箱即用的環(huán)境,他(開發(fā)者)拿來就能用,比如像 Llama Index 這樣的環(huán)境,Langchain 這樣的環(huán)境,或者其他類似的環(huán)境,那么他拿來就能用,這肯定能吸引他來我的平臺(tái)使用。吸引他的目標(biāo)呢,是形成一個(gè)開發(fā)者社區(qū),最終還是落在了社區(qū)上。他在我這上面使用很方便,自然就很容易拿來用了。用了以后呢,他會(huì)開發(fā)一些應(yīng)用出來,后來又出現(xiàn)了智能體,智能體的開發(fā)也會(huì)放在上面。放上面呢,他有一部分是對(duì)外 demo,還有一部分呢,是直接對(duì)他的目標(biāo)客戶進(jìn)行服務(wù)。

這部分就會(huì)逐漸地把最有創(chuàng)造力的開發(fā)者留在我的平臺(tái)上,把他們的作品也留在這個(gè)平臺(tái)上。然后就是最后一個(gè)階段,推理階段提供了一個(gè)很好的基礎(chǔ)。不然的話,你說推理階段為什么這個(gè)市場是你的?

城主:

所以我理解一下,就是說你認(rèn)為這個(gè)算力平臺(tái)不僅是提供算力,而是讓這些開發(fā)者有一個(gè)一站式、開箱即用的環(huán)境,能夠很快地把他們所想要用的大模型相關(guān)的內(nèi)容用起來。

黃新平:對(duì),是這樣。

城主:

我想想看,其實(shí)從我自己的使用過程和認(rèn)知來看,確實(shí)是有這種需求的。比如春節(jié)前我很懊惱一件事,不知道為什么主機(jī)電源燒了。還好終于又恢復(fù)了,在這個(gè)過程中我明顯地發(fā)現(xiàn),以前部署的代碼,或者說還好在云上面,那么我換一個(gè)環(huán)境,需要迅速地把它全部跑起來,對(duì)吧?

這種感覺在經(jīng)歷過一次失而復(fù)得之后就更加明確。反正我在哪跑可能是一回事,最終是說我能夠很快地在一個(gè)有算力的地方把事情跑起來,因?yàn)樗懔Φ阶詈螅€是取決于你做事情的大小。做小的事情你可能在自己的機(jī)器上跑跑還可以,稍微大一點(diǎn)的恐怕就不行了。

黃新平:

對(duì),是這樣。而且你這是個(gè)人用戶,如果假設(shè)我是一個(gè)小的創(chuàng)業(yè)公司,接到了一個(gè) RAG 的項(xiàng)目,這個(gè)項(xiàng)目很小,大概幾十萬。如果我從頭開始準(zhǔn)備我的硬件,那么這會(huì)占用我的資金,也占用我的時(shí)間。如果有一個(gè)環(huán)境給我做開箱即用,我可能一周兩周就能出一個(gè) demo,然后再不斷在這個(gè)基礎(chǔ)上去迭代,這其實(shí)是助力的一種效果。

城主:

所以你說這個(gè)其實(shí)就很像當(dāng)年云服務(wù)剛開始的概念一樣。云服務(wù)之前就是每個(gè)公司自己布置機(jī)房,然后倒騰半天。有了云服務(wù),其實(shí)就算某種開箱即用,直接申請服務(wù)器就可以用了。

黃新平:對(duì)。

城主:

感覺你的思路是說我要再往前進(jìn)一步。因?yàn)楝F(xiàn)在 AI 算力就代表著 AI 大模型在做事情的時(shí)候,你的算力平臺(tái)就給大家更方便了,不僅是給你一個(gè)機(jī)器,我還能夠給你更多的關(guān)于開箱即用、一鍵使用等方面的支持,可能很多人就可以用了。

黃新平:

對(duì),是這樣。而且在這個(gè)層面上其實(shí)是這樣,就是當(dāng)你服務(wù)某一類客戶的時(shí)候,你要比他更懂他的業(yè)務(wù)。

所以我服務(wù)的這一類客戶,其實(shí)往往都是 AI 的開發(fā)者。我做過開發(fā)者,所以更懂他們的需求,在這個(gè)層面上可以幫助他們。

城主:

這一點(diǎn)上其實(shí)我是有體會(huì)的。比如說我也曾經(jīng)試過一些平臺(tái)的線上服務(wù)器,那時(shí)候可能要拿一個(gè)卡去用的時(shí)候,因?yàn)樗?Linux 嘛,有很多的安裝包,你知道 Linux 有很多各種各樣的包,配各種各樣的東西,就是配了很久以后,你才有一個(gè)基本可用的環(huán)境。其實(shí)這些都不是我所需要的,我所需要的只是要把它跑一些東西而已。

黃新平:

對(duì),沒錯(cuò)。這些環(huán)境其實(shí)你本身并不希望去配置。而且其實(shí)你還是有工程能力的,還有完全不是學(xué)計(jì)算機(jī)的這一類人,我們會(huì)碰到比如學(xué)生物的、學(xué)其他的,然后他們會(huì)有這種算法的需求,那就更難了。一個(gè) Python 包他可能就搞不定,然后比方說一個(gè)容器環(huán)境里面的某一個(gè)環(huán)境變量的配置,導(dǎo)致它不能 Work,他就完全懵掉了。甚至還會(huì)發(fā)現(xiàn)另外一個(gè)問題,比方說公有云上有很多很復(fù)雜很復(fù)雜的配置,比方說最簡單的一個(gè)叫安全組協(xié)議,你在本地起來了一個(gè)端口的服務(wù),結(jié)果發(fā)現(xiàn)在本地都跑得好好的,遠(yuǎn)程一訪問,訪問不了,然后你不知道出了什么問題,實(shí)際上中間有安全組協(xié)議給你擋住。

城主:這些其實(shí)就是,對(duì)于普通用戶來說,我干嘛要關(guān)心這些東西呢?

黃新平:對(duì),沒錯(cuò)。我要的是結(jié)果,我要他能夠?yàn)槲夜ぷ鳌?/p>

城主:像 AI 或者是其他媒體興起之后,所有需求就是我只需要知道我怎么把數(shù)據(jù)扔進(jìn)來,怎么出結(jié)果。

黃新平:對(duì),沒錯(cuò),是這樣。

城主:然后其他的最好全部一鍵點(diǎn)擊就好了。

黃新平:對(duì),然后這是開發(fā)者這一部分。到現(xiàn)在你會(huì)發(fā)現(xiàn),隨著這些開發(fā)者漸漸成長起來,很多的應(yīng)用其實(shí)是很蓬勃的發(fā)展,包括 AIGC 的應(yīng)用,還有一些其他智能的應(yīng)用。這些應(yīng)用發(fā)展起來之后,當(dāng)他們一旦跨越了產(chǎn)品開發(fā)的第一個(gè)階段,他們就進(jìn)入了第二個(gè)階段,他要大規(guī)模對(duì)外服務(wù)。這個(gè)大規(guī)模對(duì)外服務(wù)其實(shí)是一個(gè)很難的問題,DeepSeek 天天服務(wù)器在忙,這除了一部分是他的服務(wù)器問題,就是他本身這個(gè)流量非常非常的大以外,然后你會(huì)發(fā)現(xiàn),比方說豆包,就好像沒有出現(xiàn)過這個(gè)問題,對(duì)吧?

然后像現(xiàn)在騰訊云也提供了 DeepSeek 的服務(wù),這些互聯(lián)網(wǎng)大廠在大規(guī)模對(duì)外的服務(wù)上面有著很豐富的經(jīng)驗(yàn)。但對(duì)于這些小的公司、創(chuàng)業(yè)公司,他們?nèi)ゴ髲S的云上面去找這種服務(wù),要么沒有,要么很貴。就說這種包括了 AI 的一些適配的開箱式的服務(wù),需要有人貼身為他們做一些東西。因?yàn)檫@些需求非常非常的特別,他不是說你給我一臺(tái)機(jī)器,然后我做完了就拿來運(yùn)行,他有可能會(huì)比方說開 WebSocket 的端口,然后 WebRTC 的這個(gè)服務(wù),等等之類的各種東西。你想象一下你用大廠云的那種服務(wù),你要讓他給你開一個(gè)什么東西,你需要走很長的一個(gè)工單,甚至你都找不到人來服務(wù)。

城主:

明白,完全就是一個(gè)基于 AI 的算力和 AI 模型的一個(gè)算力服務(wù),因?yàn)槠鋵?shí)除了解決算力本身,你要解決一圈問題。

黃新平:

對(duì),要解決一圈問題,要真正的為這些開發(fā)者解決他們的問題,在這個(gè)過程當(dāng)中,我看到了是有機(jī)會(huì)的。

另外一個(gè)方面呢,就是因?yàn)槲以瓉硎亲鼍幾g器的嘛,然后做了那么多年,然后剛才也說到國產(chǎn)化適配,那么我的一個(gè)原來也做過類似的一些工作,就是把有些模型,然后通過這樣的技術(shù)手段,把適配這件事情變得自動(dòng)化一些,適配加優(yōu)化,都變成一個(gè)自動(dòng)化的(流程),這是我的第二步夢想。

城主:

所以這也是我想問 Wesley 的,就是那么多年的一些非常資深的并行計(jì)算和編譯優(yōu)化的這些經(jīng)驗(yàn),你覺得在這個(gè)算力平臺(tái)里面,可以成為你的核心優(yōu)勢嗎?它體現(xiàn)在什么地方?

黃新平:這個(gè)的確是,因?yàn)閷?shí)際上來說,優(yōu)化這個(gè)能力,其實(shí)是一個(gè)非常稀缺和高端的一個(gè)能力。這個(gè)能力呢,如果 case by case 去做,其實(shí)沒有太多的價(jià)值。

假設(shè)啊,咱們理解一下,比方說 DeepSeek 的優(yōu)化,我搞定了某一件事情,當(dāng)然現(xiàn)在有很多人也在做,然后最終使我的這個(gè)推理成本大幅度的降低,那這樣的話,其實(shí)就是匯集了所有來使用的人,這個(gè)價(jià)值就大了,它是一個(gè)相承的關(guān)系。

城主:就是說,因?yàn)槟隳軌蛑苯尤プ鲞@種最深層優(yōu)化,甚至國產(chǎn)卡適配等等,所以在你的平臺(tái)里面,有沒有可能,到時(shí)候有各種不同的卡,在你這里就可以進(jìn)行一些不同的調(diào)度,甚至互相共享?在推理層面上,這個(gè)是沒有問題的。但如果是應(yīng)用層面上,它是否有兩種做法,一種是說面向所有對(duì)外的 API 的調(diào)用,一種是面向的是自己平臺(tái),即你平臺(tái)內(nèi)服務(wù),這兩者有什么區(qū)別嗎?

黃新平:對(duì),這個(gè)是可以的。API 的服務(wù),其實(shí)用戶跟你之間的接口,就是一個(gè) RESTful 接口,然后呢,他其實(shí)并不關(guān)心背后跑的是什么,只關(guān)心跟他有關(guān)系的,比如用的成本,比方說 Token 是多少錢,甚至呢,我可以讓用戶可能有多種選擇,要求質(zhì)量更好的,要求更便宜的。比方說做數(shù)據(jù)處理,然后可能我就這個(gè)東西越便宜越好。

這樣的話,會(huì)根據(jù)他任務(wù)的特征,會(huì)做不同的調(diào)度,這是一方面。然后如果平臺(tái)上的服務(wù)的話,那就是包含了用戶直接使用的這一部分,他對(duì)交互性,也就是實(shí)時(shí)性要求其實(shí)是比較高的。他在調(diào)度層面上除了考慮模型自己本身的能力之外,包括一些地域,在什么地方,這個(gè)延遲,然后以及他需求的這個(gè)比方說這個(gè)數(shù)據(jù)的復(fù)雜程度,然后數(shù)據(jù)的親和性上面都會(huì)做一些調(diào)整。

城主:我想到,是不是有可能因?yàn)槟隳軌蛉プ稣{(diào)度優(yōu)化,做底層的這個(gè)并行,就當(dāng)有些算力就不再用戶單獨(dú)使用的時(shí)候,你就可以用來去計(jì)算 R1 這種大模型的這個(gè)推理式服務(wù),對(duì)吧?它是可以做到不只這些算力就固定只為了推理,或者這些算力固定只是面向用戶。

黃新平:這個(gè)不會(huì),這個(gè)一定是混合部署的。

城主:對(duì)。聽起來就是這不是一個(gè)…就是以前可能我們并沒有這類問題,因?yàn)橐郧翱赡芫褪怯霉性?,部署些軟件服?wù)就夠了。但是因?yàn)橛?AI 過來之后可能就碰到這新的問題。包括說,OK我的大模型用 R1 級(jí)別,我怎么樣去更好的推理,怎樣能夠各種混合算力能夠用起來。用戶進(jìn)來的時(shí)候,希望基于這個(gè)方案做一些事情,有太多的額外的事情我不想搭理,給我一個(gè)這樣的打包服務(wù)。

黃新平:

對(duì),是這樣。然后因?yàn)樘焐拇竽P屯评砥鋵?shí)就是一個(gè)異構(gòu)計(jì)算,它一定需要加速卡的。比起公有云的那部分,其實(shí)技術(shù)復(fù)雜度是有一些的。

城主:模型推理它需要一個(gè)異構(gòu)計(jì)算,這個(gè)怎么理解呢?

黃新平:

是這樣,就是因?yàn)槟悻F(xiàn)在的模型推理,純用 CPU 能夠做到的模型推理還是比較少的。一定需要一個(gè)加速卡,無論是英偉達(dá)的加速卡還是國產(chǎn)的加速卡。那我能不能說只用 GPU 加速卡呀?不完全是,因?yàn)槟憧赡軙?huì)有不同的模型,然后將來比方說國產(chǎn)的它會(huì)在某一個(gè)特定領(lǐng)域有它的長項(xiàng),然后它有可能在這上面性價(jià)比或者是它的功能上面會(huì)有很突出的……你只是有不同的卡,不同的硬件,不同的加速卡混在一起。

城主:那這里面的優(yōu)化就水就更深了。

黃新平:對(duì),是。

城主:因?yàn)槿绻蠹叶贾挥?NVIDIA,那沒什么好說,可能就是在CUDA上面搞來搞去,

黃新平:那時(shí)候可能你更多的是去寫一個(gè)更高效的那種推理引擎。

城主:

或者是像 DeepSeek 做到使用底層匯編已經(jīng)很了不起了,但如果是。。當(dāng)然這也是國情了。。國產(chǎn)卡里有不同的硬件,那么多的加速卡你怎么用好?

黃新平:對(duì),是這樣。

城主:實(shí)際上在我們所說的所謂公有云之前,其實(shí)大家都是在講的是 CPU 算力。

黃新平:

沒錯(cuò),更多的是虛擬化,然后是在這個(gè)基礎(chǔ)之上的,比方說網(wǎng)站的架構(gòu)的構(gòu)成,數(shù)據(jù)庫的后端、前端這些服務(wù),然后消息隊(duì)列這些概念。到了算力這個(gè)層次,其實(shí)萬一它要服務(wù)的內(nèi)容變了。

城主:而且就是 GPU 的云,這個(gè)事情本身都沒有很久,因?yàn)殚L期以來公有云它只有 CPU 云,GPU 云的時(shí)候它曾經(jīng)很貴,現(xiàn)在可能也不算便宜。

黃新平:對(duì),也不便宜。跟 CPU 比起來還是貴很多。

城主:

對(duì),所以才有很多空間在做這個(gè)事情,就怎么能提供一個(gè)大家能夠承受得起的。尤其是大規(guī)模推理的需求產(chǎn)生之后,其實(shí)它要服務(wù)的目標(biāo)客戶群就太多,像 DeepSeek 一樣,然后幾千萬活躍用戶。那它在這個(gè)程度上,就是實(shí)際上要用英偉達(dá)的,現(xiàn)在用英偉達(dá)的卡來做推理,那這個(gè)推理的過程就跟公有云原有的服務(wù)其實(shí)是有著很大的一個(gè)技術(shù)差別。那是完全不一樣。

還有很有趣的一點(diǎn)是說,算力云你是怎么做才能讓用戶感覺到你真的是可以用,上手能夠用。對(duì)于用戶來說,大家真的也不關(guān)心底層用的是什么卡,我只關(guān)心我跑了多少算力,比如說跑圖也好,跑 Token 也好,輸出的效率是什么。最好是底層你給我屏蔽掉。我也不關(guān)心這個(gè)問題,關(guān)心反而是很痛苦的事情,如果還要關(guān)心這個(gè)是 CUDA 哪個(gè)版本,要去裝哪個(gè) CUDA 的軟件,那個(gè) CUDA 軟件要匹配哪個(gè) Python 的版本。這個(gè)事情本身就會(huì)讓人暈頭轉(zhuǎn)向,我們還算是這個(gè)領(lǐng)域的人,稍微不是這個(gè)領(lǐng)域的人,那就更……

黃新平:

本身硬件,然后上面的驅(qū)動(dòng),然后在上面的那個(gè) CUDA 版本,在上面如果你有那個(gè) Docker 的話,就是那個(gè)容器的那個(gè) Driver,這個(gè)之間其實(shí)是有個(gè)很隱性的鏈接。然后你錯(cuò)了一個(gè)版本,可能它不 Work。不 Work 之后,這個(gè)就很痛苦。所以其實(shí)所謂一般用戶他也不應(yīng)該接觸這些東西。這應(yīng)該是交給。。就是在 CPU 領(lǐng)域里面其實(shí)有一個(gè)就是后來叫 Faas 或者叫 Serverless,就是我其實(shí)不關(guān)心服務(wù)器的細(xì)節(jié),我只需要我的功能。那么未來,然后包括像現(xiàn)在 GPU 創(chuàng)業(yè)的一個(gè)很新的點(diǎn),就是 GPU Faas,GPU Serverless,但是能夠做好的也寥寥無幾,就那么幾家,但是我覺得這個(gè)似乎會(huì)成為未來的一個(gè)方向。

城主:就現(xiàn)在大家調(diào)用一些比如說 OpenAI 或者 R1 的 API 不就也就是這個(gè)概念嗎?其實(shí)相當(dāng)于是 Serverless。

黃新平:

對(duì),我不管你背后我怎么部署了,我就 API。但是很多時(shí)候你并不是只是這么調(diào)用就完成了,我還是希望有自己部署服務(wù)器的時(shí)候。對(duì),那這個(gè)責(zé)任原來是 API 提供的,現(xiàn)在變成自己要搞定這件事情。

城主:如果能夠有地方能夠提供相應(yīng)程度的這種服務(wù),那這就是你算力自由平臺(tái)做的事情。

黃新平:對(duì),所以我的“算力自由”,回到算力自由四個(gè)字上,就是讓算力像水電一樣使用方便自由。

城主:實(shí)話實(shí)說,有實(shí)際體會(huì)的人知道這樣是不太容易的,在真正的工作流程里面要跑通這些,因?yàn)橛袝r(shí)候你一環(huán)斷了,很可能就掉鏈條。

黃新平:對(duì),沒錯(cuò),表面...