這是一個信息爆炸的時代,也是一個信息嚴重污染的時代。所以,我對任何信息都不會輕信,尤其是面對重大利好,更加「存疑」。對我來說,排除信息污染的最好辦法,就是交叉對比,正反面都看。
過去48小時內(nèi),我?guī)缀醵寂菰赬上,瀏覽各種關(guān)于Deep Seek的消息,在英語世界,基本上是壓倒性正面評價,這時候,我就特別想看看負面的評論,找了一圈,的確有。
主要分為兩類:
一類,為了反而反,尤其是一些海外的反中人士,任何關(guān)于中國的新聞,他們都會給出負面的評價,這類信息簡直就是垃圾。但看看也好,至少可以知道垃圾是什么樣子。

另一類,是業(yè)內(nèi)人士的負面評價,其中第一個,也是最鷹派的聲音,居然來自一個華裔業(yè)內(nèi)人士——Alexandr Wang。
首先,此人的名字有點奇怪,第一次看到,我以為是CNBC拼錯了,一般情況下,Alexander是英語中最常見的拼寫形式,也是國際通用的版本。而Alexandr,則是某些東歐語言(如俄語、捷克語等)的拼寫形式。一個美國華裔,居然用東歐的名字,有點蹊蹺。但我定睛一看,確實是Alexandr。
其次,這位王先生,不僅名字奇怪,更有著與眾不同的背景。他出生于1997年,是Scale AI的創(chuàng)始人兼CEO。24歲時,Alexandr Wang成為了世界上最年輕的「白手起家」的億萬富翁。根據(jù)福布斯的說法,截至2024年7月,他的身價為20億美元。
他是中國移民的兒子,父母都在洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)擔(dān)任物理學(xué)家,核武器就誕生在這個實驗室。中國人能在這種單位工作,非常罕見。
Alexandr 從小就對數(shù)學(xué)和計算機編程充滿熱情。他在2013年獲得了美國隊的數(shù)學(xué)奧林匹克資格。在十幾歲時,他就在美版知乎Quora擔(dān)任軟件程序員。隨后,他在麻省理工學(xué)院學(xué)習(xí)計算機科學(xué),但中途退學(xué),創(chuàng)辦了Scale AI,成了硅谷的AI神童。
Alexandr說:Deep Seek至少有5萬張英偉達H100顯卡,只不過因為制裁的原因,不方便說而已。事后,我看了好幾遍CNBC電視臺的采訪,他的原話是as my understanding,也就是「按照我的理解」,而沒有任何實錘的證據(jù)。
根據(jù)Deep Seek的說法,訓(xùn)練模型只用了2048張H800顯卡,也就是H100的閹割版,價格也只有H100(3萬美刀)的三分之一。正因為用了低配的硬件,才體現(xiàn)了Deep Seek的創(chuàng)新價值。

而Alexandr Wang暗示了,Deep Seek只不過也是大力出奇跡而已,根本沒有什么創(chuàng)新。
那么5萬張H100顯卡意味著什么呢?
今年,馬斯克用全球最大AI超算Colossus轟動了整個世界,這臺超算也只配備了10萬張英偉達H100顯卡。
即便Alexandr Wang說的是真話,5萬張英偉達H100顯卡,總價就至少15億美元。折合一百多億人民幣。一個小小的幻方公司,能拿出這么多錢嗎?就算有,H100美國禁運,中國大陸根本沒貨,也很難買到。
再退一步講,就算Deep Seek能拿出這么多錢,買5萬張英偉達H100顯卡,它的成本就和Open AI不相上下了,但Deep Seek是開源免費的,而Open AI要200美元一個月。
因為Deep Seek,我也是人生第一次,學(xué)會了用API。我用中國手機開了一個賬戶,就送10元人民幣,我用Deep Seek API翻譯文本,百萬輸入 tokens才2元,用了一個晚上,才花了0.11元。這已經(jīng)不能算白菜價了,幾乎就是免費!從售價倒推成本,Deep Seek也不可能擁有5萬張H100顯卡。
總之,無論從哪個角度看,Alexandr Wang的論點都站不住腳,但他的說法,依然有價值。
一方面,證明了Deep Seek的技術(shù)真的牛叉,已經(jīng)牛到要用5萬張H100顯卡才能訓(xùn)練。
另一方面,說明Deep Seek的影響力太大,以至于Alexandr Wang有點慌了,口不擇言。

那么,為啥Alexandr Wang要慌呢?
我不是什么AI專家,但根據(jù)我這幾天索閱讀的大量信息理解,Deep Seek可能是一只巨型的黑天鵝,她正在硅谷的上空游蕩。
1/ 目前,訓(xùn)練頂級AI大模型的成本極其高昂。OpenAI等巨頭,需要擁有數(shù)萬個H100顯卡的大型數(shù)據(jù)中心。每塊最低3萬美元,總價就要十幾億美元,而且耗電量驚人,需要一整座發(fā)電廠提供電力。他們僅在訓(xùn)練模型上,就要花費數(shù)億美元。
2/ Deep Seek突然出現(xiàn)并說:「哈哈,如果我們花 500 萬美元做這件事會怎么樣?」他們不只是說說而已,而是真的做到了。Deep Seek的模型在許多任務(wù)上,甚至擊敗了 GPT-4 和 Claude。硅谷的人工智能世界,瞬間就懵了,AI天才Alexandr Wang語無倫次了。
3/ DeepSeek怎么做到的?他們從頭開始重新思考一切。傳統(tǒng)AI就像是把每個數(shù)字都寫成 32 位小數(shù)。而DeepSeek 說:「如果我們只使用8位小數(shù)呢?」結(jié)果,它仍然足夠準確!瞬間,所需內(nèi)存就減少了75%。
4/ 然后是他們的「多標記」系統(tǒng)。普通人工智能的閱讀方式就像一年級學(xué)生一樣:「鵝......鵝......鵝......曲......項......向......天......歌」,逐字閱讀。但DeepSeek一次讀完整段話。速度快2倍,準確率高90%,當你處理數(shù)十億個單詞時,這一點很重要。
5/ 但真正聰明的是:他們建立了一個「專家系統(tǒng)」,而沒有使用一個試圖了解一切的大型人工智能(比如讓一個人同時成為醫(yī)生、律師、工程師、木匠),只在需要時才激活特定專家,節(jié)省了大量參數(shù)。
6/ 而傳統(tǒng)模型呢?所有1.8萬億參數(shù)始終處于活動狀態(tài)。與此同時,DeepSeek總共6710億個參數(shù),一次只激活370億。這就像擁有一支龐大的團隊,但只召集每個任務(wù)真正需要的專家。
7/ 結(jié)果令人震驚,訓(xùn)練成本:數(shù)億美元 → 500萬美元;所需GPU:100000 → 2000 ; API 成本:便宜 95%;可以在普通游戲顯卡上運行,而不是數(shù)據(jù)中心硬件。
8/ 最瘋狂的部分——DeepSeek是開源的(完全免費)。任何人都可以使用,代碼是公開的。技術(shù)論文解釋了一切,這不是魔術(shù),只是令人難以置信的巧妙工程?,F(xiàn)在x最流行的一個梗,Open AI → Closed AI(閉源AI),取而代之的是DeepSeek,才是真正的Open AI (開源AI)。
9/ 為什么DeepSeek很重要?因為它打破了「只有大型科技公司才能涉足人工智能」的神話。你不再需要價值數(shù)十億美元的數(shù)據(jù)中心,幾個好的游戲顯卡,就可以做到這一點。
10/ 對英偉達來說,這很可怕。他們的整個商業(yè)模式都建立在利潤率高達90%的昂貴顯卡的基礎(chǔ)上,比如售價高達三四萬美元的H100,奇貨可居,有錢都買不到。如果每個人都能突然用普通的游戲顯卡做AI……那么,你就知道問題所在了。
11/ 關(guān)鍵在于:DeepSeek 的團隊不到200人,但Meta的團隊僅薪酬就超過了DeepSeek 的整個訓(xùn)練預(yù)算……而Meta的模型卻不如DeepSeek。
12/ 這是一個經(jīng)典的顛覆故事:既有者優(yōu)化現(xiàn)有流程,而顛覆者重新思考根本方法。
13/ DeepSeek就像一次地震,余震太大:人工智能開發(fā)變得更加容易,競爭加劇,大型科技公司的「護城河」看起來更像水溝,硬件要求(和成本)大幅下降
14/ 當然,OpenAI 等巨頭不會坐以待斃。但一切都要顛覆,再也不是大力出奇跡的模式了。
DeepSeek這只黑天鵝,扇動翅膀,整個硅谷都會被波及,效應(yīng)可以總結(jié)為以下幾點。
AI初創(chuàng)企業(yè)危機:Deep Seek的高性能可能導(dǎo)致大量購買英偉達顯卡的AI初創(chuàng)企業(yè)破產(chǎn),釋放大量二手GPU。對Scale AI的CEO兼創(chuàng)始人Alexandr Wang來說,這是攸關(guān)生死的存亡之爭,口出惡言,也可以理解。
數(shù)據(jù)中心業(yè)務(wù)受挫:大型數(shù)據(jù)中心運營商,其租用英偉達顯卡的商業(yè)模式將受到?jīng)_擊。
科技巨頭減緩采購:科技巨頭們可能因庫存積壓,減少對英偉達顯卡的采購。
英偉達前景堪憂:上述因素疊加,可能導(dǎo)致英偉達的業(yè)務(wù)全面下滑。
X上,有一個金融大V說了一句:deepseek better not be the real deal...(deepseek 最好不是真的......)然后配了一張讓人不寒而栗的圖。

75年高點:圖表顯示,美國股市位于75年來的最高點。
Magnificent 7:這個詞指的是目前美國股市中表現(xiàn)最好的七家科技巨頭公司,它們在很大程度上推動了美國股市的上漲。
兩次泡沫:分別是上世紀60年代的Nifty 50泡沫和90年代的互聯(lián)網(wǎng)泡沫。這兩次泡沫都導(dǎo)致了股市崩盤,這一次,deepseek來了...美股會崩嗎?

最后,我們再看一看,Deep Seek團隊剛在康奈爾發(fā)表的論文,其中每一個作者都值得我們銘記,大部分都是30歲以下的年輕人,來自國內(nèi)的頂尖大學(xué),有的還在讀博士,其中,無人具有海外的學(xué)術(shù)背景。這再次表明中國在大學(xué)教育質(zhì)量上已經(jīng)趕上美國,并且未來幾十年中國在STEM畢業(yè)生方面將占據(jù)絕對的數(shù)量優(yōu)勢。
正如DeepSeek創(chuàng)始人梁文鋒所說:我們的價值在于團隊,通過這個過程不斷成長和積累專業(yè)知識。建立一個能夠持續(xù)創(chuàng)新的團隊,才是我們真正的護城河。

熱門跟貼