本文由我和ChatGPT、Claude、DeepSeek共同完成
一. 一場中國技術(shù)引發(fā)的華爾街“地震”
2025年1月27日,中國AI公司 DeepSeek 橫空出世,一拳擊碎了硅谷的寧靜:
英偉達(dá)股價(jià)暴跌近17%,單日市值蒸發(fā)高達(dá)5888億美元,創(chuàng)下美股史上單日市值蒸發(fā)新紀(jì)錄。
Meta、微軟、谷歌等科技巨頭也隨之大幅下挫,整個科技板塊陷入恐慌情緒。
投資者開始質(zhì)疑:硅谷過去以高算力、高成本為核心的發(fā)展路徑,是否已經(jīng)走到盡頭?
華爾街投行花旗分析師阿提夫·馬利克評論道:“DeepSeek 的成就或許極具開創(chuàng)性,這無疑會沖擊美國公司在最先進(jìn) AI 模型方面的既有優(yōu)勢?!?/p>
一時(shí)之間,深度恐慌與強(qiáng)烈好奇并存,圍繞 DeepSeek 的真實(shí)水平與成本爭議不絕于耳。
在X.com上,國外網(wǎng)友們紛紛調(diào)侃,這幫人(DeepSeek)沒有搞各種高大上的東西,也沒有上播客講哲學(xué),就把這么牛的東西搞出來了。
華爾街的人心里有點(diǎn)兒緊張了:硅谷這幫家伙把錢花哪兒去了?
二. 為何 DeepSeek 能掀起軒然大波?
DeepSeek 的最核心“殺手锏”,在于其顛覆性的成本與效率。
? 據(jù)官方數(shù)據(jù),僅用 2048 塊英偉達(dá) H800 GPU 和 557.6 萬美元的投入,DeepSeek 就訓(xùn)練出規(guī)模達(dá) 6710 億參數(shù)的 DeepSeek-V3;
? 而市面上同等參數(shù)規(guī)模的 GPT-4 訓(xùn)練花費(fèi)被認(rèn)為高達(dá) 10 億美元左右。
? 后續(xù)推出的 DeepSeek-R1 模型,推理成本僅為 OpenAI 最新模型(o1)的三十分之一。
這一系列數(shù)據(jù)意味著,過去在硅谷被視為“唯有斥巨資拼算力才可達(dá)頂尖”的大模型研發(fā)模式,可能并不是唯一解。
投資者猛然意識到,這種“降本增效”的技術(shù)路徑或許會動搖硅谷多年構(gòu)筑的 AI 護(hù)城河,引發(fā)對現(xiàn)有產(chǎn)業(yè)估值和商業(yè)邏輯的集體反思。
三. Who:神秘的東方力量
DeepSeek 的創(chuàng)始人梁文峰,2023 年在杭州創(chuàng)建公司,擁有信息與電子工程背景,同時(shí)也是支持 DeepSeek 的對沖基金創(chuàng)始人。
據(jù)說他曾在美國嚴(yán)格管控前,囤積了大量英偉達(dá) A100 芯片,據(jù)傳多達(dá) 5 萬塊。
對外界而言,DeepSeek 更多像是一支低調(diào)卻“蓄謀已久”的團(tuán)隊(duì):
? 他們在算法優(yōu)化和工程實(shí)現(xiàn)上有深厚積累;
? 善用開源社區(qū)與前沿研究的成果,再加上大規(guī)模 GPU 資源;
? 秉持“算法+工程”雙重驅(qū)動,迅速在 2024 年至 2025 年期間躥升為全球矚目的新銳力量。
梁文峰曾在 2024 年 7 月接受采訪時(shí)說:“我們沒想到定價(jià)會成為如此敏感的話題。我們只是在按自己的節(jié)奏計(jì)算成本,并以此來定價(jià)。”
這番話看似平淡,卻讓業(yè)界對其背后的低成本、高效率算法模型投來更多猜測和研究。
四. 讓世界震驚的AI技術(shù)突破
DeepSeek 的崛起迅速成為全球關(guān)注焦點(diǎn):
? BBC 報(bào)道:DeepSeek 官方 App 在數(shù)天內(nèi)登頂美國應(yīng)用商店下載榜,超越了 ChatGPT 等明星應(yīng)用。
? 硅谷多位風(fēng)投大佬將 DeepSeek 稱為“AI 的斯普特尼克時(shí)刻”,意指其象征意義類似 1957 年蘇聯(lián)人造衛(wèi)星發(fā)射對美國的沖擊。
? 花旗、摩根士丹利等投行紛紛發(fā)報(bào)告指出,DeepSeek 的低成本模式,可能迫使市場重新評估 AI 芯片和大模型公司的盈利預(yù)期。
在下游行業(yè)來看,DeepSeek 的出現(xiàn)不僅是對芯片巨頭英偉達(dá)的短期重?fù)?,也讓更多?chuàng)業(yè)團(tuán)隊(duì)看見了大模型的另一種可能:
不必堆數(shù)萬塊高端 GPU,也有望獲得近似 GPT-4 的性能。這樣的沖擊力堪稱“地震級”。
五. How:創(chuàng)新的技術(shù)路徑
DeepSeek 的核心在于多項(xiàng)關(guān)鍵技術(shù)和工程策略:
1. 混合專家模型 (MoE)
將大模型拆分為多個專家模塊,只在需要時(shí)激活相應(yīng)模塊,借助“自然負(fù)載均衡”來避免單個專家過載。大幅減少無效計(jì)算,實(shí)現(xiàn)高度稀疏化訓(xùn)練與推理。
2. 多頭潛注意力 (MLA)
與傳統(tǒng)多頭注意力相比,額外引入潛向量,動態(tài)調(diào)整注意力分配,從而減少內(nèi)存占用,并提升訓(xùn)練效率。
3. 雙重流水線 (DualPipe)
把 GPU 計(jì)算和數(shù)據(jù)傳輸交替運(yùn)行,提高資源利用率,避免 GPU 在等待數(shù)據(jù)或通信時(shí)出現(xiàn)空轉(zhuǎn)。
4. 強(qiáng)化學(xué)習(xí)與監(jiān)督微調(diào)相結(jié)合
在少量 SFT(監(jiān)督微調(diào))數(shù)據(jù)的基礎(chǔ)上,多輪強(qiáng)化學(xué)習(xí) (RL) 的策略讓模型能自發(fā)學(xué)會復(fù)雜推理(CoT)和自我反思(reflection),最終推動模型整體質(zhì)量逼近甚至超過 GPT-4 在部分領(lǐng)域的表現(xiàn)。
形象地說,硅谷的主流做法好比用 5 升排量的“大肌肉車”暴力驅(qū)動;DeepSeek 則像島國車廠,通過渦輪增壓、輕量化設(shè)計(jì)等精密工程,讓 2.5 升排量跑出了 5 升排量的性能。
六. But:被高估的光環(huán)?
面對如此驚艷的數(shù)字,一些質(zhì)疑聲隨之而起:
1. 真正的成本?
官方聲稱 557.6 萬美元只是訓(xùn)練開銷,但可能未包含人力、消融實(shí)驗(yàn)、數(shù)據(jù)清洗等隱形成本。真實(shí)總支出尚無定論。
2. 站在巨人肩膀上
DeepSeek 并非從零開始發(fā)明新技術(shù),而是充分利用了 OpenAI、Meta 等公司在大模型領(lǐng)域打下的基礎(chǔ),然后專注“工程放大”。它的貢獻(xiàn)更多在“從 1 到 10”的優(yōu)化,而非“從 0 到 1”的顛覆。
3. 是否存在炒作?
英偉達(dá)股價(jià)的斷崖式下跌,讓許多人懷疑這是對沖基金與媒體的刻意配合,用“廉價(jià)大模型”來制造恐慌,從而大舉做空美股科技板塊。
七. 長期利好:杰文斯悖論再現(xiàn)
19 世紀(jì)時(shí),杰文斯在研究蒸汽機(jī)時(shí)發(fā)現(xiàn):
當(dāng)效率提高、成本下降,人們反而會使用更多煤炭。
這就是所謂杰文斯悖論。
類似地,AI 成本的急劇下降,可能刺激更多企業(yè)、機(jī)構(gòu)部署大模型,從而整體算力需求不降反升。
? 短期看,英偉達(dá)和部分科技股大跌,投資者恐慌;
? 長遠(yuǎn)看,隨著 AI 應(yīng)用擴(kuò)展到更多領(lǐng)域,GPU 及相關(guān)算力的需求量或會爆發(fā)式增長。
“低成本” 并不意味著對硬件的永遠(yuǎn)利空;
相反,它可能正是讓 AI 普及走向全行業(yè)、日?;年P(guān)鍵一步。
八. 顛覆性影響已現(xiàn)
截至目前,DeepSeek 的模型已在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測試中取得突破,更重要的是,它啟示了整個行業(yè):
? AI 初創(chuàng)公司 無需與大廠在硬件規(guī)模上硬碰硬,也能通過算法和工程手段繞出一條新道路;
? 下游產(chǎn)業(yè) 可以更快、更低門檻地享受到大模型紅利;
? OpenAI、Meta 等巨頭 需要重新定義競賽策略,或轉(zhuǎn)向更靈活、更輕量的技術(shù)路徑來維持領(lǐng)先。
DeepSeek 亦證明了純粹的結(jié)果獎勵 (outcome reward RL) 就能將大模型推向接近 GPT-4 的水平,這是對“過程監(jiān)督”必要性的挑戰(zhàn),其學(xué)術(shù)與產(chǎn)業(yè)價(jià)值不容小覷。
九. AI 泡沫的警鐘
DeepSeek 這一事件短期內(nèi)刺破了部分 AI 估值的“泡沫感”。
英偉達(dá)單日蒸發(fā) 5888 億美元市值,Meta、微軟、谷歌等科企也大幅下跌,表明市場對“燒錢堆算力、利潤必然滾滾而來”的邏輯開始動搖。
硅谷數(shù)年里高舉的“只要有算力就能贏”論斷,正面臨劇烈震蕩。
美國科技行業(yè)被迫思考:
當(dāng)有人找到另一條更廉價(jià)、更高效的路,還能繼續(xù)依賴硬件制裁或大額融資拉開差距嗎?
還是說必須在軟件算法、工程調(diào)度等層面重新下功夫?
十. 一朵“便宜而美麗的郁金香”?
17世紀(jì)的荷蘭,郁金香球莖一度被炒至天價(jià)。傳說中,某個被隨意扔在地上后壓壞的球莖,讓投機(jī)者如夢初醒,“郁金香泡沫”自此轟然倒塌。
現(xiàn)如今,DeepSeek 有點(diǎn)兒像那朵“便宜而美麗的郁金香”,似乎正扮演類似的“泡沫刺破者”角色。
但要警惕的是,AI 并非純粹的投機(jī)產(chǎn)物,其價(jià)值并不只在“炒作”與“稀缺”,而是真真切切能賦能產(chǎn)業(yè)、提升效率、變革社會。
所以,AI 并不是17世紀(jì)荷蘭的郁金香。它的真正意義在于技術(shù)革命與產(chǎn)業(yè)升級,而非一時(shí)的狂熱投機(jī)。
DeepSeek 確實(shí)像一朵“廉價(jià)卻驚艷”的新式郁金香,引得市場震動,卻也可能預(yù)示新的時(shí)代風(fēng)潮:
? 若其低成本模式被進(jìn)一步驗(yàn)證,將大幅降低 AI 入場門檻;
? 整個行業(yè)可能因這次“低成本沖擊”而演化出多元化路線,更大規(guī)模的 AI 落地也將隨之加速;
? 那些仍在盲目燒錢、單純依賴算力壁壘的巨頭,或?qū)⒅匦略u估自身定位。
最終,DeepSeek 能否持續(xù)帶來改變,尚需時(shí)間檢驗(yàn)。
但毫無疑問,它讓我們看到了 AI 的另一種未來:
不只有昂貴的 GPU、大規(guī)模融資才能推動變革,以巧妙的工程與算法創(chuàng)新,一朵“便宜而美麗”的 AI 郁金香也能在國際舞臺上綻放。
這或許正是 2025 年開年以來,最值得銘記的一幕。
從技術(shù)走向現(xiàn)實(shí),誰能以更合理的成本、更具創(chuàng)造力的思路,將 AI 力量釋放到千行百業(yè)?
DeepSeek 已經(jīng)給出它的答案,未來尚有更多可能,等待我們共同見證。

熱門跟貼