
作者| 高凌朗
編輯| 侯旭
短短一個月內(nèi),中國人工智能初創(chuàng)公司“DeepSeek(深度求索)“連續(xù)發(fā)布兩款重量級模型——DeepSeek-V3、DeepSeek-R1,在全球AI領域掀起軒然大波。
據(jù)AI評估網(wǎng)站Chatbot Arena最新數(shù)據(jù),1月20日開源的DeepSeek-R1在綜合榜單上排名第三,與頂尖推理模型GPT-4o并列。更令人關注的是,在高難度提示詞、代碼和數(shù)學等技術領域,DeepSeek-R1更是力壓群雄,登頂榜首。
AI分析平臺Artificial-Analysis的基準測試結果也顯示,DeepSeek-R1的AI分析質(zhì)量指數(shù)居全球第二,而API定價僅為GPT-4o的三十分之一。
一系列數(shù)據(jù)立即引發(fā)硅谷震動,Scale AI創(chuàng)始人Alexander Wang在1月24日接受采訪時坦言,DeepSeek的表現(xiàn)與美國最頂尖模型不相上下。
在此背景下,剛剛宣布將投資650億美元擴建數(shù)據(jù)中心的Meta也被卷入輿論中心。匿名職場社區(qū)teamblind傳出消息:Meta內(nèi)部工程師正在緊急分析DeepSeek的技術方案。
整個硅谷之所以變得如此緊張,正是因為DeepSeek重新定義了大模型領域的一條規(guī)則:打造一流AI模型,未必需要天價投入。

DeepSeek成立于2023年7月17日,其根源可追溯至成立于2012年的對沖基金公司—幻方量化。該公司團隊成員80%以上畢業(yè)于國內(nèi)外頂尖高校,專注于量化投資領域,通過機器學習和高頻交易策略管理約80億美元資產(chǎn)。
幻方量化及其重視技術研發(fā),先后投資12億元打造"螢火一號"和"螢火二號"深度學習平臺,擁有超過1萬張英偉達A100芯片的強大算力儲備。這一雄厚的硬件基礎為DeepSeek的研發(fā)提供了強有力支撐。
幻方量化創(chuàng)始人梁文鋒畢業(yè)于浙江大學信息與電子工程專業(yè),在量化金融與機器學習領域深耕多年。他于2020年帶領核心技術團隊獨立創(chuàng)辦DeepSeek,專注AI大模型研發(fā),并于2023年11月推出首款產(chǎn)品DeepSeekCoder,為后續(xù)技術創(chuàng)新奠定基礎。
與行業(yè)普遍"砸算力"的做法不同,DeepSeek沒有盲目追求參數(shù)規(guī)模,而是專注于提升訓練效率。
DeepSeek團隊采用稀疏的Mixture of Experts(MoE)架構,僅激活5%~10%的專家網(wǎng)絡單元,顯著降低了計算資源消耗。
同時,團隊大膽采用FP8混合精度訓練,進一步優(yōu)化了顯存占用和計算效率。這些技術創(chuàng)新讓DeepSeek實現(xiàn)了低成本高性能的突破。
說人話就是:DeepSeek的思路更加精打細算,就像把普通家用車改裝成賽車,用更少的錢實現(xiàn)更好的表現(xiàn)。
2024年12月26日,DeepSeek推出了擁有6710億參數(shù)、14.8萬億高質(zhì)量token的V3模型。相比之下,業(yè)內(nèi)流傳GPT-4o的模型參數(shù)約為2000億(未經(jīng)Open AI證實)。
最關鍵的是,DeepSeek-V3僅以557.6萬美元的訓練成本和280萬個GPU小時的計算需求,就達到了與頂尖模型媲美的性能。
另外,DeepSeek-V3的API服務價格為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens 8元。這一價格遠低于GPT-4o等頭部模型。
據(jù)統(tǒng)計,僅在2024年12月的最后6天,DeepSeek的訪問量就暴增164%,達到1180萬次。

2025年1月20日,DeepSeek再次發(fā)布DeepSeek-R1模型引爆科技圈,該模型的核心突破在于其獨特的技術路徑。
根據(jù)DeepSeek最新發(fā)布的技術白皮書,R1-Zero采用了一種前所未有的"純"強化學習方法,完全拋開了預設的思維鏈模板和監(jiān)督式微調(diào),僅依靠簡單的獎懲信號來優(yōu)化模型行為。
在AIME數(shù)學競賽中,R1-Zero從最初的15.6%正確率一路攀升至71.0%。更令人驚訝的是,當模型對同一問題進行多次嘗試時,準確率更是達到了86.7%。在編程領域,模型在Codeforces評測中達到2441分的水平,超過了96.3%的人類參與者。
除了上文所述通過MoE以及FP8混合進度訓練外。DeepSeek-R1還遵循MIT License,允許用戶通過蒸餾技術借助R1訓練其他模型。如此一來,R1模型將大幅減少對人類反饋強化學習的依賴,進一步降低了成本。
要知道,現(xiàn)有的人工智能公司在訓練過程中,必須掌握大量算力儲備,而算力的背后自然是資金支持。因此,行業(yè)投資者們紛紛驚醒,開始質(zhì)疑傳統(tǒng)AI公司高額投入的必要性。
據(jù)Noah's Arc資本管理公司分析,DeepSeek的模型可能徹底改變AI訓練和推理領域的游戲規(guī)則。特別是在OpenAI的"星際之門"計劃公布5000億美元投資預算的背景下,DeepSeek的低成本高效能更顯示出其戰(zhàn)略價值。

DeepSeek的成功正在催生AI產(chǎn)業(yè)發(fā)展模式的變化。根據(jù)中國信息通信研究院的白皮書,全球AI大語言模型數(shù)量已達1328個,其中36%來自中國,使中國成為僅次于美國的第二大AI技術貢獻國。
諾貝爾獎得主、"AI教父"杰弗里·辛頓在2025年1月接受采訪時指出,中國在STEM教育方面的優(yōu)勢將為AI發(fā)展提供堅實基礎。
根據(jù)之前的行業(yè)預測顯示,到2027年,最大型模型的訓練成本將超過10億美元。Gartner預計,到2028年主要科技巨頭在AI服務器上的支出將達到5000億美元。
在這一背景下,DeepSeek的低成本方案引發(fā)了對傳統(tǒng)發(fā)展路徑的反思。同時,來自地緣、監(jiān)管、資本等多方面的因素也正在給硅谷施加壓力。
加州大學伯克利分校AI政策研究員Ritwik Gupta認為,DeepSeek的成功表明"AI能力沒有護城河",中國龐大的系統(tǒng)工程師人才庫正在幫助企業(yè)更高效地利用計算資源。
事實上,這種發(fā)展趨勢已經(jīng)開始影響資本市場。
在DeepSeek-R1引發(fā)熱議后,作為“AI石油”的英偉達股價于今年1月24日下跌3.12%。
我們認為,如果低成本、高性能的開源模型成為主流,可能會扭轉(zhuǎn)美國公司在AI領域的技術優(yōu)勢和估值體系。
需要注意的是,在大模型領域逐漸封閉的背景下,DeepSeek選擇了開源模型并公開技術報告的差異化路線。
這一決策雖然贏得了開發(fā)者們的廣泛贊譽,但是開源策略也意味著技術優(yōu)勢難以形成壁壘,競爭對手可以輕易復制其模式,這可能會削弱DeepSeek在未來商業(yè)競爭中的優(yōu)勢地位。
另外,由于DeepSeek團隊更偏重技術路線,其模型在數(shù)學、代碼等特定領域表現(xiàn)突出,但在知識問答及長文本處理等多樣化場景方面可能存在不足。
不管怎樣,DeepSeek讓AI大模型產(chǎn)業(yè)看到了一個新的方向,這也是這兩天AI行業(yè)的興奮所在。
歡迎關注我們的其他賬號
關注下方備用號,防止失聯(lián)
熱門跟貼