打開網(wǎng)易新聞 查看精彩圖片

2月10日至11日,巴黎舉辦了人工智能(AI)行動峰會。《紐約時報》稱,與過去一個月的所有AI活動一樣,巴黎AI峰會上充滿了關于中國人工智能企業(yè)深度求索(DeepSeek)的討論,這家中國公司以其強大的推理模型震驚了世界。據(jù)《財經(jīng)》雜志統(tǒng)計,百余家中國公司已經(jīng)宣布“接入DeepSeek”,覆蓋從芯片、算力服務商到AI用戶到最終用戶各級生態(tài)圈。

開年復工后的第一次全員周會上,峰瑞科技組的同事們對DeepSeek進行了深入討論。本文將通過七個關鍵問題,剖析DeepSeek爆火的原因及其帶來的多維度影響:

  • DeepSeek為什么這么火?

  • DeepSeek真正的技術(shù)創(chuàng)新是什么?

  • 為什么是DeepSeek?

  • Scaling law還成立嗎?

  • DeepSeek給其他模型廠商帶來什么影響?

  • DeepSeek對硬件生態(tài)帶來什么影響?

  • DeepSeek如何影響應用生態(tài)?

此外,我們還在文末總結(jié)了部分與此相關的投資機會。

在這個AI技術(shù)飛速發(fā)展的時代,DeepSeek的故事或許只是開始。

互動福利

你如何看待DeepSeek帶來的新機會?歡迎在留言區(qū)和我們聊聊~截止至2月25日17:00,留言最走心的5位讀者,將獲得峰瑞行研手冊一份。

打開網(wǎng)易新聞 查看精彩圖片

/ 01 /

DeepSeek為什么這么火?

打開網(wǎng)易新聞 查看精彩圖片

第一個問題,我們先來回答DeepSeek到底為什么這么火?

從我們的觀察來看,DeepSeek這一輪的爆火,有20%是得益于技術(shù)創(chuàng)新,80%是來自于它從開源生態(tài)中獲得影響力和背后的中國元素。

技術(shù)上,簡單說,DeepSeek用極低的算力成本,實現(xiàn)了比肩全球一線預訓練大模型的能力。以及,DeepSeek第一次真正公開了用強化學習(Reinforcement Learning,簡稱RL)做推理模型的可能路徑。強化學習是一種機器學習方法,通過智能體(Agent)與環(huán)境(Environment)的交互,學習最佳策略。

實話說,僅靠這些,DeepSeek可能還不足以引起全球范圍內(nèi)如此強烈的反應。

更多的影響力其實要歸功于這些創(chuàng)新背后的中國元素。某種程度上,由于海內(nèi)外的信息差,中國團隊這一次推出的大語言模型使人們驚訝——中國AI行業(yè)的發(fā)展情況可能與OpenAI所代表的最先進水平之間,沒有想象中差距那么大。但同時,DeepSeek也引發(fā)了很多質(zhì)疑和討論。當然,這些都是短期影響。

長期來看,DeepSeek的成功給中國帶來了更多進行技術(shù)創(chuàng)新的信心,無論是投資人還是創(chuàng)業(yè)者,可能都從其中看到了更多的可能性。

另外,開源這件事情功不可沒。DeepSeek作為后來者,不像海外大廠,沒有什么包袱,所謂“光腳的不怕穿鞋的”。DeepSeek幾乎將其所有研究成果都直接開源,打破了OpenAI o1系列模型的壟斷地位,這對整個圈子造成很大的沖擊。

小結(jié)

所以,理性來看DeepSeek出圈這件事,市場情緒因素占大頭。 當然,我們也不能否認DeepSeek團隊確實在技術(shù)上做了很多創(chuàng)新。

/ 02 /

DeepSeek真正的技術(shù)創(chuàng)新是什么?

DeepSeek從成立至今,一共發(fā)過9篇論文。其實在大模型技術(shù)圈子里,大家對DeepSeek的技術(shù)實力早有認知。

DeepSeek技術(shù)創(chuàng)新的答案,在2024年底和2025年年初發(fā)布的兩篇技術(shù)報告——《DeepSeek-V3 Technical Report》、《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,以及它們推出的開源模型之中。

從目前的觀察而言,DeepSeek的技術(shù)貢獻主要體現(xiàn)在工程上的創(chuàng)新。它沒有發(fā)明新的范式,但在現(xiàn)有技術(shù)的基礎上進行了大量優(yōu)化。

讓我們著重看看讓DeepSeek出圈的核心工作:

一、DeepSeek V2

2024年5月,DeepSeek發(fā)布了V2模型,將API(Application Programming Interface,應用程序編程接口)價格大幅降低,定價為每百萬tokens輸入1元人民幣、輸出2元人民幣,直接將價格打到GPT-4的1/35。

DeepSeek掀起了大模型市場的價格革命。據(jù)《21世紀經(jīng)濟報》報道,2024年5月,百度旗下文心大模型兩款主力模型全面免費。阿里云緊隨其后,將通義千問GPT-4級主力模型的API輸入價格從0.02元/千tokens降至0.0005元/千tokens,降幅達97%。

DeepSeek V2的性能已經(jīng)接近GPT-4,成為性價比極高的選擇??梢哉f,國內(nèi)其他同行還在努力追趕GPT-4的性能時,DeepSeek已經(jīng)憑借低價和高性能脫穎而出。

二、DeepSeek V3

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek V3在V2的版本上,進一步強化了降本增效的能力。V3相當于是對標OpenAI GPT4o的預訓練大模型,它以極低的算力成本,實現(xiàn)了和其他模型同等甚至表現(xiàn)更好的結(jié)果。

DeepSeek之所以能做到降本增效,可能要歸功于團隊在工程層面做了大量的工作和創(chuàng)新,比如,在算法軟件框架以及配合硬件的實現(xiàn)方面。

在軟件上,核心有兩點,一個是MoE(Mixture of Experts,專家混合模型)的專家模型架構(gòu),“用空間換時間”。

2023年,法國AI公司Mistral AI最早大規(guī)模開源MoE模型,它曾經(jīng)推出Mixtral 8x7B模型,采用了8個專家,每次推理時激活其中的2個專家。

DeepSeek則增加了專家數(shù)量,縮小了每個模型的規(guī)模。雖然單個專家性能有所下降,但整體性能卻因“人多力量大”而提升。

具體來說,DeepSeek的MoE架構(gòu)把前向推理網(wǎng)絡劃分成了1個共享專家以及256個獨立專家。模型每次預測的時候,只會激活共享專家以及另外256個專家中的8個專家,大大降低了算力消耗。

此外,DeepSeek還在訓練過程中通過偏離函數(shù),調(diào)整專家負載,避免出現(xiàn)“強者越強,弱者越弱”的馬太效應。

雖然MoE架構(gòu)很有價值,但在不少應用場景里,Dense Model(單一專家模型)也有優(yōu)勢,比如面向B端的專用領域或者端側(cè)小模型。所以,我們也不能完全下定論,認為MoE未來就會“一統(tǒng)江湖”。大家有各自不同的模型架構(gòu),選擇的應用場景也不同。

另一點,MLA(Multi-head Latent Attention,多頭潛在注意力)是DeepSeek成為“價格屠夫”的核心技術(shù)之一,這種方法是“用時間換空間”。

大模型推理離不開Attention計算,而Attention計算中,KV緩存(Key-Value 緩存)是主要的存儲開銷。在Transformer模型的自注意力機制中,輸入元素會被轉(zhuǎn)換成查詢(Query)、鍵(Key)和值(Value)這三種類型。KV 緩存就是在推理過程中,把先前步驟計算得到的 Key 和Value矩陣緩存起來,避免在生成新token時重復計算整個序列的Key和Value。

DeepSeek通過矩陣分解的方法,將KV緩存壓縮后再投影回高維空間,從而大幅降低了存儲開銷。這種技術(shù)原理簡單但非常有效,實現(xiàn)了推理價格驟降。

MOE和MLA結(jié)合在一起,降低了模型對硬件算力和顯存帶寬的需求,因此,DeepSeek讓整體成本下降了一個數(shù)量級。

打開網(wǎng)易新聞 查看精彩圖片

前面談到的是軟件架構(gòu)上的創(chuàng)新,那么在硬件架構(gòu)實現(xiàn)上,DeepSeek V3第一次公開了很多新的工作。比如,用低精度的FP8(即8位浮點數(shù)表示法,是一種用于提高計算效率和動態(tài)范圍的數(shù)據(jù)格式)做了大量的計算工作。再比如,通過大量PTX(Parallel Thread Execution,是NVIDIA為其GPU設計的一種并行指令集架構(gòu))的底層開發(fā)能力,“壓榨”硬件的性能,來降低計算和通信的開銷。

所以,從DeepSeek V3整體的工作來看,其實沒有太多概念創(chuàng)新,大多是站在前人肩膀上,優(yōu)化了MoE、MLA等已有的方法,但卻有極高壁壘的工程創(chuàng)新。

以及,還有一個問題值得我們思考——V3中的這些工作,是團隊主動創(chuàng)新的結(jié)果?還是只是硬件資源受限情況下的被動選擇?如果能有更多更強的算力資源,這些創(chuàng)新是否還會出現(xiàn),以及是否還有必要?

三、R1 Zero和R1

打開網(wǎng)易新聞 查看精彩圖片

接下來我們再看看R1 Zero和R1,它們是對標OpenAI o1系列的推理模型。自從o1發(fā)布之后,業(yè)界和學術(shù)界對它的實現(xiàn)方法有很多猜想,甚至還有人說OpenAI團隊主動放出了一些不相關或錯誤的方向來誤導大家。

拋開這些猜測不談,這次DeepSeek發(fā)布了R1,實實在在地通過自己的探索,用強化學習實現(xiàn)了比肩o1的推理大模型,并開源了相關的工作,非常厲害。從我們的觀察來看,強化學習是通向AGI的一個遞進路徑,業(yè)界已經(jīng)在嘗試這個方向。

為什么在當下,大模型們開始“卷”起了推理能力?

這一趨勢的背后,是大模型在開放性問題上難以超越人類的困境。盡管大模型在諸多任務上表現(xiàn)出色,但在需要深度推理和專業(yè)知識的復雜問題上,它們?nèi)匀幻媾R巨大挑戰(zhàn)。

以GPQADiamond基準數(shù)據(jù)集為例,該數(shù)據(jù)集專門用于評估模型在復雜問題上的推理能力和專業(yè)知識水平。即使是經(jīng)過博士學術(shù)訓練的人類,回答這些問題的準確率大約在65%到70%之間。而目前,大多數(shù)大模型在這類問題上的表現(xiàn),仍遠低于人類水平。

可喜的是,已經(jīng)有少數(shù)領先的大模型,如DeepSeekR1、OpenAI o1,它們在GPQADiamond等難題上的表現(xiàn),已經(jīng)超過經(jīng)過博士學術(shù)訓練的人類。

打開網(wǎng)易新聞 查看精彩圖片

這種進步揭示了行業(yè)競爭的焦點正在從單純的規(guī)模擴展轉(zhuǎn)向更深層次的智能優(yōu)化。推理能力的“內(nèi)卷”,可能意味著大模型進入了新的發(fā)展階段。

同樣是推理模型,R1 Zero和R1有所區(qū)別:

R1 Zero是更純粹的RL-based Model,用DeepSeek自己的預訓練模型V3,沒有經(jīng)過任何人類知識的調(diào)教,直接用一些數(shù)學或者代碼的這類有明確“ground truth”(真實值,在機器學習和計算機視覺領域,指的是數(shù)據(jù)集中每個樣本的真實標簽或結(jié)果)的問題,做強化學習,得到了不錯的結(jié)果。

R1相比R1 zero,用了更多工程化的方法,也加入了類似模仿學習的SFT(監(jiān)督微調(diào)),進一步提升語言能力和全面性能,用戶來說更好友好。

具體的技術(shù)細節(jié)和評測結(jié)果不詳細展開了,強烈建議大家去讀《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》這篇論文,寫得非常清楚、優(yōu)美。(歡迎你點擊文末的“閱讀原文”,下載這篇論文)

某種程度上,DeepSeek R1也沒有發(fā)明任何新范式。OpenAI已經(jīng)給業(yè)界指明了方向,一個是用純粹的強化學習而非人類反饋做后訓練,來提升模型推理能力。

另一個是Test-Time Compute的方法,通過延長推理時間,來提高輸出質(zhì)量。模型不是直接輸出結(jié)果,而是先推理出中間結(jié)果,隨著推理時間的增加,最終結(jié)果的質(zhì)量也會提升。這一點在大家用DeepSeek過程中應該都有體會,就是看到的那個中間有點兒自言自語的思考過程。

因此,DeepSeek核心的貢獻是幫助強化學習、Test-Time Comput這兩個范式快速出圈。相比其他模型廠商,它手比較快,而且直接把工作開源了。

但無論是R1中的強化學習框架GRPO,還是上文提到的用很多數(shù)學、代碼問題來做reward(獎勵機制),都是一些相對常用的方法。DeepSeek R1更多還是靠V3的強大能力,能在有限的搜索空間內(nèi)找到正確答案,從而幫助模型快速迭代和收斂。打個比方,如果基礎模型不夠好,可能需要從1萬個樣本中找到1個正確答案;而好的基礎模型,則可以在100個樣本中找到正確答案,從而大大加快迭代收斂的速度。

小結(jié)

總的來說,DeepSeek的技術(shù)貢獻主要體現(xiàn)在工程上的創(chuàng)新。盡管它沒有發(fā)明新的范式,但在現(xiàn)有技術(shù)的基礎上進行了大量優(yōu)化,特別是在強化學習應用于推理模型方面。我們需要以更理性的心態(tài)來看待DeepSeek爆火。

/ 03 /

為什么是DeepSeek?

打開網(wǎng)易新聞 查看精彩圖片

為什么是DeepSeek?

首先,從整體上看,模型的發(fā)展速度雖然很快,但其實AI行業(yè)整體的創(chuàng)新速度放緩了,不同團隊的認知差異也在縮小,大家能想到的方法正在逐漸收斂。這種現(xiàn)象跟國別無關,是全球?qū)W術(shù)界和產(chǎn)業(yè)界共通的情況。當技術(shù)創(chuàng)新變慢的時候,中國團隊的工程能力優(yōu)勢就體現(xiàn)出來了。

第二,我們也不能忽視DeepSeek背后的這家公司——幻方量化,以及其“工程基因”的影響。要做好量化交易,一方面需要有強大的策略,但另一方面,能否以最快的速度執(zhí)行這些策略可能更為關鍵。哪怕只是納秒級別的速度優(yōu)勢,也可能決定你在某次交易中能否賺錢。

幻方量化的基因使得DeepSeek在底層硬件優(yōu)化和開發(fā)方面擁有豐富經(jīng)驗,從而能夠加速算法的執(zhí)行效率。例如,幻方量化在過去面對復雜的量化交易任務時,可能需要對FPGA(現(xiàn)場可編程門陣列)進行深度定制研發(fā),并在C語言中嵌入?yún)R編語言,以提高硬件調(diào)度的效率。

這些工程經(jīng)驗已經(jīng)體現(xiàn)在DeepSeek的V3版本中。比如,在優(yōu)化GPU時,DeepSeek大量使用了在量化中交易中經(jīng)常用到的底層開發(fā)思路,選擇“繞過CUDA”,直接使用PTX進行編程,從而進一步提升性能。

第三點,DeepSeek的商業(yè)模式和開源文化,支撐了他們的長期發(fā)展。這種長期性能夠幫助團隊建立研究導向和創(chuàng)新的文化。DeepSeek可能沒有短期的營收和商業(yè)化壓力,反而能吸引更多真正想做事的人才,“做正確而非容易的事情”。

小結(jié)

DeepSeek的成功源于多方面的優(yōu)勢:在AI行業(yè)整體創(chuàng)新放緩的背景下,中國團隊的工程能力優(yōu)勢凸顯;孵化公司幻方量化在硬件優(yōu)化和高效執(zhí)行方面的經(jīng)驗影響了DeepSeek;DeepSeek的商業(yè)模式和開源文化,使團隊能夠?qū)W⒂诩夹g(shù)創(chuàng)新而非短期商業(yè)化壓力。

/ 04 /

Scaling law還成立嗎?

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek發(fā)展到了今天,那么大模型的未來會走向哪里?Scaling Law(縮放定律)還會成立么?

大模型最開始出現(xiàn)時,其根基就是Scaling Law。Scaling Law描述了隨著數(shù)據(jù)量、計算資源和模型參數(shù)的增加,語言模型性能如何顯著提升。具體來說,從GPT到GPT-4,研究人員通過增加更多的數(shù)據(jù)、算力和模型參數(shù),使得模型效果顯著提高。這種規(guī)律為設計更大規(guī)模的模型提供了理論依據(jù),并成為近年來大模型發(fā)展的核心驅(qū)動力。

那么,Scaling Law在未來是否仍然成立?我們可以從三個方面來看。

一、預訓練階段:Scaling Law接近極限

在預訓練階段,目前業(yè)界共識是Scaling Law已經(jīng)接近極限。主要問題在于缺乏新的高質(zhì)量數(shù)據(jù)。在這種情況下,盲目增加模型參數(shù)可能導致過擬合,也就是說,模型對于見過的數(shù)據(jù)表現(xiàn)很好,但泛化能力反而下降,從而影響模型的整體性能。例如,OpenAI在開發(fā)GPT-5時遇到的困難,也反映了這一挑戰(zhàn)。盡管如此,研究者們?nèi)栽谂ν七M。

二、后訓練階段:Scaling Law優(yōu)勢顯現(xiàn)

在后訓練階段(post-training),Scaling Law的優(yōu)勢變得更加明顯。無論是傳統(tǒng)的監(jiān)督微調(diào)(SFT),還是基于人類反饋的強化學習(RL),都能看到這種優(yōu)勢。最新的DeepSeek和其他模型系列已經(jīng)開始采用基于強化學習的后訓練范式,顯示出良好的規(guī)模效應。

值得注意的是,在后訓練階段,目前所需的算力還相對較少,平均僅占預訓練階段的1%不到。當然,這一比例正在逐漸增加。據(jù)業(yè)內(nèi)人士推測,R1的后訓練算力占比已經(jīng)接近10%。如果能進一步擴大后訓練的規(guī)模效應,那么模型的整體性能有望得到進一步提升。

然而,在后訓練階段,大模型仍面臨一些挑戰(zhàn),比如,怎么定義reward,這是做好強化學習的關鍵;以及獲取高質(zhì)量的數(shù)據(jù),特別是專業(yè)問答和CoT(Chain of Thought,思維鏈)數(shù)據(jù)。目前,學術(shù)界和產(chǎn)業(yè)界正在探索人工標注和合成數(shù)據(jù)的方法來解決這些問題。

三、推理階段:延長推理時間,提升性能

在推理階段,Scaling Law同樣有所體現(xiàn),比如在上文提到的Test-Time Compute上。模型的輸出過程本質(zhì)上是一個計算過程。如果允許模型有更長的思考時間,它可以通過反復嘗試和自我修正來優(yōu)化答案。例如,模型可能一開始給出簡單的答案,但在中間發(fā)現(xiàn)錯誤并進行調(diào)整,最終得出更準確的結(jié)果。這種方法能夠顯著提高模型輸出的準確性,也是Scaling Law的一個具體表現(xiàn)。

小結(jié)

總結(jié)來看,Scaling Law仍然成立,只不過應用范式發(fā)生了變化,其在后訓練和推理階段依然具有重要意義。

/ 05 /

Deepseek給其他模型廠商

帶來什么影響?

首先,我們需要明確一點:DeepSeek目前主要是一個大語言模型,暫時不具備多模態(tài)的能力。在與其他有多模態(tài)能力的模型進行比較時,需要考慮到這一點。

一、對海外大廠的影響

對于海外的大廠,如OpenAI(GPT-4系列)、Anthropic(Claude 3.5)和Google(Gemini 2.0),這些公司在多模態(tài)能力、泛化能力以及工具鏈開發(fā)者生態(tài)方面仍然具有顯著優(yōu)勢。它們有很多的儲備技術(shù),因為戰(zhàn)略考慮可能暫時不會都放出來。此外,它們在算力資源上也有明顯的優(yōu)勢。

盡管DeepSeek引起了廣泛關注,但我們?nèi)孕枵暸c這些海外一線公司的差距,實現(xiàn)真正的超越還有很長的路要走。

就在2月18日, 馬斯克的xAI 發(fā)布了更新版 Grok 3大模型。 在直播的現(xiàn)場演示中,Grok 3在數(shù)學、科學和編程基準測試中,擊敗了包括DeepSeek的V3模型和GPT-4o在內(nèi)的多個模型。

二、對國內(nèi)模型廠商的影響

在國內(nèi)市場,DeepSeek對于對面向消費者的(ToC)模型廠商影響較大,對于面向企業(yè)的(ToB)模型廠商影響相對較小。

在ToC領域,部分廠商可能會感受到較大的沖擊。這些廠商面臨的挑戰(zhàn)更多在于開源與商業(yè)化的選擇:如果保持閉源,是否能達到一線模型水平?如果選擇開源,是否會顛覆現(xiàn)有的商業(yè)模式?

不過,我們不能低估國內(nèi)其他模型廠商團隊的技術(shù)創(chuàng)新能力。比如Kimi最新發(fā)布的K1.5模型在學術(shù)界獲得了很高的評價,其工程創(chuàng)新也非常值得學習。

目前來看,ToB的模型廠商也受到了一定的影響。長期來看,企業(yè)客戶會做出理性決策,但在短期內(nèi),可能受市場情緒影響,嘗試使用DeepSeek。這有助于教育市場,但長期效果還需觀察。

此外,DeepSeek本身其實也要考慮如何持續(xù)“接住潑天的富貴”。未來,DeepSeek是否會通過融資擴大規(guī)模,還是繼續(xù)保持小規(guī)模專注于研發(fā)?我們拭目以待。

三、對開源社區(qū)的影響

DeepSeek對開源社區(qū)無疑是利好的。DeepSeek爆火,將促使其他開源模型(如Llama)不斷創(chuàng)新,而不是固守已有成果。這對整個社區(qū)的發(fā)展是有益的,同時也促進了閉源廠商的進步。

四、對小模型公司的影響

DeepSeek曾在論文中展示了通過大模型的能力蒸餾(distillation)來提升小模型推理能力的可能性,并同步開源了基于通義千問Qwen或Llama的蒸餾模型。這表明,優(yōu)秀的“老師”模型可以更高效地指導小模型學習。

這將對自研模型的中小企業(yè)產(chǎn)生積極影響。尤其是在端側(cè)部署的應用中,無論是C端還是B端應用,或許能借助這一方法提升性能。

小結(jié)

整體來看,DeepSeek雖然在多模態(tài)等方面有欠缺,但其無疑在推動行業(yè)的發(fā)展。我們既不能低估國內(nèi)團隊的技術(shù)創(chuàng)新能力,也需正視與這些海外一線公司的差距,想要實現(xiàn)真正的超越,我們還有很長的路要走。

/ 06 /

DeepSeek對硬件生態(tài)帶來什么影響?

打開網(wǎng)易新聞 查看精彩圖片

接下來,我們討論一下DeepSeek對硬件生態(tài)的影響。在DeepSeek最火的那幾天,它對整個美股市場,尤其是英偉達的股價造成了短期沖擊。那么,未來DeepSeek是否會挑戰(zhàn)英偉達的地位?

要回答這個問題,我們首先需要了解英偉達的核心壁壘是什么。英偉達的核心壁壘不僅僅在于其單芯片的設計能力,盡管這一點已經(jīng)非常強大。更重要的是,英偉達通過其芯片互聯(lián)能力(如InfiniBand、NVLink以及強大的軟件生態(tài)系統(tǒng)CUDA)形成了一個堅固的生態(tài)壁壘。這種生態(tài)壁壘是英偉達最核心的能力之一。

了解了英偉達的核心競爭力后,我們可以分析出DeepSeek對英偉達的影響。首先是正面影響:

一、DeepSeek的成功教育了市場,增強了人們對AI應用的信心,并吸引了更多的初創(chuàng)企業(yè)嘗試開發(fā)AI應用。

據(jù)業(yè)內(nèi)人士消息,自DeepSeek發(fā)布以來,市場上H100和H200等高端GPU的價格有所上漲,這表明更多公司愿意購買這些硬件來開發(fā)自己的模型和應用。

二、推動通用GPU的需求。DeepSeek這樣的廠商,持續(xù)在模型架構(gòu)方面進行創(chuàng)新,這對英偉達這樣的通用GPU制造商是有利的。因為通用GPU更適合用來嘗試新的方案和架構(gòu),而一些專用芯片可能沒那么適合。

然而,DeepSeek也給英偉達帶來了一些負面影響,比如英偉達的市場定價策略可能會受到?jīng)_擊。

原因在于,首先,DeepSeek采用的Mixture of Experts (MoE) 架構(gòu)顯著降低了對芯片間互聯(lián)能力的要求,從而減少了對高端互連技術(shù)的依賴。如果越來越多的模型廠商開始采用MoE或其他類似的架構(gòu),將會帶來新的硬件機會。

其次,DeepSeek提供了潛在“繞過”CUDA的可能性。DeepSeek提出了適配其模型的硬件架構(gòu)設計需求,暗示著未來“繞過”英偉達的CUDA生態(tài)系統(tǒng)的可能性。

同時,國產(chǎn)芯片對DeepSeek模型的快速適配,也反映了中國硬件行業(yè)的潛力。但需要注意的是,DeepSeek團隊并沒有直接繞開英偉達。DeepSeek使用了比CUDA更底層的編程語言PTX,以便于更好地發(fā)揮出硬件性能,而PTX是英偉達的核心技術(shù)。

DeepSeek是否推動了除英偉達以外的AI芯片行業(yè)的創(chuàng)新機會?這也是我們非常關注的一個熱點方向。

短期來看,DeepSeek確實帶動了許多低性能卡的應用,包括一些國產(chǎn)卡。只要企業(yè)具備足夠的工程優(yōu)化能力,這些卡就能夠被用起來,我們也能實現(xiàn)軟硬件閉環(huán)式的自主創(chuàng)新。

長期來看,AI芯片行業(yè)無疑存在新的機會。除了近期備受關注的新硬件架構(gòu)(如3D堆疊、大規(guī)模互聯(lián)技術(shù)和高顯存設計)外,編譯和軟件生態(tài)的建設也至關重要。正如我們在討論英偉達壁壘時所提到的,僅有單芯片能力和互聯(lián)能力是不夠的,整個軟件生態(tài)系統(tǒng)才是決定其長期成功的關鍵因素。

▲ 歡迎掃碼收聽,行云集成電路創(chuàng)始人季宇與峰瑞峰瑞資本副總裁李罡一起聊了聊DeepSeek將給AI產(chǎn)業(yè)帶來的新機遇。

小結(jié)

總的來說,DeepSeek一方面對英偉達帶來了挑戰(zhàn),另一方面,也為整個AI芯片行業(yè)帶來了新的機遇和發(fā)展方向。對于行業(yè)參與者來說,如何適應這種變化并找到適合自己的發(fā)展路徑,將是未來需要重點考慮的問題。

/ 07 /

DeepSeek如何影響應用生態(tài)?

打開網(wǎng)易新聞 查看精彩圖片

我們再來討論DeepSeek對整個應用生態(tài)的影響,可以從三個方面來看:

一、提供了低成本方案,完成了市場教育

首先,DeepSeek提供了一種非常低成本的方案,這顯然能夠為應用(無論是ToC還是ToB)帶來更高的投入產(chǎn)出比,并助推更多的行業(yè)應用落地。

在短短幾周內(nèi),DeepSeek完成了全市場的教育,使政府、企業(yè)高層管理人員以及普通用戶都開始使用相關的大模型。甚至我們的父母都開始用起了大模型。

然而,在短期內(nèi),市場可能會存在高估的情況。尤其是在B端,實際落地效果可能會與預期有所偏差。從我們問到的幾家企業(yè)的反饋來看,客戶的呼聲很高,但實際測試結(jié)果顯示,DeepSeek在某些任務上的表現(xiàn),可能并沒有外界傳聞的那么領先。

二、驗證了大模型蒸餾小模型的可行性

其次,DeepSeek R1驗證了大模型蒸餾小模型是可行的,這對于端側(cè)模型部署和應用有很大推動作用。無論是在PC、手機還是其他智能硬件上,部署成本的大幅降低,將推動更多新應用落地。這對于我們投資在端側(cè)部署的應用有重要意義。

三、助推強化學習這種計算范式

從更長期一些來看,DeepSeek影響了強化學習這一計算范式。R1已經(jīng)驗證了這種范式,真正公開了用強化學習來做推理模型的這個可能的路徑。

但目前,強化學習的應用范圍主要局限在數(shù)學或代碼等相對客觀的領域。未來,這種計算范式是否能夠擴展到物理世界,并解決更多現(xiàn)實世界的推理問題,以及如何應用于AI agent和具身智能,是非常令人興奮且值得探討的方向。

小結(jié)

通過對以上七個問題的探討,我們可以看到,DeepSeek對AI芯片行業(yè)和應用生態(tài)產(chǎn)生了深遠的影響。

毫無疑問,DeepSeek的貢獻令人敬佩。但當前市場是否明顯過熱?或許對于投資人、創(chuàng)業(yè)者以及使用大模型的朋友來說,我們不妨讓子彈再飛一會兒,冷靜觀察一段時間。與此同時,我們期待中國市場能誕生更多像DeepSeek這樣的原始創(chuàng)新成果。

/ 08 /

投資機會

一、大模型競爭進入下半場

大模型的競爭已進入下半場。

在豐叔看來,大模型下一步會向輕量化、垂直化、端側(cè)化這三個方向發(fā)展。輕量化意味著模型和硬件成本需要收斂,不然能用得起的人有限。垂直化則意味著模型需要在特定能力上收斂,而不是指望一個超大模型解決所有問題。端側(cè)化是指模型必須放到手機、手表、耳機等終端設備上,才能真正實現(xiàn)技術(shù)的普及。

▲ 歡迎掃碼收聽,豐叔和李翔總一起聊了聊春節(jié)期間國內(nèi)外的熱點事件。

隨著下游應用逐步實現(xiàn)規(guī)?;涞?,模型訓練、微調(diào)和推理效率成為行業(yè)關注的焦點。

以DeepSeek為代表的創(chuàng)新實踐表明,強化學習和長文本生成能力有助于提高大模型輸出質(zhì)量、提升小模型性能。盡管MOE架構(gòu)增加了軟件系統(tǒng)的復雜性,但它顯著優(yōu)化了硬件帶寬需求,降低了硬件門檻,使得成本更低的硬件也能高效運行模型。

未來,隨著模型能力的進一步提升和總成本的持續(xù)下降,AI普惠將成為下一階段的核心目標。技術(shù)的普及將推動大模型在更廣泛的應用場景中落地,創(chuàng)造更多商業(yè)與社會價值。

二、人機交互發(fā)生變化,AI落地的應用臨界點似乎已經(jīng)到來

當下,人與信息、人與機器的交互方式正在發(fā)生深刻變化。這種變化將催生新的信息分發(fā)渠道和流量入口,推動用戶界面和服務形式的創(chuàng)新。另一方面,隨著人工智能能力的不斷增強以及成本的降低,許多行業(yè)都在積極探索AI技術(shù)的應用落地。

在這樣的背景下,我們應當關注一些在傳統(tǒng)軟件時代難以實現(xiàn)的“新物種”,例如:

  • 跨領域結(jié)合的軟件或Agent:通過軟件與硬件的深度融合,Agent能夠?qū)崿F(xiàn)更強的獨立性和更豐富的功能,從而為用戶提供更高效、更智能的服務。

  • 新形態(tài)的個人交互終端:隨著數(shù)字化的進一步普及和多模態(tài)技術(shù)進步,AI有望接入更多數(shù)據(jù),成為人類的“外腦”,幫助我們處理記憶、理解甚至是決策等任務。

  • 新型人力服務外包:將軟件能力轉(zhuǎn)化為服務形式進行外包,提供更具創(chuàng)新性和靈活性的新型外包服務,滿足不同行業(yè)的需求。

  • 未被軟件化的行業(yè):這些領域中蘊含著豐富的AI落地機會,值得我們深入挖掘和探索。

展望未來,隨著供應鏈能力的不斷提升,中國的AI技術(shù)有望進一步拓展海外市場,實現(xiàn)全球化布局。

互動福利

你如何看待DeepSeek帶來的新機會?歡迎在留言區(qū)和我們聊聊~截止至2月25日17:00,留言最走心的5位讀者,將獲得峰瑞行研手冊一份。

打開網(wǎng)易新聞 查看精彩圖片

星標峰瑞資本微信公眾號

一手商業(yè)思考及時送達