打開網(wǎng)易新聞 查看精彩圖片

大概十天前,我們發(fā)布了,剖析DeepSeek爆火的原因及其帶來的多維度影響。

在硬件生態(tài)層面,DeepSeek引起的震動還在持續(xù)。英偉達反復強調(diào)“DeepSeek出現(xiàn)證明需要更多AI芯片”。對于其他大模型廠商而言,DeepSeek于2月26日推出的“錯峰優(yōu)惠活動”,或許將掀新一輪降價潮。在應用層面,摩根士丹利、高盛等機構(gòu)認為,低成本、高性能的模型普及會給AI行業(yè)帶來爆發(fā)性的使用量和更廣泛的商業(yè)落地。

那么,對于AI行業(yè)的創(chuàng)業(yè)者而言,DeepSeek究竟意味著什么?不久前,峰瑞資本副總裁李罡與行云集成電路的創(chuàng)始人兼CEO季宇博士就DeepSeek帶來的影響、如何進行技術(shù)創(chuàng)新等話題展開了深入的探討。

季宇博士擁有清華物理系本科和清華計算機系體系結(jié)構(gòu)方向博士學位。他曾入選“華為天才少年”計劃,在海思從事AI芯片編譯器設(shè)計與優(yōu)化,持續(xù)攻克復雜技術(shù)難題。2023年,季宇創(chuàng)立行云,圍繞大模型需求研發(fā)超大顯存規(guī)格的GPU芯片。行云希望推動AI的技術(shù)普惠,讓市場重新回到人比機器貴的黃金時代。

我們將他們分享的部分內(nèi)容編輯成文。他們聊天的話題,包括但不局限于以下主題:

  • 現(xiàn)在容易獲取的數(shù)據(jù)基本都被AI訓練過了,未來是否會變成AI自己生成數(shù)據(jù)來訓練自己?

  • 大模型公司的護城河在哪里?

  • DeepSeek的出現(xiàn),是偶然的破局,還是產(chǎn)業(yè)發(fā)展的必然方向?

  • AI芯片行業(yè)有哪些重構(gòu)、創(chuàng)新的機會?

  • 如何看待梁文峰所說的“技術(shù)優(yōu)勢是短暫的,真正的護城河是文化和組織”?

希望能帶來不一樣的角度和思考。我們只截取了他們聊天的部分內(nèi)容,歡迎移步小宇宙APP / Apple Podcasts(蘋果播客),搜索并訂閱「高能量」收聽這期節(jié)目的完整版內(nèi)容。

互動福利

你覺得DeepSeek給你的生活、工作帶來哪些變化?歡迎在留言區(qū)和我們聊聊~截止至3月6日17:00,我們將隨機挑選3位讀者,送出由峰瑞資本團隊撰寫的新版行研手冊。

/ 01 /

未來,AI是否會自己生成數(shù)據(jù)

來訓練自己?

李罡:現(xiàn)在網(wǎng)絡(luò)上比較易得的數(shù)據(jù)可能已經(jīng)都被AI訓練過了。大模型可用數(shù)據(jù)越來越少,那未來會不會變成AI自己生成數(shù)據(jù),來訓練自己?

季宇:我覺得問題的關(guān)鍵不是數(shù)據(jù)從哪里來,比數(shù)據(jù)更重要的是語言本身。因為語言才是給智能體提供思考能力的底層基座。

大模型在預訓練階段確實需要數(shù)據(jù),但在推理階段,更需要是獎勵(reward)。

獎勵是一種泛化的監(jiān)督信號,告訴模型該往哪個方向調(diào)整以提高性能。比如在強化學習中,模型隨機生成大量結(jié)果,通過外部信號輸入,明確哪些是好的,哪些是不好的,然后調(diào)整,生成更好的結(jié)果。只要有這種信號輸入,就可以進行優(yōu)化。

此前,左右互搏這種方法,在人工智能程序AlphaGo訓練圍棋技能時被充分應用。左右互搏是一種在人工智能訓練的策略,同時借助生成器和判別器,提升輸出的結(jié)果。就好比一個人自己和自己下棋,不斷提升自己的棋藝。

但實際上,左右互搏并沒有在強化學習或大模型的概念空間中被充分定義。因此,如何讓大模型提升推理能力,還有很大的探索空間。

思考是一個自我驗證和迭代的過程。自然語言的厲害之處在于,我們可以自己悶頭思考問題,即使沒有對話,也可以在腦海里進行邏輯演繹,找到思路或得出更深刻的結(jié)論。這是語言本身帶來的,更大的探索空間。

當然,“語言”和“獎勵”這兩者并不沖突。如果能借助語言,找到更多的獎勵信號,也能提升模型的能力。比如,據(jù)業(yè)內(nèi)人士分析,ChatGPT的一個突破點在于,將代碼和自然語言放在同一個模型中訓練,從而提升了輸出質(zhì)量。

如果當下,大模型能夠在更多的領(lǐng)域進行強化學習,可能會因為不同領(lǐng)域的數(shù)據(jù)特征差異,激發(fā)出新的能力。

李罡:確實。畢竟,AlphaGo輸出的結(jié)果通常是“非黑即白”的,因為輸贏是客觀的。但在語言模型領(lǐng)域,有些輸出是可以評價的,比如數(shù)學和編程有確定答案。但更多的時候,很多問題是沒有標準答案的。下一個階段,大模型所需要的數(shù)據(jù)和評價方式可能會發(fā)生新的變化。

/ 02 /

AI模型公司的護城河在哪里?

李罡:在DeepSeek開源的生態(tài)下,個人和企業(yè)用戶都能相對容易地以較低成本自行部署或復制出模型,那么大模型公司的護城河在哪里?

季宇:對于一家企業(yè)而言,技術(shù)本身并不能形成護城河,真正的壁壘在于商業(yè)模式或生態(tài)系統(tǒng)。

借助資源形成的競爭壁壘,很容易被打破。比如,DeepSeek打破了過去許多云廠商和互聯(lián)網(wǎng)巨頭構(gòu)建出的,以GPU、“萬卡集群”構(gòu)建的資源壁壘。

一個很現(xiàn)實的問題是,盡管人們對AI期望很高,但它還沒有完全滲透到這個世界的經(jīng)濟系統(tǒng)里,發(fā)揮出巨大的商業(yè)價值。我們先不要給AI行業(yè)設(shè)定門檻,當AI行業(yè)發(fā)展起來之后,自然會出現(xiàn)相應的商業(yè)模式。

畢竟,在技術(shù)還沒有真正完善之前,所謂的門檻可能也不堪一擊。只有當技術(shù)和應用場景緊密結(jié)合,形成可持續(xù)的經(jīng)濟循環(huán)時,一家企業(yè)才會擁有真正的護城河。

/ 03 /

DeepSeek的出現(xiàn),是偶然的破局,

還是產(chǎn)業(yè)發(fā)展的必然方向?

李罡:之前你曾提到,支撐英偉達股價的兩個因素是大模型產(chǎn)業(yè)的發(fā)展和英偉達在產(chǎn)業(yè)中的壟斷地位。

▲ 歡迎掃碼收聽,豐叔和季宇一起聊了聊AI芯片領(lǐng)域的創(chuàng)新機會。

DeepSeek爆火的這段時間,美國有人甚至提出要加強對中國的芯片和顯卡管制,要限制中國AI大模型發(fā)展。他們面對挑戰(zhàn)時的第一反應是固步自封。你覺得DeepSeek是偶然出現(xiàn)的破局者,還是說這是產(chǎn)業(yè)發(fā)展的一個必然方向?

季宇:在AI這樣一個龐大的體系和生態(tài)系統(tǒng)中,DeepSeek是一個非常重要的角色。它的“出圈”,對AI行業(yè)有很大的促進作用。

過往,OpenAI、微軟、英偉達等公司形成了一個利益共同體,希望大家都使用他們的基礎(chǔ)設(shè)施和模型。Scaling Law推動千卡、萬卡集群的形成,本質(zhì)上是在構(gòu)建一個大型規(guī)模的計算體系。這樣的結(jié)果是,硬件設(shè)備越來越像上世紀80年代的大型機,需要極大規(guī)模的投資才能運行最好的模型。

DeepSeek是撬動這個體系的第一步,“開了第一槍”。更重要的是,未來,AI普惠的產(chǎn)業(yè)結(jié)構(gòu)如何與通過資源形成壟斷體系的小圈子之間進行博弈。

AI行業(yè)越往后發(fā)展,越需要有更多的創(chuàng)新。創(chuàng)新不僅僅在模型層面,還包括基礎(chǔ)設(shè)施(Infra)的變革,芯片的重構(gòu),以及圍繞AI普惠搭建起來的一整套體系。而芯片的重構(gòu),也是行云集成電路一直投身其中的方向。

對于硬件行業(yè)來說,真正的破局之路在于塑造一個比CUDA生態(tài)更有吸引力、更具競爭力的新體系。

如果我們未來圍繞DeepSeek、國產(chǎn)芯片以及AI普惠的目標,能夠打造出類似過去的X86集群和個人電腦的生態(tài)系統(tǒng),或許可以逐漸讓這個“大型計算體系”失去其核心價值。

我們有可能借助幾千元或幾萬元的芯片,就能用得上好的大模型,甚至構(gòu)建出服務能力超過以往昂貴硬件的集群。

歷史上,PC以及互聯(lián)網(wǎng)領(lǐng)域的革新大多基于這樣的思路,即創(chuàng)新公司用更經(jīng)濟的方式取代了傳統(tǒng)巨頭形成的高價策略。這種轉(zhuǎn)變不僅降低了硬件成本,還形成了更高效的計算機底座體系。

/ 04 /

創(chuàng)新過程本身也需要提高效率

李罡:作為一個創(chuàng)業(yè)者,你是怎么看待梁文鋒說的:“技術(shù)的優(yōu)勢是短暫的,真正的護城河是文化和組織”?

季宇:我非常認同這一點。梁文鋒躬身入局,是個很好的榜樣。

技術(shù)的優(yōu)勢雖然重要,但很難持久。比如,OpenAI剛出來時,大家都追不上它的技術(shù),但這只是暫時的。全世界有這么多優(yōu)秀人才,大概率可以復現(xiàn)并超越這種技術(shù)。

DeepSeek成功的關(guān)鍵在于,它在基礎(chǔ)設(shè)施、算法和模型等方面都進行了聯(lián)合創(chuàng)新,而不是單點突破。

創(chuàng)新過程本身也需要提高效率。DeepSeek這種聯(lián)合創(chuàng)新,對企業(yè)組織能力的要求非常高。

組織能力不是說把一群聰明人聚在一起,就能產(chǎn)生價值。組織的作用是給出一個通盤合理的方向,大家齊頭并進。

提出通盤思路的前提在于,需要深入到細節(jié),知道每一層要做些什么,才能有效打破每一層的邊界條件。

我之前和一位在DeepSeek工作的師弟聊過,他說梁文鋒對他所做項目的每個技術(shù)細節(jié)都非常清楚。當總負責人深度參與到項目中,了解清楚技術(shù)細節(jié),才能更好地組織全局,真正讓團隊里的人才發(fā)揮價值。

文化與組織才是真正的護城河,但實踐起來非常難。

我觀察到,一些人在投資和創(chuàng)業(yè)時都很相信經(jīng)驗主義——相信行業(yè)專家和取得過成功的標桿人物。經(jīng)驗主義這種方法在中國經(jīng)濟騰飛中確實發(fā)揮了作用,它解決了如何提升效率的問題。反經(jīng)驗主義并不是拋棄經(jīng)驗,而是搭建新的組織方式,來高效推進創(chuàng)新。

國內(nèi)不缺反經(jīng)驗式的創(chuàng)新嘗試,比如非Transformer架構(gòu)的模型、非GPU路線的芯片等等。但這些嘗試之所以成功率不高,部分原因在于缺乏全局的思考和方法論。

李罡:我也非常贊同梁文鋒的觀點。從投資人的視角,我們希望初創(chuàng)企業(yè)能提升資金的利用效率,創(chuàng)造更大的價值。而效率問題本質(zhì)上還是人才、團隊組織的問題——如何找到最優(yōu)秀的人才,并將他們有效地組合起來。

就像MoE(Mixture of Experts,專家混合模型)架構(gòu)中的每個專家一樣,一家企業(yè)需要考慮清楚:如何把團隊里的每個專家組織起來,形成一個規(guī)模大而且能力強的公司?

互動福利

你覺得DeepSeek給你的生活、工作帶來哪些變化?歡迎在留言區(qū)和我們聊聊~截止至3月6日17:00,我們將隨機挑選3位讀者,送出由峰瑞資本團隊撰寫的新版行研手冊。

打開網(wǎng)易新聞 查看精彩圖片

星標峰瑞資本微信公眾號

一手商業(yè)思考及時送達

打開網(wǎng)易新聞 查看精彩圖片