上個月,真格基金管理合伙人戴雨森與「晚點」長聊了一次 AI 與 Agent。我們將這次訪談?wù)沓赏暾嫖淖指?,分為(上)、(下)兩期發(fā)布。
在《》中,雨森解析了 o1 和 R1 模型的突破,指出:「在 Agent 時代,Attention is not all you need」。2025 年,AI 在特定領(lǐng)域超越人類的現(xiàn)象將愈發(fā)普遍,這一變革將如何重塑未來,帶來哪些機遇與挑戰(zhàn)?
Q:還有一件對現(xiàn)在的格局影響很大的事,就是 DeepSeek 出圈,這本身影響就很大,而且它采用了非常徹底且一貫的開源方式。我覺得可以分幾個層面來講,一個是大的科技公司,首先原本閉源的大科技公司現(xiàn)在有很多動作,比如說騰訊、百度,都接入了 DeepSeek。而且騰訊接入了很多產(chǎn)品,它的 AI 主力產(chǎn)品元寶接入了,最大的國民級產(chǎn)品微信也接入了,大概有十幾個產(chǎn)品都接了。百度是文心接入了,不過阿里和字節(jié)沒有接入。
你覺得豆包什么時候會接入 DeepSeek?
戴雨森:如果豆包選擇接入 DeepSeek,我會覺得很意外。因為在我看來,字節(jié)特別想探索智能前沿,很注重自己基礎(chǔ)模型的研發(fā)。要是接入 DeepSeek,不管是對外形象還是對內(nèi)士氣,可能都是一個挺大的改變。
但從另一個角度說,如果豆包的用戶覺得 DeepSeek 更好用,那從豆包用戶價值的角度來看,這也是合理的。不過我覺得這肯定不是字節(jié)做 AI 的初衷,據(jù)我了解,他們還是想在 AI 領(lǐng)域?qū)崿F(xiàn)全面領(lǐng)先,而且他們的人力、資源都很豐富。
Q:那騰訊呢?
戴雨森:我們這都是小道消息,畢竟作為天使投資人,也沒辦法了解他們決策層的想法。之前有人說騰訊做視頻是后發(fā)先至,讓別人先跑三年,反正微信用戶這么多,始終都能調(diào)動出來。之前就聽說騰訊在模型這塊也是抱著后發(fā)制人的想法,因為有用戶的關(guān)系、用戶數(shù)據(jù),大家又都離不開微信,等模型技術(shù)出現(xiàn)收斂或者成熟之后再接入。而且微信是面向用戶的基礎(chǔ)設(shè)施產(chǎn)品,不能做太大調(diào)整,不然會給用戶帶來很多影響。所以我倒是覺得騰訊接入 DeepSeek 這件事值得點贊。因為我聽說 AI 搜索去年就開始推進了,但是接入 DeepSeek 這個決定肯定是高層做出來的。
我覺得這對騰訊的用戶來說是好事。聽說接入 DeepSeek 之后,騰訊很多產(chǎn)品的數(shù)據(jù)增長得很不錯,可能是兩位數(shù)的增長。從 DAU 的角度來看,現(xiàn)在很多人點微信搜索,下面就會出現(xiàn)下載「使用了 DeepSeek-R1 的元寶」的提示,這導量能力簡直是無與倫比的。所以元寶現(xiàn)在在 App Store 排第二名,我覺得明天可能就第一名,這都很正常。
Q:所以你覺得這是騰訊的選擇嗎?就是它在自研大模型方面沒那么激進,它略慢一籌,它知道會有人做出更好的模型,到時候憑借微信這個大殺器,再積極接入。你覺得這是它早就設(shè)定好的主動戰(zhàn)略路線嗎?
戴雨森:我聽說這是騰訊主動選擇的戰(zhàn)略,但我同時也聽說混元大模型在大量招人來擴充團隊。從中國互聯(lián)網(wǎng)過去的經(jīng)驗來看,大廠很少完全依靠第三方來提供關(guān)鍵基礎(chǔ)設(shè)施,而不是自己去做。所以一方面,我覺得騰訊現(xiàn)在這個決定非常厲害,也許這會開啟一個新時代。在美國有很多這樣的例子,比如 Netflix 一直用亞馬遜云服務(wù)(AWS),雖然亞馬遜有 Prime Video,是 Netflix 的直接競品,但 Netflix 仍然覺得 AWS 在商業(yè)和技術(shù)上是最好的選擇。但在中國,以前都是有了支付寶,就得有個微信支付,大家都想有自己的一個東西。不過我覺得選擇 DeepSeek 肯定是個很中立的決定,因為 DeepSeek 團隊也沒打算做一個超級 App,也沒有想去做 to C。
Q:所以我覺得,馬化騰知道梁文鋒對做一個大 DAU 的產(chǎn)品沒那么感興趣。
戴雨森:是的,所以我覺得他們至少現(xiàn)在目標很明確,雙方合作也有這個基礎(chǔ)。但騰訊會不會一直不想要自己的大模型,這很難說。畢竟技術(shù)變化太快了,就像之前大家說微軟就靠 OpenAI,后來微軟好像也打算自己訓練模型,甚至還投資了 Anthropic。所以這些情況都可能發(fā)生變化。但我覺得這里面最核心的,是誰能一直處在前沿。在過去兩年多時間里,我們已經(jīng)看到很多聲稱要做基礎(chǔ)模型、挑戰(zhàn)智能的,都逐漸掉隊了,這也合理,畢竟做這件事需要人才、資金和大量創(chuàng)新。
Q:所以你剛才說,有資格做這件事的大公司只有字節(jié)跳動,有資格做這件事的創(chuàng)業(yè)公司,目前只有月之暗面?
戴雨森:如果說在獲得風險投資(VC)之前的創(chuàng)業(yè)公司,原來說的 AI 六小虎,目前看下來,確實只有 Kimi 在人才、團隊、資金和用戶上,具備這樣的能力。就連 OpenAI 最新發(fā)表的一篇論文,還同時 refer 了 R1 和 K1.5 的研究成果。包括今天中午你們來的路上,Kimi 又發(fā)布了 Moonlight 這個最新的開源小模型。我覺得能持續(xù)為技術(shù)社區(qū)做貢獻,是對團隊本身的能力以及方向要求挺高的事情。
Q:說到 OpenAI 的論文同時 refer 了 K1.5 和 R1,這兩個成果其實是同一天發(fā)布的。其實成果剛發(fā)布后,我就去找技術(shù)社區(qū)的人聊了聊。當時大家給我的反饋是,他們對 K1.5 和 R1 的認可度差別沒那么大,但最后實際產(chǎn)生的整個影響力差別卻非常大,你怎么看待這件事?
戴雨森:我覺得開源是一個關(guān)鍵差異。確實 DeepSeek-R1 的一些工作意義很大,而且它開源后大家都能使用,尤其在西方引起了很大反響。
本來在過去幾年,硅谷一直有人質(zhì)疑預(yù)訓練花這么多錢到底值不值。至少從二級市場投資人那邊,大家陸續(xù)開始擔心是不是錢花太多了。這時候突然出來說 500 萬美金就能訓練一個 o1 級別的模型,當然這是誤讀,論文里寫得很清楚,那只是最后一次訓練的結(jié)果。但就有人想搞大新聞,在美國引發(fā)了大量擔憂,導致 1 月 27 號英偉達股價暴跌 16 個點。當這事情成了全球新聞,它的影響力肯定不是 Kimi 單純發(fā)一篇論文或者一個技術(shù)創(chuàng)新能比的。
有個和 DeepSeek 很熟的同學跟我說,他們覺得美國的 OpenAI 或者 Anthropic,訓練像 V3 這樣的模型,甚至都不用花 500 萬美金,人家有更大的集群和更多的訓練經(jīng)驗。但當時很多不太懂行的人看到這個敘事,就開始拿 500 萬美金和別人融的 10 億美金作比較。但現(xiàn)在大家也漸漸明白不能這么比。你看英偉達的股價又快恢復了,對吧?
在訓練成本上,真的行內(nèi)人其實沒覺得 500 萬美金有多驚人,大家可能更關(guān)注像當時 MLA 那種降低推理成本的創(chuàng)新。另外,模型的智能提升以及模型訓練與推理成本的下降,這是一直在發(fā)生的事兒。比如說 GPT-4 的 API 推出后,成本已經(jīng)下降了 90% 多,今年肯定還會降 90% 多,這是必然的。芯片會更強大,大家也會找到更多降低成本的優(yōu)化方法。所以我覺得現(xiàn)在大家首先關(guān)注的還是智能能不能提升,只要智能能提升,成本肯定會快速下降,可能每年降到原來的二十分之一甚至幾十分之一。所以對降成本倒不是特別擔心,至少在美國,大家相信這個曲線一定會發(fā)生。
Q:所以降成本其實在一個軌跡里的,后來 Anthropic 的創(chuàng)始人 Dario 不是寫了一篇很長的文章嗎,他前面的分析還挺充分的,就是說降本是在大行業(yè)的曲線上。
戴雨森:對,包括智能提升方面。當然篇文章后面寫得有點氣急敗壞了,但我覺得他對前面技術(shù)的分析挺正確的。按照他的說法,他們對 Sonnet 模型的對齊工作經(jīng)歷了很長時間,因為他們很強調(diào)安全性之類的。確實,Sonnet 甚至都不算一個推理模型,所以他們還是挺厲害的。
聽說他們馬上要發(fā)布 Claude 4 了,我覺得這從一部分來說也許也是 DeepSeek 帶來的好處,就像鯰魚效應(yīng)一樣,模型界來了一個實力強勁又要開源的對手,大家就不得不加快步伐了,這確實是件好事。而且回過頭看,DeepSeek 還有個優(yōu)點,它是一個全新的應(yīng)用,一上來就是 R1 和搜索的結(jié)合,是從一張白紙開始做新產(chǎn)品,這是個大的特點。
還有個特點,我后來才意識到,大家在訓練推理模型的時候,其實都是對標數(shù)學和編程能力。我們看 DeepSeek、OpenAI 還是 Kimi 發(fā)的論文,都是用美國數(shù)學邀請賽(AIME)、數(shù)學競賽(MATH)、代碼基準測試(Code Bench)這些來做對標。但 DeepSeek 出現(xiàn)后,突出的反而是它的文筆。聽說它第一次專門做了文筆方面的對齊工作,甚至還找了北大中文系的人來做標注。
我們一開始看到它的回答時,第一反應(yīng)是覺得說得有點天馬行空,動不動就扯到量子力學。其實對 OpenAI、Kimi 還有豆包來說,它們之前一直是要避免這種情況的,因為訓練模型時都怕模型胡說八道。
但我覺得 DeepSeek 一方面可能是有意在文本上做了對齊,另一方面,畢竟它之前定位是 research lab,所以沒太對所謂的中立性、truthfulness 進行微調(diào),所以它發(fā)布后大家直接就用了,沒想到這個特點反而成了好的特性。
我們發(fā)現(xiàn)很多人傳播它,就是因為覺得它的回答、思考過程特別有創(chuàng)意,我不知道這是不是陰差陽錯,但事實上也會導致它傳播率更強。
Q:你跟圈子里的人聊過嗎?他們覺得這是陰差陽錯造成的嗎?他們是有意訓練的寫作能力嗎?
戴雨森:我聽一些人說,他們可能確實在寫作能力方面對模型進行了加強,但也有人覺得這或許是對齊不夠充分導致的結(jié)果。所以我覺得這兩種情況都有可能,我確實也沒有確切的答案。
不過單從結(jié)果來看,這是出圈的一個很重要的原因。因為真正用它做數(shù)學題的人沒那么多,大部分人反而是拿它來算命之類的,然后突然發(fā)現(xiàn)它給出的結(jié)果讓人覺得很有道理。還有像 MBTI 測試這些,大家并不覺得這是一個 AGI 的前沿模型該做的事情。
Q:大家對 DeepSeek 還有一個比較好奇的點,就是它到底是怎么賺錢?剛才我們也聊到,騰訊、百度,還有很多大小的公司都接入了 DeepSeek。不過我理解,它實際上不會直接從這些接入里賺錢,對吧?
戴雨森:如果你只是用它的模型,它已經(jīng)開源了。DeepSeek 目前能直接賺錢的方式就是賣 API,而且我聽說它的 API 是有毛利的。因為他們在推理方面做了很多 infra 的創(chuàng)新,所以相比其他公司,他們 serve 自己的模型成本更低。
現(xiàn)在很多人都想用它的 API,可它現(xiàn)在面臨的問題是算力不夠。因為它還要進行模型訓練,前陣子它好像還關(guān)掉了 API 充值入口,意思就是別給我錢了,我服務(wù)不過來。這就是商業(yè)模式的一種體現(xiàn),很多人都問能不能付錢買一個穩(wěn)定的版本,有點像 GPT Plus 那種訂閱制。所以我一直覺得,在技術(shù)革命的早期,不要太快的用成熟期的標準去要求商業(yè)模式。應(yīng)該先靠技術(shù)為用戶和客戶創(chuàng)造價值,然后再從這些價值中提取一部分作為收入。我覺得這是遲早會實現(xiàn)的,只是需要一些耐心。
Q:關(guān)于這個事情你是在 2024 年就有了清晰的認知?還是說在受到 DeepSeek 帶來的沖擊或者啟示之后,才有了更清楚、更堅定的想法?
戴雨森:我覺得這也是一個不斷學習的過程。我們 80 后入行的時候,移動互聯(lián)網(wǎng)已經(jīng)逐漸興起,或者說互聯(lián)網(wǎng)已經(jīng)進入下半場了。在最早期,比如 90 年代的時候,我那時候也是互聯(lián)網(wǎng)用戶,但當時根本沒考慮過商業(yè)模式的問題。我覺得應(yīng)該經(jīng)常以史為鑒,想想為什么很多早期的互聯(lián)網(wǎng)公司,都是憑借當時很強的技術(shù)做起來的。
其實復盤一下 Google 遇到的第一個問題,它用 PageRank 這項新技術(shù)打造出了體驗好 10 倍的搜索引擎,用戶特別喜歡,還自發(fā)傳播。但那個時候它其實不知道怎么賺錢,因為一開始谷歌的搜索引擎是沒有廣告的,界面很清爽。1998 年上線后,2002 年《紐約時報》有篇文章就說「Google最難搜索的就是它自己的商業(yè)模式」,批評它沒有自己的商業(yè)模式。但后來大家也知道了,2002 年它逐漸找到了 AdWords 和 AdSense 這兩種商業(yè)模式,2004 年上市后成了現(xiàn)在最好的「印鈔機」。這是個很好的例子,一開始你問 Google 商業(yè)模式是什么,它其實也不知道。但它首先是有技術(shù)突破,憑借技術(shù)打造出好產(chǎn)品,然后再把產(chǎn)品的價值變現(xiàn)。
Q:所有的技術(shù)突破都會有這樣水到渠成的過程嗎?還是說我們存在幸存者偏差,只是看到了那些后來取得巨大商業(yè)成就的技術(shù)突破?
戴雨森:當然,不可能所有的技術(shù)突破都能賺錢。不過我覺得,得看技術(shù)突破處于哪個發(fā)展周期。我還是那個觀點,現(xiàn)在是一個技術(shù)變化斜率很陡峭的時候,那這個時候,要是逼著現(xiàn)有的技術(shù)去變現(xiàn),就好比讓一個天資聰穎的高中生去賺錢,他可能只能去做些搬磚之類的活,賺不了什么大錢。但要是多培養(yǎng)他,等他成為博士生,那就能賺大錢。所以我覺得,如果技術(shù)發(fā)展已經(jīng)到了平緩期,比如移動互聯(lián)網(wǎng),五年前的技術(shù)和現(xiàn)在沒太大區(qū)別的時候,那才是商業(yè)模式百花齊放的時候。
我再舉個例子,不只是 Google,F(xiàn)acebook 剛出現(xiàn)的時候,提出了一個非常前沿的產(chǎn)品,引發(fā)了「病毒式」傳播。但那時候大家也不知道 Facebook 怎么賺錢。它嘗試過放橫幅廣告,嘗試過本地廣告,后來還做過游戲中的廣告,可這些都沒賺到什么錢。直到2012年,它把 news feed 從時間排序(就像微信那樣的排序方式)改成了推薦排序,形成了所謂的信息流推薦模式。只有做成了推薦信息流排序,才能插入廣告。所以它在 2012 年推出了信息流廣告(news feed ads),并且同年上市。當然現(xiàn)在信息流廣告也是超級「印鈔機」,字節(jié)跳動的核心商業(yè)模式。但 Facebook 是 2005 年上線的,信息流在 2007 年上線,推薦信息流是在 2012 年上線,同時找到了真正的商業(yè)模式,這中間花了 6 到 8 年的時間。那時候 Facebook 一直是用戶很喜歡、但商業(yè)模式不清晰的公司,所以偉大的公司往往都經(jīng)歷過這樣的階段。
Q:你覺得字節(jié)跳動會開源嗎?
戴雨森:首先,開源是不是每個人都必須做的事?第一,得處于領(lǐng)先地位,開源才有價值。要是開源一個不怎么樣的東西,只是為了開源而開源,那沒什么意義;第二,我覺得開源稍微弱一點的形式就是免費。免費加領(lǐng)先,我覺得這就很厲害了。
是不是一定要開源?我覺得這次 DeepSeek 有個「甜頭」——它開源后引起了西方的高度關(guān)注。在美國引發(fā)大新聞后,回到國內(nèi)大家就更覺得它厲害了,讓美國人「破防」了。當然,開源也有像和微信合作這樣的形式,但我在想這不僅僅是開源的問題,而是公司得堅持做這件事。比如說,假設(shè)現(xiàn)在豆包開源,微信會接入嗎?我估計不會。所以這不是開不開源的簡單問題。假設(shè)豆包現(xiàn)在和 DeepSeek 一樣厲害然后開源了,我估計微信也不會接入,阿里的千問估計也不會。這不是說它們能力不行,而是從阿里和字節(jié)的立場來看是這樣。所以我覺得梁文鋒他們厲害的地方不只是開源,而是他們堅持開源,而且他們的市場定位是一個不會讓大家感到威脅的定位。
Q:對,堅持開源,而且保持中立,沒有接受某個大廠特別多的投資。
最近還有個變化,就是 OpenAI 也在考慮開源。阿爾特曼(Altman)發(fā)了一條推特,給大家兩個選項:一個是可以開源 o3 mini,還有一個是可以開源 phone size 的 model,就是一個適用于手機端的模型。你更期待它開源哪個呢?
戴雨森:當然,我覺得開源哪個都很好,但我肯定對 o3 mini 更感興趣。因為我覺得目前手機端的模型用途可能還不是那么大,現(xiàn)在大家更需要在智能前沿取得突破。o3 mini 是一個很強大的模型,在經(jīng)過較長的推理時間,也就是現(xiàn)在 GPT 里的 o3 mini pro、o3 mini high 模式下,它的表現(xiàn)非常好。如果這樣級別的模型能夠開源,大家能知道它是怎么做出來的以及它的特點,我覺得對大家會有非常大的價值。而且聽說這個模型的規(guī)模也不大,所以這可能對大家在模型訓練和應(yīng)用方面會有很多借鑒意義。
Q:你聽說它有多大?
戴雨森:比較可靠的消息來源,聽說它每次激活的規(guī)模是 3.7B 的大小,這確實讓我有點震驚,感覺確實有點太小了。但這個尺寸意味著,他們確實能把一個很大的 o3(o3 應(yīng)該是挺大的),變成一個很小的 o3 mini,然后讓 o3 mini 經(jīng)過更多的思考時間,從而得到很好的結(jié)果,這確實是一項很厲害的工作。
Q:他們之前其實分享過自己不開源的顧慮,他們認為開源會削弱競爭優(yōu)勢,比如會給 Google 可乘之機。
戴雨森:所以我覺得這是梁文鋒偉大的點,他確實把很多技術(shù)秘密分享給大家,讓大家都能變得更好。但從純商業(yè)公司的角度來看,確實會有很多擔心。畢竟除了剛剛說的問題,OpenAI 還擔心強大的 AI 會被壞人利用,這可能也是一個很合理的擔憂。
Q:你覺得 DeepSeek 對那些本來就在開源生態(tài)里想要主導的公司,比如 Meta 和阿里這樣一直都在開源的公司,會有什么影響呢?
戴雨森:我覺得肯定是一種激勵。大家發(fā)現(xiàn)來了一個更「卷」的對手,原來開源社區(qū),開玩笑地說有點像「賽博佛祖」,有點做慈善的感覺。不管是阿里還是 Meta,都是大公司拿出算力給大家用,帶動整個行業(yè)發(fā)展。但現(xiàn)在來了一個進步更快、更開放的 DeepSeek,這肯定對大家來說既是壓力也是激勵。但確實,我覺得 DeepSeek 的中立性是一個比較獨特的優(yōu)勢,騰訊也可以用、千問也可以用,這不僅僅是能力的問題,是他的屁股坐在哪兒的問題。
Q:蘋果最近不是也和 DeepSeek 有過溝通合作之類的嗎,不過最后它選擇了阿里。
戴雨森:蘋果和很多公司都聊過,也和 Kimi 聊過。我覺得從蘋果的角度來看,選擇阿里很好理解。它肯定要選一個服務(wù)穩(wěn)定,能很好應(yīng)對大規(guī)模用戶量,不管是 infrastructure、服務(wù)還是技術(shù)經(jīng)驗等方面都很出色的合作伙伴。
Q:其實這一輪阿里還是比較開放的。
戴雨森:千問和 Llama 挺兼容的,而且它的產(chǎn)品模型不錯,更新也很頻繁,所以其實很多開發(fā)者都在用千問。說實話,DeepSeek 的 R1 在使用的時候,因為存在很多「幻覺」,所以如果用它來做應(yīng)用,可能不一定是最好的選擇。
Q:在 DeepSeek 全民爆火之前,在海外技術(shù)圈,我覺得千問和 DeepSeek 的影響力是比較相當?shù)?,因為它們倆都是開源系列的。
戴雨森:確實,復盤一下就會發(fā)現(xiàn),不管 Kimi 的 benchmark 做得多好,如果對別人不開放,不能開源使用,也不提供海外應(yīng)用服務(wù),那在海外確實就沒有認知度。
Q:你們之前是怎么討論的,Kimi 為什么不開源?
戴雨森:我覺得即便到現(xiàn)在,開源也不是一件必須要做的事情。就像我剛才說的,開源只是公司在某些情況下的一種選擇。比如說,在沒有保密競爭壓力、沒有融資壓力的情況下才會考慮開源,而且我們現(xiàn)在看到的是事后的結(jié)果,因為開源再加上一些偶然的機會才會有現(xiàn)在的情況,所以我覺得開源不是必備選項。當然,選擇開源的人很厲害,非常值得尊敬。但對于一家商業(yè)公司來說,核心還是在于能不能創(chuàng)造用戶價值,并最終將用戶價值轉(zhuǎn)化為商業(yè)價值,所以我覺得開源不是必經(jīng)之路,只是一條很有意思、很創(chuàng)新的路。
Q:但今天所有的探索 AGI 的公司都不會以用戶價值作為核心的。
戴雨森:很多還是以技術(shù)價值為主。我只是說在技術(shù)增長期,只有技術(shù)價值提升了才能帶來用戶價值。所以我覺得在技術(shù)前沿進行探索是非常關(guān)鍵的。大模型出現(xiàn)之后,可能涌現(xiàn)出了一批所謂比較務(wù)實的投資人或創(chuàng)業(yè)者,他們想著用現(xiàn)有的技術(shù)去賺錢。但我覺得 Kimi 肯定屬于另外一類,它是要推動技術(shù)前沿的提升,這又回到我們一開始說的,打造出令人驚嘆、如魔法般的產(chǎn)品體驗,最終獲得商業(yè)價值。
其實 Kimi 在 2023 年火起來,它火一個很重要的原因是,它是第一個把 chat、搜索和長文本結(jié)合起來的產(chǎn)品。大當時 ChatGPT 是不能搜索的,而且 ChatGPT 對于長文本、多文本、多文件的處理也不是很好。所以 Kimi 在前兩三年,就是憑借著長文本處理的技術(shù)理念,以及將搜索和聊天相結(jié)合,帶來了不一樣的用戶體驗,從而成功出圈的例子。
Q:當年選擇做長文本是非共識嗎?做這個決策很難嗎?
戴雨森:其實當時長文本肯定是技術(shù)選擇中的一個選項,但要不要把它放在最重要的位置去做,我覺得這并沒有達成共識。當時有個不知道真假的段子,據(jù)說百度在 Kimi 火了之后,就說為什么 Kimi 做了長文本他們卻沒做,好像是說長文本的優(yōu)先級沒排在他們第一批要做的事情里。因為當時還有很多其他優(yōu)先級更高的事情可以做,比如也有很多人做 CharacterAI,做那種情商方向的對齊。但 Kimi 堅定地選擇了長文本,并且把它做到了極致。因為長文本能解鎖兩個關(guān)鍵場景,一個是處理多個文件,第二個就是搜索,比如看 100 個網(wǎng)頁然后進行總結(jié),這兩個場景沒有長文本是做不出來的。
尤其在當時,Kimi 剛成立,還沒融到那么多錢。團隊也是年輕人、小團隊,資源受限,必須專注在一件事情上,選擇一個正確的方向。其實 DeepSeek 現(xiàn)在火的很多因素,放到 2023 年的 Kimi 身上也是成立的。當資源有限的時候,就要在一個關(guān)鍵的點上實現(xiàn)突破,給用戶帶來那種非常驚艷的體驗,這樣才能出圈。所以我總結(jié)了一下,發(fā)現(xiàn)有很多相似的地方,這不是往自己臉上貼金,我是真覺得它們有一些相似之處。
Q:那長文本對 Kimi 現(xiàn)在做的事情有幫助嗎?
戴雨森:比如說同樣做 retrieval,Kimi 在 truthfulness、準確度方面其實做得更好。當然,普通用戶可能不會去這么對比。說實話,現(xiàn)在很多用 DeepSeek 的用戶,對于產(chǎn)生的「幻覺」是沒感覺的,但說不定你用它寫個報告,回頭就被坑了。我昨天就遇到了這種情況,在一個群里,群里的人還都挺有水平的,有人發(fā)了篇文章,我一看,里面 DeepSeek 味道怎么那么濃。
Q:你覺得 DeepSeek 大火出圈之后,對之前這段時間經(jīng)常被拿來和它比較的大模型「六小虎」,會有什么直接沖擊?
戴雨森:說實話,我覺得它確實起到了清場的作用。在 R1 出圈之前,「六小虎」里就有幾家已經(jīng)不做自己的技術(shù)模型訓練,也沒打算沖擊 SOTA 了。我覺得 R1 出來之后,也讓大家意識到,如果沒有做到 SOTA 的可能的話,確實還不如去做垂直領(lǐng)域或者應(yīng)用開發(fā)。
Q:他們放棄是因為什么?
戴雨森:有資金的原因,也有團隊、自身定位的原因。我們作為 Kimi 的天使投資人,實際來講,就拿 K1.5 這個模型的表現(xiàn),以及他們接下來要發(fā)布的模型來說,在我們剛才提到的 MATH、coding 方面還會有進一步的表現(xiàn)。從學術(shù)貢獻上看,至少從 reasoning 方面,K1.5 提出的 long-to-short 等技術(shù)分享 得到的評價也挺好的。而且今天發(fā)布的 Moonlight,還有前兩天發(fā)布的 MoBA,這也說明 Kimi 團隊有能力持續(xù)和技術(shù)同行進行交流輸出。
同時,Kimi 現(xiàn)在的用戶量已經(jīng)達到了千萬 DAU 的級別,而且還在持續(xù)增長。說實話,不少人在用過 DeepSeek 和 Kimi 之后,在很多場景下還是更喜歡 Kimi。比如說 Kimi 的「幻覺」更少,在一些工作場景中表現(xiàn)更好。在一些多模態(tài)推理方面,像拍照搜題這些場景,目前 DeepSeek 還沒做。所以,可能我這話有點私心,但我確實覺得從團隊資金、技術(shù)能力、用戶產(chǎn)品這些角度來看,Kimi 是現(xiàn)在「六小虎」里唯一有能力持續(xù)參與 SOTA 模型競爭的。當然,這條路很難走,需要錢、需要人等各種條件,但我覺得至少值得一試。
Q:Kimi 接下來會更專注嗎?會砍掉一些東西嗎?
戴雨森:他們已經(jīng)砍掉了很多東西,比如海外業(yè)務(wù),他們現(xiàn)在就是要繼續(xù)沖擊 SOTA。
Q:他們正式不做視頻生成了嗎?
戴雨森:至少從目前來看,我覺得有所不為很重要。
Q:「六小虎」里的多數(shù)(公司)在 DeepSeek 出來之前就已經(jīng)放棄了,這在你的預(yù)期之中嗎?
戴雨森:其實在 2024 年年中我們就感覺會是這樣的結(jié)果。因為那個時候就有幾家很明顯,不管是從意愿還是資源方面,都很難再繼續(xù)下去了。我覺得 Kimi 有一點挺好的,就是它的團隊非常穩(wěn)定。這和他們團隊的構(gòu)成有關(guān),聯(lián)合創(chuàng)始人之間都有長期合作??梢钥船F(xiàn)在各家模型公司人員變動都挺大的,其實創(chuàng)業(yè)就像走平衡木,走著走著同行的人就越來越少,很多時候能一直留在牌桌上就已經(jīng)很厲害了。
Q:剛才我們主要聊的是 DeepSeek 對模型公司的影響,包括大公司,不管是開源的還是閉源的,還有一些創(chuàng)業(yè)公司。接下來可以聊聊其它生態(tài)里的公司,比如說,在 DeepSeek 帶來的更開源的風潮里面,會產(chǎn)生什么樣影響?我想到一類公司,就是 AI 云平臺。按 DeepSeek 的預(yù)告,接下來的開源周它是要開源 infrastructure 層的一些推理優(yōu)化技術(shù),那這對硅基流動、無問芯穹這類公司在創(chuàng)業(yè)方面可能會有什么影響呢?
戴雨森:我們是無問芯穹的天使投資人,他們的業(yè)務(wù)量增長得很厲害,收到了很多需求。尤其是各地國資、政府都在拼命想部署 DeepSeek,這方面的需求暴漲。
他們做了很多創(chuàng)新,包括在華為的卡上做推理也很火,很多人都想用。我覺得開源模型的「火」,確實給 AI Infra 公司帶來了很好的機會。原來這些公司要 serve 什么模型?如果都是豆包、Kimi 這類閉源、私有模型,那它們確實發(fā)揮不了什么作用,因為字節(jié)跳動自己會做 serve。但從長遠來看,還得看它們能不能持續(xù)服務(wù)好客戶。畢竟公有云公司,像騰訊云、阿里云、火山引擎,確實資金充足,Infra 能力、資源包括客戶服務(wù)能力也更好,所以對于客戶來說,他們肯定也不是做慈善,誰能服務(wù)得好,又價廉物美,他們就選誰。所以對創(chuàng)業(yè)公司來說,還是有很多挑戰(zhàn)的。
而且 DeepSeek 要開源這些「黑科技」,這意味著它在服務(wù)方面其實也有很多優(yōu)勢,同樣的服務(wù)它成本可能比別人低。因為短期內(nèi)因為算力需求激增這肯定誰也沒想到,它自己扛不住,讓別人來承擔這也很正常。但如果進入穩(wěn)定狀態(tài),這些創(chuàng)業(yè)公司面對大的公有云公司和 DeepSeek 第一方服務(wù),是否還有優(yōu)勢,這還得再觀察。但總體來說,肯定是創(chuàng)造了很多機會。
Q:其實 AI 云平臺夾在云和模型中間對吧?它有可能受到兩邊的擠壓,但也可能因為生態(tài)的變化獲得一些機會。
戴雨森:對,如果開源之后中間這一層的選擇變多了,比如有不同的框架、不同的模型可供選擇,那中間這一塊就會變得越來越好。但如果最后像操作系統(tǒng)那樣,收斂到只剩下像 iOS 或者安卓這樣的少數(shù)選擇,那可能最后還是由系統(tǒng)提供商來提供。
Q:你覺得它對廣大只做應(yīng)用的公司會有什么影響?
戴雨森:我覺得肯定還是正面的。就是多了一個更好的、開源的、還能自己微調(diào)的模型可以用。在這個過程中,要是想在模型的主航道上做 office 相關(guān)的事情,那還是挺難的。但要是做的事情是豐富模型生態(tài),那就不一樣了。我一直打比方,在技術(shù)革命的早期,就相當于黑莓時代。因為那個時候黑莓技術(shù)能力有限,所以你有的 PMF 是很少的。黑莓時代主要就是發(fā)郵件、發(fā)信息。就算張一鳴回到那個時代想做抖音,也做不出來,因為黑莓不具備那樣的條件。但后來移動互聯(lián)網(wǎng)為什么能蓬勃發(fā)展?首先是因為有了 iPhone,它實力夠強,解鎖了很多新場景。它有好的攝像頭、好的屏幕、好的網(wǎng)絡(luò)、好的芯片,所以才能解鎖短視頻、移動電商、社交網(wǎng)絡(luò)這些場景。
iPhone 之后就是安卓,安卓讓市場變得更開放,小米、OPPO、vivo 等更多手機廠商加入進來,進一步把智能手機普及開了。比如說 Sonnet 和 4o、o1,有點像 iPhone 時刻,就是閉源的技術(shù)進步讓很多人能在它上面構(gòu)建應(yīng)用。而 DeepSeek 可能就是安卓時刻,它從閉源變成開源,同時實力也足夠強,讓大家做應(yīng)用有了更多選擇。所以技術(shù)進步一方面能帶來更好的產(chǎn)品體驗,導致出現(xiàn)「殺手應(yīng)用」;另一方面也能讓生態(tài)變得更繁榮。原來只能做有限的幾件事,有了 iPhone 和安卓之后,才能做抖音。
Q:然后我還想聊聊 o1 和 R1 對大家都很關(guān)注的基礎(chǔ)設(shè)施算力需求的影響。其實 DeepSeek R1 有段時間特別火,這和剛才我們說的英偉達股價大跌有關(guān)系。有一種觀點覺得,是不是因為它訓練成本低,所以會減少對算力的需求。包括我看你也發(fā)了一些朋友圈,很多人對此也有不同看法。
戴雨森:我覺得算力需求有不同的結(jié)構(gòu)。原來就是訓練和推理,在 2023 年到 2024 年的軍備競賽階段,大家簡單總結(jié)成一句話叫「大力出奇跡」,好像覺得只要買足夠多的卡,就能得到更好的結(jié)果。當然,那個時候預(yù)訓練還沒撞墻,或者大家還沒意識到撞墻的時候,這么說也能成立。
但現(xiàn)在我們發(fā)現(xiàn),pre-training 短期大量投入,確實邊際效益是有限的。比如 Grok 3 是用 20 萬張卡訓的,雖然有進展,但邊際效益在遞減。所以不能說「大力出奇跡」是錯的,只是它產(chǎn)生奇跡的邊際效益在遞減。但我認為會發(fā)生的事情是,由于模型的能力已經(jīng)達到了做 Agent 產(chǎn)品的臨界點,并且還在不斷突破。所以當 Agent 產(chǎn)品形態(tài)能落地之后,它使用的 token、inference 的算力會大幅增加。如果只是做 chatbot ,你和 ChatGPT、Kimi、豆包聊天,沒那么多能聊的,花不了多少 token。當它能幫你做更多、更復雜的事情,需要更多工具、思考時,inference 算力的需求可能不是提高 10 倍,而是 100 倍、1000 倍地增長。這種情況之前沒法發(fā)生,因為技術(shù)沒達到那個程度。但現(xiàn)在我覺得技術(shù)到了這個轉(zhuǎn)折點,推理需求可能會大幅提高。
Q:百倍千倍的推理算力需求增長,會在 2025 年就出現(xiàn)嗎?
戴雨森:首先,從技術(shù)發(fā)展歷史的角度來看,是 2025 年、2026 年還是 2027 年發(fā)生這件事,其實一點都不重要。就像自動駕駛,最終它能發(fā)生才是最重要的,具體在哪一年實現(xiàn),其實沒那么重要。
但我覺得現(xiàn)在 Agent 產(chǎn)品,至少我能感覺到它已經(jīng)快要出圈了。比如說 Deep Research,它需要的 token 肯定多很多。這也就是為什么阿爾特曼說 GPT Pro 雖然每月收費兩百美金,但還是在虧錢,因為那個時候 inference 的需求增加了很多。不過我覺得這里面有兩個情況,一是 pre-training、post training inference 花的占比會發(fā)生變化;二是這確實會對英偉達產(chǎn)生格局上的影響。在 2025 年 2 月,英偉達在推理和訓練方面,肯定還是性能最強且效率最高的選擇。不過我們也看到,當 R1 火了之后,國產(chǎn)芯片就開始針對 R1 進行優(yōu)化了,這種定點優(yōu)化其實效果更好。
Q:其實已經(jīng)在用昇騰了。
戴雨森:他們已經(jīng)看到昇騰的 910B 了。
Q:而且即便用英偉達的產(chǎn)品,也可以用 FP4 推理技術(shù)的優(yōu)化。
戴雨森:是的,我覺得一直以來都存在這種情況,當技術(shù)還沒有收斂時候,GPU 具備很強的通用性。或者為什么會有英偉達?最早都是 CPU,它是最通用的。后來大家要玩游戲,游戲有很具體的需求,所以就做了 GPU,專門用來加速游戲,當然后來 GPU 可以做 AI。目前,GPU 對于 AI 的通用訓練和推理來說,還是最通用的選擇。但要是只服務(wù)于某一個具體的模型,有兩種做法。一種是像昇騰這樣,可以專門做優(yōu)化;另一種做 Eclipse,像博通、Marvell 那樣去做。
Q:或者像谷歌做 TPU 那樣,針對自身的需求去優(yōu)化。
戴雨森:其實這也是一種專用化。一旦架構(gòu)穩(wěn)定下來,在芯片領(lǐng)域通常就能通過專用化來實現(xiàn)更高的效率。所以這里就涉及到架構(gòu)到底會不會固化下來,我覺得這也是大家激烈討論的點。目前來看,O1、O 系列這條路能走得很遠,那可能 ASIC 就會逐漸 work。但從另一個角度,假設(shè)明年、后年架構(gòu)基礎(chǔ)發(fā)生變化,Transformer 都不 work 了,換成其他架構(gòu),那做 ASIC 可能就白做了,還得依靠 GPU,所以這里面有很多不確定因素。不過英偉達確實存在一個問題,就是它現(xiàn)在市場份額太高了,很難 go up。
Q:對,它好像已經(jīng)到頂點了。
戴雨森:對,它的市場占有率都 90% 多了,所以有往下走。這種走下坡路的可能性讓很多人很擔憂?,F(xiàn)在一方面大家對未來算力需求的預(yù)期比較高,另一方面對英偉達的市場格局以及由此帶來的毛利率預(yù)期也比較高。一旦市場格局出問題,它的毛利率可能也會受影響,這是大家比較擔心的地方。但要說現(xiàn)在大家都在做什么,包括 DeepSeek 最想獲得的是什么,肯定還是英偉達的產(chǎn)品,能買多少就買多少,想盡辦法去買。
Q:其實這一波最穩(wěn)的還是博通。
戴雨森:博通或 Marvell,這兩個表現(xiàn)都挺突出的。但要是說 ASIC,第一,基本上得到 2027 年才能用得上;第二,這里面還存在一些情況,比如價格變化可能會導致 ASIC 這條路不 work。并且要做出 ASIC 并投入使用,在產(chǎn)能、良品率、效率等方面也有很多問題,不是說想設(shè)計就能做出來的,所以這里面有很多不確定因素。
當然,英偉達也遇到了一些問題,比如液冷問題、整體良品率問題等。反正我認為 Agent 產(chǎn)品的落地,對算力來說肯定是整體利好的,大家現(xiàn)在也都聽到了這個詞杰文斯悖論。但英偉達市場格局是否會變化,只能說出現(xiàn)了一些新的可能性。所以對于炒股票的人來講,Deepseek 出來后的第一反應(yīng)可能是看到相關(guān)新聞先拋售再說,現(xiàn)在好像問題不大,再加回來。
Q:我們剛才聊了很多對未來的展望,有些可能今年就會出現(xiàn),有些可能要等很久之后??偨Y(jié)來說,你覺得 2025 年我們大概率會看到些什么呢?
戴雨森:我覺得我們會看到更多的「李世石時刻」,就是在一些任務(wù)上,AI 超過 99% 的人類,其實這種情況已經(jīng)在陸續(xù)發(fā)生了。比如說寫代碼,現(xiàn)在 AI 寫代碼的能力應(yīng)該比 99% 的人類都要強。
Q:是超過 99% 的程序員,還是 99% 的人類?
戴雨森:我現(xiàn)在說的是人類,但我覺得超過 99% 的程序員可能也快了。因為在 Codeforces 競賽級別的編程中,AI 已經(jīng)超過 99% 的程序員了。不過競賽級編程和日常編程產(chǎn)出不太一樣,日常編程可能需要更多的上下文信息,還要讀取各種代碼庫。但我覺得類似這樣 AI 在能力上打敗人類,或者打敗精英人類的情況會越來越多,我們會看到更多讓人驚嘆的相關(guān)新聞。另外,我覺得會有更多以更方便、更實用的形式呈現(xiàn)的 Agent 產(chǎn)品出現(xiàn),成為現(xiàn)象級產(chǎn)品??赡懿粫袔變|人使用,但我覺得能進一步破圈,達到像 Cursor 那樣的破圈程度。
Q:Cursor 現(xiàn)在的日活是多少???
戴雨森:日活我不太清楚,但它的年度經(jīng)常性收入(ARR)大概有 1 億美金左右。日活很難衡量,所以別用日活來衡量 AI 產(chǎn)品。用戶愿意為產(chǎn)品提供的價值付多少錢,這可能才是關(guān)鍵。我覺得模型的發(fā)展速度會加快,開源和經(jīng)驗分享也會增多,這還挺有意思的。其實在中國,我們現(xiàn)在剛有了在美國經(jīng)歷 ChatGPT 爆火時的那種感覺,因為現(xiàn)在各地的政府都開始用 DeepSeek 了,大家也都在接入 DeepSeek,我覺得這對于提升大家對 AI 的認知度很重要。大家會意識到,原來 AI 這么厲害。之前 Kimi、豆包等模型加起來可能也就幾千萬的 DAU,月活可能都不到 2 億。我覺得這也就是讓大概十分之一的人用上了比較先進的 AI 模型。但要是能讓百分之幾十的人都試用過比較先進的模型,感受到 AI 的強大,那不管是從創(chuàng)業(yè)者、用戶、新產(chǎn)品的角度,還是從投入資源和資金的角度來看,我覺得整個行業(yè)都會迎來一場像寒武紀生物大爆發(fā)那樣的生態(tài)繁榮。
Q:現(xiàn)在是 2025 年,你也說過,2025 年在有些領(lǐng)域可能會出現(xiàn)「李世石時刻」,也就是 AI 超過 99% 的人類,甚至是精英人類。我感覺 DeepSeek 這個事兒,讓整個行業(yè)發(fā)展的速度變得更快了。那你覺得,如果我們更快地實現(xiàn) AGI,或者在更多領(lǐng)域解鎖「李世石時刻」,之后會怎么樣呢?我現(xiàn)在都有點想象不出會發(fā)生什么變化,比如人要去做什么,社會結(jié)構(gòu)會怎么改變。
戴雨森:我覺得我們正處在人類歷史上一個非常有意思的時期。其實指數(shù)增長是世界發(fā)展的常態(tài),因為我們每年都是在前一年的基礎(chǔ)上增長。但能親眼見證并親身感受指數(shù)增長,是很罕見的事情。
Q:你說的指數(shù)增長是指什么?是經(jīng)濟總量,還是其他方面?
戴雨森:GDP 每年增長 2%、3%,這不就是指數(shù)增長嗎。不過一般來說,這種指數(shù)增長得用一生去體會。比如說,今年和明年比可能變化不大。但在 AI 上,具體講,從 o1、o1 Pro 再到 Deep Research,我在短短幾個月內(nèi)就明顯感覺到了它的指數(shù)級增長,這種體驗很特別。而且我覺得這會讓我們對未來的預(yù)期發(fā)生很大的改變。
所以現(xiàn)在很多人都在問,AGI 是什么,實現(xiàn) AGI 之后會怎樣。我個人覺得,AGI 確實會對生產(chǎn)力、社會,甚至政治、文化都產(chǎn)生很大的影響。但具體它到來之后會有什么影響,我覺得我們得做好應(yīng)對沖擊的準備。因為像安全問題,以及新技術(shù)出現(xiàn)后如何解決社會福利問題,我覺得只有當這些情況真正發(fā)生時,大家才會真正重視起來。
Q:而且這個能力掌握在誰手里,其實是影響世界格局的。
戴雨森:所以加速主義就認為 AI 肯定會發(fā)展,壞人會用 AI 去做壞事兒,所以好人應(yīng)該更快的發(fā)展 AI。
Q:比如會出現(xiàn)搞金融詐騙的情況,包括像韓國之前出現(xiàn)的那種 Deepfake AI 色情。
戴雨森:所以就得有更強大的手段去偵查 Deepfake,因為人已經(jīng)沒精力去甄別了,我覺得這肯定會帶來巨大的影響。其實我在想,一方面很多人可能會失業(yè),我覺得這種情況大概率會發(fā)生?,F(xiàn)在大家對通 AGI 的定義就是它能替代多少人的工作,如果 AGI 的作用就是替代人的工作,那實現(xiàn)了 AGI,不就等價于很多人會失業(yè)嗎?當然,這是從社會層面來說。也有人說那個時候物質(zhì)會極大豐富,每個人都發(fā)錢了,但我也不知道到底會怎樣,我覺得肯定會有很多沖擊。
但從另一個角度看,我們?nèi)搜壑械恼鎸崟l(fā)生巨大變化,不管是視頻生成、圖片生成還是內(nèi)容生成。我是 1986 年的,我出生的時候,一個人能接觸到的信息全都是經(jīng)過權(quán)威認證的,要么是書、要么是報紙,不然根本沒辦法出版?zhèn)鞑?。后來互?lián)網(wǎng)的巨大意義在于,能讓普通人寫的東西被大家看到,現(xiàn)在 AI 變成了你想要什么就能生成什么。其實我發(fā)現(xiàn),包括我自己在內(nèi),很多時候都沒有判斷力了,沒辦法甄別信息的真假。所以在這樣的環(huán)境里,如何進一步適應(yīng),建立起自己的認知體系,我覺得這是非常重要的問題。
Q:有一個網(wǎng)絡(luò)流行語,現(xiàn)在越來越有深意了,它大概意思是「視頻沒法 P,所以是真的」。
戴雨森:對,現(xiàn)在視頻都能生成了。我覺得這對我們的社交以及認知世界的方式都會產(chǎn)生很大的影響。我發(fā)現(xiàn)科技發(fā)展有個規(guī)律,第一波往往是最厲害的人創(chuàng)造出最強大的技術(shù),第二波就是用強大的技術(shù)為最厲害的人打造最強的工具。就拿計算機來說,一開始它是為了解決核爆炸問題或者破譯密碼問題而出現(xiàn)的。這種為「超人」設(shè)計的超級工具,會逐漸走向大眾化,普及到普通人,然后變得小型化進入家庭,再發(fā)展到移動化,到處都存在。
我們現(xiàn)在還處于最厲害的一群人給精英人群打造超級工具的階段。但我覺得這個東西最終肯定會惠及大眾。當初我們投資王慧文的光年之外,口號就是「加速 AGI 普惠人類」,我覺得普惠大眾肯定是最終的結(jié)果。不過中間肯定會像威廉?吉布森說的「未來已來,但分布不均」,現(xiàn)在確實分布得不均勻。所以我覺得不管是 DeepSeek 這種開源也好,還是像 Kimi、豆包這種大用戶的產(chǎn)品也好,其實都在加速未來更加均衡地分布,這都具有重要的意義。我覺得新技術(shù)最終是要惠及大眾、全人類的,這樣才有真正的價值,而不是只掌握在少數(shù)有錢人或者少數(shù)公司手里。我覺得這整體來說是我希望看到的結(jié)果。
Q:我比較好奇,你個人在為可能更快到來的 AGI 做一些什么準備?
戴雨森:鍛煉身體。我覺得在投資領(lǐng)域優(yōu)秀的創(chuàng)業(yè)團隊其實很重要。有了更多的技術(shù)創(chuàng)新之后,創(chuàng)業(yè)者就顯得尤為重要。當然,梁文鋒一開始也是創(chuàng)業(yè)者,只不過他太厲害了,自己炒股、自己做量化就能賺到錢。還有很多可能成為梁文鋒那樣的人,他們或許缺少啟動資金。所以我覺得 VC 在這個時候很重要,尤其是早期投資。因為從理論上來說,早期投資承擔的風險最大。要是很多事情都已經(jīng)確定了,那也就不需要我們了。但我覺得現(xiàn)在又回到了一個充滿不確定性的時期,不是每個人都能像梁文鋒那樣,自帶 100 億干糧。
Q:你覺得下一代應(yīng)該如何接受教育?他們應(yīng)該學習什么?我覺得這是很多人都在思考的問題。
戴雨森:我認為最重要的是提出問題的能力。比如說,我經(jīng)常會遇到這樣的情況:面對一個能力很強的 deep research,我應(yīng)該問他什么?我應(yīng)該如何指揮他?作為 AI 公司的老板,我每天要考慮讓大家做什么,今年的方向是什么,這個月的重點是什么。這個過程其實需要大量思考,因為事情不會自己推進,我們需要主動決定方向。但目前的教育體系更多是教授學生「會做什么」,讓他們掌握技能。
然而,很多技能現(xiàn)在已經(jīng)可以由 AI 代替,或者可以通過指揮 AI 來完成。那么,在這種情況下,我們自己應(yīng)該做什么?這成為一個非常重要的問題。其次,我們當前的許多工作本質(zhì)上是一種「縫合」工作——將各類信息復制、拼接、整理,最后形成一份報告。但 AI 在這方面已經(jīng)比人類做得更好。因此,我們要思考自己的內(nèi)容是否能為人類或整體知識體系增添獨特價值。
就像我們現(xiàn)在的對話,可能也有「縫合」的成分,但至少可以誕生一些獨特的數(shù)據(jù)。那么,我們的工作能否創(chuàng)造出 AI 訓練數(shù)據(jù)中不存在的獨特信息?還是僅僅在重復 AI 已有的內(nèi)容?這一點對教育和工作的本質(zhì)都會產(chǎn)生重大影響。
Q:馬斯克那句話我覺得特別有意思,簡而言之就是:「我想在火星上死去,但不是在著陸時?!?/p>
戴雨森:對,關(guān)鍵是別撞死。
Q:我有一個比較個人化的問題。你最近在做投資,同時也即將學習 HI(Human Intelligence),還在研究二級市場。面對這么多領(lǐng)域,你如何保持高效的學習速度?
戴雨森:也沒有特別快,否則我早就更深入地研究 DeepSeek 了(笑)。其實在 V3 發(fā)布的第二天,也就是 12 月 27 號,我就在家里組織了一場討論會,邀請了十幾個朋友,包括字節(jié)和各個 AI 研究機構(gòu)的朋友,一起探討 AI 領(lǐng)域的最新進展。當時正好有 DeepSeek V3 的發(fā)布,非常振奮人心。這說明我們的學習能力還是不錯的。
比如 MLA 發(fā)布的第二天,我就覺得它非常厲害。當時我在美國,和朋友們討論這個技術(shù)。我認為興趣非常重要——只有真正感興趣,學習才會更有效。我自己也比較「多事」,比如 ChatGPT 發(fā)布當天,我就用到了凌晨四點,覺得這個技術(shù)完全不一樣。這種習慣可能源于我 1998 年開始上網(wǎng),1999 年第一次使用 Google。當時的搜索引擎很弱,幾乎搜不到有價值的信息,而 Google 的搜索結(jié)果完全不同,給我?guī)砹藰O大的沖擊。
類似的經(jīng)歷還有很多,比如校內(nèi)網(wǎng)上線的第二天我就開始使用,后來對整個互聯(lián)網(wǎng)創(chuàng)業(yè)的發(fā)展有了深刻的印象。ChatGPT 發(fā)布后,我第一時間體驗,并立刻組織研究小組。Devin 也是如此,我覺得它很有潛力,于是馬上組織討論。
回顧歷史,互聯(lián)網(wǎng)的第一批創(chuàng)業(yè)者往往是最早上網(wǎng)的人,移動互聯(lián)網(wǎng)的先行者通常是最早買 iPhone 的人,甚至最早賺錢的特斯拉投資者,也是因為他們最早購買了特斯拉。因此,現(xiàn)在愿意花一點小錢甚至不花錢去體驗未來,仍然非常重要。比如 Devin 訂閱費是 500 美金一個月,乍一看不便宜,但對于朋友圈的投資人來說,可能只是喝一瓶茅臺的價格,而這點成本可以幫助我們提前看到未來的趨勢。
Q:確實。
戴雨森:所以最重要的是多動手實踐,主動去閱讀 paper,關(guān)注頂尖研究者的工作。比如 OpenAI、DeepSeek 以及其他前沿機構(gòu),他們的高質(zhì)量信息大多是免費公開的,值得學習。去年年初,二級市場很多人認為 AI 需求會遇到瓶頸,2025 年行業(yè)可能會下滑。但我從行業(yè)內(nèi)部的觀察來看,完全不是這樣。AI 訓練仍然在加速,軍備競賽的趨勢明顯,各家公司都在大規(guī)模采購算力。我在去年下半年開始投資 ASIC,當時的邏輯是,盡管 ASIC 未來可能很重要,但短期兌現(xiàn)度還不高。類似的故事在行業(yè)內(nèi)屢見不鮮,比如早年 AMD 被認為會挑戰(zhàn)英偉達,如今 ASIC 也被認為可能威脅英偉達。
Q:ASIC 其實已經(jīng)沖擊了英偉達好幾次,當年 5G 時代的一些公司就是 AC 公司的代表。
戴雨森:是的,每次看似會有沖擊,但最終影響有限。不過二級市場往往是「先炒再說」,兌現(xiàn)情況并不一定重要。二級市場的一個有趣之處在于,它可以作為一種驗證認知的工具。比如,我很早就知道 DeepSeek 很強,但他們并不需要外部投資。這種情況下,二級市場就提供了一個「投注」的機會,就像訓練模型需要 reward signal 一樣,市場的反饋可以驗證你的思考是否正確。因此,我認為二級市場真正的價值不是賺錢,而是提供一個不斷檢驗和修正認知的機制。
Q:那你現(xiàn)在如何利用 AI 工具進行投資決策?
戴雨森:Deep Research 給了我一個很具體的案例。前陣子特朗普每周五都會發(fā)布新的加關(guān)稅政策,當時我正在研究美國國債的交易走勢。我向 Deep Research 提問:「2018 年特朗普宣布加關(guān)稅時,美國長期國債利率的反應(yīng)是怎樣的?」
當時我有兩種推測:一是加關(guān)稅會推高通脹,長期通脹預(yù)期上升,導致國債利率上漲;二是市場避險情緒增強,投資者會賣出股票,轉(zhuǎn)而買入國債,導致國債利率下跌。Deep Research 在 5 分鐘內(nèi)就給出了分析,指出 2018 年的歷史數(shù)據(jù)表明,每次特朗普宣布關(guān)稅政策,美國國債利率都會下降,市場傾向于避險。這一分析幫助我做出了買入美國國債的決策,最終證明是正確的。
Q:這確實是 AI 賦能決策的好例子。
戴雨森:是的,我問它一個問題,五分鐘就能得到答案。如果換作是我的助理,或者一些二級市場經(jīng)驗豐富的朋友,他們可能要到第二天才能告訴我「會漲」之類的。在金融市場,快速響應(yīng)真的很重要。
Q:你剛剛提到學習,似乎你對 AI Agent 有很強的興趣?
戴雨森:對,我特別喜歡讀書,這也是為什么我經(jīng)常講 Agent。我確實覺得它們極大地改變了我的生活。我有時讀書會遇到一個很有趣的觀點,想要深入研究,但如果自己查資料,可能會花很多時間,甚至影響讀書的節(jié)奏。
我舉個例子,Reid Hoffman 的新書《Super Agency》里提到了美國 GPS 發(fā)展的歷史。美國最初擔心 GPS 精度太高會影響國家安全,所以人為地加入了 100 倍誤差,導致它只能用于非常粗放的應(yīng)用。但后來美國發(fā)現(xiàn)這樣反而限制了 GPS 的商業(yè)價值,于是克林頓政府最終取消了這個限制,使 GPS 徹底開放,也催生了美團外賣、滴滴打車等一系列應(yīng)用。
這個例子讓我想到 AI 技術(shù)的發(fā)展:到底是要以國家安全為由限制它,還是選擇開放、共贏,構(gòu)建生態(tài)?于是,我讓 Deep Research 幫我研究 2018 年 GPS 開放政策的背景,并與當前 LLM 政策做對比分析。這種情況下,如果我自己查資料,可能一個小時就過去了,而我只需要讓 Deep Research 先做著,我可以繼續(xù)讀書。等它整理完,我再看總結(jié)。
最終,我發(fā)現(xiàn) GPS 開放的關(guān)鍵在于,美國開發(fā)了定向屏蔽 GPS 信號的技術(shù),這樣在戰(zhàn)爭時期可以局部關(guān)閉 GPS,而平時可以開放使用。這也解答了一個關(guān)鍵問題:美國政府如何在開放 GPS 的同時,解決國家安全的顧慮?這個過程如果讓我自己研究,可能要花很久,但現(xiàn)在 Deep Research 就能幫我完成。這也是為什么我愿意為它付費——從時間價值的角度來看,絕對是劃算的。
Q:200 美元一次,你覺得完全值得?
戴雨森:當然值得啊,200 美元買一次研究,平均到每次 2 美元。這種性價比太高了。
Q:你有沒有一些其它書籍推薦?
戴雨森:我特別推薦一本書,叫《A Brief History of Intelligence》。這本書的作者是一位科技創(chuàng)業(yè)者,他從地球生命的起源講到 GPT-4,總結(jié)了智能演進過程中的五次關(guān)鍵突破,并分析了每次突破的驅(qū)動力以及由此帶來的影響。這是我 2024 年的年度推薦書目之一。
我還推薦給 OpenAI 的研究員,他們讀完之后也覺得很有啟發(fā)。這本書不僅能幫助我們理解智能的演化,也讓我們意識到——我們可能正站在第六次大爆發(fā)的前夜,甚至已經(jīng)進入了這個時代。
Q:還有其他推薦嗎?
戴雨森:有一本更專業(yè)一點的書,叫《第一只眼》。它講的是寒武紀生物大爆發(fā)的歷史。地球上生命存在了 20 億年,但一直是鼻涕蟲一樣的軟體動物。然后在寒武紀的幾百萬年里,生命突然演化出了多個門類,生物多樣性大爆發(fā)。
為什么會發(fā)生這樣的進化?有很多理論,比如空氣含量變化、海水成分變化等等,但這本書提出了一個「光變假說」,認為正是因為某些生物偶然進化出了感光細胞,它們可以感知光線,獲得了生存優(yōu)勢。隨著感光細胞越來越多,最終演化出了真正的眼睛。而當?shù)谝恢谎劬Τ霈F(xiàn)時,整個生物圈的競爭格局發(fā)生了巨變,捕食者變得更強,被捕食者也進化出了保護機制,比如甲殼或者更敏捷的運動能力。
這個理論讓我聯(lián)想到 AI 發(fā)展的現(xiàn)狀。DeepSeek 發(fā)布等一系列進展,讓我覺得 AI 也處于類似的「寒武紀大爆發(fā)」階段。當競爭變得激烈,所有人都必須快速前進,才能不被淘汰。這就像《愛麗絲夢游仙境》里的紅皇后假說——「你必須拼命奔跑,才能留在原地。」
這種競爭推動了技術(shù)進步,使 AI 發(fā)展得越來越快。但從進化的角度來看,這既是生存競爭,也是智能發(fā)展的必然結(jié)果。
Q:剛才你提到智能的演化,語言的作用是不是也是其中之一?
戴雨森:對,語言其實是智能演化中相對晚期才出現(xiàn)的特征,它是一種高度濃縮的信息表達方式。現(xiàn)在的 AI 主要是基于語言模型進行訓練,因為語言本身包含了極高的信息密度。
但這也引發(fā)了一個問題:如果 AI 真的足夠聰明,它是否會重新發(fā)明一種語言,而不再局限于人類的自然語言?劉慈欣的某部科幻小說就提到,外星文明可能會認為人類用語言交流是極低效的方式。
所以,現(xiàn)在 AI 主要依賴語言模型,但未來也許會超越語言。AI 的思維速度遠超人類,如果讓它繼續(xù)使用人類的語言,它可能會受到表達方式的限制?;仡欀悄苎莼臍v史,有助于我們理解 AI 未來可能的發(fā)展方向。
Q:你提到了強化學習(reinforcement learning),它在智能演化中是怎么起作用的?
戴雨森:這本書也探討了強化學習的起源,并通過大量進化生物學的案例進行分析。我覺得這些研究對 AI 領(lǐng)域有很大的啟發(fā)。
Q:非常感謝雨森做客。今天我們從 o1 和 R1 這兩個關(guān)鍵進展聊起,討論了它們對 AI 格局的影響,以及隨之而來的變革。2025 年,或許我們會迎來更多 AI Agent 的 PMF 突破,以及更多「李世石時刻」的到來。
戴雨森:謝謝邀請,我也期待 2025 年的 AI 發(fā)展。我們還處在 AI 智能革命大爆發(fā)的第一天,未來一定會有更多驚喜!

熱門跟貼