上個(gè)月,真格基金管理合伙人戴雨森與「晚點(diǎn)」長(zhǎng)聊了一次 AI 與 Agent。我們將這次訪談?wù)沓赏暾嫖淖指?,分為(上)、(下)兩期發(fā)布。

去年至今有兩個(gè)重要節(jié)點(diǎn):o1 和 R1。它們分別帶來(lái)了兩個(gè)對(duì) AI 全行業(yè)的影響:

  • 一是 o1 在大語(yǔ)言模型中引入強(qiáng)化學(xué)習(xí),開(kāi)啟 pre-training(預(yù)訓(xùn)練)Scaling Law 之外的 post-training(后訓(xùn)練)和 test-time computing(即推理階段的計(jì)算)階段的新 Scaling Law,讓模型推理能力大幅提升。

  • 二是與 o1 同為推理模型的 DeepSeek R1 強(qiáng)勢(shì)開(kāi)源,以極低的成本,和后續(xù)引發(fā)的巨大全民影響力,讓很多人重估了大模型行業(yè)當(dāng)前的最重要課題:提升模型能力。R1 的開(kāi)源和同期發(fā)布了詳細(xì)技術(shù)報(bào)告另一個(gè)推理模型的 Kimi-k1.5 ,也明確告訴整個(gè)領(lǐng)域,一些方向是「此路不通」,他們都沒(méi)有使用蒙特卡洛樹(shù)搜索等方法。

這期節(jié)目,雨森和「晚點(diǎn)」從 o1 和 R1 開(kāi)始聊,二者一同帶來(lái)的推理能力的提升、成本的下降,和同期模型編程能力與工具使用能力的提升,開(kāi)啟了 Agent 在 2025 年的應(yīng)用前景。

雨森詳細(xì)分享了他對(duì) Agent 機(jī)會(huì)的當(dāng)前觀察,以及在 DeepSeek 帶來(lái)的開(kāi)源生態(tài)的變化中,大小 AI 公司的新動(dòng)作和調(diào)整。

01

OpenAI o 系列與 DeepSeek R 系列的啟發(fā)

Q:過(guò)去這將近 6 個(gè)月,AI 屆最重要的兩個(gè)事:一個(gè)是 OpenAI 去年 9 月 o1 的發(fā)布,另一個(gè)是近期 DeepSeek 在發(fā)布 R1 后掀起全球狂潮。我們可以從這兩個(gè)最重要的事兒開(kāi)始聊。你可以先講講,你怎么看 o1 和 R1 分別的意義?

戴雨森我覺(jué)得 o1 首先讓大家看到了 Reinforcement Learning 應(yīng)用于 post-training 領(lǐng)域所帶來(lái)的智能提升。因?yàn)楫?dāng)時(shí)大家都在想在 ChatGPT-4o 之后下一個(gè)是什么?o1 出來(lái)之后,確實(shí)在推理方面還有很多智能的表現(xiàn)上得到了很大的提高。后來(lái) o3 發(fā)布,又證明沿著 o 這條技術(shù)路線,模型的能力還能持續(xù)提升,它的邊際還很遠(yuǎn)、空間還很大。

聽(tīng)說(shuō) o4 mini 也訓(xùn)練完了,從這里面我們既看到了,在 post-training 階段用 Reinforcement Learning 實(shí)現(xiàn)了 post-training 的 Scaling Law。同時(shí)也看到了,當(dāng)模型推理的時(shí)間越來(lái)越長(zhǎng),給出的回答質(zhì)量也越來(lái)越好,這就是 test-time compute scaling law,也叫推理時(shí)間的 Scaling Law。這兩條新的 Scaling Law,在之前 pre-training 的基礎(chǔ)上,讓 AI 模型能進(jìn)一步提升。

之前頭部的那些公司或多或少也了解到 Reinforcement Learning 挺有用的,能提升模型的表現(xiàn)。但 o1 出現(xiàn)之后,大家才確定這條路真的能行得通。我覺(jué)得 o 系列模型帶來(lái)的推理能力提升,是解鎖 Agent 這種產(chǎn)品形態(tài)的關(guān)鍵。因?yàn)槟P偷乃伎寄芰Σ粔驈?qiáng),它就沒(méi)辦法自主使用工具、制定計(jì)劃、檢查自己的工作有沒(méi)有完成,可這些都是 Agent 產(chǎn)品必備的點(diǎn)。所以得先靠 o 系列提升模型的思考能力,才能解鎖新的產(chǎn)品形態(tài)。

Q:o4 和 o3 大概的區(qū)別是什么?或者說(shuō)它主要優(yōu)化迭代的是什么?

戴雨森:最近有一些八卦消息,據(jù)說(shuō)像 o4 mini,它的推理時(shí)間可能達(dá)到幾個(gè)小時(shí)的級(jí)別。我就在想,優(yōu)秀的人類(lèi)和一般人類(lèi)的區(qū)別是什么?為什么博士論文要寫(xiě) 5 年?因?yàn)橐粋€(gè)博士他可以通過(guò) 5 年的時(shí)間得到一個(gè)更好的、更高價(jià)值的工作。但是換成普通人,給他 10 年可能都寫(xiě)不出一篇博士論文。所以首先這個(gè)人基礎(chǔ)素質(zhì)要好,其次還得有足夠的時(shí)間。

我們常說(shuō)訓(xùn)練模型,其實(shí)就跟培養(yǎng)一個(gè)更聰明的人差不多。但是聰明的人需要更多時(shí)間來(lái)傳遞更好的工作,這就是推理時(shí)間的 Scaling Law。在 o 系列模型,比如 o3、o4 中,模型能夠思考更長(zhǎng)的時(shí)間、得到更好的結(jié)果,逐漸成為一個(gè)愈發(fā)可及的目標(biāo)。

Q:剛剛講的是 o1。簡(jiǎn)單總結(jié)一下:o1 證明了強(qiáng)化學(xué)習(xí)在后訓(xùn)練以及測(cè)試時(shí)間計(jì)算的 Scaling Law 方面,有著很大的潛力,而且這事兒還可以走很遠(yuǎn)。這是 o 系列的價(jià)值。

接下來(lái)可以說(shuō)說(shuō) R1,我覺(jué)得在某種程度上,它的影響力超過(guò)了 o 系列,因?yàn)?R1 是全民都在討論的熱點(diǎn)話題。

戴雨森:我覺(jué)得 R 系列確實(shí)是一個(gè)世界級(jí)的工作,這里面給了我們非常多的啟發(fā)。第一就是開(kāi)源 VS 閉源。當(dāng)它選擇開(kāi)源后,大家就能了解模型的訓(xùn)練過(guò)程。在 R1、V3 的訓(xùn)練論文里,我們看到了大量 OpenAI 早就知道,但公眾此前并不知道的事情。比如 DeepSeek-R1-Zero 證明了,在不用 SFT 的情況下,僅基于基礎(chǔ)模型 V3 進(jìn)行 Reinforcement Learning,就能讓模型輸出更長(zhǎng)的長(zhǎng)度、獲得更好的智能,實(shí)現(xiàn)推理的 Scaling Law。不用 SFT 這一點(diǎn)是個(gè)很重要的創(chuàng)新。然后是 GRPO,聽(tīng)說(shuō) OpenAI 之前就知道它,不過(guò)是 DeepSeek 的文章讓大家意識(shí)到 GRPO 這條路可行。之前很多人在探討 o1 時(shí),會(huì)思考是不是可以通過(guò) MCTS 這種搜索方式去實(shí)現(xiàn),或者像 PRM 那樣按步驟標(biāo)注進(jìn)行 reinforcement 來(lái)實(shí)現(xiàn)?但 DeepSeek 很慷慨地分享說(shuō),他們?cè)囘^(guò)這些方法,都行不通。其實(shí)很多時(shí)候,知道一條路走不通是很重要的。

我最近學(xué)到一個(gè)詞,叫「一比特信息」,意思是有些關(guān)鍵信息,一個(gè)比特就足夠傳達(dá)了。

我覺(jué)得 DeepSeek 這篇論文厲害之處就在于,它給大家提供了這些「一比特信息」。比如 MCTS 此路不通,至少 DeepSeek 試過(guò)不通,那大家就不用在這條路上白費(fèi)力氣了。這種「一比特信息」一方面體現(xiàn)了 DeepSeek 慷慨的分享精神,另一方面也反映出硅谷和中國(guó)的差距,硅谷可能還有一些「一比特的信息」我們不知道。根據(jù)我們?nèi)ツ曜龅囊恍┝私鈦?lái)看,2024 年年中,在硅谷 RL 這條路線走得通已經(jīng)是一線實(shí)驗(yàn)室的共識(shí),但這個(gè)信息傳到中國(guó),可能要等到 o1 和 R1 出現(xiàn)后。所以說(shuō),前沿探索的關(guān)鍵信息很多都藏在這些「一比特信息」里。

開(kāi)源的分享精神有很多好處。一方面,讓模型的同行訓(xùn)練者學(xué)到了大量知識(shí)。另一方面,我們也看到微信、百度這些原本就有自己模型的公司,也因?yàn)?DeepSeek 開(kāi)源接入了它。這樣一來(lái),使更多人能用上好模型,比如我們投資的 Monica,最近推出的國(guó)內(nèi)版也用上了 R1。以前,很多國(guó)內(nèi)的應(yīng)用開(kāi)發(fā)者在海外做應(yīng)用,也是因?yàn)楹M庥?ChatGPT-4o、Claude 3.5 等好模型,所以他們能做出好的產(chǎn)品?,F(xiàn)在國(guó)內(nèi)有了 R1 這樣好的模型之后,開(kāi)發(fā)者們手頭的「武器」更豐富了。而且,開(kāi)源還能促進(jìn)整個(gè)行業(yè)更快發(fā)展,大家可以互相學(xué)習(xí)、共同進(jìn)步;

剛才提到了第一點(diǎn),是開(kāi)源帶來(lái)的勝利。第二點(diǎn),我覺(jué)得是強(qiáng)化學(xué)習(xí)(RL)的勝利。OpenAI 并沒(méi)有公開(kāi) o1 訓(xùn)練的具體細(xì)節(jié),但 R1 的公布讓大家看到,Reinforcement Learning 這條路真的能走得很遠(yuǎn),為大家指明了一條值得深入探索的方向,所以我覺(jué)得這是 RL 的一大勝利;

第三點(diǎn),R1、V3 以及整個(gè) DeepSeek,都充分證明了團(tuán)隊(duì)專(zhuān)注的重要性。在資源受限的情況下,大家反而能想出更具創(chuàng)造性的解決辦法。比如,用 MOE 是一種節(jié)省資源的方式,要是用傳統(tǒng)的 dense model,推理成本和訓(xùn)練成本都會(huì)高很多。而使用 MOE,并且在芯片等面臨「卡脖子」問(wèn)題時(shí),通過(guò)像 MLA 這樣的技術(shù)創(chuàng)新,在合法合規(guī)的前提下,讓訓(xùn)練和推理得以順利進(jìn)行,還能取得更好的效果。這就說(shuō)明,資源限制往往能成為創(chuàng)新的動(dòng)力源泉。

同時(shí),DeepSeek 也是一家在研究方向上做了很多選擇的公司。2023 年,很多人都在做多模態(tài)生成、AI 虛擬女友這類(lèi)項(xiàng)目,也有不少人專(zhuān)注于 to C 產(chǎn)品的開(kāi)發(fā),但 DeepSeek 并沒(méi)有跟風(fēng)。他們直到 R1 發(fā)布之后才推出自己的 App。雖然 DeepSeek 已經(jīng)擁有很多卡、錢(qián)以及很優(yōu)秀的人,但他們依然專(zhuān)注于提高智能、提升模型的基礎(chǔ)能力,把力量集中在一個(gè)方向上,最終獲得這樣的結(jié)果。這不僅體現(xiàn)了他們對(duì)技術(shù)發(fā)展方向的精準(zhǔn)判斷,也展現(xiàn)了堅(jiān)定選擇、堅(jiān)決投入所帶來(lái)的好的結(jié)果。

同時(shí),這也讓我們看到,年輕的 AI native 團(tuán)隊(duì)是有能力跟規(guī)模更大、資源及用戶更多的大廠 PK 的。以前大家總覺(jué)得大廠在資金、人才、卡和用戶數(shù)量上占據(jù)絕對(duì)優(yōu)勢(shì),小公司根本無(wú)法與之抗衡。DeepSeek 雖然不是普通意義上的小公司,但相對(duì)來(lái)說(shuō),它還是比較年輕的團(tuán)隊(duì),團(tuán)隊(duì)里很多成員都是中國(guó)本土培養(yǎng)的研究生、博士生。這讓大家對(duì)中國(guó)的人才體系充滿信心,這一點(diǎn)也很關(guān)鍵;

還有一點(diǎn)對(duì)我來(lái)說(shuō)也很重要,DeepSeek 證明了在技術(shù)革命的早期,如果能通過(guò)技術(shù)進(jìn)步為用戶帶來(lái)全新的、像魔法般的體驗(yàn),就會(huì)收獲意想不到的成果。很多人第一次使用 DeepSeek 的 R1 模型,第一次用到 reasoning model,看到它輸出的結(jié)果,用戶會(huì)覺(jué)很棒。這會(huì)引起自發(fā)的傳播,帶來(lái)了大量的自然流量,在沒(méi)有投入一分錢(qián)廣告費(fèi)的情況下,就獲得了幾千萬(wàn)的日活躍用戶(DAU)。同時(shí),它的 API 也供不應(yīng)求,很多人都愿意付費(fèi)使用,甚至有人主動(dòng)提出希望能有一個(gè)付費(fèi)穩(wěn)定版的 R1 模型。這也意味著,技術(shù)進(jìn)步帶來(lái)產(chǎn)品體驗(yàn)的變革,產(chǎn)品體驗(yàn)的變革帶來(lái)用戶的自發(fā)傳播、自然流量,同時(shí)也會(huì)涌現(xiàn)出商業(yè)模式。所以我覺(jué)得,在技術(shù)革命的早期,要堅(jiān)持技術(shù)的突破、在智能上的領(lǐng)先,而不是在已有的智能上進(jìn)行產(chǎn)品、運(yùn)營(yíng)的雕花。

Q:你覺(jué)得這個(gè)已經(jīng)是共識(shí)了嗎?

戴雨森:之前有不少人提出過(guò),2023 年到 2024 年期間,有很多研究者表達(dá)過(guò)「智能很重要,不要在已有的基礎(chǔ)上雕花」。但我覺(jué)得大家需要一個(gè)實(shí)際的、鮮活的例子。在 2024 年 DeepSeek-R1 出世之前,大家都過(guò)于關(guān)注互聯(lián)網(wǎng)時(shí)代的指標(biāo),比如 DAU、用戶留存率以及用戶使用時(shí)長(zhǎng)等。就拿當(dāng)時(shí)很火的 AI 虛擬女友和 AI 打電話功能來(lái)說(shuō),為什么會(huì)有那么多人熱衷于開(kāi)發(fā)這類(lèi)產(chǎn)品呢?原因就在于,從數(shù)據(jù)上看,這類(lèi)產(chǎn)品的用戶留存率比較高,用戶與它們互動(dòng)的時(shí)間也很長(zhǎng)。畢竟和 AI 打電話,時(shí)間自然就拉長(zhǎng)了。但這真的能代表智能提升嗎?至少我個(gè)人覺(jué)得,這更多是滿足了用戶的情感需求,并不是智能的提升。如果把時(shí)長(zhǎng)、DAU 作為優(yōu)化指標(biāo),就不會(huì)去做 Deepseek 這樣提高智能的產(chǎn)品。

在中國(guó)互聯(lián)網(wǎng)領(lǐng)域,一直存在著不少爭(zhēng)議。大家都知道企業(yè)服務(wù)的土壤不足,而且似乎用戶更愿意為殺時(shí)間付費(fèi)不為省時(shí)間付費(fèi),所以大家都習(xí)慣性的尋找下一個(gè)字節(jié)跳動(dòng)。我在 2024 年 10 月給我們的 LP 做匯報(bào)時(shí)就提到,未來(lái)可能不會(huì)再沿用字節(jié)跳動(dòng)的公式,因?yàn)樽止?jié)跳動(dòng)是通過(guò)占用用戶時(shí)間去賺錢(qián)的,然而用戶的時(shí)間是有限的,抖音、王者榮耀等已經(jīng)占據(jù)了用戶大量的時(shí)間。所以,接下來(lái)具有創(chuàng)新性的「殺手應(yīng)用」,可能會(huì)是那些能夠幫用戶節(jié)省時(shí)間,或者在這 8 小時(shí)、 16 個(gè)小時(shí)以外去給用戶創(chuàng)造價(jià)值,而不是一定要把刷抖音的時(shí)間搶過(guò)來(lái),那是很難搶的,抖音很厲害。在這種情況下,DeepSeek 就成為了一個(gè)很好的范例。

02

Agent 帶來(lái)資本轉(zhuǎn)化為生產(chǎn)力的 Scaling Law

Q:以 o 系列和 R 系列為代表的推理模型,接下來(lái)會(huì)帶來(lái)哪些行業(yè)和應(yīng)用變化?有一點(diǎn)你之前已經(jīng)提到過(guò)——推理能力的提升,會(huì)指向 Agent 應(yīng)用,這也是從去年下半年到現(xiàn)在大家頻繁討論的話題。

戴雨森:按照我們剛剛講的框架——技術(shù)進(jìn)步解鎖新的產(chǎn)品形態(tài)。我們可以看到,從 GPT 逐步升級(jí)到 GPT 3.0,然后對(duì)齊成對(duì)話模式的 InstructGPT,最后出來(lái) GPT-3.5 模型,解鎖了 Chatbot 這種產(chǎn)品形態(tài);以 Sonnet 為代表的 coding 能力很強(qiáng)的模型,則解鎖了像 Cursor 這樣像編程助手的產(chǎn)品形態(tài),可以說(shuō)是相互成就的關(guān)系,如果沒(méi)有 Sonnet,Cursor 就不可能火。從 Sonnet 3.5 開(kāi)始,模型開(kāi)始具備一定的推理能力,而 o1 及后續(xù)的 o 系列模型的進(jìn)展,讓模型的推理能力變得很強(qiáng)。解鎖對(duì)應(yīng)的產(chǎn)品形態(tài),我覺(jué)得可能就是 Agent。

什么叫 Agent?在英文里「agency」有主觀能動(dòng)性的含義,以前地球上只有人類(lèi)具備主觀能動(dòng)性,我們清楚自己的目標(biāo),能夠制定計(jì)劃、使用工具、評(píng)估工作成果,這也是人類(lèi)得以統(tǒng)治世界的原因之一。但是現(xiàn)在 AI 的能力逐漸到達(dá)了一個(gè)突破點(diǎn),使得 AI 能夠扮演 Agent。

在我看來(lái),AI 能夠?qū)崿F(xiàn)這一轉(zhuǎn)變,是由三個(gè)技術(shù)的進(jìn)步解鎖的:

  • 第一是 reasoning。推理能力是 AI 的基礎(chǔ)智能,如果推理能力不足,就會(huì)面臨一系列問(wèn)題。比如,它無(wú)法明確自己的任務(wù)目標(biāo),難以制定出切實(shí)可行的執(zhí)行計(jì)劃,更無(wú)法判斷自己是否完成了任務(wù)。

  • 第二是 coding 能力。在數(shù)字世界中,理解 code、寫(xiě) code、完成各種任務(wù)是基礎(chǔ)技能,是賽博世界的「語(yǔ)言」。

  • 第三是工具使用能力。在數(shù)字世界,人已經(jīng)為自己造了這么多的工具、軟件,那 AI 要想充分發(fā)揮作用,首先得適應(yīng)人類(lèi)用的這些工具。比如,AI 需要借助人類(lèi)的瀏覽器、網(wǎng)站來(lái)獲取信息。

在過(guò)去的 12 個(gè)月里,推理(reasoning)、編程(coding)和工具使用(tool use)這三種能力都發(fā)生了翻天覆地的變化,進(jìn)入指數(shù)增長(zhǎng)的階段。為了衡量這些能力,業(yè)界有一些不同的 benchmark(基準(zhǔn)測(cè)試)。以推理能力為例,我們常用 GPQA 進(jìn)行測(cè)試,這是一種模擬人類(lèi)博士生入學(xué)資格水平的測(cè)試。在這個(gè)測(cè)試中,普通人類(lèi)大約能得 20 多分,人類(lèi)博士生能達(dá)到 60 分左右。在 2024 年年初,AI 領(lǐng)域最前沿的模型僅得 10 幾分。但如今,像 o3 這樣的前沿模型,得分已經(jīng)達(dá)到了 70 多分(如果我沒(méi)記錯(cuò)的話),所以這個(gè)漲得非???。

在衡量 AI 的編程能力時(shí),大家常用 SWE-Bench 進(jìn)行測(cè)試,它抽取了一系列 GitHub 上真實(shí)的人類(lèi)編程任務(wù)。在 2024 年初,4o 得分只有個(gè)位數(shù),基本是不可用的狀態(tài)。但現(xiàn)在,o3 已經(jīng)到了 70-80 分的程度,這意味著人類(lèi) 70%-80% 的編程任務(wù) AI 都可以解答。

如今,AI 能力的快速發(fā)展給我們帶來(lái)了一個(gè)新的問(wèn)題,那就是我們很難再找到合適的題目來(lái)測(cè)試 AI 了。前段時(shí)間,陶哲軒提出了一個(gè)名為 Frontier Math 的測(cè)試,里面最簡(jiǎn)單的題目都是 IMO(國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽)級(jí)別的難題。當(dāng)時(shí)大家認(rèn)為,這些難題至少能夠擋住 AI 幾年的時(shí)間,結(jié)果現(xiàn)在 o3 模型在 Frontier Math 測(cè)試中已經(jīng)能拿到 25 分,o4 模型的表現(xiàn)更好。

一旦 Reinforcement learning 應(yīng)用到某個(gè)領(lǐng)域,相關(guān) AI 的成長(zhǎng)曲線常常呈現(xiàn)指數(shù)式增長(zhǎng)。就像之前 AlphaGo 的出現(xiàn),它運(yùn)用強(qiáng)化學(xué)習(xí)技術(shù),在圍棋領(lǐng)域取得了巨大突破。后來(lái),DeepMind 開(kāi)發(fā)的 AlphaStar,在《星際爭(zhēng)霸》游戲中,也憑借強(qiáng)化學(xué)習(xí),迅速超越了人類(lèi)頂級(jí)玩家。還有自動(dòng)駕駛技術(shù),其實(shí)從技術(shù)層面來(lái)講,自動(dòng)駕駛已經(jīng)比人類(lèi)駕駛安全很多倍了,只是由于各種監(jiān)管因素,還沒(méi)有大規(guī)模應(yīng)用。我把這種 AI 能力超越人類(lèi)的標(biāo)志性時(shí)刻稱(chēng)為「李世石時(shí)刻」。大家應(yīng)該都記得,李世石與 AI 進(jìn)行圍棋對(duì)決時(shí),五盤(pán)棋輸了四盤(pán),那時(shí)候發(fā)現(xiàn),AI 原來(lái)連最強(qiáng)的人類(lèi)都能輕松打敗。

Q:人類(lèi)是不是很快就沒(méi)有能夠評(píng)價(jià) AI 能力的能力了?

戴雨森:我覺(jué)得現(xiàn)在已經(jīng)很缺乏了。就像 Alexandr Wang 弄出的那個(gè)「Humanity's Last Exam」的問(wèn)題,現(xiàn)在也到 20 分了。

Q:滿分是 100 分嗎?

戴雨森:對(duì),從 20 分到 80 分可能很快的。關(guān)鍵是人類(lèi)要想出來(lái)難題來(lái),那無(wú)疑對(duì)人類(lèi)而言是個(gè)很大的挑戰(zhàn)。但是如果 AI 靠花算力、靠 RL、靠更強(qiáng)的 inference 就能實(shí)現(xiàn)的話,差距是很難趕上的。

Q:像你剛剛提到的「李世石時(shí)刻」,開(kāi)端肯定是 AI 超越了人類(lèi),這一點(diǎn)是很直觀的。我和一些圍棋愛(ài)好者交流過(guò),比如樓天城,他說(shuō)當(dāng) AlphaGo Zero 出現(xiàn)后,不僅超越了人類(lèi),而且人類(lèi)的智能其實(shí)不能理解它。他覺(jué)得下圍棋和做自動(dòng)駕駛都是這種感覺(jué),自動(dòng)駕駛試乘是試不出來(lái)什么東西的。下圍棋也是,人類(lèi)積累了上千年的定式,被 AI 輕易打破了。

戴雨森:我覺(jué)得可理解性和可解釋性其實(shí)并不一定存在的。

Q:因?yàn)榘凑盏谝恍栽?,人?lèi)現(xiàn)在根本沒(méi)有辦法掌握世界上所有的真理和規(guī)律。

戴雨森:比如我們也沒(méi)法理解愛(ài)因斯坦當(dāng)時(shí)是怎么想出那些理論的,如果你進(jìn)一步來(lái)想,貓貓狗狗肯定也理解不了人類(lèi)為什么要做各種各樣的事情對(duì)吧?如今 AI 發(fā)展這么快,我們可能很快就會(huì)面臨一種情況,就好比小學(xué)生去考核博士生。現(xiàn)在我們可能正逐漸處于這樣的階段,小學(xué)生絞盡腦汁想出自己覺(jué)得超難的題目去考博士生,可對(duì)博士生來(lái)說(shuō),這些題目可能并不難。

這對(duì) AI 安全來(lái)說(shuō),是個(gè)至關(guān)重要的問(wèn)題,我們可能無(wú)法評(píng)價(jià)了。因?yàn)楝F(xiàn)在很多人類(lèi)已有的測(cè)試,AI 都能輕松刷到 95 分以上。像在清華讀書(shū)時(shí)經(jīng)常有人講,有人考 100 分是因?yàn)樗哪芰ι舷蘧褪?100 分,而有的人考 100 分是因?yàn)樵嚲頋M分只有 100 分,如果滿分是 1000 分,他也能考 1000 分。

Q:現(xiàn)在已經(jīng)到了這個(gè)階段嗎?就我們已經(jīng)無(wú)法評(píng)價(jià) AI 的能力了。

戴雨森:我覺(jué)得還不是無(wú)法評(píng)價(jià),但已經(jīng)在可以預(yù)見(jiàn)的未來(lái),可能在小幾年的時(shí)間內(nèi)就很難去評(píng)價(jià)了。

Q:那個(gè)時(shí)候會(huì)帶來(lái)什么什么呢?

戴雨森:其實(shí)現(xiàn)在大家已經(jīng)看到了很多相關(guān)的苗頭。比如春節(jié)期間有一篇文章,據(jù)說(shuō)是梁文鋒發(fā)在知乎上的回應(yīng),非?;?,后來(lái)大家發(fā)現(xiàn)那就是 DeepSeek 寫(xiě)的。

我最近一直在用 OpenAI 的 Deep Research,它給了我很大幫助,也帶來(lái)了很多震撼。咱們剛才聊到 Agent,其實(shí) Agent 的第一個(gè)應(yīng)用場(chǎng)景就是幫我做研究。我向它提出一個(gè)問(wèn)題,它得思考如何解答、列出研究計(jì)劃、尋找資料、進(jìn)行總結(jié)和對(duì)比。從原來(lái)沒(méi)有 reasoning 能力的 4o,到后來(lái)出現(xiàn)了 o1。接著,o1 有了 o1 pro,能進(jìn)行更深入的思考,再到 o3 mini high,然后又有了 Deep Research。整個(gè)過(guò)程也就花了 3-6 個(gè)月的時(shí)間,但我明顯感覺(jué)到它的水平提升是呈指數(shù)級(jí)的。

昨天我就在想,要是從大街上隨便找十個(gè)人,我覺(jué)得至少有九個(gè)人的能力已經(jīng)比不上 Deep Research。因?yàn)?Deep Research 能在幾分鐘內(nèi),針對(duì)任何你需要的話題,給出一份在我看來(lái)達(dá)到在較好公司工作一兩年的白領(lǐng)水平的研究報(bào)告。其實(shí)很多人即便花再多時(shí)間,也不具備這樣的思考推理能力、信息獲取能力以及總結(jié)能力。所以我覺(jué)得 AGI 已經(jīng)不再是一個(gè)科幻概念。要是兩年前大家談?wù)?AGI,還覺(jué)得那是很遙遠(yuǎn)的事,但現(xiàn)在在收集信息、整理信息這類(lèi)任務(wù)上,AI 已經(jīng)超過(guò)了大多數(shù)人。

Q:像我們這樣的人,比特進(jìn)比特出的信息工作者。

戴雨森:所以像今天這樣的聊天對(duì)話,AI 目前還做不到。畢竟這是我們之間的專(zhuān)有信息,在聊之前,這些信息根本不存在。但要是這些信息已經(jīng)存在某個(gè)地方,不是專(zhuān)有信息的話,那 AI 肯定比絕大部分人做得要好得多,這點(diǎn)我很確定。可以說(shuō),AI 的增長(zhǎng)速度真的特別快,我們已經(jīng)看到了它的指數(shù)級(jí)增長(zhǎng),也會(huì)見(jiàn)證很多剛才提到的「李世石時(shí)刻」的到來(lái)。

回到最開(kāi)始的話題,我覺(jué)得解鎖 Agent 有著非常重要的意義。過(guò)去,互聯(lián)網(wǎng)上所有的產(chǎn)品模式,我覺(jué)得可以用一句很著名的話來(lái)概括,就是「Attention is all you need」。

不管是騰訊還是字節(jié),它們的核心都是看有多少用戶在自家產(chǎn)品上花了多少時(shí)間。這其實(shí)可以用一個(gè)公式來(lái)理解:時(shí)長(zhǎng)×用戶數(shù)×變現(xiàn)率。所以大家都想著怎么吸引更多用戶,讓他們花更多時(shí)間,然后提高變現(xiàn)率。但這件事肯定是有上限的,畢竟總共就這么多人,每個(gè)人一天睡 8 小時(shí),醒著最多 16 個(gè)小時(shí),還得吃飯、工作,有些事兒還不能看手機(jī),所以很難把看手機(jī)的時(shí)間再提高一倍。于是大家就想提高變現(xiàn)率,同樣的一個(gè)小時(shí)我怎樣在你這獲取更高的價(jià)值,就變成了抖音的視頻廣告、直播,但這條路肯定也有盡頭。

在人類(lèi)歷史上,所有事情基本都需要人的 Attention,只有一種情況例外,就是自動(dòng)化,以前的機(jī)械自動(dòng)化,比如機(jī)床,人把自動(dòng)化系統(tǒng)搭建好后,它就能自行運(yùn)轉(zhuǎn),但它沒(méi)有主觀能動(dòng)性。目前 AI 技術(shù)的進(jìn)步帶來(lái)了一種,第一不需要人類(lèi)的注意力,第二又能自主執(zhí)行任務(wù)的可能。不夸張地說(shuō),這是人類(lèi)誕生以來(lái)最大的進(jìn)步。如果說(shuō)人類(lèi)和其他動(dòng)物的區(qū)別在于人類(lèi)會(huì)使用工具,而以前人類(lèi)用的工具都需要 Attention,直到現(xiàn)在有了 Agent 這種不需要 Attention 的工具。就像我把問(wèn)題丟給 Deep Research,它自己研究 5 分鐘,這期間我不用 Attention。去年我用 Devin 的時(shí)候,給它一個(gè)任務(wù),它就自己去干,我可以中途打斷它,提出新需求,也能看看它的進(jìn)度,但要是我不打擾,它就自己完成。所以我想提出一句新的話:在 Agent 時(shí)代,「Attention is not all you need」。

它會(huì)解鎖人類(lèi)無(wú)限的潛能。前面說(shuō)了,人類(lèi)的 Attention 是有限的,如果人類(lèi)的 Attention 不需要再被使用的話,那它的理論倍數(shù)是無(wú)限的。這就好比從老板的角度讓員工做事,就不用 Attention。以前大部分人都是執(zhí)行別人 Attention 的結(jié)果,只有少數(shù)人是老板。

但現(xiàn)在 AI 越來(lái)越強(qiáng)大,每個(gè)人都能當(dāng) AI 的老板。那讓 AI 做什么是一個(gè)很重要的問(wèn)題。很多人覺(jué)得助手很聰明,除了訂機(jī)票、訂外賣(mài)這些簡(jiǎn)單事情,但不知道讓它干什么。我覺(jué)得這對(duì)社會(huì)、教育都會(huì)有重大影響,不過(guò)我相信,等大家適應(yīng)了這種范式之后,會(huì)發(fā)現(xiàn)有更多事可以交給 AI 去做。進(jìn)一步延展,我覺(jué)得我們可能會(huì)看到一種工作的 Scaling Law。其實(shí)現(xiàn)在工作、生產(chǎn)力不太容易被簡(jiǎn)單地?cái)U(kuò)大,比如一家大廠,即便有 100 億甚至 1000 億資金,也不能直接把這些錢(qián)轉(zhuǎn)化成生產(chǎn)力,還得招人、培訓(xùn),人多了還會(huì)有內(nèi)斗,所以有錢(qián)不一定就有生產(chǎn)力。但如果 AI 模型越來(lái)越強(qiáng),模型的推理能力也不斷提升,你會(huì)發(fā)現(xiàn)有錢(qián)就等于有算力,算力越多,就能讓 AI 產(chǎn)生更多生產(chǎn)力,這就是資金轉(zhuǎn)化為生產(chǎn)力的 Scaling Law。

Q:但世界上需要這么多的生產(chǎn)力嗎?

戴雨森:這就跟在汽車(chē)和飛機(jī)發(fā)明之前,大家的想法一樣。那時(shí)候人們會(huì)覺(jué)得,要去隔壁村,走路過(guò)去就行了,為啥要坐飛機(jī)呢?

Q:你覺(jué)得它會(huì)創(chuàng)造新的需求?

戴雨森:我至少覺(jué)得歷史上大量的技術(shù)已經(jīng)重復(fù)驗(yàn)證了這一點(diǎn)。

Q:相比人類(lèi)物種和長(zhǎng)期的古代歷史,其實(shí)人類(lèi)的技術(shù)爆炸的時(shí)間很短,也就四五百年。

戴雨森:這是個(gè)更有意思的點(diǎn)。原來(lái)人類(lèi)的技術(shù)爆炸是以「一代人」為單位的,逐漸變成了,一代人的生命周期里,能經(jīng)歷幾次技術(shù)爆炸?現(xiàn)在技術(shù)爆炸的周期已經(jīng)縮短到了十年以?xún)?nèi),從 AlexNet 問(wèn)世到現(xiàn)在不過(guò) 13 年,從 ChatGPT 誕生到現(xiàn)在也沒(méi)過(guò)去多久?;叵?ChatGPT 剛出現(xiàn)的時(shí)候,都覺(jué)得它的能力很牛,但放到現(xiàn)在來(lái)看,當(dāng)時(shí)的它其實(shí)還有很大的提升空間。技術(shù)變化這么快,人們可能很難及時(shí)適應(yīng),這勢(shì)必會(huì)對(duì)社會(huì)產(chǎn)生很多影響。

拋開(kāi)這個(gè)之外,指數(shù)增長(zhǎng)本來(lái)是世界的常態(tài),但指數(shù)增長(zhǎng)在最后陡峭的曲線之前,它看上去很像線性增長(zhǎng)。有句話叫「gradually then suddenly」,在進(jìn)入快速上揚(yáng)階段之前,一切看起來(lái)很平靜。這也是關(guān)注 AI 安全的人如此擔(dān)心的原因,現(xiàn)在大家都覺(jué)得已經(jīng)進(jìn)入指數(shù)增長(zhǎng)階段,這就不叫未雨綢繆了,已經(jīng)開(kāi)始打雷、快下雨了。我覺(jué)得生產(chǎn)力的大幅提高是一個(gè)很重要的變量,如果你認(rèn)為生產(chǎn)力最后帶來(lái)的是經(jīng)濟(jì)價(jià)值的話。

那問(wèn)題就變成了生產(chǎn)力是什么,以及怎樣讓它為大家創(chuàng)造價(jià)值。一方面,就如 Sam Altman 所說(shuō),一個(gè)人的公司會(huì)變得很強(qiáng)大,如果一個(gè)人能夠很有效的指揮 AI,甚至通過(guò) AI 指揮 Agent,那他可能創(chuàng)造很大的價(jià)值;另一方面,以往創(chuàng)業(yè)者之所以有時(shí)能打敗大廠,是因?yàn)樗麄兡芨咝У匕奄Y金轉(zhuǎn)化為生產(chǎn)力,因?yàn)樗麄冇懈翡J的 vision、更努力、沒(méi)有組織的阻力。但假設(shè)大廠投入大量資金去聘請(qǐng)很厲害的創(chuàng)業(yè) Agent,那普通創(chuàng)業(yè)者可能就難以與之抗衡了,或許只有頂級(jí)創(chuàng)業(yè)者能夠打敗大廠,一般創(chuàng)業(yè)者可能會(huì)被大廠花錢(qián)請(qǐng)來(lái)的 AI 淘汰,這也是說(shuō)不好的事情。所以有人認(rèn)為,這會(huì)導(dǎo)致富人更富有,因?yàn)楦蝗四苜I(mǎi)來(lái)更多生產(chǎn)力。過(guò)去,一個(gè)人固然有錢(qián),也可能比不過(guò)一個(gè)聰明的年輕人,但未來(lái)情況可能會(huì)不同。

Q:這是兩個(gè)方向,一個(gè)是其實(shí)是超級(jí)個(gè)人,一個(gè)是像「科幻烏托邦」那樣,將資源逐漸匯聚到更厲害的公司。

戴雨森:所以我覺(jué)得 AI 帶來(lái)的變化是很大的,不管是從生產(chǎn)力角度,還是社會(huì)結(jié)構(gòu)角度來(lái)看。不過(guò),要解鎖這些變化,前提條件是模型能力得提高。我覺(jué)得,在技術(shù)革命早期找到第一個(gè) PMF,有時(shí)候就像是個(gè)甜蜜的陷阱,甚至可以說(shuō)是詛咒。比如移動(dòng)互聯(lián)網(wǎng),黑莓算是第一個(gè)找到 PMF 的。當(dāng)時(shí)技術(shù)有限,處理器弱、網(wǎng)絡(luò)慢,所以它覺(jué)得只能搞發(fā)郵件、發(fā)黑莓消息、收推送這些功能。為了做好這個(gè) PMF,就做了帶鍵盤(pán)的黑莓手機(jī),還一直以鍵盤(pán)為傲??珊髞?lái)技術(shù)進(jìn)步了,處理器更強(qiáng)、網(wǎng)絡(luò)更快、屏幕更大,蘋(píng)果直接說(shuō)不要鍵盤(pán),做了全觸屏手機(jī)。那時(shí)候黑莓還覺(jué)得沒(méi)鍵盤(pán)打字、發(fā)郵件肯定不好用,這就是 PMF 的詛咒,當(dāng)后面技術(shù)一升級(jí),就被自己的 PMF 困住了。

互聯(lián)網(wǎng)也有這種情況。雅虎是互聯(lián)網(wǎng)領(lǐng)域第一個(gè)找到 PMF 的公司,搞的是門(mén)戶模式,就是把信息列出來(lái)給用戶看。后來(lái)搜索引擎 Google 出現(xiàn),對(duì)雅虎是個(gè)巨大的沖擊。原來(lái)雅虎是很復(fù)雜的,有大量?jī)?nèi)容,得點(diǎn)進(jìn)去看,而 Google 就一個(gè)搜索框,直接輸入就行。其實(shí)雅虎曾經(jīng)有機(jī)會(huì)收購(gòu) Google,可惜出價(jià)不夠高,后來(lái)就被 Google 給顛覆掉了。

所以我想說(shuō),像聊天機(jī)器人(Chatbot)可能也是個(gè)甜蜜的陷阱?,F(xiàn)在有這么多 chatbot,大家可能就想著在這基礎(chǔ)上優(yōu)化。但我一直覺(jué)得,chatbot 可能會(huì)限制前沿 AI 模型能力。比如你和 ChatGPT、Kimi 或者豆包聊天,是不是習(xí)慣像在微信上那樣特別碎片化的短對(duì)話。但如果要給 agent 一個(gè)指令,很多時(shí)候就得寫(xiě)個(gè)更重要的 proposal,就像申請(qǐng)國(guó)家自然基金的 Grant,得完整闡述要做的事、目標(biāo)和條件,得進(jìn)行完整溝通。但在 chatbot 這種類(lèi)似微信的語(yǔ)境里,只能進(jìn)行碎片化溝通,模型的智能都不一定能體現(xiàn)出來(lái)。

我之前跟 OpenAI 的同學(xué)聊,他們說(shuō)發(fā)現(xiàn)先進(jìn)的模型在和用戶聊天時(shí),并沒(méi)有讓用戶滿意度提升太多。這就有點(diǎn)像跟人在微信上聊天,你跟一個(gè)普通大學(xué)生和一個(gè)科學(xué)家聊,感覺(jué)差別沒(méi)那么大。但要是讓他們寫(xiě)博士論文,那完全是 0 和 1 的區(qū)別。所以說(shuō),Chatbot 這種早期容易被大家接受的產(chǎn)品形態(tài),不一定就是能走到最后的產(chǎn)品形態(tài)。

如果在這個(gè)基礎(chǔ)上進(jìn)行短期的指標(biāo)優(yōu)化,比如說(shuō)想辦法讓大家在 chatbot 上停留更久,然后就出個(gè)打電話功能。但打電話和智能提升是不是一致的?因?yàn)榘央娫挻蚝茫赡芸康氖钦f(shuō)話語(yǔ)氣、情商,跟智能、提升生產(chǎn)力沒(méi)關(guān)系。我在想,歷史上經(jīng)常出現(xiàn)這種情況,那些先找到第一個(gè) PMF 的人,如果不繼續(xù)深入探索,很可能就會(huì)被這個(gè) PMF 給困住。

Q:我們剛才做了很多關(guān)于 Agent 的展望,如果按照你說(shuō)的工作 Scaling Law 的邏輯,在 2025 年的話,第一批出現(xiàn)的 Agent 會(huì)是什么樣的形態(tài)呢?

戴雨森:第一批的話,我覺(jué)得像現(xiàn)在最火的 Deep Research。你看 OpenAI 出了 Deep Research,不過(guò)最早是 Google 推出的,接著 Perplexity 推出了 Deep Research,而且我知道好多創(chuàng)業(yè)公司也打算往這個(gè)方向發(fā)展。為什么大家要發(fā)展這個(gè)方向?因?yàn)榇蠹野l(fā)現(xiàn),讓 AI 更深度地去研究信息、獲取更多資源,再根據(jù)獲取的內(nèi)容決定下一步獲取什么樣的信息,形成這么個(gè)循環(huán),最后給出一個(gè)研究報(bào)告,這其實(shí)就是我們平時(shí)讓分析師干的事情。但大家發(fā)現(xiàn),花差不多的時(shí)間,甚至稍微多花點(diǎn)時(shí)間,用這個(gè)就能得到更好的結(jié)果。我們把這叫「read only Agent」,就是它只做讀取操作,不做寫(xiě)的操作。我覺(jué)得目前這個(gè) PMF 已經(jīng)很明顯了,我用的 Deep Research 確實(shí)比我的實(shí)習(xí)生干得還好。所以我覺(jué)得,對(duì)于我們這些知識(shí)工作者,需要在電腦前研究某個(gè)話題、瀏覽一堆網(wǎng)站然后出報(bào)告的人來(lái)說(shuō),付費(fèi)意愿和使用場(chǎng)景都很明確。

第二步就是從讀到寫(xiě)。OpenAI 推出了 Operator,Anthropic 推出了 MCP,其實(shí)都是在說(shuō) AI 怎么使用工具。不過(guò)這也會(huì)帶來(lái)很多安全隱患,畢竟大家都不希望 AI 亂搞。但顯然,在可控的情況下,讓 AI 可以寫(xiě)操作、對(duì)外發(fā)布信息,是非常重要的能力。我們們投資的 Monica 就在做類(lèi)似的產(chǎn)品——現(xiàn)在大家知道了,它叫 Manus。昨天他們跟我分享了一件很有意思的事,比如說(shuō)有個(gè)測(cè)試問(wèn)題,要獲取美國(guó)某個(gè)城市,像鳳凰城之類(lèi)的地鐵時(shí)刻表。這個(gè)模型先去官網(wǎng)查,發(fā)現(xiàn)鏈接打不開(kāi)了,這時(shí)候它直接調(diào)用郵件客戶端,給鳳凰城的市政府發(fā)郵件詢(xún)問(wèn),最后走到了確認(rèn)是否發(fā)送郵件這一步,它完全能自主做這些事。

Q:這是他們的產(chǎn)品嗎?

戴雨森:對(duì),他們的產(chǎn)品能調(diào)動(dòng)工具、調(diào)用瀏覽器,這里面有很多有意思的特點(diǎn)。比如說(shuō) AI 能主動(dòng)使用工具,還有自己的「電腦」,這就很有意思。以前很多人覺(jué)得,像國(guó)內(nèi) AutoGLM 這類(lèi)應(yīng)用,是讓 AI 操控我們的手機(jī),比如讓 AI 在我們手機(jī)上點(diǎn)外賣(mài)。但仔細(xì)想想,助理干活是用自己的設(shè)備還是用你的設(shè)備呢?肯定是用他的。所以應(yīng)該是我的 AI 助理在云端,有他自己的手機(jī)或者電腦,然后用他自己的設(shè)備給我點(diǎn)外賣(mài),而不是用我的手機(jī),畢竟我自己還得刷抖音、聊微信。這其實(shí)就是虛擬化技術(shù)。

Q:那在權(quán)限上,他還是你的賬戶體系,對(duì)吧?

戴雨森:不一定,有可能給 AI 配一臺(tái)它自己的「電腦」。比如說(shuō)你訂了個(gè)很貴的 Bloomberg(彭博終端),說(shuō)不定你的 AI 助理會(huì)說(shuō):「老板,把你的賬號(hào)借我用一下。然后你輸入賬號(hào),讓他去用。還有一種情況,你也可能給你的助理也買(mǎi)個(gè) LinkedIn 的 premium,讓他使用,這些情況都有可能發(fā)生。

其實(shí)你會(huì)發(fā)現(xiàn),當(dāng) AI 能使用工具時(shí),他能做很多事情。畢竟大部分軟件工具的使用方式,要么就是調(diào)用 API,要么就是操作軟件界面本身。所以 Kimi k1.5 里的多模態(tài)推理很重要,特別是在使用軟件界面的時(shí)候,使用軟件界面得看懂網(wǎng)頁(yè)才行?,F(xiàn)在大家都在說(shuō)世界模型去理解世界,這其實(shí)挺難的。舉個(gè)簡(jiǎn)單例子,我們看東西能知道物體有前后、有深度,但現(xiàn)在 AI 在識(shí)別深度信息的方面表現(xiàn)一般。不過(guò),要是只是操作電腦和手機(jī)界面,AI 能做很多很多事情。

Q:所以這是第二種,就是既可以讀又可以寫(xiě)。

戴雨森:我可以寫(xiě)的話,我再隨便舉個(gè)例子,當(dāng) AI 遇到問(wèn)題的時(shí)候,理論上它可以發(fā)帖求助。甚至它可以懸賞,因?yàn)樗呀?jīng)和支付商綁定好了,誰(shuí)幫它把事兒解決了,就給對(duì)方 100 美金。這不是科幻情節(jié),現(xiàn)在完全能做到。而且我們發(fā)現(xiàn),強(qiáng)大的 AI 模型能想出很多人類(lèi)想不到的解決思路,比如說(shuō)人類(lèi)覺(jué)得某個(gè)問(wèn)題解不出來(lái),AI 可能就會(huì)想能不能換個(gè)問(wèn)題,或者能不能獲取原本沒(méi)有的權(quán)限。

不過(guò)這也是 AI 安全研究里需要關(guān)注的事情,因?yàn)?AI 為了解決問(wèn)題,可能真會(huì)做出一些有傷害性的事。我自己就碰到過(guò)一個(gè)典型例子,我用 Windsurf 讓它做一個(gè)個(gè)人網(wǎng)站的示例,它為了部署這個(gè)網(wǎng)站,說(shuō)有兩個(gè)進(jìn)程占用了端口,要把它們殺掉,我當(dāng)時(shí)同意了,可后來(lái)一想,萬(wàn)一殺掉后系統(tǒng)崩潰了怎么辦。它只是為了部署那個(gè)演示網(wǎng)站,卻沒(méi)考慮到可能對(duì)我造成的影響。當(dāng)然這些問(wèn)題是可以對(duì)齊的,但這里面存在很多潛在風(fēng)險(xiǎn)。

所以說(shuō),這種具備「寫(xiě)」功能的 Agent,一旦做好了能力很大,但部署起來(lái)肯定會(huì)更慢,因?yàn)樗赡軒?lái)的后果也很大,需要對(duì)它進(jìn)行大量監(jiān)控、訓(xùn)練和對(duì)齊,還要防止它被濫用,所以我覺(jué)得「讀」會(huì)比較快?!笇?xiě)」的話,Operator 是個(gè)例子,你用它訂機(jī)票,會(huì)發(fā)現(xiàn)它還不如自己訂快,每一步都要確認(rèn)。不過(guò)在 AI 領(lǐng)域,慢的問(wèn)題總能解決,從慢變快、從貴變便宜,這是一直 AI 都在發(fā)生的事情??梢韵胂笠幌?,要是原本助理需要花 30 分鐘完成的事,AI 一秒鐘就能搞定,那每天能多做多少事?空出的時(shí)間還能去做其他更多的事,這對(duì)大家的沖擊會(huì)很大。

Q:這個(gè)進(jìn)階的路程,是不是就是 OpenAI 之前定義的那五個(gè)技術(shù)級(jí)別?Agent 下面就是創(chuàng)新者,再下面就是組織者。

戴雨森:對(duì),這里面又會(huì)衍生出幾個(gè)問(wèn)題。最簡(jiǎn)單的一個(gè)就是,現(xiàn)在是人指揮 Agent,那能不能實(shí)現(xiàn) Agent 指揮 Agent。假設(shè)每個(gè)任務(wù)都能在一秒鐘內(nèi)完成,那人類(lèi)提問(wèn)題的速度都跟不上了。

Q:以后做采訪提綱,可能就是 Agent 對(duì)接雨森的 Agent,然后它們就把提綱寫(xiě)好了。

戴雨森:我覺(jué)得這完全有可能實(shí)現(xiàn),不過(guò)有個(gè)重要問(wèn)題,就是 memory(記憶)。現(xiàn)在你用 ChatGPT 和我用 ChatGPT 回答同一個(gè)問(wèn)題的結(jié)果差不多。但如果是和我相處了幾年的助手,除了公有的那部分外,回答問(wèn)題肯定會(huì)和你的不一樣。這樣咱倆的 Agent 才能有內(nèi)容可聊,因?yàn)槲覀兌加形覀冏约旱?memory,但現(xiàn)在這個(gè) memory 機(jī)制還非常初級(jí)。

我覺(jué)得記憶這一塊特別重要,大家都在做但還沒(méi)做得特別好。就拿 ChatGPT 來(lái)說(shuō),它所謂的記憶,其實(shí)就是跟你交流時(shí)形成了一個(gè)系統(tǒng)提示(prompt),比如記住「這個(gè)人有一條狗,這個(gè)人是個(gè)大學(xué)生」之類(lèi)的,這很簡(jiǎn)單。但實(shí)際上,真正的記憶非常長(zhǎng),而且這些記憶有的是你跟它對(duì)話時(shí)主動(dòng)灌輸給它的,有的可能是它通過(guò)其他方式獲取的??傊?,記憶肯定是很關(guān)鍵的一點(diǎn)。

還有 online learning 這也是非常重要的點(diǎn)。人有個(gè)獨(dú)特的能力,目前 AI 還不具備,現(xiàn)在 AI 模型更新權(quán)重還得發(fā)布新版本。但人在日常生活中,不管是通過(guò)讀書(shū)還是社交,都能不斷學(xué)習(xí),主動(dòng)改變大腦里的「權(quán)重」,這是生物的一個(gè)特點(diǎn),而 AI 現(xiàn)在每次更新都得經(jīng)過(guò)一個(gè)訓(xùn)練過(guò)程。

另外,現(xiàn)在還有很多很有意思的前沿探索話題。比如說(shuō),現(xiàn)在 Agent 用的是人類(lèi)的工具,但要是它比人類(lèi)聰明十倍、快十倍,為什么還要用人類(lèi)的工具呢?這就好比我們不會(huì)用小孩子的餐具吃飯,肯定會(huì)用適合大人的餐具。所以,可能會(huì)有一系列專(zhuān)門(mén)為 AI 設(shè)計(jì)的工具,給超人設(shè)計(jì)的工具,肯定和普通人用的不一樣。在這方面,AI 專(zhuān)用工具以及 AI 如何迭代自己的工具都是值得研究的,說(shuō)不定到時(shí)候它的工具我們?nèi)祟?lèi)都不會(huì)用,就像很多人不會(huì)用 EDA 一樣。

Q:而且有可能這個(gè)工具 AI 自己能設(shè)計(jì)。

戴雨森:所以再往下想,這里面的迭代速度快到科幻領(lǐng)域了。不過(guò)現(xiàn)在我們發(fā)現(xiàn),很多原本覺(jué)得是純科幻的概念,已經(jīng)不是遙不可及了,只要模型再發(fā)展發(fā)展,這些事情就能實(shí)現(xiàn)。所以我覺(jué)得,這里面,智能的進(jìn)步會(huì)解鎖新的產(chǎn)品形態(tài)。而且這些新的產(chǎn)品形態(tài)可能會(huì)非常厲害,要是只在原來(lái) Chatbot 的基礎(chǔ)上做優(yōu)化、雕花,說(shuō)不定很快就會(huì)被顛覆。

Q:其實(shí)我們兩三個(gè)月前聊 Agent 的時(shí)候,你還會(huì)提到 coding,剛才你沒(méi)提到 coding。

戴雨森:你是說(shuō)用來(lái) coding 的 Agent 是吧,我覺(jué)得 Agent 和 coding 的關(guān)系,第一步是去做 coding 的 Agent,像 Cursor 或者 Windsurf 這樣,這算是目前 Agent 比較容易落地的場(chǎng)景。但我覺(jué)得更進(jìn)一步是 Agent that can code,比如說(shuō)你的助理可能是文科生,要是讓他學(xué)習(xí)寫(xiě)代碼,他能寫(xiě)個(gè)爬蟲(chóng)幫你搜集更多信息,這樣采訪的時(shí)候你就知道該采訪誰(shuí),相當(dāng)于你的 Agent 掌握了編程這項(xiàng)新技能 code。我覺(jué)得這會(huì)是接下來(lái)更大的發(fā)展范式。

最開(kāi)始,Agent 主要是用來(lái)寫(xiě)代碼的,但需要寫(xiě)代碼的人沒(méi)那么多。像 Cursor、Windsurf、Devin 這些開(kāi)發(fā)工具,其實(shí)主要面向程序員??沙绦騿T在人群中占比畢竟有限,那對(duì)于更多非程序員的知識(shí)工作者,也就是普通白領(lǐng)來(lái)說(shuō),他們的 Agent 該發(fā)揮什么作用呢?我覺(jué)得寫(xiě)代碼對(duì)他們的 Agent 來(lái)說(shuō)是必備能力,因?yàn)樗挥锌繉?xiě)代碼才能夠在這個(gè)賽博世界行動(dòng)自如。

Q:行業(yè)發(fā)展真的很快,幾個(gè)月前大家聊 Agent,還覺(jué)得 coding 是一個(gè)方向,也有很多人朝著這個(gè)方向創(chuàng)業(yè)。但現(xiàn)在再聊,就是要有能寫(xiě)代碼的 Agent,然后讓它去做更多的事。

戴雨森:以前的 Agent 是專(zhuān)門(mén)寫(xiě)代碼的 Agent(Coding Agent),現(xiàn)在是一個(gè) Agent 可以寫(xiě)代碼(Agent that can code)。

Q:你覺(jué)得做好 Agent 還需要哪些能力?

戴雨森:我梳理一下,現(xiàn)在三大能力:推理、代碼、工具使用,然后再接下來(lái)是記憶、online learning。這幾個(gè)我覺(jué)得都是非常重要、還沒(méi)有解決的問(wèn)題。

Q:在 2025 年做 Agent 這件事,你覺(jué)得會(huì)是更多由應(yīng)用公司來(lái)做,還是像 OpenAI 推出 Operator、Anthropic 推出 Computer Use 那樣,由模型能力特別強(qiáng)的公司來(lái)做呢?

戴雨森:目前來(lái)看,模型公司確實(shí)能利用 RL 提升模型能力,并且用更強(qiáng)大的模型對(duì)自己的模型進(jìn)行優(yōu)化,它們可能確實(shí)有一定優(yōu)勢(shì)。不過(guò),應(yīng)用公司也有幾個(gè)好處。第一,它用多種模型去混合,發(fā)揮各個(gè)模型的長(zhǎng)處;第二就是用戶心智方面,就拿 Perplexity 來(lái)說(shuō),它一開(kāi)始做 AI 搜索,其實(shí)是占據(jù)了用戶的心智,它用的模型在不斷升級(jí),多數(shù)用戶就覺(jué)得它是 AI 搜索的代名詞。Cursor 也是個(gè)很好的例子,一開(kāi)始大家覺(jué)得它就是套殼,但實(shí)際上它和模型是相互成就的過(guò)程。要是沒(méi)有 Sonnet 3.5,Cursor 就不會(huì)那么火,也實(shí)現(xiàn)不了預(yù)測(cè)下一步代碼的功能;而要是沒(méi)有 Cursor,Sonnet 3.5 可能也缺少一個(gè)能讓它火的載體。

Q:你剛才提到像 Monica 也是你們投資的公司,他們?cè)谧鲆恍?Agent 方面的探索,是基于別的模型或者開(kāi)源模型來(lái)做的,是嗎?

戴雨森:因?yàn)樗麄儾贿M(jìn)行自己的模型訓(xùn)練,如果不延期的話,他們下周會(huì)發(fā)布一個(gè)很有意思的 Agent 產(chǎn)品(Manus 于 2025 年 3 月 6 日面世開(kāi)始內(nèi)測(cè))。我們覺(jué)得,當(dāng)你能使用模型,讓模型去使用工具,再通過(guò)一系列巧妙的產(chǎn)品設(shè)計(jì),其實(shí)能帶來(lái)很不一樣的體驗(yàn)。

Q:你剛才提到,chatbot 這種形式,其實(shí)對(duì)第一個(gè)發(fā)現(xiàn) PMF 的人來(lái)說(shuō),是個(gè)「甜蜜的陷阱」。那在 Agent 這種應(yīng)用形態(tài)上,會(huì)不會(huì)也有類(lèi)似「陷阱」的部分呢?我是指哪些方面會(huì)讓你分心,或者拖慢你去極致逼近 AGI 的腳步呢?

戴雨森:Agent 我還沒(méi)想得特別清楚。畢竟它現(xiàn)在還處于探索階段,目前不太好說(shuō)。但我有個(gè)感覺(jué),如果現(xiàn)在有個(gè) AI 產(chǎn)品用戶量很大,為了服務(wù)好這么多用戶,可能在模型的尺寸和能力上就得做些妥協(xié)。簡(jiǎn)單舉個(gè)例子,要是用戶特別多、模型很大、在中國(guó)大家覺(jué)得收費(fèi)也比較難,如果免費(fèi)給大量用戶提供一個(gè)推理成本很高的模型,那肯定不劃算。這時(shí)候可能就得把模型做得更輕便一些。但更輕便的模型會(huì)不會(huì)和追求 AGI 有沖突、有阻礙呢?所以我覺(jué)得,當(dāng) DeepSeek 有這么多用戶的時(shí)候,很多人討論要不要留住這些用戶,我認(rèn)為其實(shí)這也是個(gè)「甜蜜的陷阱」。有幾千萬(wàn) DAU,而且世界各地用戶的使用場(chǎng)景各不相同,要把他們服務(wù)好,不管是算力、產(chǎn)品設(shè)計(jì)還是運(yùn)營(yíng)方面,都得投入大量的時(shí)間和精力,我覺(jué)得這會(huì)影響探索 AGI 的資源,畢竟資源不是無(wú)限的。

Q:現(xiàn)在看起來(lái),DeepSeek 好像并沒(méi)有有意的去留?。ㄓ脩簦?。

戴雨森:我認(rèn)為這是正確的,這樣才能跟微信合作。如果 DeepSeek 也想借助這個(gè)機(jī)會(huì),做一款超級(jí) App,那微信估計(jì)很難跟他們合作。

Q:其實(shí)我剛想到一個(gè)點(diǎn),就是多模態(tài)。不過(guò)我覺(jué)得做 Agent 的話,更相關(guān)的是多模態(tài)的理解,而不是生成那部分。

戴雨森:我覺(jué)得多模態(tài)肯定很重要,但目前它對(duì)智能的提升沒(méi)那么快。因?yàn)檎Z(yǔ)言是一種非常濃縮的智能,依靠語(yǔ)言來(lái)提升智能是一條比較快的途徑。要是語(yǔ)言這方面研究得差不多了,接下來(lái)就是圖像。圖像里的信息量很大,隨便拍張照片都包含很多信息。但圖像里包含的智能卻不多,得看很多視頻才可能從中總結(jié)出一些智能??梢抢斫馀nD定律,可能幾句話就能明白,但是要看多少視頻才能總結(jié)出牛頓定律?所以我覺(jué)得視頻更多是在具體應(yīng)用方面發(fā)揮作用,在智能產(chǎn)生這塊,目前它的信息壓縮率還不夠高。

Q:那一段時(shí)間為什么大家都在訓(xùn)多模態(tài)的模型?

戴雨森:這分成兩種情況。第一種是像 Sora 走的多模態(tài)生成路線,我覺(jué)得這種路線有很明確的 PMF ,因?yàn)槿澜缒敲炊嘁曨l廣告,像現(xiàn)在很火的「做飯大橘貓」,這類(lèi)的視頻做得差不多就能拿來(lái)變現(xiàn),所以有這樣的商業(yè)模式。像 Midjourney,它都沒(méi)融資,其實(shí)就已經(jīng)初步實(shí)現(xiàn)了 PMF。既然有 PMF,效果也挺不錯(cuò),自然就有人去做。

Q:現(xiàn)在 Midjourney 和 Sora 的 DAU 怎么樣?掉了嗎?

戴雨森:Midjourney 的情況還還不錯(cuò),第一批用戶已經(jīng)用上了,他們本來(lái)就是自帶「干糧」。Sora 我覺(jué)得,像可靈、海螺這些按照它的技術(shù)方案做出來(lái)的效果也挺好,反而現(xiàn)在看 Sora,起了個(gè)大早,最后卻沒(méi)那么驚艷。不過(guò)昨天 Google 發(fā)布的 Veo 2 還挺驚艷的,至少在單鏡頭的情況下,它是目前最好的視頻生成模型。

但現(xiàn)在大家普遍覺(jué)得,視頻生成在提升智能方面可能不是最重要的方向,目前還是往 reasoning 的方向上「卷」。我覺(jué)得這就跟走路一樣,當(dāng)你眼前有一條明確的路可以走時(shí),很多人就會(huì)先選這條路走。所以在 AI 領(lǐng)域,我們會(huì)不斷經(jīng)歷探索和奔跑交替的過(guò)程。當(dāng)遇到瓶頸時(shí),你會(huì)發(fā)現(xiàn)之前那些看似漫無(wú)目的的分支探索,說(shuō)不定能帶來(lái)新的突破。所以從公司的角度來(lái)說(shuō),一方面得「直道狂奔」,就像大家在賽跑。另一方面,同時(shí)也要有這種 frontier 的探索,因?yàn)槎唐趦?nèi)不知道會(huì)發(fā)生什么。

Q:所以說(shuō)還是得大公司來(lái)搞嗎?在美國(guó)就是 Google,在中國(guó)就是字節(jié)跳動(dòng)。

戴雨森:美國(guó)還有 OpenAI。

Q:所以創(chuàng)業(yè)公司根本沒(méi)有資源。

戴雨森:我覺(jué)得也不能這么講。得看現(xiàn)在處于哪個(gè)階段,以及這個(gè)階段會(huì)持續(xù)多久。如果現(xiàn)在處于需要?jiǎng)?chuàng)新的階段,那創(chuàng)業(yè)公司有可能通過(guò)不同的 vision 去避開(kāi)大廠的競(jìng)爭(zhēng)。但如果現(xiàn)在就是「直道狂奔」,那肯定是誰(shuí)有錢(qián)、誰(shuí)有卡,誰(shuí)就更容易往前沖。一直以來(lái),創(chuàng)業(yè)公司的長(zhǎng)處就是去做那些大公司沒(méi)看到的事情,如果都已經(jīng)「明牌」了,那肯定大公司就更有優(yōu)勢(shì)。

Q:我們剛才討論 Agent 在 2025 年可能會(huì)普及的時(shí)候,其實(shí)沒(méi)特別提到成本這個(gè)維度。成本降低是不是推動(dòng) Agent 發(fā)展很重要的點(diǎn)?

戴雨森:當(dāng)然,而且我相信成本降低是一定會(huì)發(fā)生。所以我有個(gè)基礎(chǔ)假設(shè),先讓它能做,再把它變便宜。因?yàn)槌杀窘档涂隙〞?huì)實(shí)現(xiàn),Agent 的能力也會(huì)不斷變強(qiáng),但中間遇到瓶頸、碰到卡點(diǎn)也是完全有可能的。所以我覺(jué)得,得先讓它能用,再讓它變得好用,最后變得便宜。要是連能用都做不到,那就更別提便宜了。

而且我覺(jué)得在中國(guó)和美國(guó),Agent 落地的難度也不一樣。美國(guó)現(xiàn)在人工成本特別高,大家總能看到那邊就業(yè)市場(chǎng)很緊張,很多崗位都招不到人。所以對(duì)他們來(lái)講,像 Devin 當(dāng)時(shí)定價(jià)是每小時(shí)工作大概幾美金,咱們可能覺(jué)得貴,但對(duì)美國(guó)公司而言,美國(guó)加州平均最低工資是 16 美金,就算去麥當(dāng)勞打工一小時(shí)都得 16 美金,而一個(gè) Agent 每小時(shí)只要 6-8 美金。第一是很便宜,第二是一年之后它能力會(huì)更強(qiáng),同樣的價(jià)格就變得更便宜。所以在這種習(xí)慣為企業(yè)服務(wù)付費(fèi)的環(huán)境下,是合理的。

包括我自己也是 GPT Pro 每月 200 美金套餐的訂閱用戶,我覺(jué)得太劃算了。它能讓你做 100 次 Deep Research,每次 2 美金。要是讓我的實(shí)習(xí)生做,首先我不可能半夜兩點(diǎn)要求他五分鐘內(nèi)給我一份報(bào)告,而且他做出來(lái)的報(bào)告質(zhì)量基本沒(méi) GPT Pro 好。所以我總跟實(shí)習(xí)生說(shuō),如果只是收集信息,弄出一份模棱兩可的報(bào)告,可能真不如人家 2 美金一次的服務(wù)。

威廉·吉布森說(shuō)過(guò):「未來(lái)早已到來(lái),只是尚未平均分布」。我覺(jué)得現(xiàn)在那些已經(jīng)在使用前沿 AI 或者用得很好的人對(duì)未來(lái)的想象,和很多第一次用 Chatbot 甚至還沒(méi)用過(guò)的人,分布是非常不均勻的。所以我真覺(jué)得,在文書(shū)工作方面,AI 替代人已經(jīng)不是想象,而是正在發(fā)生的事。

Q:那你覺(jué)得在 RL 之后,就是解鎖 Agent 之后,下一個(gè)技術(shù)范式可能是什么呢?

戴雨森:首先我覺(jué)得 RL可以走很遠(yuǎn)。其次,我認(rèn)為接下來(lái)很重要的一點(diǎn)是發(fā)現(xiàn)新知識(shí)。Anthropic 的創(chuàng)始人 Dario 寫(xiě)了一篇文章叫《Machines of Loving Grace》,他提到未來(lái) AI 要進(jìn)一步就是如何發(fā)現(xiàn)新的科學(xué)、獲取新的知識(shí),這好像也在 OpenAI 的五級(jí)分類(lèi)里。

Q:第四級(jí)。第四級(jí)是 innovator(創(chuàng)新者)。

戴雨森:因?yàn)榇罅康目茖W(xué)發(fā)現(xiàn)通常是先提出設(shè)想,再通過(guò)實(shí)驗(yàn)去驗(yàn)證。在想這方面,AI 可能已經(jīng)做得很好了。但在驗(yàn)證環(huán)節(jié),有時(shí)需要觀察,有時(shí)要進(jìn)行物理、化學(xué)或醫(yī)療實(shí)驗(yàn),這方面可能會(huì)受到一些限制。如果我們能找到一種方法,大規(guī)模并行地開(kāi)展實(shí)驗(yàn),來(lái)驗(yàn)證 AI 提出的假設(shè)是否正確,包括有些像數(shù)學(xué)定理這類(lèi)的,還能通過(guò)純思考產(chǎn)生新知識(shí)。那從這一步來(lái)看,AI 可能就會(huì)進(jìn)入一種「左腳踩右腳」的狀態(tài),它產(chǎn)生新知識(shí),再用新知識(shí)來(lái)自我改進(jìn),可能形成一個(gè)自我迭代進(jìn)化的過(guò)程。

但到那個(gè)時(shí)候,誕生的產(chǎn)品形態(tài)可能又會(huì)不一樣。很多大佬都問(wèn)我什么時(shí)候能發(fā)明出長(zhǎng)生不老藥?我覺(jué)得這可能是大家賺了很多錢(qián)之后的共同目標(biāo)。大家可能不再只想著讓 Agent 干很多活兒,而是希望能有長(zhǎng)生不老藥。而且還能解決人類(lèi)面臨的很多重大問(wèn)題,比如癌癥的治療方法到底是什么。

Q:AI 變得更聰明之后,可能自己就能找到一些更高效利用能源的辦法,甚至能解決可控核聚變這個(gè)人類(lèi) 50 年都沒(méi)攻克的問(wèn)題,形成一個(gè)閉環(huán)。

戴雨森:就是 AI 能完成人類(lèi)能完成的任務(wù),但很快就會(huì)遇到人類(lèi)解決不了的任務(wù)時(shí)候。這就跟當(dāng)年李世石遇到的「第 37 手」一樣,不知道這一步棋是怎么下出來(lái)的,但只要能驗(yàn)證這個(gè)結(jié)果,雖然不知道它是怎么產(chǎn)生的,但發(fā)現(xiàn)它確實(shí)可行、能用,那就可能帶來(lái)很多新的進(jìn)步。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

打開(kāi)網(wǎng)易新聞 查看精彩圖片