亚洲av精品福利,97自拍视频网站,内射一区在线观看,97人人模人人爽人人喊免费从,国产av亚州av

撰稿｜陳茜

今年3月初，一款名為“Manus”的通用AI agent產(chǎn)品發(fā)布之后爆火。到了3月底，Manus的母公司Butterfly Effec被爆正尋求新一輪融資，目標估值將超過5億美元。

由于Manus處于內(nèi)測階段，僅以邀請碼形式開放使用，一度讓邀請碼在二手平臺上被炒到數(shù)萬人民幣，無數(shù)開發(fā)者、投資人和從業(yè)人員排著隊等測評。

與此同時，業(yè)內(nèi)對Manus的評價從最開始一邊倒的追捧，開始有了越來越多質(zhì)疑和批評的聲音。

對Manus的爭議一方面來自于這個團隊并沒有非常強的技術(shù)能力，大模型用的Antrhopic的Claude、之后與阿里通義千問合作，被質(zhì)疑是“套殼”產(chǎn)品，沒啥門檻。公司打出的營銷話術(shù)“世界上第一個通用AI agent”明顯不屬實，國際開發(fā)者社區(qū)早就有這樣的general AI agent產(chǎn)品，加上各種媒體和自媒體早期夸張的修飾用詞，反而引發(fā)了不少人對Manus激進營銷的反感。

但是在另一方面，一些投資人和從業(yè)者卻看到了非常積極的一面，認為Manus在產(chǎn)品交互上確實做得可圈可點。他們指出這個年頭做demo容易，做出一款好產(chǎn)品卻很難，創(chuàng)業(yè)公司做推廣的時候大膽一點沒什么不好。

而更加讓人振奮的是，Manus雖然不夠好，但卻讓人看到了AI應(yīng)用爆發(fā)前夕的黎明曙光。

這篇文章我們就來聊聊Manus引發(fā)的熱捧與爭議、AI agent的技術(shù)發(fā)展路線、目前面臨的技術(shù)瓶頸、什么是一款好的AI agent產(chǎn)品，以及通用AI agent何時才能來臨。

測評Manus

Chapter 1.1 開發(fā)者測評Manus

硅谷101也拿到了幾個邀請碼，團隊的小伙伴們都測試了一遍，但效果確實比期待中差了不少。

Jacob 硅谷101后期負責(zé)人：我用Manus找一下稿件中的信息來源，我覺得對于GPT是更加聰明了一點，但是很簡單多任務(wù)它花了半個小時才跑完。

陳茜硅谷101聯(lián)合創(chuàng)始人兼視頻主理人：我讓它幫我整理分鏡稿，感覺它的審美像實習(xí)生，而且做文章的分鏡圖時卡了21個小時，現(xiàn)在還卡著。

泓君硅谷101聯(lián)合創(chuàng)始人兼視頻主理人：讓Manus整理微信文字稿時出現(xiàn)了幻覺問題。

王可倚硅谷101特約研究員，《創(chuàng)客人生》主理人：它最開始聽懂了我的需求，但是執(zhí)行中途就跑偏了。

我們也邀請了AI agent開發(fā)者Nathan Wang來系統(tǒng)性地評測下Manus。Nathan在過去兩年有著豐富的AI agent及AI應(yīng)用開發(fā)經(jīng)驗，他希望能量化地表示模型的能力，所以建立了一個測評的機制，并且這個系統(tǒng)也可以去測評其他應(yīng)用或是模型。以下為Nathan評測的部分內(nèi)容：

我主要有三個衡量指標：“準確度”、“可用度”、“完成度”，同時以“研究”、“教育”、“生活”、“數(shù)據(jù)分析”、“創(chuàng)意性工作”這五項任務(wù)歸類。

我根據(jù)每個指標的表現(xiàn)從1到5打分，表現(xiàn)越好得分越高，表現(xiàn)越差得分越低，最后取三個維度的平均分。

先說它做得好的部分：研究方面為4分，教育方面為4.5分。這兩塊的能力是非常強的，正確性、完成度都很高。

但這兩個領(lǐng)域的結(jié)果其實是符合我們預(yù)期的，因為ChatGPT、 Claude還有Gemini都是有深度研究的功能，它其實就是在互聯(lián)網(wǎng)上幫你查找各種各樣的信息，根據(jù)需求讓大模型解釋，或者做出一些行動。

Manus AI構(gòu)架背后用的是其他模型，據(jù)傳言說是Claude、DeepSeek-R1，Manus會利用這兩個模型，根據(jù)用戶需求生成一個任務(wù)列表，然后Manus可以通過編程、互聯(lián)網(wǎng)搜索，像人一樣查閱瀏覽器上的內(nèi)容，來抓取信息。

總體來說，Manus更多是通過工具、函數(shù)、API來獲得信息并總結(jié)，或者通過渲染的形式給用戶表現(xiàn)出來，比如做成一個表格、執(zhí)行一些程序等。

但除了研究和教育外，Manus在生活、數(shù)據(jù)分析、趣味性方面的得分卻比較低，“生活”為3.5 分，“數(shù)據(jù)分析”為2.5分，“趣味性”2.5分。

在我們的測試中，Manus遇到的比較大的問題是，它將不同信源信息整合在一起的能力不是特別強；模型本身的邏輯能力、信息綜合能力還不夠，尚不足以在用戶的實際體驗中提供有效的幫助。

以上是Nathan評測的一部分節(jié)選，想看完整版的觀眾可以收看硅谷101視頻或Nathan的微信視頻號“硅谷AI領(lǐng)航”。

簡單總結(jié)下Manus的能力：在簡單一些的任務(wù)上，它給到了很絲滑的通用AI Agent的交互產(chǎn)品形態(tài)，雖然Nathan認為這個產(chǎn)品在硅谷開發(fā)者社區(qū)中很早就有公司有人在做了，但是對非開發(fā)者2C用戶來說，當看到Manus頁面上展示出它真的在加速看視頻、讀取文檔、訪問不同的網(wǎng)站搜索信息時，確實讓用戶第一次感受到了“AI agent”在虛擬世界充當機器人、幫用戶完成一系列任務(wù)的潛力，還是非常驚艷的。

當然對于稍微有難度的任務(wù)它完成得不太好，甚至出現(xiàn)了卡殼幾十個小時的現(xiàn)象，說明它還處于非常早期的產(chǎn)品階段，之后還需要很多的迭代。

Chapter 1.2 2C產(chǎn)品的用戶閾值與“叫醒鈴”

也有嘉賓認為，我們應(yīng)該對AI初代產(chǎn)品有所謂的“閾值”概念。在到達AGI之前，也許不會有準確度100%、完全準確不出錯的通用AI agent。大家需要給AI agent一些時間和耐心，不同人群的需求，會從簡單到復(fù)雜逐漸迭代地被實現(xiàn)。

周煒創(chuàng)世伙伴資本（CCV）創(chuàng)始主管合伙人前KPCB中國基金主管合伙人：我認為Manus這個產(chǎn)品超過了用戶的閾值。用戶要把一個產(chǎn)品作為生產(chǎn)力工具，它必須要超過達到某個滿意度以上才可以完整的使用。 ToB端其實有很多AI產(chǎn)品已經(jīng)有很好的收入了，但是C端來說，大家以前沒有感覺到有個產(chǎn)品改善了生活，我認為Manus做到了這點，它把用戶體驗做得很不錯。雖然目前它的能力比較普通，最終也不可能面面俱到，但至少從目前來看，它的一些功能都做得很完善，未來還有繼續(xù)提升空間。

我們看到一些爭議，說它只是AI操縱大師，指揮另外兩個AI底層模型來完成任務(wù)，這種討論說明了一個問題，那就是目前AI從業(yè)者群體里面有一個很大的誤區(qū)：在技術(shù)上自嗨。我印象很深的是，喬布斯被踢出蘋果又回去后，在一個公開大會上有1000多個工程師，其中一個工程師站起來挑戰(zhàn)他說：你又不懂技術(shù)，憑什么指導(dǎo)我們、做這個公司的領(lǐng)導(dǎo)者？喬布斯的回答是：我知道如何滿足用戶需求、用戶需要什么樣的產(chǎn)品、并且我可以把它賣出去。

我覺得這就很好地回答了現(xiàn)在對Manus的質(zhì)疑，在指責(zé)它僅僅是一個AI指揮大師的時候，為什么你不去做一個完美的用戶界面來實現(xiàn)用戶真正的需求？這才是現(xiàn)在AI從業(yè)者需要思考的問題，怎么讓產(chǎn)品體驗超越用戶的閾值、能夠變成生產(chǎn)力工具，如果做到了這一點，市場認可度就會很高。

Deepseek對全球來說一個Wake-up call（叫醒鈴），它告訴大家：原來大模型還可以用這種路徑來實現(xiàn)，而不是通過暴力堆疊的路徑。而Manus我覺得也是一個叫醒鈴，它告訴所有的AI從業(yè)者，不要癡迷于技術(shù)底層，你要做的是提供一個完整度高的產(chǎn)品，讓大家都用起來，最終實現(xiàn)技術(shù)平權(quán)、技術(shù)普惠，如果連老爺爺、老奶奶都開始用它并且覺得好用，這才是目前ToC端產(chǎn)品的大成就。 Manus給了一個非常清晰的信號：大模型底座已經(jīng)準備就緒了，足夠做一個完成度高的產(chǎn)品。所以我覺得現(xiàn)在是非常好的發(fā)力時機。

TensorOpera AI聯(lián)合創(chuàng)始人何朝陽認為，要做好AI agent產(chǎn)品，有四個緯度：“模型”、“工具”、“數(shù)據(jù)”、“基礎(chǔ)設(shè)施”。產(chǎn)品或公司至少要在其中兩項占絕對優(yōu)勢，才能保持領(lǐng)先。他認為，Manus占據(jù)了“工具”和“數(shù)據(jù)”這兩個優(yōu)勢。

何朝陽 TensorOpera AI ChainOpera AI聯(lián)合創(chuàng)始人： Manus占到了工具的優(yōu)勢，因為他把多個工具縫合到了一起，他可能也有一些獨特方式，比如指揮多個agent相互合作。我覺得把各種工具縫合本身就是一個特點，它確實可能用的是其他的底層模型，但它可以收集用戶發(fā)送的prompt（提示詞），對比哪些提示詞輸出的結(jié)果更好，這樣就可以幫助它迭代升級。

因為Manus有先發(fā)優(yōu)勢，可以早點拿到用戶數(shù)據(jù)，可能會發(fā)現(xiàn)哪些agent更重要，然后更快速的迭代它，所以它其實已經(jīng)在不斷升級數(shù)據(jù)和工具的路上了，這剛好是應(yīng)用創(chuàng)業(yè)者要去做的。至于模型和基礎(chǔ)設(shè)施，我覺得跟大廠合作就好了，就不要去四兩撥千斤了。

“技術(shù)已經(jīng)Ready了”，這是我們和很多AI從業(yè)者和投資人交流的時候，他們透露出的信號和見解。

AI Agent技術(shù)發(fā)展史

過去一段時間“agent”這個詞稍微有點被“太泛化”了，門檻有點過低，所以我們先明確下AI Agent的定義。

技術(shù)人員通常將AI Agent定義為：具有“邏輯推理能力和決策能力”（Reasoning）、“記憶能力和上下文理解”（Memory）、“工具使用能力”（Tools）這三種能力，甚至更進一步說，還需要具備學(xué)習(xí)使用不同新工具的能力。

Keith Zhai Tiny Fish聯(lián)合創(chuàng)始人：我們自己定義的agent，它應(yīng)該在某種意義上像人一樣，可以使用各種網(wǎng)頁工具，也同時還可以學(xué)習(xí)怎么使用不同的東西，但這點對Agent來說是非常難的挑戰(zhàn)。

我們來看看過去幾年，AI生態(tài)圈是怎么發(fā)展推理（Reasoning）、記憶（Memory）和工具（Tools）這三種主要能力的。

Chapter 2.1 推理能力

Nathan Wang 硅谷101特邀研究員 AI Agent開發(fā)者： AI Agent需要有很強的邏輯能力，因為它最終幫用戶執(zhí)行任務(wù)的時候，需要理清楚這個任務(wù)該如何決策？用哪些工具？得到信息之后應(yīng)該做哪些動作？所以推理（Reasoning）是最重要的能力之一。

2022年10月，就在ChatGPT上線的一個多月前，ReAct框架被普林斯頓和Google Brain合作的團隊提出。

ReAct是一個將推理和行為與LLMs（大語言模型）相結(jié)合通用的范例，這讓大模型不僅能回答問題，還能推理并采取行動。簡單來說，就是讓AI在回答問題的同時，能夠執(zhí)行一些動作，不只是“動動嘴皮子”。

Nathan Wang 硅谷101特邀研究員 AI Agent開發(fā)者： ReAct所做的事情更加偏向于prompt engineering（提示詞工程），他其實是通過設(shè)定一些不同的提示詞，能讓大語言模型按照一定的格式去輸出。

比如說第一步是先理解用戶想要的是什么，然后再思考下一步要去做什么，同時也告訴模型，有哪些工具可供選擇。當模型有邏輯能力之后，它會選擇一種工具，比如用戶要訂機票，那就要去搜索機票相關(guān)的信息，然后agent就會通過調(diào)用某個工具或API，也可以是模型自己寫的功能，來完成這一系列的動作。得到這些信息后，agent還要思考，下一步是要幫用戶定這個機票，還是告訴用戶這個信息，再讓用戶來決定。所以所有AI Agent的構(gòu)架其實都是從這篇論文開始的。

但當時的最先進模型GPT-3.5的能力相對有限，使得AI Agent的邏輯推理能力并不出彩，錯誤率很高。

而后來發(fā)布的GPT-4在理解能力、推理能力、回答質(zhì)量都大幅提升。同時2023年3月23日，ChatGPT插件功能Plugin發(fā)布，允許大語言模型調(diào)用外部工具并開發(fā)APT，支持開發(fā)者將LLM與數(shù)據(jù)庫、工具和互聯(lián)網(wǎng)連接。這些都讓AI agent的開發(fā)者們興奮不已。

Nathan Wang 硅谷101特邀研究員 AI Agent開發(fā)者：剛開始ChatGPT只能做一些對話、生成文本，但后來它就可以搜索互聯(lián)網(wǎng)上的內(nèi)容了，還可以讓它接入不同的數(shù)據(jù)庫去提取信息，或者使用一些工具。那時開發(fā)者社區(qū)沸騰了，因為整個模型有了推理能力，也可以接入各式各樣的工具來完成一系列復(fù)雜的操作。當時有個公司比較有意思，叫做Zapier，這個公司是2011年成立的，但它們主要做一些自動化工具。但大語言模型發(fā)布后，他們就第一時間去幫大語言模型去做這系列工具，很多早期的開發(fā)者應(yīng)該都用過Zapier，比如它可以讓大語言模型接入谷歌郵箱，或許其他的應(yīng)用，讓大語言模型可以完成更復(fù)雜的工作。

所以在2023年初，AI Agent技術(shù)三大要素的第一步已經(jīng)搭建好了，邏輯推理能力提到了顯著提升，也可以接各種外部API、調(diào)用外部工具來完成任務(wù)。

接下來，開發(fā)者生態(tài)進入到了技術(shù)發(fā)展的第二章：記憶能力與上下文理解。

Chapter 2.2 記憶能力

Nathan Wang 硅谷101特邀研究員 AI Agent開發(fā)者：剛開始GPT大概只有4096個token，其實是非常少的，大概只能輸入3000多個英文單詞，那時大家非常苦惱沒有辦法輸入更多信息讓模型去執(zhí)行地更好。但到5月份的時候，OpenAI最大的競爭對手Anthropic，發(fā)布Claude模型。這個模型一開始得到開發(fā)者的關(guān)注，主要原因就在于，跟ChatGPT相比，Anthropic可接受的token大概提升了100多倍，意味著它可以獲得更多的信息去思考和決策。所以Anthropic的發(fā)布也是技術(shù)史上非常關(guān)鍵的一筆。

2023年5月11日，Anthropic推出的Claude模型可以支持10萬token的上下文窗口，使得LLM能夠處理更大規(guī)模的信息，并增強基于大量信息的推理和決策能力。

不久之后的2023年6月13日，OpenAI也在這一方向做出了技術(shù)迭代，發(fā)布函數(shù)調(diào)用（Function Calling），引入JSON模式和1.6萬token的上下文窗口。這讓AI可以更可靠地調(diào)用外部API，比如說查天氣、自動填表等等任務(wù)。

緊接著在2023年11月21日，Anthropic的Claude 2.1版本又進一步，把上下文窗口擴展到20萬個token，相當于AI一次性可以記住一整本教科書的內(nèi)容，思考能力大大提升。也意味著能進一步擴大大模型的記憶能力，優(yōu)化推理和決策過程。

再之后在2024年2月，谷歌發(fā)布Gemini 1.5的時候，將上下文窗口的token數(shù)擴展到了百萬級別，至此，“記憶”這個AI Agent發(fā)展必備中的第二個技術(shù)壁壘也完全被打破，對于開發(fā)者們來說不再是大問題。

Chapter 2.3 工具使用

2023年底，前兩個技術(shù)壁壘的突破，讓大語言模型能充當虛擬世界的機器人這件事情變得更加可行，這時一些初創(chuàng)公司開始在硅谷生態(tài)圈活躍了起來。

Nathan Wang 硅谷101特邀研究員 AI Agent開發(fā)者：我知道的第一個讓大語言模型去控制用戶電腦的AI Agent應(yīng)用公司是Simular，它應(yīng)該是2023年12月底的時候發(fā)布了第一版Demo。大家看到AI agent的功能已經(jīng)變得越來的強大了，從開始使用各種工具、接各種數(shù)據(jù)庫、調(diào)用不同的應(yīng)用，已經(jīng)發(fā)展成可以操控電腦了。這一點讓我覺得AI Agent的技術(shù)路線有了極大的飛躍。

2024年10月底，Claude發(fā)布了“computer use”功能，讓AI Agent直接控制計算機的能力更進了一步，AI變得更像真正的、可以行動起來的智能助手。

Nathan Wang 硅谷101特邀研究員 AI Agent開發(fā)者：你可以看到開發(fā)者社區(qū)或初創(chuàng)公司其實走的比大廠要早很多。

AI圈備受關(guān)注的Andrew Ng（吳恩達）教授在2024年底關(guān)于AI Agent的演講，徹底燃起了技術(shù)圈和非技術(shù)圈人們對于AI Agent的期待和熱情，“2025年將成為AI Agent應(yīng)用元年”的預(yù)測開始出現(xiàn)在各大媒體頭版上。

雖然各種各樣的AI Agent應(yīng)用demo在全球開發(fā)者社群中早就屢見不鮮了，但在Manus出現(xiàn)之前，大部分AI Agent創(chuàng)業(yè)公司主要聚焦于企業(yè)級（ToB）應(yīng)用，而非直接面向消費者（ToC）。所以難點在哪里呢？

Keith Zhai Tiny Fish聯(lián)合創(chuàng)始人：其實自從有互聯(lián)網(wǎng)開始，網(wǎng)絡(luò)上所有工具的設(shè)計方式，主要目標都是為了讓人類使用，在這樣的邏輯下，機器想完成準確、大面積的交互是很難的，這是在大語言模型出現(xiàn)前人類無法解決的問題。

在AI Agent之前行業(yè)沒有形成范式共識，所以現(xiàn)在距離AI Agent實現(xiàn)通用化還差一步，那就是整個產(chǎn)業(yè)的支持。

Chapter 2.4 一步之遙

我們前面提到的邏輯推理、上下文記憶、工具調(diào)用這些能力，在何朝陽看來，都屬于“single agent”（單獨智能體）的技術(shù)發(fā)展。

但要讓AI Agent真正發(fā)展起來，做到主流化、規(guī)模化，那還需要實現(xiàn)multi-agent（多個智能體）之間的通信和互聯(lián)，不同的Agent需要在不同設(shè)備、不同機房之間去做計算和聯(lián)動，才能推動上億級別用戶機會的應(yīng)用。這其中的難點在于通用的、標準化的協(xié)議適配范式。

何朝陽 TensorOpera AI ChainOpera AI聯(lián)合創(chuàng)始人：用大模型來驅(qū)動邏輯推理、上下文記憶、工具調(diào)用這些能力，所產(chǎn)生的AI agent，被大家定義為單獨智能體，這是第一個發(fā)展階段。第二階段的標志，就在于agent之間能實現(xiàn)互相通信。第三階段是讓agent在不同的設(shè)備、不同的機房之間計算、聯(lián)動，我覺得它是未來支持億級別用戶必須要有的架構(gòu)，這是一個單點是無法做到的。

目前，我們?nèi)匀惶幱诘谌A段的競爭和嘗試中，這個階段要解決的問題是，很多網(wǎng)站或者工具不支持AI agent的調(diào)用。

比如說很多網(wǎng)站和服務(wù)都會有“反機器人/anti-bot”的設(shè)置，我們也看到Manus執(zhí)行任務(wù)時也經(jīng)常因為訪問不了一些數(shù)據(jù)而導(dǎo)致任務(wù)失敗，所以在這個階段中，我們需要打造一個通用協(xié)議來解決這個問題，才能支持不同AI agent之間的聯(lián)動。

包括Anthropic等在內(nèi)的很多公司正在做協(xié)議適配上的嘗試。2024年11月初，Anthropic推出“模型上下文協(xié)議”（Model Context Protocol，簡稱MCP），引進了“應(yīng)用如何為LLM提供上下文”的規(guī)范。

Anthropic將MCP協(xié)議稱為“AI應(yīng)用的USB-C端口”，支持將大模型直接連接到數(shù)據(jù)源。此前，企業(yè)和開發(fā)者要把不同的數(shù)據(jù)接入AI系統(tǒng)，都得單獨開發(fā)對接方案，而MCP做的，就是提供一個 “通用” 協(xié)議來解決這個問題。

然而，MCP解決了第三代技術(shù)的問題，還有最后一代問題，是目前AI Agent應(yīng)用大規(guī)模爆發(fā)的壁壘，那就是：真正統(tǒng)一的Agent-Agent之間Protocol通信標準與分布式計算，就像如今的安卓與iOS一樣，我們也需要一個全球承認且通用的AI OS。

何朝陽 TensorOpera AI ChainOpera AI聯(lián)合創(chuàng)始人：舉個例子，現(xiàn)在有兩個獨立的agent，如果要讓這兩個agent之間互相協(xié)作，就需要造第三個agent，這個agent來負責(zé)和前兩個agent之間互相通信。但agent之間的交互沒有標準，可能一個協(xié)議是A，另一個協(xié)議是B，所以第三個agent就要把各自的協(xié)議給改一下，讓兩者之間能互相通信。

就好比10年、20 年前，有兩種電腦，一個是IBM造的，另一個是Intel造的，它們之間底層的鏈路沒有打通，就會導(dǎo)致軟兩個軟件之間沒有辦法溝通，那時還沒有TCP/IP的時候就比較麻煩。但到移動互聯(lián)網(wǎng)的時候，比如說基站的通訊標準TTL、 TEL等等，如果所有設(shè)備軟件都符合這個標準，大家是可以互相交流的。

圖片來源：pexels

所以今天單獨智能體內(nèi)部調(diào)用工具的問題，MCP已經(jīng)一定程度地解決了，但兩個agent之間如何通信，是更高維的通信協(xié)議。我對未來AI的想象就是，有一個非常復(fù)雜的分布式網(wǎng)絡(luò)，有大量的服務(wù)，用戶的訴求分發(fā)到整個網(wǎng)絡(luò)里面，然后得到一個反饋。我已經(jīng)看到安卓的創(chuàng)始人（之一）出來親自做AI OS 這件事情，我覺得安卓一定要被重構(gòu)，可能這個系統(tǒng)你打開之后就是一個框，你可以問的一切問題，所有的信息或動作都會呈現(xiàn)在這個框的里。這個是我認為協(xié)議的核心。

2024年11月底，一個由安卓系統(tǒng)前高管們創(chuàng)業(yè)的公司，/dev/agents吸引了外界和媒體的注意，他們宣布獲得了5600萬美元的種子輪資金，聯(lián)合創(chuàng)始人兼首席執(zhí)行官David Singleton表示：“我們需要一個類似于安卓系統(tǒng)的人工智能時刻”。

他們想要打造的就和何朝陽的公司一樣，希望開發(fā)一個通用操作系統(tǒng)，為AI Agent提供一個統(tǒng)一的平臺。如果做到了，最后一個AI Agent的技術(shù)壁壘也就打通了，AI Agent就達到了第四階段。

何朝陽 TensorOpera AI ChainOpera AI聯(lián)合創(chuàng)始人：我們想做一個真正的distributed multi-agent framework（分布式多代理框架），并且是hybrid as cloud（混合云）的架構(gòu)，這樣的話就需要agent之間的通信，并且不是一個單系統(tǒng)，它是公司之間的協(xié)作。目前Router這種技術(shù)（如何確定分發(fā)意圖、打通不同的agent的協(xié)議），我們現(xiàn)在是一個一個地去找合作伙伴適配，我們正慢慢地嘗試去推廣這種通用的協(xié)議。但根據(jù)10年前的教訓(xùn)，這件事最終應(yīng)該是幾個大廠、或者然后國家隊聯(lián)合起來一起推廣，有點像通信領(lǐng)域的 5G、6G標準。

總結(jié)一下何朝陽從整個AI Agent生態(tài)角度來看待的四代技術(shù)：

第一階段是planner規(guī)劃（也就是邏輯推理）、記憶memory、工具tools，讓單個智能體在技術(shù)上的成熟。

第二階段是通過planner的發(fā)展，在單機上實現(xiàn)多個智能體之間的通信。

第三極端是AI Agent在不同設(shè)備和機房之間能聯(lián)動，這將推動上億級別的用戶承載量。

第四階段是Agent-Agent之間的通信標準與分布式計算，也就是一個全新的AI OS。這也是我們現(xiàn)在正在突破的階段。

何朝陽與很多AI從業(yè)者們都說，在黑夜中探索了這么久，現(xiàn)在天快亮了。

何朝陽 TensorOpera AI ChainOpera AI聯(lián)合創(chuàng)始人：如果是一個產(chǎn)品經(jīng)理的視角，我覺得現(xiàn)在的階段應(yīng)該說是天亮了。

如今，隨著AI Agent基建的進一步完善，包括底座大模型在內(nèi)的各項技術(shù)進一步提升，以及科技巨頭、初創(chuàng)企業(yè)、開發(fā)者生態(tài)中對協(xié)議和標準的進一步探索以及統(tǒng)一，我們似乎能感受到，AI Agent的爆發(fā)只有一步之遙。

Manus和類似的通用AI Agent公司只是給我們打了個樣，之后的路還有很漫長。但這一步的距離其實還有挺多沒有解決的問題。

Nathan Wang 硅谷101特邀研究員 AI Agent開發(fā)者：推理、記憶、工具調(diào)用這三個能力，只能讓開發(fā)者做一個成熟的demo出來，但是如果想變成一個真正可用的產(chǎn)品，其實還需要解決兩個技術(shù)瓶頸。一個是可靠性，比如說至少有90～95%以上的情況能給用戶正確且相關(guān)的信息。二個是這個魯棒性，怎么樣讓大模型或AI agent 能夠具有魯棒性，在各種邊緣情況下都能夠滿足用戶需求，是非常有挑戰(zhàn)性的。

Keith Zhai Tiny Fish聯(lián)合創(chuàng)始人：對企業(yè)來說有很多問題需要考慮，比如第一步出錯的概率是1%，第二步是2%，第三步可能是1%，但最糟糕的情況是，它會有一個疊加的錯誤效果，等它完成到第十步的時候，錯誤率就非常高了，很多企業(yè)辦公流程達到了十幾二十步，最后可能錯誤率會非常高。

Keith表示他們公司Tiny Fish扒了一下網(wǎng)上的數(shù)據(jù)，全美國有1.5萬家接受了融資的初創(chuàng)企業(yè)在做AI agent方向的創(chuàng)業(yè)，這顯示出AI agent這個大賽道的生態(tài)火熱。

硅谷AI Agent公司版圖

接下來由硅谷101的特約評論員王可倚來歸類下，AI Agent公司的版圖和大家在嘗試的方向。

目前的AI Agent產(chǎn)品主要分為以下三類：

1. 以Manus為代表、直面用戶的通用型agent；

2. Agent基礎(chǔ)設(shè)施與框架層，也就是幫助搭建agent應(yīng)用的地基和工具；

3. 面向特定行業(yè)的垂直化agent，比如編程、客服、銷售、科研、商業(yè)分析與調(diào)研、甚至供應(yīng)鏈管理等領(lǐng)域。

通用型agent前面已經(jīng)討論很多了，接下來重點講講后面兩類。

Chapter 3.1 Agent基礎(chǔ)設(shè)施與框架層

說到架構(gòu)，不少開發(fā)者小伙伴一定會首先想到LangChain。這個誕生幾個月內(nèi)就獲得了超5.5萬GitHub星標、和3千萬美元融資的開源工具，迄今是agent開發(fā)者用來讓大語言模型調(diào)用外部工具與數(shù)據(jù)庫、擁有長程記憶、及完成多步驟工作流的首選工具包之一。

還有一些其他熱門工具，比如Pinecone這類幫助agent高效檢索外部知識的向量數(shù)據(jù)庫，或讓agent能更好處理私域數(shù)據(jù)的LlamaIndex等等，雖然并非僅針對agent，但也都是目前agent應(yīng)用開發(fā)必不可少的“左膀右臂”。

同時各大云服務(wù)商也都爭先恐后地推出了agent工具包，例如微軟的Semantic Kernel、AWS的Bedrock Agents等，用來組合多種AI技能，主打?qū)gent開發(fā)者體貼入微。

就像前面提到的，隨著AI Agent基建和框架層的進一步探索和完善，這一塊也是這兩年VC風(fēng)投資本們非常熱門的投資方向，使得開發(fā)者們能用的工具和支持生態(tài)越來越成熟。

我們在過去幾個月看到不同行業(yè)和場景中，不少創(chuàng)業(yè)公司們的Agent應(yīng)用嘗試。接下來我們聊聊具體的垂直賽道的明星公司們。

Chapter 3.2 AI編程Agent

如今，AI agent應(yīng)用被認為最早落地的是編程類的agent：它們不僅能自動補全代碼，還能協(xié)助程序員們編寫、調(diào)試，甚至自主部署軟件。

GitHub Copilot在2025年2月推出的agent模式，想必碼農(nóng)小伙伴們都很熟悉。由初創(chuàng)公司推出的編程agent不僅多到讓人眼花，還可以稱得上AI屆“造星工廠”。

號稱首位“AI軟件工程師”的Devin，背后是“生下來就在羅馬”的新貴初創(chuàng)公司Cognition AI，成立不到半年，估值就躍升到20億美金。Devin宣稱能替代初級碼農(nóng)獨立閱讀技術(shù)文檔、編寫。

Devin的野心很宏大，每月高達500美金的訂閱費也很美麗，但我身邊的程序員朋友卻吐槽： Devin寫代碼一般般，做調(diào)研倒還不錯。所以現(xiàn)實情況是，定位于企業(yè)級用戶的Devin在龐大冗雜的代碼庫、欠缺的技術(shù)文檔和模糊不清的背景信息（context）這三座大山前，有點力不從心。

Cursor是另一個風(fēng)頭正勁的AI編程助手，誕生于四位MIT本科生于2022年創(chuàng)立的公司Anysphere。Cursor由于好用、速度快，對用戶代碼庫理解能力出色，且成本遠低于Devin，迅速成為了很多碼農(nóng)的首選，包括OpenAI、Shopify、Instacart的團隊都有使用。

據(jù)業(yè)內(nèi)消息，不到三歲的Anysphere已實現(xiàn)1.5億美金年化收入，且正在洽談估值可能高達百億美金的新一輪融資。

其他還有很多編程類agent，比如擁有2000萬開發(fā)者用戶的Replit，旗下的AI Agent可以根據(jù)自然語言指令生成完整的網(wǎng)頁端應(yīng)用。還有正在以近30億美金估值融資的Codeium，旗下的Windsurf已拿下包括戴爾在內(nèi)的超一千家企業(yè)級用戶；以及字節(jié)跳動針對中文開發(fā)者推出的編程助手Trae等等。

看來AI編程領(lǐng)域的agent賽馬越來越精彩，不知各位碼農(nóng)朋友是欣喜還是擔(dān)憂呢？

Chapter 3.3 客服與銷售Agent

客服與銷售是兩個勞動密集型崗位，但如今AI agent在這兩個領(lǐng)域中凸顯了效率優(yōu)勢，受到大量企業(yè)采納的領(lǐng)域。

客服助理中表現(xiàn)突出的是Decagon。這家炙手可熱的AI初創(chuàng)公司已融資超1億美元，客戶包括大家熟悉的Duolingo、Notion和Eventbrite等。

Decagon的AI客服能自動處理高達70%的客服工單，為企業(yè)節(jié)省每年數(shù)百萬美元的人力開支。企業(yè)客戶之一Bilt曾說：使用Decagon就像一夜之間多招聘了65名全職客服人員。

與此同時，銷售領(lǐng)域則有快速崛起的AI獨角獸Clay，它利用AI agent自動抓取和擴充目標客戶數(shù)據(jù)，批量與潛在客戶進行量身定制地互動，并幫銷售人員處理大量工作中的臟活，從而成倍放大銷售團隊的生產(chǎn)力，目前已積累了十萬名用戶。

Chapter 3.4 其他新興應(yīng)用場景

除了上面說到的幾個領(lǐng)域之外，AI agent還在以下許多領(lǐng)域擴大影響。

1. 商業(yè)調(diào)研：作為商業(yè)數(shù)據(jù)分析領(lǐng)域的頭部AI agent，Hebbia服務(wù)于全球資管規(guī)模前50名基金中的近1/3，以及多家大型律所、咨詢公司、甚至美國空軍。

2. 科研：學(xué)術(shù)界明星科研助手Elicit擅長自動生成論文部分內(nèi)容并處理海量數(shù)據(jù)，目前全球已有超過200萬科研人員使用；它極大提升了機器學(xué)習(xí)、制藥與生物科技等領(lǐng)域的研究效率。

3. 供應(yīng)鏈優(yōu)化：被譽為美國最神秘的大數(shù)據(jù)公司Palantir近期在其人工智能平臺（AIP）推出了agent功能，用于自動化管理物流與庫存，已在60余家大型企業(yè)投入使用。

4. 醫(yī)療健康：美國最大的醫(yī)療信息公司Epic利用AI agent，將大量繁瑣重復(fù)的行政工作自動化，比如患者預(yù)約與分流、基本溝通、手續(xù)查驗與項目批準等，有效減輕了醫(yī)護人員的負擔(dān)。

Chapter 3.5 AI Agent應(yīng)用小結(jié)

隨著AI agent技術(shù)的發(fā)展，為什么一些應(yīng)用場景會更快地落地應(yīng)用呢？我們發(fā)現(xiàn)目前取得成功的agent大多具備以下幾個特征：

1.任務(wù)定義明確且高度重復(fù)，比如客服、銷售等場景，AI能顯著提效且風(fēng)險相對較低。

2.工作流模塊化且相對獨立，比如經(jīng)過良好切割的軟件開發(fā)任務(wù)，agent可以不需要大量背景知識，在封閉、可控環(huán)境中運行。

3.注重信息檢索、分析與推理，大量自然語言交互，且不需借助復(fù)雜外部工具的場景。比如各種形式的調(diào)研，利于AI揚長避短。

4.聚焦于協(xié)助而非完全取代人類，讓企業(yè)能夠逐步、穩(wěn)妥地將AI整合到現(xiàn)有工作流中。

總得來說，業(yè)界普遍認為大模型和agentic AI的底層技術(shù)，已發(fā)展到了足以支撐大量2B領(lǐng)域商業(yè)化的階段，而2C領(lǐng)域MVP（最小可行產(chǎn)品）的雛形也已經(jīng)顯現(xiàn)。

當然，想讓AI agent承擔(dān)更復(fù)雜的角色，在長期記憶、多模態(tài)、API整合、以及多agent協(xié)作等方面，還有很長的路要走。此外，企業(yè)也要做好內(nèi)部流程、數(shù)據(jù)和文檔標準化的工作，才能讓AI agent更有用武之地，這或許會像10年前的企業(yè)上云，并非朝夕之功。

AI Agent的未來

在Manus引發(fā)的熱潮和爭議不久，OpenAI發(fā)布了新的Agent功能，推出專用于簡化agent開發(fā)的API和工具，包括Responses API、內(nèi)置工具和Agent SDK，幫助開發(fā)人員和企業(yè)構(gòu)建有用且可靠的AI Agent。

所以Manus可能只是一道前菜，而精彩的部分才剛剛開始，Agentic這個詞也注定會成為2025年AI賽道的關(guān)鍵詞。

周煒創(chuàng)世伙伴資本（CCV）創(chuàng)始主管合伙人前KPCB中國基金主管合伙人： ToB端其實去年就有一些產(chǎn)品收入很高了，ToC端的話，我認為今年會是AI應(yīng)用的元年。我覺得一個通用的 AI agent想覆蓋所有的應(yīng)用場景是不可能的，所有在AGI達到之前，日常生活中應(yīng)該需要多種AI agent互相配合，比如有買機票的agent，買保險的agent，買房的agent等等。其實不用把agent想得太神秘，它就是相當于日常生活中，某個垂直領(lǐng)域的顧問或者是從業(yè)人員在幫你做這個事兒。所有在AI agent它應(yīng)該也有很多個，針對不同的方向幫你解決不同的問題。

當然，我相信未來所有的agent會是大一統(tǒng)的狀態(tài)，但道路還很漫長，所以我覺得沒必要觀點太終極。我覺得現(xiàn)在創(chuàng)業(yè)公司得先專注在垂直領(lǐng)域把它做到非常精細。 Perplexity這個產(chǎn)品就給了大家一個非常明確的方向，你看它從一開始就是專心在“研究”這一塊做得非常的專業(yè)，我覺得就走這條路，足夠成就一家很好的公司。

當然，一個新技術(shù)和新范式的產(chǎn)生少不了失敗，這個失敗在于對創(chuàng)業(yè)路徑的失敗，也在于對時機判斷的失敗，還有對于燒錢速度的失敗等等。

在AI Agent這條道路上，我們已經(jīng)看到一個初創(chuàng)明星公司的倒下：這就是Adept。

Adept總?cè)谫Y額增至4.15億美金、公司B輪估值超過10億美金晉升獨角獸之后，卻因為技術(shù)研發(fā)受阻而自己又研發(fā)基礎(chǔ)模型所以燒錢太狠，不得不最終在2024年年中“賣身”給亞馬遜。當時，這給所有想要從事AI Agent賽道的初創(chuàng)公司都槍響了警鐘。