Windsurf 團(tuán)隊(duì)的聯(lián)合創(chuàng)始人 Anshul Ramachandran 最近發(fā)布了一篇關(guān)于 Agent 的科普文章,對(duì)于現(xiàn)下被廣泛討論,且經(jīng)常被誤用混淆的各種 Agent 概念進(jìn)行了辨析,同時(shí)對(duì) Agent 系統(tǒng)的核心構(gòu)成進(jìn)行了拆解。如果你想要通過(guò)一篇全面地了解關(guān)于 Agent 的基礎(chǔ)情況,這是一篇相當(dāng)不錯(cuò)的資料。

以下為《What is an Agent?》全文內(nèi)容,F(xiàn)ounder Park 進(jìn)行了編譯和適當(dāng)?shù)恼{(diào)整。

Founder Park 正在搭建開(kāi)發(fā)者社群,邀請(qǐng)積極嘗試、測(cè)試新模型、新技術(shù)的開(kāi)發(fā)者、創(chuàng)業(yè)者們加入,請(qǐng)掃碼詳細(xì)填寫(xiě)你的產(chǎn)品/項(xiàng)目信息,通過(guò)審核后工作人員會(huì)拉你入群~

進(jìn)群之后,你有機(jī)會(huì)得到:

  • 高濃度的主流模型(如 DeepSeek 等)開(kāi)發(fā)交流;

  • 資源對(duì)接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。

歡迎來(lái)到 2025 年,這一年 「Agent」 一詞的使用頻率極高,其含義也變得相當(dāng)寬泛。在日常交流中,人們基于各自的理解 confidenty 地使用這個(gè)詞,反而使其原本清晰的含義逐漸模糊。

如果你是一名開(kāi)發(fā)者,正在構(gòu)建與 Agent 相關(guān)的解決方案,那么本文可能并不適合你。本文更適合以下幾類人群:

在會(huì)議、討論或日常對(duì)話中聽(tīng)到他人提及 AI Agent 時(shí)心存疑惑的朋友,或許你對(duì) Agent 的定義及其與現(xiàn)有生成式 AI 能力的差異不太確定;或許你懷疑使用這個(gè)詞的人是否真正了解 Agent 的含義;又或許你在讀到本文第一句話時(shí),才開(kāi)始質(zhì)疑自己此前對(duì) Agent 的理解是否準(zhǔn)確。

(本文在解釋某些理論概念時(shí)會(huì)提及我們的產(chǎn)品 Windsurf,但并非進(jìn)行產(chǎn)品推介。)

01

Agent 核心概念解析:

「LLM+工具」的循環(huán)

回答本文標(biāo)題的問(wèn)題,我們可以將 Agent 系統(tǒng)簡(jiǎn)單理解為一個(gè)接收用戶輸入后,交替調(diào)用以下兩部分的系統(tǒng):

  • 一個(gè) LLM(在這里我們稱其為「推理模型」):依據(jù)輸入、可能自動(dòng)檢索到的額外上下文以及累積的對(duì)話歷史,來(lái)決定下一步的行動(dòng)。推理模型會(huì)輸出一段文字,解釋采取下一步行動(dòng)的原因,以及結(jié)構(gòu)化的信息,具體指定行動(dòng)的細(xì)節(jié),例如調(diào)用哪個(gè)工具、工具所需的參數(shù)值等。這里的 「行動(dòng)」 也可能表示沒(méi)有更多需要執(zhí)行的任務(wù)。

  • 工具(Tools) :用于執(zhí)行推理模型指定的各種行動(dòng)并產(chǎn)生結(jié)果,這些結(jié)果將納入到信息流中,供推理模型在下一次調(diào)用時(shí)使用。需要注意的是,這些工具本身未必與 LLM 相關(guān),推理模型的主要職責(zé)是從系統(tǒng)可用的工具和行動(dòng)集合中進(jìn)行選擇。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

由此構(gòu)成了一個(gè)基本的 Agent 循環(huán),核心就是如此簡(jiǎn)單。Agent 系統(tǒng)根據(jù)該循環(huán)呈現(xiàn)給用戶的方式不同,會(huì)表現(xiàn)出多種形式,后續(xù)將詳細(xì)探討。但若你能理解這一概念,即 LLM 在此并非僅作為純粹的內(nèi)容生成器,而是更像一個(gè)負(fù)責(zé)選擇工具的 「推理」 組件,那么你就已基本掌握了 Agent 的要義。

「推理(Reasoning)」 一詞在 Agent 領(lǐng)域有著特定的含義,它指的是利用 LLM 來(lái)決定下一步要采取的行動(dòng),即確定調(diào)用哪個(gè)工具以及使用何種參數(shù)。

然而,「推理」 一詞在其他語(yǔ)境下也被用于完全不同的概念,例如 OpenAI 的 o1 模型所指的 「推理」,是思維鏈(CoT)提示,即模型在給出最終答案前,先輸出一系列中間步驟,模仿人類解決問(wèn)題時(shí)的思考過(guò)程,而非單純依賴模式匹配的能力,這類模型并未調(diào)用外部工具,只是以一種類似串聯(lián)多個(gè)思考過(guò)程的方式生成 LLM 自身的輸出,因而得名 「思維鏈」。

另一種常見(jiàn)的對(duì) 「Agent」 一詞的誤用是將其應(yīng)用于所謂的 「AI工作流(AI workflows)」。例如,有人構(gòu)建一個(gè)自動(dòng)化流程:先接收原始文檔,用一個(gè) LLM 進(jìn)行對(duì)象識(shí)別,再清理提取出的數(shù)據(jù),接著用另一個(gè) LLM 總結(jié)數(shù)據(jù),最后將總結(jié)添加到數(shù)據(jù)庫(kù)。盡管該流程涉及到多次 LLM 調(diào)用,但 LLM 并未作為決策調(diào)用哪個(gè)工具的推理引擎,而是在工作流中事先規(guī)定好了要調(diào)用的 LLM 及其調(diào)用順序和方式,而非讓 LLM 在實(shí)時(shí)運(yùn)行中自行決定調(diào)用哪些工具,這只是一個(gè)自動(dòng)化流程,并非 Agent。

以一個(gè)簡(jiǎn)單的「披薩食譜」作為例子來(lái)進(jìn)一步理解 Agent 系統(tǒng)和非 Agent 系統(tǒng)。假設(shè)你請(qǐng)求一個(gè) AI 系統(tǒng)提供披薩食譜,在非 Agent 系統(tǒng)中,你可能直接將請(qǐng)求輸入到一個(gè) LLM,由其生成結(jié)果。而在 Agent 系統(tǒng)中,Agent 可能擁有的工具之一是 「從食譜書(shū)中檢索食譜」,系統(tǒng)會(huì)先使用 LLM(推理模型)進(jìn)行判斷,根據(jù)用戶請(qǐng)求使用 「食譜工具」,輸入?yún)?shù)為 「披薩」,以找到對(duì)應(yīng)的食譜,然后調(diào)用該工具獲取食譜文本,接著推理模型根據(jù)工具輸出判斷無(wú)需進(jìn)一步處理,結(jié)束 「循環(huán)」。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

盡管你現(xiàn)在可能理解了 Agent 的區(qū)別,但你或許會(huì)問(wèn)這為何有趣,看起來(lái)不過(guò)是方法上的技術(shù)細(xì)節(jié)。原因主要有以下幾點(diǎn):

  • 當(dāng)需求稍顯復(fù)雜,如 「要一份那不勒斯風(fēng)格的健康食材披薩食譜」 時(shí),非 Agent 系統(tǒng)可能憑借生成模型的強(qiáng)大能力給出像樣的結(jié)果,但隨著請(qǐng)求越來(lái)越詳細(xì)、層層遞進(jìn),試圖通過(guò)單次調(diào)用 LLM 完美滿足所有要求的可能性會(huì)降低。而 Agent 系統(tǒng)可能會(huì)先推理決定使用一個(gè)工具,通過(guò) LLM 描述披薩的制作方式;接著推理決定使用另一個(gè)工具進(jìn)行網(wǎng)絡(luò)搜索來(lái)確定健康食材;然后進(jìn)行推理決定使用最終檢索食譜的工具,前幾步獲得的信息同樣可用于指導(dǎo)或配置該工具的輸入。這種將任務(wù)分解成步驟的方式,與人類處理事情的方式相似。同時(shí),因?yàn)?Agent 使用的是人類更了解、更易控制的工具,可以降低結(jié)果的不確定性。雖然不能保證一定成功,但 Agent 方法比非 Agent 方法更有機(jī)會(huì)讓AI系統(tǒng)把事情辦對(duì)。

  • 我們能為 Agent 提供的工具可以彌補(bǔ) LLM 的短板。LLM 是一個(gè)基于自然語(yǔ)言模式運(yùn)作的隨機(jī)系統(tǒng),對(duì)非文本概念沒(méi)有內(nèi)在理解。如 LLM 不擅長(zhǎng)數(shù)學(xué),可添加計(jì)算器工具;LLM 不知道當(dāng)前時(shí)間,可添加系統(tǒng)時(shí)間工具;LLM 無(wú)法編譯代碼,可添加構(gòu)建工具。這樣,Agent 系統(tǒng)中的推理模型無(wú)需內(nèi)在地掌握這些領(lǐng)域的知識(shí),只需知道何時(shí)調(diào)用相應(yīng)工具及確定傳遞給工具的正確輸入?yún)?shù)即可,這比讓 LLM 掌握所有領(lǐng)域知識(shí)更易于實(shí)現(xiàn),且判斷可基于文本上下文。

  • 工具可改變 「世界」 的狀態(tài),而不僅僅是提供文字響應(yīng)。在披薩食譜的例子中,若希望 AI 不僅給出食譜,還能將其發(fā)給他人,且 Agent 有權(quán)訪問(wèn)聯(lián)系人及發(fā)送短信工具,它就會(huì)進(jìn)入循環(huán):先推理決定檢索食譜,再推理決定檢索妹妹的聯(lián)系信息,最后推理決定發(fā)送短信。前兩步可能通過(guò)一些非常聰明的 RAG(檢索增強(qiáng)生成)也能實(shí)現(xiàn),但最后一步真正采取行動(dòng)的能力,是 Agent 系統(tǒng)具備更強(qiáng)大的能力的體現(xiàn)。

現(xiàn)在你已基本了解 Agent 是什么,但還有更多背景信息可助你在談?wù)?「Agent」 時(shí)更專業(yè)。

02

通過(guò)工具彌補(bǔ) LLM 自身不足,

協(xié)作式 Agent 更具潛力

在探討更好地理解 Agent 系統(tǒng)中的思維模型之前,接下來(lái)我們先簡(jiǎn)要回顧是如何發(fā)展到今天的,并根據(jù)不同類型的 AI 工具與 Agent 方法的契合度進(jìn)行區(qū)分,同時(shí)結(jié)合軟件工程領(lǐng)域展開(kāi)討論。

幾年前,在生成式 AI 工具出現(xiàn)前,人類依靠一系列行動(dòng)完成工作,例如軟件工程領(lǐng)域包括在 StackOverflow 上搜索資料、運(yùn)行終端命令、編寫(xiě)代碼等。

 Windsurf團(tuán)隊(duì)科普Agent:不是什么都叫智能體!
打開(kāi)網(wǎng)易新聞 查看更多視頻
Windsurf團(tuán)隊(duì)科普Agent:不是什么都叫智能體!

隨著 LLM 的出現(xiàn),我們擁有了能很好完成特定任務(wù)的系統(tǒng),如 ChatGPT 用于回答問(wèn)題,GitHub Copilot 用于自動(dòng)補(bǔ)全代碼等。這些工具能贏得使用者的信任,是因?yàn)樗鼈儩M足了兩個(gè)條件:一是解決了用戶真正關(guān)心的問(wèn)題,且 LLM 技術(shù)足夠成熟,能以足夠可靠的水平解決問(wèn)題,讓用戶在特定場(chǎng)景下愿意信任它。二是多年來(lái)人們構(gòu)建了許多基于 LLM 的系統(tǒng),來(lái)展示其解決復(fù)雜任務(wù)的能力,但許多成果僅停留在演示階段,無(wú)法投入生產(chǎn)環(huán)境并獲得用戶長(zhǎng)期信任,導(dǎo)致炒作與現(xiàn)實(shí)脫節(jié)。如總結(jié)拉取請(qǐng)求對(duì)用戶有價(jià)值,但用戶對(duì)其準(zhǔn)確度的要求很高,若首次使用 AI 時(shí)給出的總結(jié)是錯(cuò)的,那用戶可能就不再信任該工具。盡管 LLM 技術(shù)不完美,但發(fā)展迅速,因此能以足夠高的可靠性來(lái)解決任務(wù),同時(shí)能解決任務(wù)的復(fù)雜度也在不斷提升。

最初 「有用」 與 「可能實(shí)現(xiàn)」 的交集僅限于 「Copilot 式」 系統(tǒng),這些 AI 系統(tǒng)通過(guò)單次 LLM 調(diào)用解決非常有限的任務(wù),如回復(fù)提示或生成自動(dòng)補(bǔ)全建議等,在人類與 AI 協(xié)同工作 (human-in-the-loop)中,在采納結(jié)果前進(jìn)行審查,因此不必?fù)?dān)心 AI 「失控」。AI 主要的挑戰(zhàn)是 「幻覺(jué)」 問(wèn)題,即模型給出不準(zhǔn)確的結(jié)果,這源于模型內(nèi)在的 「自信」 (這些模型是在互聯(lián)網(wǎng)文本上進(jìn)行訓(xùn)練,而互聯(lián)網(wǎng)上誰(shuí)都顯得很自信)以及缺乏使回答符合現(xiàn)實(shí)的知識(shí)。因此,人們通過(guò)更強(qiáng)大的 RAG (Retrieval Augmented Generation)方法改進(jìn) Copilot 式系統(tǒng),簡(jiǎn)單來(lái)說(shuō),RAG 就是先檢索相關(guān)信息為查詢提供事實(shí)依據(jù),再將整合后的信息傳遞給 LLM 生成最終響應(yīng),這種能力定義了基于 LLM 應(yīng)用的最初幾年。

正是這些類似 Copilot 的非 Agent 系統(tǒng),以用戶愿意長(zhǎng)期信賴的穩(wěn)定水平創(chuàng)造了實(shí)際價(jià)值。但「Agent 系統(tǒng)」 這一概念并非新事物。

 Windsurf團(tuán)隊(duì)科普Agent:不是什么都叫智能體!
打開(kāi)網(wǎng)易新聞 查看更多視頻
Windsurf團(tuán)隊(duì)科普Agent:不是什么都叫智能體!

首個(gè)流行的 Agent 框架 AutoGPT 早在 2023 年初就問(wèn)世了,其方法是讓 Agent 循環(huán)自主運(yùn)行,用戶只需提供提示,由 Agent 自行執(zhí)行并審查結(jié)果。由于可訪問(wèn)工具并進(jìn)行多次 LLM 調(diào)用,這些系統(tǒng)運(yùn)行時(shí)間更長(zhǎng),能完成比 Copilot 式系統(tǒng)范圍更廣的任務(wù)。

盡管 AutoGPT 仍是 GitHub 上最受歡迎的倉(cāng)庫(kù)之一,但用它創(chuàng)建的 Agent 并未真正普及。一年后,Cognition 公司推出 Devin,一個(gè)號(hào)稱功能齊全、能取代人類軟件開(kāi)發(fā)者的 AI 開(kāi)發(fā)者,這是一個(gè)完全自主的 Agent 系統(tǒng),擁有強(qiáng)大的工具,但至今能解決的仍是相對(duì)簡(jiǎn)單的問(wèn)題。

這就引出了一個(gè)問(wèn)題:若 Agent 如此強(qiáng)大,為何用戶主要從 RAG 驅(qū)動(dòng)的非 Agent 的 Copilot 式系統(tǒng)中獲得價(jià)值,而非 Agent 系統(tǒng)?

這與上文提到的 「有用問(wèn)題」 與 「技術(shù)足夠成熟可靠」 的交集有關(guān),是自主 Agent 系統(tǒng)面臨的普遍挑戰(zhàn)。雖然自主 Agent 是未來(lái)發(fā)展方向,但當(dāng)前 LLM 可能在無(wú)人干預(yù)或糾正的情況下,難以端到端地完成復(fù)雜任務(wù)。

基于此,催生了 Agent 的一種新方法,即認(rèn)識(shí)到人類和 Agent 之間需要某種平衡,這類 Agent 被稱為 「協(xié)作式 Agent」(collaborative agents),或簡(jiǎn)稱為 「AI Flows」。

具體而言:

  • 必須有清晰的方式讓用戶在工作流執(zhí)行過(guò)程中觀察其進(jìn)展,以便及時(shí)糾正偏差,重新引入 Copilot 式系統(tǒng)中 「human-in-the-loop」的協(xié)作特性。

  • 這些工作流必須在人類習(xí)慣工作的同一環(huán)境中運(yùn)行。大多數(shù)自主 Agent 項(xiàng)目獨(dú)立于用戶運(yùn)行,其調(diào)用界面與用戶手動(dòng)完成工作時(shí)的環(huán)境是脫節(jié)的,如 Devin 通過(guò)網(wǎng)頁(yè)調(diào)用,而開(kāi)發(fā)者在 IDE 中編寫(xiě)代碼。若 Agent 不在人類工作的主環(huán)境中,就無(wú)法感知手動(dòng)操作,會(huì)錯(cuò)過(guò)許多隱式上下文。

總之,在現(xiàn)實(shí)應(yīng)用中,Agent 能觀察人類行動(dòng)很重要,反過(guò)來(lái)人類能觀察 Agent 的行動(dòng)也同樣重要。

協(xié)作式 Agent 方法所需的可靠性門(mén)檻顯著低于自主 Agent 方法,因?yàn)槿祟惪梢栽谥虚g步驟糾正 AI,在 AI 執(zhí)行某些行動(dòng)時(shí)確認(rèn),并負(fù)責(zé)實(shí)時(shí)審查改動(dòng)。目前,所有能為用戶帶來(lái)切實(shí)價(jià)值且普通用戶可接觸到的 Agent 應(yīng)用,都采用了這種方法,如 Windsurf 的 Cascade、Cursor 的 Composer Agent 和 GitHub Copilot Workspaces,在這些工作流中,人類和 Agent 始終在同一 「世界狀態(tài)」 下協(xié)同運(yùn)作。

 Windsurf團(tuán)隊(duì)科普Agent:不是什么都叫智能體!
打開(kāi)網(wǎng)易新聞 查看更多視頻
Windsurf團(tuán)隊(duì)科普Agent:不是什么都叫智能體!

我們?nèi)绱嗽敿?xì)地區(qū)分自主 Agent 和協(xié)作式 Agent,是因?yàn)樗鼈兪菢?gòu)建 「Agent 系統(tǒng)」 的截然不同的兩種方法,這兩種方法在「human-in-the-loop」的 參與程度、所需信任水平、交互方式等方面差異巨大。由于 「Agent」 一詞被過(guò)度使用,有人熱衷于討論構(gòu)建自主 Agent,并以像 Windsurf 的 Cascade 這樣的系統(tǒng)作為 Agent 可行的證據(jù),而實(shí)際上這兩種方法本質(zhì)上并不同。

03

全方位理解和剖析 「Agent 系統(tǒng)」

以下是一個(gè)包含所有前文內(nèi)容的速查清單,幫你理解關(guān)于 「Agent」 的對(duì)話,并提出觸及技術(shù)核心的問(wèn)題。這些問(wèn)題中可以分別延展成獨(dú)立的文章探討,這里我們先進(jìn)行基礎(chǔ)的探討。

問(wèn)題 1:討論的系統(tǒng)真的是 Agent 嗎?

太多非 Agent 系統(tǒng)被冠以 「Agent 系統(tǒng)」 之名,需明確其中的 LLM 是否作為工具調(diào)用的推理模型,是否真的有工具被調(diào)用,還是僅為思維鏈推理或其他含義完全不同的東西。

問(wèn)題 2:它是自主的還是協(xié)作式的?

該 Agent 系統(tǒng)是讓 Agent 在后臺(tái)自主工作無(wú)需人工參與,還是具備獨(dú)立完成多步任務(wù)的能力但卻嵌入到現(xiàn)有的工作系統(tǒng)中仍需要人類參與?若是前者,即自主 Agent,需要追問(wèn)當(dāng)前模型是否足夠強(qiáng)大,能以用戶信賴的穩(wěn)定性水平處理數(shù)據(jù)和工具的規(guī)模及復(fù)雜性,還是構(gòu)建自主 Agent 的想法并不切實(shí)際?

問(wèn)題 3:Agent 是否擁有內(nèi)在強(qiáng)大的所有輸入和組件?

  • 問(wèn)題 3a:Agent 可以訪問(wèn)哪些工具?

不僅要了解工具列表,還要探究工具的實(shí)現(xiàn)方式,如 Windsurf 的 Cascade 采用了獨(dú)特的網(wǎng)頁(yè)內(nèi)容分塊和解析方法。以及,添加獨(dú)特工具的難易程度如何?

  • 問(wèn)題 3b:Agent 使用的是哪個(gè)推理模型?

評(píng)估 LLM 時(shí),應(yīng)關(guān)注其在工具調(diào)用方面的能力,而非其在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中的表現(xiàn),不存在勝任所有任務(wù)的最優(yōu) LLM,需考慮 Agent 是否具備使用不同類型模型的靈活性。

  • 問(wèn)題 3c:Agent 如何處理現(xiàn)有數(shù)據(jù)?

Agent 能訪問(wèn)哪些數(shù)據(jù)源?在協(xié)作式 Agent 場(chǎng)景下,它對(duì)這些數(shù)據(jù)源的訪問(wèn)是否遵循了用戶已有的訪問(wèn)控制規(guī)則?比如對(duì)于代碼庫(kù),Agent 是僅能訪問(wèn)用戶當(dāng)前在 IDE 中檢出的倉(cāng)庫(kù),還是也能訪問(wèn)其他倉(cāng)庫(kù)的信息來(lái)輔助結(jié)果生成?從代碼的分布式特性來(lái)看,能訪問(wèn)更多倉(cāng)庫(kù)可能更有價(jià)值,但訪問(wèn)控制的難度也會(huì)相應(yīng)增加。

Agent 方法改變了我們思考數(shù)據(jù)檢索的方式。在 Copilot 式系統(tǒng)里,只有一次調(diào)用 LLM 和檢索的機(jī)會(huì),這使得 RAG 系統(tǒng)愈發(fā)復(fù)雜。而在 Agent 系統(tǒng)中,若首次檢索結(jié)果不理想,推理模型可更改參數(shù)重新檢索,直到收集到足夠的信息采取行動(dòng),這更貼近人類查找數(shù)據(jù)的模式。所以,當(dāng)討論深入到 RAG、解析及中間數(shù)據(jù)結(jié)構(gòu)時(shí),不妨想想我們?cè)?Agent 領(lǐng)域是否把問(wèn)題想復(fù)雜了。

不過(guò),如果數(shù)據(jù)本身有結(jié)構(gòu),那詢問(wèn)這些數(shù)據(jù)源的信息如何處理是合理的。比如 AI 編程工具處理的代碼庫(kù)是高度結(jié)構(gòu)化的,就可以利用抽象語(yǔ)法樹(shù)(AST)解析等技術(shù),對(duì)代碼智能分塊,方便理解或搜索代碼的工具處理。智能預(yù)處理和多步驟檢索是可以并存的。

  • 問(wèn)題 3d:協(xié)作式 Agent 或 AI Flow 如何捕捉用戶意圖?

在人類用戶的手動(dòng)操作中,存在一些無(wú)法明確編碼的隱式信號(hào)。雖然 Agent 不知道你在飲水機(jī)旁聊了什么,但僅通過(guò)捕捉這些隱式信號(hào),就能創(chuàng)造出極有價(jià)值的體驗(yàn)。在我們領(lǐng)域,這些用戶意圖可能體現(xiàn)在 IDE 中打開(kāi)的其他標(biāo)簽頁(yè)、剛剛在文本編輯器中的編輯、執(zhí)行的終端命令、剪貼板內(nèi)容等。這關(guān)乎降低用戶使用 Agent 的「激活能壘」——若每次使用 Agent 都要用戶詳細(xì)描述本可通過(guò)隱式信號(hào)推斷的細(xì)節(jié),那用戶對(duì) AI 結(jié)果質(zhì)量的期望就會(huì)過(guò)高。

問(wèn)題 4:這個(gè) Agent 的用戶體驗(yàn)為何特別好?

我們之前主要探討了影響 Agent 結(jié)果質(zhì)量的因素。但若想打造一款真正被用戶接納的 Agent 系統(tǒng),僅關(guān)注結(jié)果質(zhì)量還不夠,還需關(guān)注提升用戶使用流暢度的各方面體驗(yàn),即便底層 Agent 本身沒(méi)變。這些體驗(yàn)維度很多都不易構(gòu)建,需要深入思考。

  • 問(wèn)題 4a:Agent 系統(tǒng)的延遲如何?

假設(shè)有兩個(gè) Agent 系統(tǒng)能完成同一特定任務(wù),一個(gè)耗時(shí)一小時(shí),另一個(gè)只需一分鐘。若確定兩者都能成功,你可能不太在意時(shí)間差,畢竟等待時(shí)可以做別的事。但若 Agent 有可能失敗呢?你肯定會(huì)更傾向后者,因?yàn)槟芨熘獣允。皶r(shí)調(diào)整提示或給 Agent 更多指導(dǎo)。延遲問(wèn)題是全自主 Agent 的主要挑戰(zhàn)之一,它們完成任務(wù)的耗時(shí)通常比人類手動(dòng)操作更長(zhǎng),除非自主 Agent 的成功率極高,否則用戶不會(huì)選擇使用它。

特別強(qiáng)調(diào)延遲問(wèn)題的原因有二:其一,Agent 開(kāi)發(fā)者為提升結(jié)果質(zhì)量,常添加復(fù)雜耗時(shí)的工具,卻忽視了對(duì)用戶體驗(yàn)的影響,沒(méi)做好權(quán)衡;其二,減少延遲是技術(shù)棧各環(huán)節(jié)的難題——是模型推理優(yōu)化,還是構(gòu)造提示以提高緩存命中率,或是在工具內(nèi)部實(shí)現(xiàn)并行計(jì)算?這需要不同技能的工程師協(xié)同攻克。

  • 問(wèn)題 4b:用戶如何觀察和引導(dǎo) Agent?

這是協(xié)作式 Agent 相較自主 Agent 的一大優(yōu)勢(shì),但實(shí)現(xiàn)起來(lái)并不容易。例如,若編程 Agent 能在 IDE 的多個(gè)文件中多次修改代碼,開(kāi)發(fā)者該如何有效審查這些改動(dòng)?這和查看單個(gè)自動(dòng)補(bǔ)全建議或在聊天面板審查回復(fù)完全不同。

此外,人們需要時(shí)間來(lái)建立特定環(huán)境下的任務(wù)最佳實(shí)踐上下文。你能設(shè)計(jì)出怎樣的用戶體驗(yàn),讓用戶引導(dǎo) Agent 遵循這些最佳實(shí)踐?比如,Windsurf 的 Cascade 可接受用戶定義的規(guī)則,或通過(guò)簡(jiǎn)單方式標(biāo)記已知上下文以指導(dǎo) Agent。雖說(shuō) Agent 的目標(biāo)是能獨(dú)立完成任務(wù),但如果用戶能輕松幫助 Agent 降低任務(wù)難度,Agent 就能更快地輸出高質(zhì)量成果。

  • 問(wèn)題 4c:Agent 如何集成到應(yīng)用中?

這取決于如何優(yōu)雅地調(diào)用 Agent 以及利用其輸出。如今,ChatGPT 的流行讓聊天面板成為調(diào)用 AI 系統(tǒng)的常見(jiàn)方式,但這不是唯一選擇。例如,Windsurf 的 Cascade 可通過(guò)一個(gè)簡(jiǎn)單按鈕調(diào)用以解釋代碼段,并且能通過(guò) Previews 功能將控制臺(tái)日志和 UI 組件等上下文信息傳遞給 Cascade,無(wú)需復(fù)制粘貼文本。

  • 問(wèn)題 4d:Agent 體驗(yàn)如何與非 Agent 體驗(yàn)平衡?

并非所有任務(wù)都需 Agent 來(lái)做。比如開(kāi)發(fā)者進(jìn)行局部重構(gòu)時(shí),使用 Command 和 Tab 等快捷鍵組合這類非 Agent 的「Copilot 式」體驗(yàn),既快速又高效。Agent 是新興領(lǐng)域,但不能盲目用 Agent 解決所有問(wèn)題。問(wèn)問(wèn)自己「這個(gè)任務(wù)真的需要構(gòu)建一個(gè) Agent 嗎?」往往很有必要。

當(dāng)然,以上只是初步探討,但這份清單能幫你更好地理解 Agent 相關(guān)對(duì)話,提出關(guān)鍵問(wèn)題,為想法增加現(xiàn)實(shí)主義的視角。

04

構(gòu)建 Agent 同樣需要注意「苦澀的教訓(xùn)」

最后,有一個(gè)重要問(wèn)題值得單獨(dú)列出,若你從本文只記住一個(gè)問(wèn)題,那應(yīng)該是 「我們是否正在違背‘苦澀的教訓(xùn)’?」 「苦澀的教訓(xùn)」 源自 Richard Sutton 的同名文章,其核心觀點(diǎn)是:更多的算力、數(shù)據(jù)以及更大規(guī)模的技術(shù),終將超越依賴人類定義結(jié)構(gòu)或規(guī)則的系統(tǒng)。這一趨勢(shì)在計(jì)算機(jī)視覺(jué)、游戲、NLP 等領(lǐng)域得到印證,如 LLM 的性能超越了傳統(tǒng) NLP 方法。

在使用 Agent 時(shí),我們可能再次忘記 「苦澀的教訓(xùn)」,認(rèn)為對(duì)特定用例的深入了解,需花費(fèi)時(shí)間精心設(shè)計(jì)提示、選擇工具集合或注入人類知識(shí)。然而,模型持續(xù)改進(jìn),計(jì)算能力變得更便宜、強(qiáng)大,這些努力最終可能付諸東流。因此,要避免落入 「苦澀的教訓(xùn)」 的陷阱。

打開(kāi)網(wǎng)易新聞 查看精彩圖片