欧美高清亚洲精品一区,人人妻人人看欧美,亚洲日本视频免费观看,国产精品精品网,国产激情视频免费在线

Windsurf 團(tuán)隊(duì)的聯(lián)合創(chuàng)始人 Anshul Ramachandran 最近發(fā)布了一篇關(guān)于 Agent 的科普文章，對(duì)于現(xiàn)下被廣泛討論，且經(jīng)常被誤用混淆的各種 Agent 概念進(jìn)行了辨析，同時(shí)對(duì) Agent 系統(tǒng)的核心構(gòu)成進(jìn)行了拆解。如果你想要通過(guò)一篇全面地了解關(guān)于 Agent 的基礎(chǔ)情況，這是一篇相當(dāng)不錯(cuò)的資料。

以下為《What is an Agent？》全文內(nèi)容，F(xiàn)ounder Park 進(jìn)行了編譯和適當(dāng)?shù)恼{(diào)整。

Founder Park 正在搭建開(kāi)發(fā)者社群，邀請(qǐng)積極嘗試、測(cè)試新模型、新技術(shù)的開(kāi)發(fā)者、創(chuàng)業(yè)者們加入，請(qǐng)掃碼詳細(xì)填寫(xiě)你的產(chǎn)品/項(xiàng)目信息，通過(guò)審核后工作人員會(huì)拉你入群～

進(jìn)群之后，你有機(jī)會(huì)得到：

高濃度的主流模型（如 DeepSeek 等）開(kāi)發(fā)交流；
資源對(duì)接，與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì)；
好用、有趣的產(chǎn)品/案例，F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。

歡迎來(lái)到 2025 年，這一年「Agent」一詞的使用頻率極高，其含義也變得相當(dāng)寬泛。在日常交流中，人們基于各自的理解 confidenty 地使用這個(gè)詞，反而使其原本清晰的含義逐漸模糊。

如果你是一名開(kāi)發(fā)者，正在構(gòu)建與 Agent 相關(guān)的解決方案，那么本文可能并不適合你。本文更適合以下幾類人群：

在會(huì)議、討論或日常對(duì)話中聽(tīng)到他人提及 AI Agent 時(shí)心存疑惑的朋友，或許你對(duì) Agent 的定義及其與現(xiàn)有生成式 AI 能力的差異不太確定；或許你懷疑使用這個(gè)詞的人是否真正了解 Agent 的含義；又或許你在讀到本文第一句話時(shí)，才開(kāi)始質(zhì)疑自己此前對(duì) Agent 的理解是否準(zhǔn)確。

（本文在解釋某些理論概念時(shí)會(huì)提及我們的產(chǎn)品 Windsurf，但并非進(jìn)行產(chǎn)品推介。)

Agent 核心概念解析：

「LLM+工具」的循環(huán)

回答本文標(biāo)題的問(wèn)題，我們可以將 Agent 系統(tǒng)簡(jiǎn)單理解為一個(gè)接收用戶輸入后，交替調(diào)用以下兩部分的系統(tǒng)：

一個(gè) LLM（在這里我們稱其為「推理模型」）：依據(jù)輸入、可能自動(dòng)檢索到的額外上下文以及累積的對(duì)話歷史，來(lái)決定下一步的行動(dòng)。推理模型會(huì)輸出一段文字，解釋采取下一步行動(dòng)的原因，以及結(jié)構(gòu)化的信息，具體指定行動(dòng)的細(xì)節(jié)，例如調(diào)用哪個(gè)工具、工具所需的參數(shù)值等。這里的「行動(dòng)」也可能表示沒(méi)有更多需要執(zhí)行的任務(wù)。
工具（Tools）：用于執(zhí)行推理模型指定的各種行動(dòng)并產(chǎn)生結(jié)果，這些結(jié)果將納入到信息流中，供推理模型在下一次調(diào)用時(shí)使用。需要注意的是，這些工具本身未必與 LLM 相關(guān)，推理模型的主要職責(zé)是從系統(tǒng)可用的工具和行動(dòng)集合中進(jìn)行選擇。

由此構(gòu)成了一個(gè)基本的 Agent 循環(huán)，核心就是如此簡(jiǎn)單。Agent 系統(tǒng)根據(jù)該循環(huán)呈現(xiàn)給用戶的方式不同，會(huì)表現(xiàn)出多種形式，后續(xù)將詳細(xì)探討。但若你能理解這一概念，即 LLM 在此并非僅作為純粹的內(nèi)容生成器，而是更像一個(gè)負(fù)責(zé)選擇工具的「推理」組件，那么你就已基本掌握了 Agent 的要義。

「推理（Reasoning）」一詞在 Agent 領(lǐng)域有著特定的含義，它指的是利用 LLM 來(lái)決定下一步要采取的行動(dòng)，即確定調(diào)用哪個(gè)工具以及使用何種參數(shù)。

然而，「推理」一詞在其他語(yǔ)境下也被用于完全不同的概念，例如 OpenAI 的 o1 模型所指的「推理」，是思維鏈（CoT）提示，即模型在給出最終答案前，先輸出一系列中間步驟，模仿人類解決問(wèn)題時(shí)的思考過(guò)程，而非單純依賴模式匹配的能力，這類模型并未調(diào)用外部工具，只是以一種類似串聯(lián)多個(gè)思考過(guò)程的方式生成 LLM 自身的輸出，因而得名「思維鏈」。

另一種常見(jiàn)的對(duì) 「Agent」一詞的誤用是將其應(yīng)用于所謂的「AI工作流（AI workflows）」。例如，有人構(gòu)建一個(gè)自動(dòng)化流程：先接收原始文檔，用一個(gè) LLM 進(jìn)行對(duì)象識(shí)別，再清理提取出的數(shù)據(jù)，接著用另一個(gè) LLM 總結(jié)數(shù)據(jù)，最后將總結(jié)添加到數(shù)據(jù)庫(kù)。盡管該流程涉及到多次 LLM 調(diào)用，但 LLM 并未作為決策調(diào)用哪個(gè)工具的推理引擎，而是在工作流中事先規(guī)定好了要調(diào)用的 LLM 及其調(diào)用順序和方式，而非讓 LLM 在實(shí)時(shí)運(yùn)行中自行決定調(diào)用哪些工具，這只是一個(gè)自動(dòng)化流程，并非 Agent。

以一個(gè)簡(jiǎn)單的「披薩食譜」作為例子來(lái)進(jìn)一步理解 Agent 系統(tǒng)和非 Agent 系統(tǒng)。假設(shè)你請(qǐng)求一個(gè) AI 系統(tǒng)提供披薩食譜，在非 Agent 系統(tǒng)中，你可能直接將請(qǐng)求輸入到一個(gè) LLM，由其生成結(jié)果。而在 Agent 系統(tǒng)中，Agent 可能擁有的工具之一是「從食譜書(shū)中檢索食譜」，系統(tǒng)會(huì)先使用 LLM（推理模型）進(jìn)行判斷，根據(jù)用戶請(qǐng)求使用「食譜工具」，輸入?yún)?shù)為「披薩」，以找到對(duì)應(yīng)的食譜，然后調(diào)用該工具獲取食譜文本，接著推理模型根據(jù)工具輸出判斷無(wú)需進(jìn)一步處理，結(jié)束「循環(huán)」。

盡管你現(xiàn)在可能理解了 Agent 的區(qū)別，但你或許會(huì)問(wèn)這為何有趣，看起來(lái)不過(guò)是方法上的技術(shù)細(xì)節(jié)。原因主要有以下幾點(diǎn)：

當(dāng)需求稍顯復(fù)雜，如「要一份那不勒斯風(fēng)格的健康食材披薩食譜」時(shí)，非 Agent 系統(tǒng)可能憑借生成模型的強(qiáng)大能力給出像樣的結(jié)果，但隨著請(qǐng)求越來(lái)越詳細(xì)、層層遞進(jìn)，試圖通過(guò)單次調(diào)用 LLM 完美滿足所有要求的可能性會(huì)降低。而 Agent 系統(tǒng)可能會(huì)先推理決定使用一個(gè)工具，通過(guò) LLM 描述披薩的制作方式；接著推理決定使用另一個(gè)工具進(jìn)行網(wǎng)絡(luò)搜索來(lái)確定健康食材；然后進(jìn)行推理決定使用最終檢索食譜的工具，前幾步獲得的信息同樣可用于指導(dǎo)或配置該工具的輸入。這種將任務(wù)分解成步驟的方式，與人類處理事情的方式相似。同時(shí)，因?yàn)?Agent 使用的是人類更了解、更易控制的工具，可以降低結(jié)果的不確定性。雖然不能保證一定成功，但 Agent 方法比非 Agent 方法更有機(jī)會(huì)讓AI系統(tǒng)把事情辦對(duì)。
我們能為 Agent 提供的工具可以彌補(bǔ) LLM 的短板。LLM 是一個(gè)基于自然語(yǔ)言模式運(yùn)作的隨機(jī)系統(tǒng)，對(duì)非文本概念沒(méi)有內(nèi)在理解。如 LLM 不擅長(zhǎng)數(shù)學(xué)，可添加計(jì)算器工具；LLM 不知道當(dāng)前時(shí)間，可添加系統(tǒng)時(shí)間工具；LLM 無(wú)法編譯代碼，可添加構(gòu)建工具。這樣，Agent 系統(tǒng)中的推理模型無(wú)需內(nèi)在地掌握這些領(lǐng)域的知識(shí)，只需知道何時(shí)調(diào)用相應(yīng)工具及確定傳遞給工具的正確輸入?yún)?shù)即可，這比讓 LLM 掌握所有領(lǐng)域知識(shí)更易于實(shí)現(xiàn)，且判斷可基于文本上下文。
工具可改變「世界」的狀態(tài)，而不僅僅是提供文字響應(yīng)。在披薩食譜的例子中，若希望 AI 不僅給出食譜，還能將其發(fā)給他人，且 Agent 有權(quán)訪問(wèn)聯(lián)系人及發(fā)送短信工具，它就會(huì)進(jìn)入循環(huán)：先推理決定檢索食譜，再推理決定檢索妹妹的聯(lián)系信息，最后推理決定發(fā)送短信。前兩步可能通過(guò)一些非常聰明的 RAG（檢索增強(qiáng)生成）也能實(shí)現(xiàn)，但最后一步真正采取行動(dòng)的能力，是 Agent 系統(tǒng)具備更強(qiáng)大的能力的體現(xiàn)。

現(xiàn)在你已基本了解 Agent 是什么，但還有更多背景信息可助你在談?wù)?「Agent」時(shí)更專業(yè)。

通過(guò)工具彌補(bǔ) LLM 自身不足，

協(xié)作式 Agent 更具潛力

在探討更好地理解 Agent 系統(tǒng)中的思維模型之前，接下來(lái)我們先簡(jiǎn)要回顧是如何發(fā)展到今天的，并根據(jù)不同類型的 AI 工具與 Agent 方法的契合度進(jìn)行區(qū)分，同時(shí)結(jié)合軟件工程領(lǐng)域展開(kāi)討論。

幾年前，在生成式 AI 工具出現(xiàn)前，人類依靠一系列行動(dòng)完成工作，例如軟件工程領(lǐng)域包括在 StackOverflow 上搜索資料、運(yùn)行終端命令、編寫(xiě)代碼等。

隨著 LLM 的出現(xiàn)，我們擁有了能很好完成特定任務(wù)的系統(tǒng)，如 ChatGPT 用于回答問(wèn)題，GitHub Copilot 用于自動(dòng)補(bǔ)全代碼等。這些工具能贏得使用者的信任，是因?yàn)樗鼈儩M足了兩個(gè)條件：一是解決了用戶真正關(guān)心的問(wèn)題，且 LLM 技術(shù)足夠成熟，能以足夠可靠的水平解決問(wèn)題，讓用戶在特定場(chǎng)景下愿意信任它。二是多年來(lái)人們構(gòu)建了許多基于 LLM 的系統(tǒng)，來(lái)展示其解決復(fù)雜任務(wù)的能力，但許多成果僅停留在演示階段，無(wú)法投入生產(chǎn)環(huán)境并獲得用戶長(zhǎng)期信任，導(dǎo)致炒作與現(xiàn)實(shí)脫節(jié)。如總結(jié)拉取請(qǐng)求對(duì)用戶有價(jià)值，但用戶對(duì)其準(zhǔn)確度的要求很高，若首次使用 AI 時(shí)給出的總結(jié)是錯(cuò)的，那用戶可能就不再信任該工具。盡管 LLM 技術(shù)不完美，但發(fā)展迅速，因此能以足夠高的可靠性來(lái)解決任務(wù)，同時(shí)能解決任務(wù)的復(fù)雜度也在不斷提升。

最初「有用」與「可能實(shí)現(xiàn)」的交集僅限于「Copilot 式」系統(tǒng)，這些 AI 系統(tǒng)通過(guò)單次 LLM 調(diào)用解決非常有限的任務(wù)，如回復(fù)提示或生成自動(dòng)補(bǔ)全建議等，在人類與 AI 協(xié)同工作（human-in-the-loop）中，在采納結(jié)果前進(jìn)行審查，因此不必?fù)?dān)心 AI 「失控」。AI 主要的挑戰(zhàn)是「幻覺(jué)」問(wèn)題，即模型給出不準(zhǔn)確的結(jié)果，這源于模型內(nèi)在的「自信」（這些模型是在互聯(lián)網(wǎng)文本上進(jìn)行訓(xùn)練，而互聯(lián)網(wǎng)上誰(shuí)都顯得很自信）以及缺乏使回答符合現(xiàn)實(shí)的知識(shí)。因此，人們通過(guò)更強(qiáng)大的 RAG （Retrieval Augmented Generation）方法改進(jìn) Copilot 式系統(tǒng)，簡(jiǎn)單來(lái)說(shuō)，RAG 就是先檢索相關(guān)信息為查詢提供事實(shí)依據(jù)，再將整合后的信息傳遞給 LLM 生成最終響應(yīng)，這種能力定義了基于 LLM 應(yīng)用的最初幾年。

正是這些類似 Copilot 的非 Agent 系統(tǒng)，以用戶愿意長(zhǎng)期信賴的穩(wěn)定水平創(chuàng)造了實(shí)際價(jià)值。但「Agent 系統(tǒng)」這一概念并非新事物。

首個(gè)流行的 Agent 框架 AutoGPT 早在 2023 年初就問(wèn)世了，其方法是讓 Agent 循環(huán)自主運(yùn)行，用戶只需提供提示，由 Agent 自行執(zhí)行并審查結(jié)果。由于可訪問(wèn)工具并進(jìn)行多次 LLM 調(diào)用，這些系統(tǒng)運(yùn)行時(shí)間更長(zhǎng)，能完成比 Copilot 式系統(tǒng)范圍更廣的任務(wù)。

盡管 AutoGPT 仍是 GitHub 上最受歡迎的倉(cāng)庫(kù)之一，但用它創(chuàng)建的 Agent 并未真正普及。一年后，Cognition 公司推出 Devin，一個(gè)號(hào)稱功能齊全、能取代人類軟件開(kāi)發(fā)者的 AI 開(kāi)發(fā)者，這是一個(gè)完全自主的 Agent 系統(tǒng)，擁有強(qiáng)大的工具，但至今能解決的仍是相對(duì)簡(jiǎn)單的問(wèn)題。

這就引出了一個(gè)問(wèn)題：若 Agent 如此強(qiáng)大，為何用戶主要從 RAG 驅(qū)動(dòng)的非 Agent 的 Copilot 式系統(tǒng)中獲得價(jià)值，而非 Agent 系統(tǒng)？

這與上文提到的「有用問(wèn)題」與「技術(shù)足夠成熟可靠」的交集有關(guān)，是自主 Agent 系統(tǒng)面臨的普遍挑戰(zhàn)。雖然自主 Agent 是未來(lái)發(fā)展方向，但當(dāng)前 LLM 可能在無(wú)人干預(yù)或糾正的情況下，難以端到端地完成復(fù)雜任務(wù)。

基于此，催生了 Agent 的一種新方法，即認(rèn)識(shí)到人類和 Agent 之間需要某種平衡，這類 Agent 被稱為「協(xié)作式 Agent」（collaborative agents），或簡(jiǎn)稱為「AI Flows」。

具體而言：

必須有清晰的方式讓用戶在工作流執(zhí)行過(guò)程中觀察其進(jìn)展，以便及時(shí)糾正偏差，重新引入 Copilot 式系統(tǒng)中「human-in-the-loop」的協(xié)作特性。
這些工作流必須在人類習(xí)慣工作的同一環(huán)境中運(yùn)行。大多數(shù)自主 Agent 項(xiàng)目獨(dú)立于用戶運(yùn)行，其調(diào)用界面與用戶手動(dòng)完成工作時(shí)的環(huán)境是脫節(jié)的，如 Devin 通過(guò)網(wǎng)頁(yè)調(diào)用，而開(kāi)發(fā)者在 IDE 中編寫(xiě)代碼。若 Agent 不在人類工作的主環(huán)境中，就無(wú)法感知手動(dòng)操作，會(huì)錯(cuò)過(guò)許多隱式上下文。

總之，在現(xiàn)實(shí)應(yīng)用中，Agent 能觀察人類行動(dòng)很重要，反過(guò)來(lái)人類能觀察 Agent 的行動(dòng)也同樣重要。

協(xié)作式 Agent 方法所需的可靠性門(mén)檻顯著低于自主 Agent 方法，因?yàn)槿祟惪梢栽谥虚g步驟糾正 AI，在 AI 執(zhí)行某些行動(dòng)時(shí)確認(rèn)，并負(fù)責(zé)實(shí)時(shí)審查改動(dòng)。目前，所有能為用戶帶來(lái)切實(shí)價(jià)值且普通用戶可接觸到的 Agent 應(yīng)用，都采用了這種方法，如 Windsurf 的 Cascade、Cursor 的 Composer Agent 和 GitHub Copilot Workspaces，在這些工作流中，人類和 Agent 始終在同一「世界狀態(tài)」下協(xié)同運(yùn)作。

我們?nèi)绱嗽敿?xì)地區(qū)分自主 Agent 和協(xié)作式 Agent，是因?yàn)樗鼈兪菢?gòu)建「Agent 系統(tǒng)」的截然不同的兩種方法，這兩種方法在「human-in-the-loop」的參與程度、所需信任水平、交互方式等方面差異巨大。由于「Agent」一詞被過(guò)度使用，有人熱衷于討論構(gòu)建自主 Agent，并以像 Windsurf 的 Cascade 這樣的系統(tǒng)作為 Agent 可行的證據(jù)，而實(shí)際上這兩種方法本質(zhì)上并不同。

全方位理解和剖析「Agent 系統(tǒng)」

以下是一個(gè)包含所有前文內(nèi)容的速查清單，幫你理解關(guān)于「Agent」的對(duì)話，并提出觸及技術(shù)核心的問(wèn)題。這些問(wèn)題中可以分別延展成獨(dú)立的文章探討，這里我們先進(jìn)行基礎(chǔ)的探討。

問(wèn)題 1：討論的系統(tǒng)真的是 Agent 嗎？

太多非 Agent 系統(tǒng)被冠以「Agent 系統(tǒng)」之名，需明確其中的 LLM 是否作為工具調(diào)用的推理模型，是否真的有工具被調(diào)用，還是僅為思維鏈推理或其他含義完全不同的東西。

問(wèn)題 2：它是自主的還是協(xié)作式的？

該 Agent 系統(tǒng)是讓 Agent 在后臺(tái)自主工作無(wú)需人工參與，還是具備獨(dú)立完成多步任務(wù)的能力但卻嵌入到現(xiàn)有的工作系統(tǒng)中仍需要人類參與？若是前者，即自主 Agent，需要追問(wèn)當(dāng)前模型是否足夠強(qiáng)大，能以用戶信賴的穩(wěn)定性水平處理數(shù)據(jù)和工具的規(guī)模及復(fù)雜性，還是構(gòu)建自主 Agent 的想法并不切實(shí)際？

問(wèn)題 3：Agent 是否擁有內(nèi)在強(qiáng)大的所有輸入和組件？

問(wèn)題 3a：Agent 可以訪問(wèn)哪些工具？

不僅要了解工具列表，還要探究工具的實(shí)現(xiàn)方式，如 Windsurf 的 Cascade 采用了獨(dú)特的網(wǎng)頁(yè)內(nèi)容分塊和解析方法。以及，添加獨(dú)特工具的難易程度如何？

問(wèn)題 3b：Agent 使用的是哪個(gè)推理模型？

評(píng)估 LLM 時(shí)，應(yīng)關(guān)注其在工具調(diào)用方面的能力，而非其在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中的表現(xiàn)，不存在勝任所有任務(wù)的最優(yōu) LLM，需考慮 Agent 是否具備使用不同類型模型的靈活性。

問(wèn)題 3c：Agent 如何處理現(xiàn)有數(shù)據(jù)？

Agent 能訪問(wèn)哪些數(shù)據(jù)源？在協(xié)作式 Agent 場(chǎng)景下，它對(duì)這些數(shù)據(jù)源的訪問(wèn)是否遵循了用戶已有的訪問(wèn)控制規(guī)則？比如對(duì)于代碼庫(kù)，Agent 是僅能訪問(wèn)用戶當(dāng)前在 IDE 中檢出的倉(cāng)庫(kù)，還是也能訪問(wèn)其他倉(cāng)庫(kù)的信息來(lái)輔助結(jié)果生成？從代碼的分布式特性來(lái)看，能訪問(wèn)更多倉(cāng)庫(kù)可能更有價(jià)值，但訪問(wèn)控制的難度也會(huì)相應(yīng)增加。

Agent 方法改變了我們思考數(shù)據(jù)檢索的方式。在 Copilot 式系統(tǒng)里，只有一次調(diào)用 LLM 和檢索的機(jī)會(huì)，這使得 RAG 系統(tǒng)愈發(fā)復(fù)雜。而在 Agent 系統(tǒng)中，若首次檢索結(jié)果不理想，推理模型可更改參數(shù)重新檢索，直到收集到足夠的信息采取行動(dòng)，這更貼近人類查找數(shù)據(jù)的模式。所以，當(dāng)討論深入到 RAG、解析及中間數(shù)據(jù)結(jié)構(gòu)時(shí)，不妨想想我們?cè)?Agent 領(lǐng)域是否把問(wèn)題想復(fù)雜了。

不過(guò)，如果數(shù)據(jù)本身有結(jié)構(gòu)，那詢問(wèn)這些數(shù)據(jù)源的信息如何處理是合理的。比如 AI 編程工具處理的代碼庫(kù)是高度結(jié)構(gòu)化的，就可以利用抽象語(yǔ)法樹(shù)（AST）解析等技術(shù)，對(duì)代碼智能分塊，方便理解或搜索代碼的工具處理。智能預(yù)處理和多步驟檢索是可以并存的。

問(wèn)題 3d：協(xié)作式 Agent 或 AI Flow 如何捕捉用戶意圖？

在人類用戶的手動(dòng)操作中，存在一些無(wú)法明確編碼的隱式信號(hào)。雖然 Agent 不知道你在飲水機(jī)旁聊了什么，但僅通過(guò)捕捉這些隱式信號(hào)，就能創(chuàng)造出極有價(jià)值的體驗(yàn)。在我們領(lǐng)域，這些用戶意圖可能體現(xiàn)在 IDE 中打開(kāi)的其他標(biāo)簽頁(yè)、剛剛在文本編輯器中的編輯、執(zhí)行的終端命令、剪貼板內(nèi)容等。這關(guān)乎降低用戶使用 Agent 的「激活能壘」——若每次使用 Agent 都要用戶詳細(xì)描述本可通過(guò)隱式信號(hào)推斷的細(xì)節(jié)，那用戶對(duì) AI 結(jié)果質(zhì)量的期望就會(huì)過(guò)高。

問(wèn)題 4：這個(gè) Agent 的用戶體驗(yàn)為何特別好？

我們之前主要探討了影響 Agent 結(jié)果質(zhì)量的因素。但若想打造一款真正被用戶接納的 Agent 系統(tǒng)，僅關(guān)注結(jié)果質(zhì)量還不夠，還需關(guān)注提升用戶使用流暢度的各方面體驗(yàn)，即便底層 Agent 本身沒(méi)變。這些體驗(yàn)維度很多都不易構(gòu)建，需要深入思考。

問(wèn)題 4a：Agent 系統(tǒng)的延遲如何？

假設(shè)有兩個(gè) Agent 系統(tǒng)能完成同一特定任務(wù)，一個(gè)耗時(shí)一小時(shí)，另一個(gè)只需一分鐘。若確定兩者都能成功，你可能不太在意時(shí)間差，畢竟等待時(shí)可以做別的事。但若 Agent 有可能失敗呢？你肯定會(huì)更傾向后者，因?yàn)槟芨熘獣允。皶r(shí)調(diào)整提示或給 Agent 更多指導(dǎo)。延遲問(wèn)題是全自主 Agent 的主要挑戰(zhàn)之一，它們完成任務(wù)的耗時(shí)通常比人類手動(dòng)操作更長(zhǎng)，除非自主 Agent 的成功率極高，否則用戶不會(huì)選擇使用它。

特別強(qiáng)調(diào)延遲問(wèn)題的原因有二：其一，Agent 開(kāi)發(fā)者為提升結(jié)果質(zhì)量，常添加復(fù)雜耗時(shí)的工具，卻忽視了對(duì)用戶體驗(yàn)的影響，沒(méi)做好權(quán)衡；其二，減少延遲是技術(shù)棧各環(huán)節(jié)的難題——是模型推理優(yōu)化，還是構(gòu)造提示以提高緩存命中率，或是在工具內(nèi)部實(shí)現(xiàn)并行計(jì)算？這需要不同技能的工程師協(xié)同攻克。

問(wèn)題 4b：用戶如何觀察和引導(dǎo) Agent？

這是協(xié)作式 Agent 相較自主 Agent 的一大優(yōu)勢(shì)，但實(shí)現(xiàn)起來(lái)并不容易。例如，若編程 Agent 能在 IDE 的多個(gè)文件中多次修改代碼，開(kāi)發(fā)者該如何有效審查這些改動(dòng)？這和查看單個(gè)自動(dòng)補(bǔ)全建議或在聊天面板審查回復(fù)完全不同。

此外，人們需要時(shí)間來(lái)建立特定環(huán)境下的任務(wù)最佳實(shí)踐上下文。你能設(shè)計(jì)出怎樣的用戶體驗(yàn)，讓用戶引導(dǎo) Agent 遵循這些最佳實(shí)踐？比如，Windsurf 的 Cascade 可接受用戶定義的規(guī)則，或通過(guò)簡(jiǎn)單方式標(biāo)記已知上下文以指導(dǎo) Agent。雖說(shuō) Agent 的目標(biāo)是能獨(dú)立完成任務(wù)，但如果用戶能輕松幫助 Agent 降低任務(wù)難度，Agent 就能更快地輸出高質(zhì)量成果。

問(wèn)題 4c：Agent 如何集成到應(yīng)用中？

這取決于如何優(yōu)雅地調(diào)用 Agent 以及利用其輸出。如今，ChatGPT 的流行讓聊天面板成為調(diào)用 AI 系統(tǒng)的常見(jiàn)方式，但這不是唯一選擇。例如，Windsurf 的 Cascade 可通過(guò)一個(gè)簡(jiǎn)單按鈕調(diào)用以解釋代碼段，并且能通過(guò) Previews 功能將控制臺(tái)日志和 UI 組件等上下文信息傳遞給 Cascade，無(wú)需復(fù)制粘貼文本。

問(wèn)題 4d：Agent 體驗(yàn)如何與非 Agent 體驗(yàn)平衡？

并非所有任務(wù)都需 Agent 來(lái)做。比如開(kāi)發(fā)者進(jìn)行局部重構(gòu)時(shí)，使用 Command 和 Tab 等快捷鍵組合這類非 Agent 的「Copilot 式」體驗(yàn)，既快速又高效。Agent 是新興領(lǐng)域，但不能盲目用 Agent 解決所有問(wèn)題。問(wèn)問(wèn)自己「這個(gè)任務(wù)真的需要構(gòu)建一個(gè) Agent 嗎？」往往很有必要。

當(dāng)然，以上只是初步探討，但這份清單能幫你更好地理解 Agent 相關(guān)對(duì)話，提出關(guān)鍵問(wèn)題，為想法增加現(xiàn)實(shí)主義的視角。

構(gòu)建 Agent 同樣需要注意「苦澀的教訓(xùn)」

最后，有一個(gè)重要問(wèn)題值得單獨(dú)列出，若你從本文只記住一個(gè)問(wèn)題，那應(yīng)該是「我們是否正在違背‘苦澀的教訓(xùn)’？」「苦澀的教訓(xùn)」源自 Richard Sutton 的同名文章，其核心觀點(diǎn)是：更多的算力、數(shù)據(jù)以及更大規(guī)模的技術(shù)，終將超越依賴人類定義結(jié)構(gòu)或規(guī)則的系統(tǒng)。這一趨勢(shì)在計(jì)算機(jī)視覺(jué)、游戲、NLP 等領(lǐng)域得到印證，如 LLM 的性能超越了傳統(tǒng) NLP 方法。

在使用 Agent 時(shí)，我們可能再次忘記「苦澀的教訓(xùn)」，認(rèn)為對(duì)特定用例的深入了解，需花費(fèi)時(shí)間精心設(shè)計(jì)提示、選擇工具集合或注入人類知識(shí)。然而，模型持續(xù)改進(jìn)，計(jì)算能力變得更便宜、強(qiáng)大，這些努力最終可能付諸東流。因此，要避免落入「苦澀的教訓(xùn)」的陷阱。