打開網(wǎng)易新聞 查看精彩圖片

沒有基礎(chǔ)模型,就做不了Agent。

作者丨馬曉寧

編輯丨陳彩嫻

3月27日,OpenAI發(fā)布GPT-4o原生圖像生成功能,效果炸裂令人震撼,以至于這兩天在網(wǎng)上出現(xiàn)了一個很流行的段子:

如果兩個人都在前年開始投身 AI 圖像生成領(lǐng)域,一個人花大量時間和金錢投入 ComfyUI 和工作流的研究,另一個人兩年都在游山玩水,那么 GPT-4o 發(fā)布更新之后,他們?nèi)匀徽驹诹送黄鹋芫€上。

這個段子說出了不少創(chuàng)業(yè)者內(nèi)心的恐慌。換句話說,你很難說服自己(和投資人)相信,你不只是一直在一架上升中的電梯里做俯臥撐。

每當(dāng)基座模型能力突破某個臨界點,此前以工程優(yōu)化能力作為賣點、從而實現(xiàn)某個類型能力的應(yīng)用,就立刻失去價值。盡管“模型無關(guān)”的思想出現(xiàn),但事實上基于模型開發(fā)的上層應(yīng)用始終沒有擺脫基座大模型的支配。文生圖產(chǎn)品如此,近日來火熱的 Agent 也如此。

雖然 Manus 掀起了 Agent 的熱度,但不少業(yè)內(nèi)人認(rèn)為,“如果一個 Agent 團(tuán)隊沒有基座模型與強(qiáng)化學(xué)習(xí)技術(shù),只是單純的產(chǎn)品人員做 Agent,那么最終必然被模型公司吞噬?!?/p>

這個觀點并非悚然聽聞:因為結(jié)合了大模型與強(qiáng)化學(xué)習(xí)技術(shù)的Agent 本質(zhì)上就是人工智能時代的“AI Being”(類似于 Human Being),可以完成從理解任務(wù)、思考推理、決策執(zhí)行的全流程。區(qū)分于過往的 AI 工具,前者只能完成一個環(huán)節(jié)、且需要由人來指導(dǎo),終極 Agent 則完全自主、且能執(zhí)行完整個流程、繼而代替一個工種。

由于 Agent 基于大模型與強(qiáng)化學(xué)習(xí),那么不難想象:如果說 Agent 是一個個“畢業(yè)生”,掌握基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)的大模型公司就是正規(guī)大學(xué),只掌握強(qiáng)化學(xué)習(xí)、不掌握基礎(chǔ)模型的團(tuán)隊就是課外輔導(dǎo)班,而基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)都不掌握的純 Agent 公司則很可能連牌照都沒有。

今天,智譜在中關(guān)村論壇上發(fā)布它們首個集深度研究能力和操作能力于一體、并且直接上線客戶端的最新 Agent 產(chǎn)品 AutoGLM “沉思” ,驗證了這一趨勢的發(fā)生。智譜發(fā)布的 Agent 打響了模型廠商反擊的第一槍,也意味著 Agent 的競爭進(jìn)一步加劇。

打開網(wǎng)易新聞 查看精彩圖片

1

大模型與 RL 才是 Agent 的核心

Agent 的機(jī)會,追根到底,還是大模型公司的機(jī)會。所謂的模型即產(chǎn)品,無論是說未來的模型自己即可成為產(chǎn)品本身也好,還是說未來的產(chǎn)品都是模型也好,這兩種說法都是只有視角的差別,卻不能否認(rèn)一個事實,模型和產(chǎn)品二者密不可分。

Agent 這一概念起初來自于強(qiáng)化學(xué)習(xí),并不是有了大模型之后才有的概念。市場上現(xiàn)在流行的一些產(chǎn)品,只是workflow的堆積,其實更多是魚目混珠。

具有自我學(xué)習(xí)和決策能力的Agent,其起源可以追溯到AlphaGo的問世。在此之前,傳統(tǒng)游戲 AI,如打敗人類國際象棋世界冠軍的超級計算機(jī)“深藍(lán)”,依賴的是人類棋譜和專家編寫的評估函數(shù),并非具備人一樣的思維,更別提比人聰明。

AlphaGo 劃時代的意義在于,它是直接通過深度神經(jīng)網(wǎng)絡(luò),直接從數(shù)據(jù)中學(xué)習(xí)棋局評估和落子策略的。它有自我學(xué)習(xí)的能力,擺脫了對人工經(jīng)驗規(guī)則的路徑依賴,第一次證明了數(shù)據(jù)驅(qū)動+強(qiáng)化學(xué)習(xí)的范式,可以突破人類經(jīng)驗的局限。

打開網(wǎng)易新聞 查看精彩圖片

強(qiáng)化學(xué)習(xí)的基本原理

這種能力遷移的底層邏輯,正是當(dāng)前大模型 Agent追求的核心目標(biāo)——讓 AI 在復(fù)雜開放環(huán)境中自主進(jìn)化。能達(dá)成這一目的,最重要的手段,就是強(qiáng)化學(xué)習(xí)。

沒有強(qiáng)化學(xué)習(xí),就做不了Agent。OpenAI 的 Deep Research團(tuán)隊在訪談中多次強(qiáng)調(diào),基于強(qiáng)化學(xué)習(xí)的端到端訓(xùn)練是當(dāng)前Agent技術(shù)革命的核心。因為強(qiáng)化學(xué)習(xí)能夠解決傳統(tǒng)AI系統(tǒng)在復(fù)雜場景下的靈活性難題與泛化能力瓶頸。

到 2023 年文本與多模態(tài)大模型的能力大幅提升后,大模型與強(qiáng)化學(xué)習(xí)技術(shù)強(qiáng)強(qiáng)融合,又給 Agent 帶來了新的想象力:基礎(chǔ)模型提供基礎(chǔ)的語言理解、任務(wù)拆分與推理能力,此外強(qiáng)化學(xué)習(xí)又能在 Agent 從大模型分出來后針對某個具體崗位強(qiáng)化其細(xì)分能力。

一位強(qiáng)化學(xué)習(xí)研究員向 AI 科技評論這樣描述 AlphaGo 和當(dāng)前 Agent 的區(qū)別,他說,以前用強(qiáng)化學(xué)習(xí)訓(xùn)練AlphaGo,就像是在訓(xùn)練單細(xì)胞生物,雖然也能取得令人驚詫的效果,但單細(xì)胞生物只能完成一項任務(wù)。現(xiàn)在用大模型與強(qiáng)化學(xué)習(xí)訓(xùn)練Agent,更像是訓(xùn)練人類。

目前基座模型提供的模型能力,相當(dāng)于一位接受了通識教育的大學(xué)畢業(yè)生,有著基本的人文素質(zhì),但是還沒有足夠的職業(yè)技能;那么經(jīng)過了強(qiáng)化學(xué)習(xí)的大模型 Agent ,就像是一個接受了職業(yè)培訓(xùn)的大學(xué)生,已經(jīng)能夠走上工作崗位,處理實際問題了。

2024 年智能體已進(jìn)入“千體大戰(zhàn)”,但直到 R1 的出現(xiàn),強(qiáng)化學(xué)習(xí)的地位提升,模型的長鏈路思考推理能力增強(qiáng),OpenAI 發(fā)布 Deep Research、Monica 團(tuán)隊發(fā)布 Manus 后,Agent 才有了執(zhí)行完整工作流程的可能。

OpenAI 作為大模型創(chuàng)新者所提出的 Deep Research 在過去數(shù)月也驗證了其新的商業(yè)可行性。

OpenAI 自己掌握基礎(chǔ)模型,模型與 Agent 均掌握在自己的手上,對 Agent 的定價也有了更大的自主權(quán),Deep Research 定價月付 200 美金可以悉數(shù)收入囊中;相比之下,沒有掌握基礎(chǔ)模型的純 Agent 團(tuán)隊在定價時受到模型 API 價格浮動與模型能力穩(wěn)定性等多方面的影響。

也因此,Agent 逐漸成為基礎(chǔ)模型廠商的必爭之地,2025 注定是 Agent 爆發(fā)的一年。

打開網(wǎng)易新聞 查看精彩圖片

作為培養(yǎng) Agent 的大學(xué)所在地,智譜同時掌握模型與產(chǎn)品,能夠?qū)?Agent 進(jìn)行完全自主權(quán)的定價。當(dāng)前對 Agent 定價的標(biāo)準(zhǔn),業(yè)內(nèi)還沒有形成統(tǒng)一共識,但圈內(nèi)已有討論,如:模型公司將自己的 Agent 以月、日或次數(shù)的形式向需要 Agent 的用戶收費,或定制 Agent 服務(wù)。

在這種情況下,由于各個基礎(chǔ)模型的能力有所差異,其培養(yǎng)的“畢業(yè)生”能力也有差異,收費的等級也自然不一。模型即產(chǎn)品,這意味著,大模型公司通過 Agent 或?qū)⒅匦芦@取“AI 能力收費”的主動權(quán),而不是單純?yōu)榈谌疆a(chǎn)品與應(yīng)用團(tuán)隊提供交付服務(wù)。Agent 也或?qū)⒊蔀?AI 2.0 時代的新分水嶺。

2

第一個做 Agent 的國產(chǎn)大模型

如上文所言,Agent的關(guān)卡主要有兩個,第一是要有基座模型,第二則是要有強(qiáng)化學(xué)習(xí)的能力。

大部分專門做Agent的公司是沒有基座模型的研發(fā)能力,擁有強(qiáng)化學(xué)習(xí)團(tuán)隊的也是寥寥無幾。唯一的機(jī)會,就是不斷用工程能力,優(yōu)化自己的產(chǎn)品體驗,或者用差異性的產(chǎn)品定位,來做出一款功能上有所創(chuàng)新的產(chǎn)品。

但是由于缺乏最底層的模型能力,這種做法也只是給他們在于大模型公司的競賽中稍微爭取一些時間。這就造成了,能夠訓(xùn)練模型的公司,在開發(fā)Agent時,往往也能夠取得事半功倍的效果。

智譜AI是國內(nèi)最早著手研究和發(fā)布Agent產(chǎn)品的團(tuán)隊,在經(jīng)驗上遠(yuǎn)超同儕。

根據(jù)一些公開資料顯示,智譜清言是國內(nèi)最早具備了Function Call(函數(shù)調(diào)用)能力的模型產(chǎn)品,在今年1月16日就上線了這項能力,它能夠允許大語言模型動態(tài)調(diào)用外部函數(shù)或API,以完成特定任務(wù),是Agent的基礎(chǔ)能力之一;

而在此一年之前,智譜清言上線了GLMs個性化智能體定制功能,為后續(xù)開發(fā)自主智能體打下了良好的基礎(chǔ);

而且智譜AI還是最早推出設(shè)備操控智能體AutoGLM的公司,去年十一月的Agent OpenDay上,智譜AI的CEO張鵬當(dāng)場展示了在AI Agent方面最新成果,一句話就在手機(jī)端完成了建群發(fā)紅包這一任務(wù),同時還演示了手機(jī)遠(yuǎn)程只會電腦自動向群聊中發(fā)送文件。

而今天在智譜清言PC端全新上線的自主智能體AutoGLM沉思,還學(xué)會了自己掙錢。在中關(guān)村論壇現(xiàn)場,它能夠自動打開某網(wǎng)站,搜索有償征稿信息,然后按照征稿要求寫出對應(yīng)的文章,并且自動發(fā)送到指定郵箱。

 Agent 正在重新劃分大模型競爭格局
打開網(wǎng)易新聞 查看更多視頻
Agent 正在重新劃分大模型競爭格局

使用智譜AutoGLM沉思處理十進(jìn)制轉(zhuǎn)九進(jìn)制問題

國外的通用Agent產(chǎn)品已經(jīng)相繼問世。Anthropic在去年10月22日就推出了computer use,能夠觀看屏幕截圖,實現(xiàn)移動光標(biāo)、點擊按鈕、使用虛擬鍵盤輸入文本等操作。

OpenAI也于2025年1月23日正式發(fā)布了其最新研發(fā)的智能體Operator,2月2日又推出了名為Deep Research,幫助用戶進(jìn)行多步驟的互聯(lián)網(wǎng)研究,完成復(fù)雜任務(wù)。

國內(nèi)的通用Agent產(chǎn)品尚屬罕見。Manus發(fā)布時,作為國內(nèi)首個同類產(chǎn)品,就曾備受關(guān)注。但是Manus此前一直未開放使用,讓中國用戶更為好奇,Agent的功能到底有多強(qiáng)大。

在這次中關(guān)村論壇上,智譜AI發(fā)布的最新Agent產(chǎn)品AutoGLM沉思,能力主要體現(xiàn)在三個方面:1、模擬人的思考,尤其是像人一樣的深度研究和反思;2、能夠像人一樣感知這個世界;3、能夠像人一樣使用工具。

OpenAI Deep Research與智譜AutoGLM沉思兩個產(chǎn)品,有不少可以對比之處。

根據(jù)官方介紹,Deep Research由一個優(yōu)化版的 o3 模型驅(qū)動,專注于網(wǎng)頁瀏覽和數(shù)據(jù)分析,并基于端到端強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。它能做到在互聯(lián)網(wǎng)上跨模態(tài)搜索、解讀和分析大量文本、圖片及 PDF 文件,同時根據(jù)實時信息動態(tài)調(diào)整搜索策略。

AutoGLM沉思背后的推理模型 GLM-Z1-Air,也是智譜基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的新一代推理模型,面對復(fù)雜、開放問題,能夠進(jìn)行推理和反思,為Agent提供了強(qiáng)大的推理、規(guī)劃與反思能力。這款模型效果比肩DeepSeek-R1,提速8倍,價格是R1的1/30,可以在消費級顯卡上運(yùn)行。

此外,智譜還推出一個學(xué)習(xí)者免費版本GLM-Z1-Flash,輕量級,速度更快,完全免費調(diào)用。

打開網(wǎng)易新聞 查看精彩圖片

除網(wǎng)絡(luò)搜索外,Deep Research還可以分析用戶上傳的文件并提取關(guān)鍵內(nèi)容;使用Python工具制作數(shù)據(jù)可視化圖表,將這些圖表和網(wǎng)站抓取的圖片整合到回復(fù)中;為了保證研究結(jié)果的可靠性,系統(tǒng)也會嚴(yán)格標(biāo)注信息來源,精確引用原文中的相關(guān)段落。

AutoGLM沉思更進(jìn)一步,除了深度研究能力,還有操作能力,真正做到了一邊思考,一遍行動。它能夠像人類一樣拆解復(fù)雜問題,一邊推理,一邊搜索,瀏覽數(shù)十甚至上百個網(wǎng)頁,查看如知網(wǎng)、小紅書、公眾號、京東、巨潮資訊等優(yōu)質(zhì)但不對外開放API的信源,同時具有多模態(tài)理解能力,能夠理解網(wǎng)頁上的圖文信息,使研究更充分。最后它能總結(jié)出調(diào)理清晰的長文報告,并提供所有引用來源,讓AI輸出的內(nèi)容切實可查。

現(xiàn)在AutoGLM沉思還是preview版本,更多支持research相關(guān)場景,在未來的兩周將增加更多的Agent執(zhí)行能力。

最顯著的區(qū)別可能是二者的價格。Deep Research每月訂閱費用為200美元,每月限120次查詢機(jī)會。而智譜清言上的沉思功能是免費開放給所有用戶的。可以想見,大部分用戶都是首次體驗到真正的自主性Agent。

智譜AI的模型研發(fā)能力有目共睹?,F(xiàn)在“AutoGLM沉思”從內(nèi)到外的所有模型技術(shù)都是國產(chǎn)自研,包括負(fù)責(zé)推理規(guī)劃的推理模型GLM-Z1-Air、基模GLM-4-Air0414;再到負(fù)責(zé)執(zhí)行的AutoGLM,每個模型均為智譜自研,并且將于4月14日開源。

3

通往AGI的未來

有人稱,AGI要稱為AGI,那么它的標(biāo)準(zhǔn)就是要能替代80%的人類工作,也就是實現(xiàn)80%以上的人類能力。而Agent是達(dá)成這個任務(wù)的基本AGI載體。

無論是數(shù)據(jù)分析,還是內(nèi)容報告,亦或是長文總結(jié),Agent能力正在逐漸與人類的需求接軌。這將創(chuàng)造出一個全新的賽道,改變?nèi)藱C(jī)交互的形態(tài),甚至達(dá)到我們現(xiàn)在還無法想象的程度。

人類利用Agent完成連續(xù)多步驟復(fù)雜任務(wù)的執(zhí)行。最開始,這些任務(wù)可能只是純粹的數(shù)字任務(wù),接下來,Agent的影響將會逐步蔓延至物理世界,我們生活中的一些簡單事務(wù)可以先由Agent接管,比如每天的打車、訂外賣、訂酒店機(jī)票,更進(jìn)一步地來說,Agent還能幫我們完成更多現(xiàn)實世界中的工作,比如找人修水管燈泡等等。

我們正處于AGI的前夜。Agent正如其名,很快就會成為人類的數(shù)字代理。大模型公司的第二場戰(zhàn)斗才剛剛打響。除了模型能力,好的Agent產(chǎn)品才是接下來競爭的關(guān)鍵。

打開網(wǎng)易新聞 查看精彩圖片

往前來看,Manus在空中打了一記發(fā)令槍,把Agent的概念普及到了大眾的認(rèn)知中。往后來看,其他國產(chǎn)大模型公司對這類產(chǎn)品,可能還缺乏經(jīng)驗,目前還沒有同類公司的競品出現(xiàn)。

歸根結(jié)底,作為一款C端產(chǎn)品,如果能夠恰好在用戶已經(jīng)充滿期待的時候,正好出現(xiàn)在大眾面前,仍然將獲得極大的先發(fā)優(yōu)勢。在諸強(qiáng)圍俟的情況下,智譜今天先拔頭籌。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

更多內(nèi)容,點擊下方關(guān)注:

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

打開網(wǎng)易新聞 查看精彩圖片

基座大模型「六進(jìn)二」:南階躍,北智譜

打開網(wǎng)易新聞 查看精彩圖片

智譜 AI 狂飆:與商業(yè)化博弈的一年

打開網(wǎng)易新聞 查看精彩圖片

價格戰(zhàn)之后,智譜來到商業(yè)化的下一站

打開網(wǎng)易新聞 查看精彩圖片