如果有一個會思考但是不會做事的 AI
還有會做事但是不會思考的 AI。
你會選哪個?

如果讓我來選,我會說:why not both?

今天在中關(guān)村論壇智譜 Open Day 上,智譜發(fā)布了 AutoGLM 沉思——首個帶有沉思能力的桌面端 agent。

這是第一個存在于電腦桌面的,能先思考在做事,且做的過程中不斷思考的 agent

拋給它一個問題,它會逐步分解問題,然后在你面前(或者你不看著它也行)打開一個又一個瀏覽器標簽頁,自己上去搜索、查找、記錄、匯總、分析信息,最終為你生成一份經(jīng)過充分查證和深度思考的結(jié)果報告。

打開網(wǎng)易新聞 查看精彩圖片

如果你還不知道這是個什么東西,簡單前情提要一下:

AutoGLM 是智譜推出的 Agent 產(chǎn)品,能夠?qū)崿F(xiàn)對手機屏幕和電腦瀏覽器的操作。重點在于實現(xiàn)方式是前臺的圖形界面 (GUI),而不是后臺的應(yīng)用接口 (API)。你可以理解為 AutoGLM 學習人類通過「手眼并用」的方式,直接在用戶界面上進行操作。這和市面上絕大多數(shù)基于 API 的 agent 產(chǎn)品有著明顯的交互方式區(qū)別。

而沉思能力,正如字面意思,讓 AI 可以一邊想、一邊搜,自主解決開放式的、訓練語料不包含的問題,模仿深度思考和展現(xiàn)深度研究的能力。智譜在今年 3 月初拿到新一輪融資的時候就對外預告正在研發(fā)沉思,而這個功能的開關(guān)也已經(jīng)在該公司開發(fā)的「智譜清言」(ChatGLM) 大模型產(chǎn)品里上線了。

打開網(wǎng)易新聞 查看精彩圖片

而在 AutoGLM 沉思的身上,智譜獨特的 GUI agent 功能,和人們最追捧和愛用的沉思能力,終于實現(xiàn)了融合。

AutoGLM 沉思背后的模型基座,也在本次 Open Day 上正式發(fā)布:

GLM-4-Air-0414 基座模型,具有 320 億參數(shù)量,但性能足以對標 DeepSeek-V3、R1 (670B)、Qwen 2.5-Max 等更大參數(shù)量的模型。

但因為參數(shù)量更少,GLM-4-Air0414 可以快速執(zhí)行 agent 類工作,為 agent 的能力提升以及大規(guī)模落地應(yīng)用提供基礎(chǔ),也一定程度上確保了終端用戶的試用體驗。

智譜還發(fā)布了 GLM-Z1-Air 推理模型,相比 DeepSeek-R1(激活 37B)推理速度提升了 8 倍,而成本降低到只有后者的三十分之一。

這也是一個可以在消費級顯卡上運行的推理模型,能夠顯著提高開發(fā)者的使用體驗。

打開網(wǎng)易新聞 查看精彩圖片

智譜還基于 GLM-Z1 模型,使用自進化強化學習方式,訓練了一個新的沉思模型 GLM-Z1-Rumination,能夠?qū)崟r聯(lián)網(wǎng)搜索、動態(tài)調(diào)用工具,深度分析和自我驗證。這個沉思模型能夠自主理解用戶需求,在復雜任務(wù)中不斷優(yōu)化推理、反復驗證與修正假設(shè),使研究成果更具可靠性與實用性。

也就是說:AutoGLM 沉思的基礎(chǔ)模型架構(gòu)是這樣的:

中層推理和沉思模型 GLM-Z1-Air、GLM-Z1-Rumination
+
底層語言模型 GLM-4-Air-0414

加上工程/產(chǎn)品層的 AutoGLM 工具,就行程了 AutoGLM 沉思的整個技術(shù)棧。

智譜也計劃在 4 月 14 日全面正式開源 AutoGLM 沉思背后的所有模型。

打開網(wǎng)易新聞 查看精彩圖片

此前智譜曾分享過團隊對于 AGI 路線圖的判斷:如果用自動駕駛層級打比方的話,目前大模型產(chǎn)品大體上獲得了自我學習的能力,接近于 L3;而沉思、反思、自我批評等能力則是 L4 階段。

需要注意的是,目前 AutoGLM 沉思還處于 beta 測試階段。上個周末,APPSO 深度使用了這個產(chǎn)品。從測試結(jié)果來看,它在處理復雜工作上的效果確有提高的空間,底層邏輯也需要優(yōu)化,但作為一個非常新穎的大模型-agent 產(chǎn)品,總體效果已經(jīng)令人驚艷。

智譜已經(jīng)踏入了大模型 agent 的 L4 階段,雖然只是進來了半只腳。

打開網(wǎng)易新聞 查看精彩圖片

AutoGLM 的沉思功能,目前已經(jīng)正式上線智譜清言網(wǎng)頁端、PC 端和手機 App, 免費、不限量地開放。

附上體驗

https://autoglm-research.zhipuai.cn/?channel=chatglm#get\_started

當 Agent 有了沉思能力,AI 終于學會自己干活了?

去年 Anthropic 發(fā)布了「Computer Use」,同時展現(xiàn)了足夠的模型能力以及較強的設(shè)備交互能力,讓 agent(智能體)的設(shè)想終于首次得到實踐。今年 1 月,Anthropic 在美國的最大對手 OpenAI 也通過新產(chǎn)品 Operator,做出對于 GUI agent 理念的演繹。

也是在去年 10 月,智譜和 Anthropic 幾乎同時發(fā)布了各自在 agent 方向上的最新嘗試。智譜的 AutoGLM 是第一家國內(nèi)機構(gòu)推出的基于 GUI 的 agent 產(chǎn)品。

而今天的 AutoGLM 沉思,不僅將 agent 的執(zhí)行任務(wù)能力帶到了桌面端,更是把工具操作能力、深度研究能力、推理能力和大預言能力進行了首次融合。

這種多重能力驅(qū)動的 agent,非常適合信息檢索、提煉、匯總型任務(wù)。

這就好比是讓 agent「開車」,過去你得給他一輛車,教他方向盤、油門剎車、檔位怎么用,甚至告訴它開車和倒車的時候分別要往哪看——而現(xiàn)在,agent 已經(jīng)可以「自動駕駛」了。

讓它制作一份「不同于網(wǎng)上所有主流路線的日本兩周小眾經(jīng)典行攻略,要求絕對不去最火的目的地,要小眾景點,但也要評價比較好的?!?/p>

AutoGLM 沉思比較準確地拆解了需求,思考邏輯也比較清楚:它首先去搜了最簡單的關(guān)鍵詞「日本旅游」,了解主流路線和景點,然后又去搜索了「日本小眾旅游景點」之類的關(guān)鍵詞——通過這幾個步驟,它在本次對話的記憶內(nèi)部構(gòu)建了一個知識庫,也即什么是主流的,什么是小眾的。

打開網(wǎng)易新聞 查看精彩圖片

這個任務(wù)總共做了 20 多次思考。有時候幾次思考之間會有重復,比如搜索的是相同的關(guān)鍵詞,訪問了相同或者相似的鏈接等。這有可能是因為單次搜索到的信息不足夠,畢竟沉思/深度搜索的本質(zhì)其實也是不斷地自我懷疑和推翻,直到達到足夠置信度時候才進入下一步。

APPSO 還注意到它有點過度依賴特定的網(wǎng)站作為信息來源,打開的所有 tab 里有 90% 都是小紅書和知乎(各一半左右)。反而真正的旅行專業(yè)資料庫,比如馬蜂窩、窮游,或者哪怕是 OTA 平臺,它一次沒用過。

如果要做一份真正的小眾攻略,重度依賴小紅書的結(jié)果可能并不理想。畢竟能上小紅書的熱門筆記,這個景點應(yīng)該并不真的小眾。一個真正的小眾景點旅行者,恐怕不想去 momo 們已經(jīng)去過或者都想去的地方……

APPSO 注意到,AutoGLM 沉思在沉思過后自己提出了「路線規(guī)劃合理,不要有無意義的反折」、「行程節(jié)奏合理,別太特種兵」之類的要求。

只是實際結(jié)果沒有反映它自己提出的這些要求:比如頭幾天在瀨戶內(nèi)海來回折返,有時候一天內(nèi)去兩三個相隔一小時以上的地點,略微特種兵;第二周從青森向南到仙臺,然后又從仙臺飛機向北大跨度飛到了北海道,并且北海道只留了兩天。

考慮到日本大跨度旅行基本都靠 JR,票價昂貴,合理的路線應(yīng)該是順著一個方向不回頭,除非不得不去大城市換車,一般不應(yīng)該折返。

打開網(wǎng)易新聞 查看精彩圖片

但總體來講,這份攻略是有效的: 它呈現(xiàn)了一些提問者未曾考慮過的目的地,也試圖在一次行程里去到季節(jié)、氣候、風格完全不一樣的地方(而不是圍在大東京、富士山、京坂奈區(qū)域來回打轉(zhuǎn))。

從這個角度,它遵循了提示的要求,并且展現(xiàn)出了深度思考的結(jié)果。

就像你不應(yīng)該直接把 AI 生成的結(jié)果直接拿去用一樣,這份攻略提供了一個還算不錯的基礎(chǔ),讓旅行者可以自行優(yōu)化具體的目的地、路線和中間的交通方式。旅行不只是上車睡覺下車拍照,還應(yīng)該兼顧人文和自然,深入當?shù)匚幕瘋鹘y(tǒng),探索自然景觀,以及至少感受一把在地最有特色的體驗項目。

只要你的期待不是即問即用,AutoGLM 沉思給出的答案是足夠令人滿意的。

點擊查看智譜清言的回答 https://chatglm.cn/share/FQoLp

考慮到 AutoGLM 沉思與其它深度思考型大模型最大的特別之處在于瀏覽器的操控能力,APPSO 也更深入和嚴苛地測試了一下他的 browser use 能力。

讓它做一份關(guān)于科創(chuàng)板云計算公司的研報,看看結(jié)果怎么樣。

打開網(wǎng)易新聞 查看精彩圖片

正如前一次做旅行攻略一樣,AutoGLM 沉思的「思考過程」是沒有任何問題的。從下圖中可以看到,它:

1.

準確拆解了篩選條件,

2.

明確需要多輪搜索和迭代,

3.

制定了分步驟的計劃,

4.

通過「一般搜索」找到了大概的搜索目標

5.

開始執(zhí)行分步操作

打開網(wǎng)易新聞 查看精彩圖片

但是 browser use 的過程實在讓人有點抓頭:AutoGLM 工具一次又一次地試圖打開證監(jiān)會指定的信息披露網(wǎng)站(巨潮資訊),解析網(wǎng)頁的信息。它順利地找到了網(wǎng)站數(shù)據(jù)庫的條件篩選工具,但總是無法正常篩選,要么選不好時間區(qū)間,要么找不到對應(yīng)板塊的下拉菜單在哪。

APPSO 觀察到,AutoGLM 沉思給每一步驟的定時通常是 3 分 20 秒左右,但如果訪問網(wǎng)站不順利,就會因為操作超時而導致「本輪思考」失敗。

另外,根據(jù) APPSO 之前體驗去年的 AutoGLM 以及其它 GUI agent 產(chǎn)品時,當需要用戶進行登錄操作、輸入付款信息、點擊發(fā)送按鈕這種敏感性操作的經(jīng)驗,agent 可以停下來等待用戶操作。而在使用 AutoGLM 沉思的過程中,它的確可以等候用戶登錄,但遇到「用不明白網(wǎng)站」的情況,并沒有呼喚用戶接管,而是只會傻傻地等著。

打開網(wǎng)易新聞 查看精彩圖片

在本次任務(wù)中,連續(xù)兩輪思考失敗之后,AutoGLM 沉思開始進入一個重新思考-跟之前導致失敗的思考結(jié)果一樣-再重新思考的循環(huán)過程,一直循環(huán)往復了五六次,最后敗下陣來,把目標轉(zhuǎn)向了知乎。步驟進行到這里的時候,其實已經(jīng)算任務(wù)失敗了,因為輸入的原始指令是查找和匯總上市公司資料和公告,數(shù)據(jù)的專業(yè)準確性很重要,而知乎并不是一個可靠的上市公司信息披露平臺。

經(jīng)過了好幾次艱難的測試,最后終于吐出了結(jié)果:華為、紫光、UCloud 三家公司,雖然都跟邊緣計算有關(guān),但三家的股票代碼都寫錯了,更別提有兩家并沒上科創(chuàng)板。

Agent 「自動駕駛」能力,和路況、駕駛位有很大關(guān)系

在其它更「輕松」的任務(wù)(比如做旅行規(guī)劃、游戲攻略、查找簡單信息等)當中,AutoGLM 工具的 browser use 能力是沒有太大問題的。

但 APPSO 發(fā)現(xiàn),一旦當前網(wǎng)站的視覺設(shè)計相對復雜,或者設(shè)計的有一些陷阱,AutoGLM 工具就很容易被「使絆子」。

一個最直接的例子就是電商網(wǎng)站。APPSO 給出明確提示,「去淘寶或京東購買一件重磅日系 T 恤」,AutoGLM 沉思制定了宏偉的計劃和明確的分工——然而卻連淘寶首頁的山門都進不去,甚至找不到搜索框在哪里。

而且它似乎被「找不到搜索框」這件事完全阻擋住了,甚至也沒有去看網(wǎng)頁的其它位置——如果它看了的話,肯定會發(fā)現(xiàn)相關(guān)商品早就出現(xiàn)在首頁推薦里了。

對于這個測試中發(fā)現(xiàn)的意外情況,智譜 CEO 張鵬表示,「點背不能賴社會」,AutoGLM 沉思目前仍在 beta 階段,還有很大的進化空間,而且目前的升級速度也很快(APPSO 在正式發(fā)布版上測試淘寶的使用效果已經(jīng)沒那么磕絆了)。

張鵬指出,在模型作為服務(wù)或作為產(chǎn)品 (MaaS) 的理念下,模型產(chǎn)品自己的能力要像木桶一樣,高且全面。或許現(xiàn)在 AutoGLM 工具的視覺能力還不如人,處理意外情況的能力還不夠,歸根結(jié)底可能是泛化能力還不夠,但這些能力的提升并不是模型問題,而是純粹的工程層面——不需要擔心。

打開網(wǎng)易新聞 查看精彩圖片

從模型底座層面,AutoGLM 沉思也有提升的空間。

經(jīng)常用大語言模型產(chǎn)品的朋友都知道,提示寫的越具體,規(guī)則和邊界設(shè)定的越明確,它的效果越好,越有希望生成符合用戶提示的結(jié)果?;诖笳Z言模型的 agent 也是一樣。

但是提示不能無限擴展,就好比你招了一個秘書幫你干活,但你不應(yīng)該總是每次都把「找誰」、「什么地點」、「什么時候」、「去哪」等一切的信息都講清楚,ta 才能勉強順利地幫你搞定一個飯局的準備工作。

大語言模型很強大,但也有它糟糕的地方:只受到文本規(guī)則的約束,缺乏真正的實際問題的規(guī)劃能力,任務(wù)過程中容易被卡??;缺乏足夠長的上下文記憶空間,任務(wù)持續(xù)時間太長就持續(xù)不下去;上一個步驟的錯誤會隨著步驟逐漸放大,直至失敗。

AutoGLM 沉思也是一個基于大語言模型的 agent,即便在 agent 能力上做了很多工作,但仍然難免受到大語言模型的詛咒。思考能力越強,越容易想多、想歪。

從 APPSO 的試用過程中可以看到,除了一些絕對基礎(chǔ)的概念(比如「旅游」、「T 恤」、「公司」)之外,它并沒有稍微復雜的上層知識。用戶每次發(fā)出任何指令,它都要先自己打開瀏覽器,上網(wǎng)學習一遍,明確用戶的所指,在本次對話的有限記憶空間內(nèi)建立一個知識庫,然后再去進行后續(xù)的步驟。

而就它目前最擅長和依賴的那幾個信息來源來看,一旦用戶任務(wù)的復雜性、專業(yè)性「上了強度」,想要它在用戶可接受的時間(目前官方定的是每任務(wù)總共 15 分鐘左右)內(nèi),查到真實、準確和有價值的信息,就真的有點勉強了,更別提給到用戶有效的結(jié)果(APPSO 的測試中有一半無法輸出完整的結(jié)果)。

不過這并不是個太大的問題。

有這樣一個很實際的觀點,可以套用到 AutoGLM 沉思上:

今天的 agent 水平,將它視為「主駕駛」可能能力尚有不足。但它仍然是一個很好的副駕駛 (copilot)。

在 AutoGLM 沉思上,我們看到了足夠的思考能力,也看到了優(yōu)秀(但確實受制于客觀因素)的 browser use 能力。很顯然,智譜作為中國目前非巨頭公司當中,少數(shù)模型能力最強的選手之一,肯定會在這兩個能力上面繼續(xù)進步,而且會很快。

自從 APPSO 拿到測試資格,到 AutoGLM 沉思正式發(fā)布,中間已經(jīng)更新了數(shù)個版本,在模型基座和瀏覽器操控能力上面都有了改進。

但如果我們想要的是一個真正會思考且能辦事的 agent,我們恐怕需要比現(xiàn)有范式的大語言模型更強大的智能體基座。

而智譜推出的「語言+推理+沉思+行動」的 Agent 框架,盡管產(chǎn)品層面仍然笨拙,但看起來是一個非常明確可行的方向。

打開網(wǎng)易新聞 查看精彩圖片

誠然,國產(chǎn)大模型和基于大模型的 agent 產(chǎn)品,現(xiàn)階段的目標如果放在「追趕硅谷對手」上可能反而更實際一點。AutoGLM 沉思從操作邏輯和實現(xiàn)目的上,都是明顯區(qū)別于目前國內(nèi)所有同類和近似產(chǎn)品的「新物種」,和 Anthropic、OpenAI 也正在拉近距離。

對于這樣一家非巨頭、脫胎于中國頂級學府的大模型創(chuàng)新領(lǐng)導者來說,大多數(shù)的不足都可以被容忍,而看到它在做的事情的獨創(chuàng)性和領(lǐng)導性,才更重要。

我們正在招募伙伴

簡歷投遞郵箱
hr@ifanr.com

?? 郵件標題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)

打開網(wǎng)易新聞 查看精彩圖片