2025年3月20日,AI賽道準(zhǔn)獨(dú)角獸實(shí)在智能通過(guò)的第八次新品發(fā)布會(huì),正式推出劃時(shí)代的通用智能體產(chǎn)品實(shí)在Agent,標(biāo)志著AI技術(shù)從實(shí)驗(yàn)室邁向產(chǎn)業(yè)落地的關(guān)鍵突破。

在這場(chǎng)以“自主感知環(huán)境、規(guī)劃路徑、操作萬(wàn)物”為主題的科技盛典中,實(shí)在Agent通過(guò)真實(shí)場(chǎng)景演繹,首次驗(yàn)證了數(shù)字員工全流程接管復(fù)雜辦公任務(wù)的可行性——從多模態(tài)指令解析、跨系統(tǒng)數(shù)據(jù)調(diào)用到端到端任務(wù)閉環(huán),全程無(wú)需人工干預(yù)。

重構(gòu)人機(jī)協(xié)作

通用智能體的破局之戰(zhàn)

自2025年3月初Manus引發(fā)市場(chǎng)關(guān)注后,通用Agent正式進(jìn)入技術(shù)轉(zhuǎn)型深水區(qū)。支持者將其視為"智能體經(jīng)濟(jì)"的基石,認(rèn)為將重塑生產(chǎn)協(xié)作范式;質(zhì)疑派則認(rèn)為工程化實(shí)踐尚未成熟,現(xiàn)階段仍屬"有限場(chǎng)景解決方案"。

當(dāng)前學(xué)界將通用Agent重新界定為"具備跨

從當(dāng)前技術(shù)實(shí)現(xiàn)層面分析,市面智能體產(chǎn)品主要采用兩種架構(gòu)模式:端到端的集成方案或大模型外掛API接口的混合架構(gòu)。這類解決方案在處理復(fù)雜任務(wù)時(shí)存在明顯的效率瓶頸——多模態(tài)模型協(xié)同需要經(jīng)歷數(shù)據(jù)格式轉(zhuǎn)換、接口協(xié)議適配、跨平臺(tái)調(diào)用等中間環(huán)節(jié),導(dǎo)致任務(wù)響應(yīng)時(shí)間普遍超過(guò)30分鐘。

并且,在傳統(tǒng)封閉的C/S架構(gòu)(如OA系統(tǒng))下,跨系統(tǒng)操作鏈路存在天然斷點(diǎn),容易出現(xiàn)服務(wù)調(diào)用超時(shí)、數(shù)據(jù)解析錯(cuò)誤等異常情況,難以實(shí)現(xiàn)跨平臺(tái)系統(tǒng)的無(wú)縫協(xié)同。

不過(guò),在實(shí)在智能發(fā)布會(huì)現(xiàn)場(chǎng),工作人員演示了一段智能體操作金蝶云系統(tǒng)的視頻引發(fā)熱議:只需輸入“下載金蝶云‘云朵便利店’的銷售訂單列表”,實(shí)在Agent便自動(dòng)完成登錄、查詢、下載等5個(gè)步驟,全程無(wú)需人工干預(yù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

技術(shù)底座揭秘

三大創(chuàng)新架構(gòu)構(gòu)建護(hù)城河

發(fā)布會(huì)上實(shí)在智能合伙人兼核心算法部負(fù)責(zé)人歐陽(yáng)小剛,他所闡述了實(shí)在 Agent 的三大核心技術(shù)體系:

一、類人級(jí)推理能力:依托自研 TARS 大模型,實(shí)在 Agent 在步驟拆解準(zhǔn)確率上超越 GPT-4 和 DeepSeek,中文理解能力達(dá) SOTA 水平,并實(shí)現(xiàn)全棧國(guó)產(chǎn)化適配,支持英偉達(dá)、昇騰及國(guó)產(chǎn)自主架構(gòu)的訓(xùn)練與部署。

二、無(wú)限鏈接能力:通過(guò)自研流程自動(dòng)化引擎和多模態(tài)模型 TARS-VL,實(shí)在 Agent 支持操作網(wǎng)頁(yè)、軟件、接口、文檔等任意數(shù)字化工具。在 GUI 元素理解測(cè)試中,TARS-VL 準(zhǔn)確率較 GPT-4o 高出 4%,領(lǐng)先開(kāi)源模型 10%,并在 mind2web 和 screenspot 等數(shù)據(jù)集上保持絕對(duì)優(yōu)勢(shì)。

三、場(chǎng)景適應(yīng)能力:運(yùn)用自動(dòng)仿真技術(shù),實(shí)在 Agent 將特定軟件的構(gòu)建周期縮短至 3-5 天,同時(shí)推出多參數(shù)模型(67B 高配版與 7B 輕量版)適配端側(cè)與云側(cè)部署,并提供軟硬件一體化解決方案,涵蓋華為昇騰、惠普 Z 系列等一體機(jī)產(chǎn)品。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

實(shí)在智能創(chuàng)始人兼CEO孫林君表示:“實(shí)在智能通過(guò)三大核心技術(shù)突破,可為企業(yè)智能化轉(zhuǎn)型提供可落地、可進(jìn)化、可擴(kuò)展的全棧式解決方案?!?/p>

在技術(shù)攻堅(jiān)與創(chuàng)新層面,實(shí)在智能還引入“可變形矩形卷積和卷積核分配”等創(chuàng)新性技術(shù)理念,并以此為基礎(chǔ)成功訓(xùn)練出多個(gè)輔助檢測(cè)模型。

在針對(duì)各類屏幕GUI元素理解和定位能力的測(cè)試集中,TARS-VL表現(xiàn)不俗。例如,在兩個(gè)開(kāi)源的benchmark數(shù)據(jù)集——mind2web和screenspot上進(jìn)行測(cè)試:

● 在 mind2web 數(shù)據(jù)集上,TARS-VL 在 Task、Domain 和 Web 三個(gè)場(chǎng)景上的元素匹配準(zhǔn)確率,比 GPT-4o、Ominiparser、Claude 等模型高出 10%;

● 在 screenspot 數(shù)據(jù)集上,TARS-VL 的元素匹配準(zhǔn)確率也保持遙遙領(lǐng)先。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Benchmark數(shù)據(jù)集是人工智能領(lǐng)域用于客觀評(píng)估模型或系統(tǒng)性能的標(biāo)準(zhǔn)化數(shù)據(jù)集,其核心作用類似于教育領(lǐng)域的“標(biāo)準(zhǔn)化考試題庫(kù)”。

產(chǎn)品化突破

企業(yè)級(jí)智能體的落地范式

頂尖的技術(shù),只有搭載于出色的產(chǎn)品之上,才能充分釋放其價(jià)值。

那么,究竟何種智能體產(chǎn)品,能讓用戶毫無(wú)門(mén)檻地輕松上手,實(shí)現(xiàn)開(kāi)箱即用,使用戶能夠直接向智能體清晰表述訴求,進(jìn)而由智能體代替用戶操作那些復(fù)雜晦澀、難以駕馭的系統(tǒng)呢?

在發(fā)布會(huì)上,實(shí)在智能對(duì)實(shí)在Agent智能體的創(chuàng)新特質(zhì)與產(chǎn)品優(yōu)勢(shì)展開(kāi)了細(xì)致入微的解讀。數(shù)據(jù)猿將其內(nèi)容梳理如下:

低門(mén)檻交互:零配置啟動(dòng)客戶端,通過(guò)快捷鍵一鍵喚起,支持語(yǔ)音、文本、文件拖拽三種交互方式,模糊指令可自動(dòng)拆解為任務(wù)步驟;

透明化執(zhí)行:實(shí)時(shí)顯示操作日志與進(jìn)度條,支持動(dòng)態(tài)干預(yù)與并行任務(wù)處理,保障用戶對(duì)任務(wù)的全程掌控;

開(kāi)放創(chuàng)作平臺(tái):通過(guò) “智能體畫(huà)布” 和預(yù)訓(xùn)練技能庫(kù),用戶可快速開(kāi)發(fā)專屬 AI 智能體,存量 RPA 流程可一鍵遷移升級(jí),實(shí)現(xiàn) RPA 與 AI 的深度融合。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)于科技公司而言,GTM是新產(chǎn)品的商業(yè)化驗(yàn)證。實(shí)在Agent智能體,不僅是個(gè)人助理,更是企業(yè)級(jí)智能體解決方案——企業(yè)大腦。

企業(yè)只需將文檔、數(shù)據(jù)、系統(tǒng)沉淀到實(shí)在智能體平臺(tái),即可實(shí)現(xiàn)資產(chǎn)數(shù)據(jù)化。如此一來(lái),企業(yè)內(nèi)部的每一位成員,都能借助實(shí)在Agent,便捷調(diào)用企業(yè)知識(shí)庫(kù)以及已構(gòu)建完成的業(yè)務(wù)自動(dòng)化流程,從而形成企業(yè)獨(dú)有的 “中央處理器”。

在實(shí)在智能發(fā)布會(huì)的演示環(huán)節(jié)中可以看到,實(shí)在 Agent 不僅接入了自家的 TARS 大模型,還整合了 DeepSeek、智譜 AI、GPT、千問(wèn)等一眾主流大模型。企業(yè)能夠依據(jù)不同模型在各自擅長(zhǎng)領(lǐng)域的優(yōu)勢(shì),靈活進(jìn)行切換使用。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

發(fā)布會(huì)臨近尾聲時(shí),實(shí)在智能展示了實(shí)在Agent在手機(jī)、車機(jī)等移動(dòng)設(shè)備端的實(shí)用全新功能,其表現(xiàn)同樣令人拍案叫絕。

戰(zhàn)略布局的雙輪驅(qū)動(dòng)

除了電腦端軟件,發(fā)布會(huì)還聚焦了實(shí)在 Agent 在移動(dòng)場(chǎng)景的創(chuàng)新。

基于原子技能架構(gòu)和模型驅(qū)動(dòng)決策技術(shù),手機(jī)端智能體實(shí)現(xiàn)了流程市場(chǎng)、任務(wù)調(diào)度、云端控制等功能,用戶通過(guò)語(yǔ)音指令即可操作手機(jī)軟件,真正做到 “你說(shuō),手機(jī)做”。

未來(lái),實(shí)在智能計(jì)劃將智能體拓展至智能家居、VR 眼鏡等設(shè)備,打造全方位覆蓋生活場(chǎng)景的智能助理。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

CEO孫林君向數(shù)據(jù)猿透露:“實(shí)在智能的愿景,是讓每一個(gè)人、每一家企業(yè)都能擁有專屬的數(shù)字員工,并且無(wú)需依賴 API,就能實(shí)現(xiàn)跨系統(tǒng)協(xié)作?!?/p>

其一,持續(xù)大力投入Agent的研發(fā)工作。他坦言,當(dāng)下實(shí)在Agent盡管已經(jīng)能夠在復(fù)雜場(chǎng)景中實(shí)現(xiàn)自主規(guī)劃與執(zhí)行任務(wù),但仍存在大量尚未商業(yè)驗(yàn)證的領(lǐng)域,還需要投入相當(dāng)?shù)臅r(shí)間進(jìn)行深度打磨與持續(xù)迭代。

其二,全力推進(jìn)出海戰(zhàn)略。實(shí)在智能在過(guò)去兩年間,已陸續(xù)在日本、馬來(lái)西亞設(shè)立子公司,成功積累了數(shù)十家海外客戶,成績(jī)頗為亮眼。下一步,實(shí)在智能將積極與更多國(guó)際企業(yè)展開(kāi)合作,促進(jìn)產(chǎn)品的深度融合,借此實(shí)現(xiàn)“借船出?!薄?/p>

放眼更為長(zhǎng)遠(yuǎn)的未來(lái),CEO孫林君期望實(shí)在Agent能夠成為數(shù)字員工的標(biāo)志性代表,如同人們提及手機(jī),便會(huì)自然而然地聯(lián)想到華為、蘋(píng)果、小米那般。

在小編看來(lái),實(shí)在智能的這次突破在于解決了通用智能體的“操作性智能”難題——傳統(tǒng)AI多在感知與認(rèn)知層面突破,真正打通了從意圖理解到物理操作的"最后一公里"。這標(biāo)志著AI Agent從輔助工具進(jìn)化為生產(chǎn)力主體,對(duì)企業(yè)數(shù)字化轉(zhuǎn)型具有里程碑意義。

正如CEO孫林君所言:“AI 不是人類的替代者,而是放大人類智慧的‘放大鏡’,它將賦能企業(yè)實(shí)現(xiàn)高質(zhì)量增長(zhǎng),推動(dòng)社會(huì)向更智能的未來(lái)邁進(jìn)。”