
本論文第一作者為微軟 DKI 團(tuán)隊(duì)的 Chaoyun Zhang,其為 Windows 平臺(tái)首個(gè)智能體系統(tǒng) ——UFO 的核心開(kāi)發(fā)者,該項(xiàng)目已在 GitHub 上開(kāi)源并獲得約 7,000 Stars,在社區(qū)中引發(fā)廣泛關(guān)注。同時(shí),他也是一篇超過(guò) 90 頁(yè)的 GUI Agent 綜述文章的主要撰寫者,系統(tǒng)梳理了該領(lǐng)域的關(guān)鍵進(jìn)展與技術(shù)框架。其余項(xiàng)目的主要貢獻(xiàn)者亦均來(lái)自微軟 DKI 團(tuán)隊(duì),具備深厚的研究與工程背景。

- 論文標(biāo)題:UFO2: The Desktop AgentOS
- 論文地址:https://arxiv.org/abs/2504.14603
- 開(kāi)源代碼:https://github.com/microsoft/UFO/
- 項(xiàng)目文檔:https://microsoft.github.io/UFO/
近年來(lái),圖形用戶界面(GUI)自動(dòng)化技術(shù)正在逐步改變?nèi)藱C(jī)交互和辦公自動(dòng)化的生態(tài)。然而,以 Robotic Process Automation(RPA)為代表的傳統(tǒng)自動(dòng)化工具通常依賴固定腳本進(jìn)行操作,存在界面變化敏感、維護(hù)成本高昂、用戶體驗(yàn)欠佳等明顯問(wèn)題。
同時(shí),近年來(lái)興起的基于大型語(yǔ)言模型(LLM)的計(jì)算機(jī)智能體(Computer-Using Agents,CUA)雖然展現(xiàn)出靈活的自動(dòng)化潛力,但多數(shù)方案仍停留在概念驗(yàn)證或原型階段,缺乏與操作系統(tǒng)深度集成的能力,制約了其在實(shí)際工作環(huán)境中的規(guī)?;瘧?yīng)用。
針對(duì)這些行業(yè)痛點(diǎn),作為前代純 GUI 桌面智能體 UFO 的全面升級(jí)版,微軟研究團(tuán)隊(duì)近日正式開(kāi)源了業(yè)內(nèi)首個(gè)深度集成 Windows 操作系統(tǒng)的桌面智能體平臺(tái) ——UFO2 AgentOS。該平臺(tái)不僅繼承了 UFO 的強(qiáng)大 GUI 操作能力,還在系統(tǒng)層面進(jìn)行了深度優(yōu)化,顯著提升了智能體在 Windows 環(huán)境下的操作效率與穩(wěn)定性。

圖 - 1:傳統(tǒng) CUAs 和 AgentOS UFO2 對(duì)比
UFO2:深度 OS 集成的桌面智能體
UFO2 不是傳統(tǒng)意義上的桌面自動(dòng)化工具,而是一種深度融入操作系統(tǒng)的智能體框架,首次以「AgentOS」理念設(shè)計(jì),徹底解決了傳統(tǒng)智能體界面交互脆弱、執(zhí)行中斷用戶體驗(yàn)等核心問(wèn)題。
UFO2 引入了多智能體架構(gòu):中央的 HostAgent 負(fù)責(zé)自然語(yǔ)言任務(wù)解析與子任務(wù)分解,而專屬的 AppAgent 則為每個(gè)應(yīng)用程序提供定制化的 API 接入、界面感知與交互能力。兩者協(xié)同工作,實(shí)現(xiàn)了任務(wù)的精準(zhǔn)分解與靈活執(zhí)行,并支持跨應(yīng)用任務(wù),顯著提升了系統(tǒng)的可擴(kuò)展性與執(zhí)行效率。
具體來(lái)說(shuō),UFO2 在以下幾個(gè)核心維度實(shí)現(xiàn)了突破,這些維度都充分利用了與 Windows 系統(tǒng)的深度集成:
統(tǒng)一 GUI–API 混合執(zhí)行
傳統(tǒng) API 執(zhí)行方式精準(zhǔn)高效,但需要針對(duì)特定應(yīng)用實(shí)現(xiàn)對(duì)應(yīng)接口,覆蓋范圍有限;而 GUI 執(zhí)行方式更加通用靈活,但步驟更長(zhǎng),容易受到界面變動(dòng)的影響。UFO2 創(chuàng)新地將 API 與 GUI 兩種執(zhí)行范式合二為一,通過(guò)統(tǒng)一的 Puppeteer 接口,實(shí)現(xiàn)兩種執(zhí)行模式的動(dòng)態(tài)選擇。
在實(shí)際任務(wù)執(zhí)行中,UFO2 可以智能地根據(jù)操作環(huán)境與任務(wù)特性,自動(dòng)判斷是否優(yōu)先使用 API 執(zhí)行來(lái)提高速度與精準(zhǔn)度,或者在 API 不足以完成任務(wù)時(shí),靈活轉(zhuǎn)向 GUI 操作,從而實(shí)現(xiàn)效率與通用性的最佳平衡,顯著提升任務(wù)穩(wěn)定性和魯棒性。

圖 - 2:GUI-API 操作的混合統(tǒng)一接口
混合控件感知
UFO2 實(shí)現(xiàn)了與 Windows 系統(tǒng)的深度融合,通過(guò)結(jié)合 Windows 原生 UI Automation(UIA)接口與先進(jìn)視覺(jué)識(shí)別模型 OmniParser-v2,實(shí)現(xiàn)了對(duì)界面元素的混合檢測(cè)與精準(zhǔn)感知。這種方式不僅克服了傳統(tǒng)視覺(jué)識(shí)別準(zhǔn)確性不足的問(wèn)題,同時(shí)也解決了純粹依賴系統(tǒng) API 檢測(cè)范圍有限的瓶頸。
實(shí)際應(yīng)用場(chǎng)景中,尤其是在界面復(fù)雜、控件自定義或標(biāo)準(zhǔn)化程度低的場(chǎng)景下,UFO2 的混合感知能力有效提高了控件識(shí)別的準(zhǔn)確性與覆蓋率,從而保障了任務(wù)執(zhí)行的穩(wěn)定性與魯棒性。

圖 - 3:基于 UIA API 和 OmniParser-v2 的融合控件檢測(cè)
持續(xù)增強(qiáng)的動(dòng)態(tài)知識(shí)集成
UFO2 采用檢索增強(qiáng)生成(RAG)技術(shù),構(gòu)建了持續(xù)的知識(shí)庫(kù),動(dòng)態(tài)整合外部應(yīng)用文檔和歷史執(zhí)行日志,使智能體實(shí)時(shí)獲得最新的應(yīng)用使用方法和最佳實(shí)踐。這一技術(shù)保障了智能體在新功能上線或應(yīng)用版本升級(jí)后能迅速適應(yīng)變化,維持高效執(zhí)行。
通過(guò)這種方式,UFO2 可實(shí)現(xiàn)對(duì)復(fù)雜任務(wù)的精準(zhǔn)理解與執(zhí)行,減少因知識(shí)更新不及時(shí)導(dǎo)致的操作失敗。此外,智能體還能利用歷史成功執(zhí)行的經(jīng)驗(yàn),提高任務(wù)完成的準(zhǔn)確性與效率,真正實(shí)現(xiàn)「越用越強(qiáng)」。

圖 - 4:動(dòng)態(tài)檢索外部應(yīng)用文檔和歷史執(zhí)行日志
高效的推測(cè)式多步執(zhí)行
為有效降低大語(yǔ)言模型(LLM)調(diào)用次數(shù),UFO2 創(chuàng)新性地采用了推測(cè)式多步預(yù)測(cè)機(jī)制。智能體一次 LLM 調(diào)用即可預(yù)測(cè)多個(gè)后續(xù)步驟,并通過(guò)實(shí)時(shí)的界面狀態(tài)校驗(yàn)來(lái)逐步執(zhí)行。這種機(jī)制大幅度降低了智能體執(zhí)行任務(wù)時(shí)的延遲和計(jì)算成本。
實(shí)驗(yàn)結(jié)果顯示,推測(cè)式多步執(zhí)行技術(shù)可減少高達(dá) 51.5% 的 LLM 調(diào)用次數(shù),大幅提升任務(wù)執(zhí)行速度與系統(tǒng)響應(yīng)能力,使智能體能夠更順暢地完成復(fù)雜的任務(wù)序列,提升整體效率。

圖 - 5:推測(cè)式多步執(zhí)行和驗(yàn)證
無(wú)干擾的 PiP 虛擬桌面執(zhí)行環(huán)境
UFO2 引入了創(chuàng)新的畫中畫(PiP)虛擬桌面技術(shù),通過(guò)深度利用 Windows 原生的遠(yuǎn)程桌面服務(wù),創(chuàng)建了一個(gè)輕量級(jí)、獨(dú)立且安全的虛擬桌面環(huán)境。所有智能體執(zhí)行的任務(wù)均在此環(huán)境中進(jìn)行,避免了與用戶主桌面的任何交互干擾。
用戶可以在智能體執(zhí)行復(fù)雜任務(wù)的同時(shí),繼續(xù)進(jìn)行其他重要的工作,而無(wú)需擔(dān)心智能體任務(wù)影響自己的桌面操作。這一設(shè)計(jì)極大提高了智能自動(dòng)化的用戶接受度與實(shí)際使用體驗(yàn)。

圖 - 6:UFO2 畫中畫(PiP)的虛擬執(zhí)行環(huán)境
實(shí)踐檢驗(yàn):20 + 主流應(yīng)用測(cè)試全方位領(lǐng)先
在嚴(yán)格的基準(zhǔn)測(cè)試中,UFO2 在超過(guò) 20 款主流 Windows 應(yīng)用(如 Excel、Outlook、Edge 等)中進(jìn)行了充分驗(yàn)證:
- 僅采用 GPT-4o, 任務(wù)成功率相比業(yè)內(nèi)領(lǐng)先的 OpenAI Operator 提升超過(guò) 10%。
- 特別值得強(qiáng)調(diào)的是,UFO2 的推測(cè)式多步執(zhí)行技術(shù)將大模型調(diào)用(LLM call)的頻率降低最多達(dá) 51.5%,極大提升了任務(wù)響應(yīng)速度和系統(tǒng)效率。

圖 - 7:實(shí)驗(yàn)結(jié)果對(duì)比
全面開(kāi)源,共同推動(dòng)桌面智能新時(shí)代
微軟團(tuán)隊(duì)已經(jīng)將 UFO2 的全部代碼和詳細(xì)文檔向社區(qū)開(kāi)源,歡迎開(kāi)發(fā)者們加入共建與創(chuàng)新。
- 開(kāi)源項(xiàng)目地址:https://github.com/microsoft/UFO (GitHub UFO2 項(xiàng)目)
- 官方文檔:https://microsoft.github.io/UFO/(微軟 UFO2 官方文檔)
UFO2 的發(fā)布不僅標(biāo)志著桌面智能體真正邁入了系統(tǒng)級(jí)的「AgentOS 時(shí)代」,也為未來(lái)智能辦公、智能人機(jī)交互的發(fā)展樹(shù)立了重要里程碑。通過(guò) UFO2,微軟期待與全球開(kāi)發(fā)者共同打造更加智能、穩(wěn)定、高效的桌面智能生態(tài)。
歡迎各界人士關(guān)注、使用并反饋,共同推動(dòng)桌面自動(dòng)化和智能交互的下一次技術(shù)革命。
熱門跟貼