打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】移動(dòng)GUI自動(dòng)化智能體V-Droid采用「驗(yàn)證器驅(qū)動(dòng)」架構(gòu),通過(guò)離散化動(dòng)作空間并利用LLM評(píng)估候選動(dòng)作,實(shí)現(xiàn)了高效決策。在AndroidWorld等多個(gè)基準(zhǔn)測(cè)試中任務(wù)成功率分別達(dá)到59.5%、38.3%和49%,決策延遲僅0.7秒,接近實(shí)時(shí)響應(yīng)。

隨著人工智能和大語(yǔ)言模型(LLMs)的不斷突破,如何將其優(yōu)勢(shì)賦能現(xiàn)實(shí)世界中可實(shí)際部署的高效工具,成為了業(yè)界關(guān)注的焦點(diǎn)。

近期,由微軟亞洲研究院、南洋理工大學(xué)、清華大學(xué)、香港科技大學(xué)等多家機(jī)構(gòu)聯(lián)合推出移動(dòng)圖形用戶界面(GUI)任務(wù)自動(dòng)化智能體——V-Droid,憑借其全新「驗(yàn)證器驅(qū)動(dòng)」架構(gòu),V-Droid不僅在任務(wù)成功率上刷新記錄,同時(shí)在決策響應(yīng)速度上實(shí)現(xiàn)了接近實(shí)時(shí)的表現(xiàn),為移動(dòng)端自動(dòng)化控制開辟了全新局面。

打開網(wǎng)易新聞 查看精彩圖片

鏈接:https://arxiv.org/abs/2503.15937

打開網(wǎng)易新聞 查看精彩圖片

圖1:V-Droid與其他移動(dòng)GUI智能體在AndroidWorld上的任務(wù)成功率與決策響應(yīng)時(shí)間。對(duì)于V-Droid以及其他7B,8B基準(zhǔn)模型,決策時(shí)間在雙卡4090上測(cè)試得出;對(duì)于72B基準(zhǔn)模型,決策時(shí)間在四卡A100上測(cè)試得出

長(zhǎng)期以來(lái),移動(dòng)設(shè)備上的任務(wù)自動(dòng)化一直面臨兩大難題:一是如何在復(fù)雜、多變的GUI環(huán)境中準(zhǔn)確識(shí)別和操作界面元素, 并以多步驟成功完成任務(wù);二是如何在保證任務(wù)成功率的前提下降低決策延遲。

以往依靠LLM直接生成操作指令的方法,由于生成過(guò)程往往需要連續(xù)輸出大量信息,導(dǎo)致在實(shí)際應(yīng)用中既不夠高效,又容易出現(xiàn)決策偏差。

打開網(wǎng)易新聞 查看精彩圖片

圖2:在決策過(guò)程中,將 LLM 用作生成器與用作驗(yàn)證器的智能體架構(gòu)的關(guān)鍵區(qū)別在于:驗(yàn)證器驅(qū)動(dòng)的智能體不會(huì)直接根據(jù)任務(wù)狀態(tài)直接生成動(dòng)作,而是在作出最終決策之前,明確地對(duì)每個(gè)候選都動(dòng)作進(jìn)行評(píng)估

V-Droid創(chuàng)新性地提出「驗(yàn)證器驅(qū)動(dòng)」的思路。該方法不再直接依賴大語(yǔ)言模型生成最終操作,而是首先通過(guò)對(duì)UI界面的深入解析構(gòu)建出詳盡的動(dòng)作集合,再利用經(jīng)過(guò)精細(xì)訓(xùn)練的基于大語(yǔ)言模型的驗(yàn)證器對(duì)每個(gè)候選動(dòng)作進(jìn)行評(píng)估,最終選出得分最高的動(dòng)作執(zhí)行。

這種做法將操作生成與決策判斷有效解耦:一方面,與從零開始直接生成所需操作相比,該方案使智能體能夠在一個(gè)離散且有限的動(dòng)作空間內(nèi)高效地進(jìn)行驗(yàn)證,從而大大降低了決策的復(fù)雜度;

同時(shí),由于每次驗(yàn)證僅輸出極簡(jiǎn)的信息(僅一個(gè)Token),并且可以對(duì)多個(gè)候選動(dòng)作實(shí)現(xiàn)并行驗(yàn)證,從而顯著縮短了每一步?jīng)Q策所需的時(shí)間。

V-Droid在多個(gè)公共移動(dòng)任務(wù)自動(dòng)化基準(zhǔn)上均取得了顯著提升,例如在AndroidWorld基準(zhǔn)上任務(wù)成功率達(dá)59.5%,比現(xiàn)有智能體提高了近10個(gè)百分點(diǎn),而決策延遲在消費(fèi)級(jí)硬件上(如4090)則降至僅0.7秒左右。

打開網(wǎng)易新聞 查看精彩圖片

圖3:V-Droid 的工作流程:① 從用戶界面中提取動(dòng)作并補(bǔ)充默認(rèn)動(dòng)作;② 針對(duì)每個(gè)候選動(dòng)作使用模板構(gòu)建驗(yàn)證提示;③ 利用前綴緩存對(duì)候選動(dòng)作進(jìn)行批量打分;④ 完成并執(zhí)行所選動(dòng)作;⑤ 更新工作記憶

V-Droid的核心突破主要體現(xiàn)在以下幾個(gè)方面:

  1. 動(dòng)作空間離散化與構(gòu)建由于移動(dòng)設(shè)備屏幕尺寸有限,每個(gè)界面上可交互的元素?cái)?shù)量本就較少,V-Droid充分利用這一特性,從當(dāng)前界面的XML描述中提取所有可點(diǎn)擊、長(zhǎng)按、滾動(dòng)、文本輸入等基本操作,將它們映射到一個(gè)有限的動(dòng)作空間中。同時(shí),為了應(yīng)對(duì)界面上未直接呈現(xiàn)的操作(例如返回首頁(yè)或模擬系統(tǒng)操作),系統(tǒng)還預(yù)置了一系列默認(rèn)動(dòng)作。通過(guò)這種方式,原本無(wú)限的操作可能性被精細(xì)劃分為一個(gè)可枚舉的集合,在這個(gè)集合上進(jìn)行驗(yàn)證,大大降低了決策難度。

  2. 驗(yàn)證器驅(qū)動(dòng)的決策機(jī)制與流程不同于傳統(tǒng)依賴生成式模型直接輸出操作指令的方案,V-Droid將LLM的角色重新定位為驗(yàn)證器。系統(tǒng)首先根據(jù)當(dāng)前任務(wù)狀態(tài)構(gòu)造出候選操作列表,并為每個(gè)候選動(dòng)作生成一個(gè)預(yù)定義格式的驗(yàn)證提示(Prompt),其中包含任務(wù)目標(biāo)、當(dāng)前界面狀態(tài)、歷史操作記錄以及具體的驗(yàn)證問(wèn)題。經(jīng)過(guò)預(yù)先微調(diào)的驗(yàn)證器(基于Llama-3.1-8B等小語(yǔ)言模型)會(huì)對(duì)每個(gè)候選動(dòng)作進(jìn)行評(píng)分,最終系統(tǒng)選擇評(píng)分最高的動(dòng)作執(zhí)行。由于驗(yàn)證過(guò)程只需要生成「Yes」或「No」這類簡(jiǎn)短回復(fù)。更重要是的,多組候選驗(yàn)證可被高效并行,且此過(guò)程中只涉及Prefilling階段,從而極大地減少了計(jì)算時(shí)間,實(shí)現(xiàn)了近實(shí)時(shí)的決策響應(yīng)。

  3. 對(duì)比式過(guò)程偏好(P^3)訓(xùn)練為了提升LLM作為驗(yàn)證器的決策能力,V-Droid提出P(3 )訓(xùn)練策略:對(duì)比式過(guò)程偏好訓(xùn)練策略(Pairwise Process Preference)。在每個(gè)任務(wù)步驟中,通過(guò)構(gòu)建正負(fù)操作對(duì)(即標(biāo)記正確操作為正樣本,其他操作為負(fù)樣本),系統(tǒng)能夠利用大量細(xì)粒度的訓(xùn)練數(shù)據(jù)對(duì)驗(yàn)證器進(jìn)行優(yōu)化,使其更準(zhǔn)確地區(qū)分正確與錯(cuò)誤的操作。這種方法不僅提高了模型對(duì)相似界面元素的辨別能力,也在一定程度上增強(qiáng)了系統(tǒng)的容錯(cuò)與自我修正能力。

  4. 人機(jī)聯(lián)合標(biāo)注的數(shù)據(jù)采集策略由于針對(duì)移動(dòng)GUI任務(wù)的細(xì)粒度標(biāo)注數(shù)據(jù)極為稀缺,V-Droid設(shè)計(jì)了一套人機(jī)聯(lián)合標(biāo)注方案。系統(tǒng)初始階段由人工作業(yè)完成標(biāo)注,隨后利用經(jīng)過(guò)初步訓(xùn)練的驗(yàn)證器自動(dòng)生成操作標(biāo)注,再由人工審核與修正。隨著迭代訓(xùn)練的進(jìn)行,驗(yàn)證器的準(zhǔn)確性不斷提升,人工介入比例逐漸下降,從而高效構(gòu)建起一個(gè)涵蓋上萬(wàn)條任務(wù)軌跡的數(shù)據(jù)集,為后續(xù)大規(guī)模訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

圖4:V-Droid的任務(wù)成功率與單步?jīng)Q策響應(yīng)時(shí)間

V-Droid在多個(gè)移動(dòng)任務(wù)自動(dòng)化基準(zhǔn)測(cè)試中均表現(xiàn)出色。例如,在AndroidWorld基準(zhǔn)上,V-Droid的任務(wù)成功率達(dá)到59.5%,相比傳統(tǒng)代理有明顯優(yōu)勢(shì);在AndroidLab和MobileAgentBench上,其任務(wù)成功率分別為38.3%和49%,均超過(guò)先前系統(tǒng)約2%至9%的絕對(duì)提升。

此外,決策響應(yīng)時(shí)間僅為0.7秒,使得該系統(tǒng)在實(shí)時(shí)性要求較高的移動(dòng)場(chǎng)景中具有顯著應(yīng)用潛力。

V-Droid所采用的驗(yàn)證器驅(qū)動(dòng)架構(gòu)為移動(dòng)端自動(dòng)化任務(wù)帶來(lái)全新思路。通過(guò)將智能體的動(dòng)作生成過(guò)程解耦為動(dòng)作空間構(gòu)建與驗(yàn)證,該系統(tǒng)不僅在任務(wù)成功率上取得了顯著提升,還在決策延遲方面實(shí)現(xiàn)突破。

未來(lái),這一技術(shù)有望推廣至更多實(shí)際應(yīng)用中,如自動(dòng)化測(cè)試等領(lǐng)域。隨著大語(yǔ)言模型技術(shù)的不斷進(jìn)步,以及高效訓(xùn)練與數(shù)據(jù)采集策略的成熟,驗(yàn)證器驅(qū)動(dòng)的移動(dòng)GUI智能體或?qū)⒊蔀橹悄芙换ヮI(lǐng)域的突破口。

 移動(dòng)GUI智能體邁向?qū)嵱没?!全新?yàn)證器架構(gòu)V-Droid,刷新任務(wù)成功率記錄
打開網(wǎng)易新聞 查看更多視頻
移動(dòng)GUI智能體邁向?qū)嵱没?!全新?yàn)證器架構(gòu)V-Droid,刷新任務(wù)成功率記錄

演示視頻1:「請(qǐng)從 Broccoli 應(yīng)用中刪除以下食譜:雞肉阿爾弗雷多意大利面、番茄羅勒烤面包以及番茄羅勒烤奶酪三明治」,V-Droid約使用20步操作完成此任務(wù)。視頻無(wú)加速處理。

 移動(dòng)GUI智能體邁向?qū)嵱没?!全新?yàn)證器架構(gòu)V-Droid,刷新任務(wù)成功率記錄
打開網(wǎng)易新聞 查看更多視頻
移動(dòng)GUI智能體邁向?qū)嵱没?!全新?yàn)證器架構(gòu)V-Droid,刷新任務(wù)成功率記錄

演示視頻2:「發(fā)送短信息」,V-Droid約使用8步操作完成此任務(wù)。視頻無(wú)加速處理。

參考資料:

https://arxiv.org/abs/2503.15937