LearnAct團(tuán)隊(duì)投稿
量子位 | 公眾號(hào) QbitAI

想讓手機(jī)AI像人類一樣快速學(xué)習(xí)?

浙大與vivo聯(lián)手突破!全新LearnAct框架僅需一次示范,就能教會(huì)AI完成復(fù)雜操作。

打開網(wǎng)易新聞 查看精彩圖片

研究同步發(fā)布的LearnGUI基準(zhǔn),首次構(gòu)建了面向移動(dòng)端示范學(xué)習(xí)的評(píng)估體系,為AI智能體的實(shí)用化部署提供了關(guān)鍵技術(shù)支撐。

本文的作者來自浙江大學(xué)和vivo AI lab。本文的共同第一作者為浙江大學(xué)碩士生劉廣義和趙鵬翔,主要研究方向?yàn)榇笳Z言模型驅(qū)動(dòng)的GUI智能體技術(shù)。項(xiàng)目leader 為vivo AI lab 算法專家劉亮。本文的通信作者為浙江大學(xué)孟文超研究員。

打開網(wǎng)易新聞 查看精彩圖片

手機(jī)GUI智能體:潛力與挑戰(zhàn)并存

手機(jī)GUI智能體:潛力與挑戰(zhàn)并存

隨著大型語言模型(LLMs)的快速發(fā)展,手機(jī)圖形用戶界面(GUI)智能體作為一種能夠通過環(huán)境交互自主完成人類任務(wù)的前沿技術(shù),正逐漸引發(fā)人們的關(guān)注。這些智能體通過觀察手機(jī)屏幕(截圖或UI Tree)感知手機(jī)狀態(tài),并生成相應(yīng)的動(dòng)作(如點(diǎn)擊、輸入、滑動(dòng)等)來實(shí)現(xiàn)任務(wù)自動(dòng)化。

然而,手機(jī)GUI智能體在實(shí)際部署場景中仍面臨重大挑戰(zhàn)。

移動(dòng)應(yīng)用和用戶界面的多樣性創(chuàng)造了許多長尾場景,截至2025年僅Google Play上就有168萬個(gè)應(yīng)用,現(xiàn)有智能體在長尾場景中難以有效執(zhí)行任務(wù)。

目前主流的智能體構(gòu)建方法依賴通用LLMs的內(nèi)在能力或通過大量數(shù)據(jù)微調(diào),但面對(duì)以數(shù)百萬的移動(dòng)應(yīng)用及數(shù)十億用戶各自獨(dú)特的任務(wù)需求,這些方法難以覆蓋如此龐大的多樣性,導(dǎo)致在未見場景中表現(xiàn)不佳,阻礙了手機(jī)GUI智能體的廣泛應(yīng)用。

從「示范中學(xué)習(xí)」的新范式

從「示范中學(xué)習(xí)」的新范式

為解決上述限制,浙江大學(xué)和vivo AI lab聯(lián)合提出了LearnAct多智能體框架LearnGUI基準(zhǔn)致力于通過「少樣本示范學(xué)習(xí)」解決手機(jī)GUI智能體的「長尾問題」。

與傳統(tǒng)方法不同,這種基于示范的方法能夠在少量用戶提供的示例基礎(chǔ)上實(shí)現(xiàn)穩(wěn)健性和個(gè)性化,從而彌合預(yù)訓(xùn)練模型無法覆蓋的“個(gè)性化鴻溝”。

實(shí)現(xiàn)結(jié)果表明,單個(gè)示范就能使Gemini-1.5-Pro的準(zhǔn)確率從19.3%提升至51.7%,UI-TARS-7B-SFT的在線任務(wù)成功率從18.1%提升至32.8%。LearnAct多智能體框架和LearnGUI基準(zhǔn)的提出為設(shè)計(jì)更加智能、更加個(gè)性化的手機(jī) GUI 智能體開辟全新的方向,讓我們的手機(jī)操作變得更加便捷、高效。

△LearnAct多智能體框架和LearnGUI基準(zhǔn)致力于通過少樣本示范學(xué)習(xí)解決手機(jī)GUI智能體的長尾問題

打開網(wǎng)易新聞 查看精彩圖片

研究團(tuán)隊(duì)認(rèn)識(shí)到,手機(jī)用戶通常有獨(dú)特且重復(fù)性的任務(wù),同時(shí)具有內(nèi)在變化性——例如智能家居控制、健康監(jiān)測或企業(yè)軟件。

這些場景結(jié)合了穩(wěn)定模式和可變?cè)?,通過用戶特定的示范,該方法使智能體能夠?qū)W習(xí)一致模式和適應(yīng)策略,獲取一般訓(xùn)練數(shù)據(jù)集無法覆蓋的任務(wù)特定知識(shí)。

△LearnGUI數(shù)據(jù)集示例

打開網(wǎng)易新聞 查看精彩圖片

LearnGUI:首個(gè)專為研究示范學(xué)習(xí)設(shè)計(jì)的基準(zhǔn)

LearnGUI:首個(gè)專為研究示范學(xué)習(xí)設(shè)計(jì)的基準(zhǔn)

為填補(bǔ)高質(zhì)量示范數(shù)據(jù)的空白,研究團(tuán)隊(duì)構(gòu)建了LearnGUI基準(zhǔn)。

這是首個(gè)專為研究移動(dòng) GUI 代理從少量示范中學(xué)習(xí)能力而設(shè)計(jì)的基準(zhǔn)。基于AMEXAndroidWorld構(gòu)建,LearnGUI 包含 2,252 個(gè)離線少樣本任務(wù)和 101 個(gè)在線任務(wù),均附帶高質(zhì)量人類示范。

△LearnGUI基準(zhǔn)基本信息

打開網(wǎng)易新聞 查看精彩圖片

該基準(zhǔn)不僅支持對(duì)不同數(shù)量示范對(duì)代理性能影響的研究,還系統(tǒng)分析了示范任務(wù)與目標(biāo)任務(wù)之間不同類型相似性(指令相似性、UI 相似性和動(dòng)作相似性)對(duì)學(xué)習(xí)效果的影響。

△LearnGUI基準(zhǔn)中的示范任務(wù)數(shù)量以及與目標(biāo)任務(wù)相似度的分布情況

打開網(wǎng)易新聞 查看精彩圖片

LearnAct:多智能體框架自動(dòng)理解和利用示范

研究團(tuán)隊(duì)進(jìn)一步提出了LearnAct多智能體框架,能夠自動(dòng)理解人類示范、生成指導(dǎo)性知識(shí),并使用這些知識(shí)幫助手機(jī)GUI智能體推理未見場景。LearnAct由DemoParser、KnowSeeker和ActExecutor三個(gè)專業(yè)智能體組成。

△LearnAct框架的三個(gè)核心組件:DemoParser、KnowSeeker和ActExecutor

打開網(wǎng)易新聞 查看精彩圖片

DemoParser智能體將原始的人類示范轉(zhuǎn)化為結(jié)構(gòu)化的示范知識(shí)。

它以原始動(dòng)作序列(包括基于坐標(biāo)的點(diǎn)擊、滑動(dòng)和文本輸入等)以及相應(yīng)的屏幕截圖和任務(wù)指令作為輸入。

隨后,它利用視覺-語言模型生成具有語義描述性的動(dòng)作描述,捕捉每個(gè)演示步驟的本質(zhì)(例如,“在搜索頁面上,點(diǎn)擊搜索框,輸入關(guān)鍵詞”)。

基于這些描述,它構(gòu)建了一個(gè)結(jié)構(gòu)化的知識(shí)庫,記錄了高層次的動(dòng)作語義。

△DemoParser工作流

打開網(wǎng)易新聞 查看精彩圖片

KnowSeeker智能體是LearnAct框架中的檢索組件,負(fù)責(zé)識(shí)別與當(dāng)前任務(wù)上下文最相關(guān)的演示知識(shí)。

KnowSeeker充當(dāng)由DemoParser生成的知識(shí)庫與ActExecutor執(zhí)行環(huán)境之間的橋梁,專精于高效地訪問和選擇針對(duì)特定任務(wù)最適用的知識(shí)。

△KnowSeeker工作流程

打開網(wǎng)易新聞 查看精彩圖片

ActExecutor智能體是LearnAct框架中的執(zhí)行組件,它將檢索到的演示知識(shí)轉(zhuǎn)化為目標(biāo)環(huán)境中有效的操作。

ActExecutor是LearnAct流程的最終環(huán)節(jié),它整合了用戶指令、實(shí)時(shí)的圖形用戶界面感知信息以及演示知識(shí),能夠熟練的操作長尾場景下的手機(jī)界面。

當(dāng)DemoParser創(chuàng)建結(jié)構(gòu)化知識(shí),而KnowSeeker檢索到相關(guān)的演示后,ActExecutor則運(yùn)用這些知識(shí)來解決實(shí)際任務(wù)。

△ActExecutor工作流

打開網(wǎng)易新聞 查看精彩圖片

這種多智能體架構(gòu)使LearnAct能夠系統(tǒng)地從人類示范中提取、檢索和利用知識(shí),通過最少的示范實(shí)現(xiàn)對(duì)新場景的有效適應(yīng)。

實(shí)驗(yàn)結(jié)果:示范學(xué)習(xí)顯著提升性能

實(shí)驗(yàn)結(jié)果:示范學(xué)習(xí)顯著提升性能

實(shí)驗(yàn)結(jié)果揭示了示范學(xué)習(xí)對(duì)手機(jī)GUI智能體能力的顯著增強(qiáng)。

在離線評(píng)估中,單個(gè)示范就能大幅提升模型性能,最引人注目的是Gemini-1.5-Pro的準(zhǔn)確率從19.3%提升至51.7%(相對(duì)提升198.9%)。

在復(fù)雜應(yīng)用如CityMapper和To-Do應(yīng)用中,性能提升尤為明顯,分別從14.1%提升至69.4%和從17.4%提升至69.2%。

△不同模型在LearnGUI-Offline基準(zhǔn)上的性能比較

打開網(wǎng)易新聞 查看精彩圖片

在真實(shí)世界的在線評(píng)估中,LearnAct框架表現(xiàn)出色。

下表展示了在LearnGUI-Online基準(zhǔn)上的在線評(píng)估結(jié)果,LearnAct 框架顯著提升了所評(píng)估的兩種模型的性能,其中 Qwen2-VL-7B從 9.9% 提升至 21.1%(+11.2%),UI-TARS-7B-SFT從 18.1% 提升至 32.8%(+14.7%)。

這些顯著的提升表明,基于示范的學(xué)習(xí)方法能夠有效地轉(zhuǎn)化為現(xiàn)實(shí)交互場景中的優(yōu)勢。

△不同模型在LearnGUI-Online基準(zhǔn)上的性能比較

打開網(wǎng)易新聞 查看精彩圖片

下圖中給出了LearnAct和Baseline方法在ExpenseDeleteMultiple任務(wù)上的表現(xiàn)。

在這樣的長尾場景下,Baseline方法中GUI 智能體無法正確規(guī)劃任務(wù)執(zhí)行路徑最終以失敗告終。

相比之下只需要給出一個(gè)演示案例,LearnAct框架就能自動(dòng)識(shí)別ExpenseDeleteMultiple任務(wù)中的執(zhí)行模式并進(jìn)行學(xué)習(xí),面對(duì)相似的任務(wù)與不同的UI界面,順利完成了操作任務(wù)。

△Qwen2-VL-7B作為基模型,LearnAct和Baseline在ExpenseDeleteMultiple任務(wù)上的表現(xiàn)

打開網(wǎng)易新聞 查看精彩圖片

結(jié)論:示范學(xué)習(xí)引領(lǐng)手機(jī)GUI智能體發(fā)展新方向

這項(xiàng)研究提出的基于示范學(xué)習(xí)的新范式,為應(yīng)對(duì)手機(jī)GUI智能體的長尾挑戰(zhàn)開辟了新路徑。

作為首個(gè)全面的示范學(xué)習(xí)研究基準(zhǔn),LearnGUI與LearnAct多智能體框架,有力證明了示范學(xué)習(xí)在開發(fā)更具適應(yīng)性、個(gè)性化和實(shí)用性的手機(jī)GUI智能體方面的巨大潛力。

隨著移動(dòng)設(shè)備在現(xiàn)代生活中的廣泛應(yīng)用,這種能夠從少量示范中高效學(xué)習(xí)的方法,為打造真正智能的手機(jī)助手奠定了堅(jiān)實(shí)基礎(chǔ),讓我們?cè)诂F(xiàn)實(shí)世界中距離科幻電影中“J.A.R.V.I.S.”般的智能體驗(yàn)更近一步。

論文地址:
https://arxiv.org/abs/2504.13805
項(xiàng)目地址:
https://lgy0404.github.io/LearnAct/
GitHub:
https://github.com/lgy0404/LearnAct
HuggingFace:
https://huggingface.co/datasets/lgy0404/LearnGUI