打開網(wǎng)易新聞 查看精彩圖片

基于規(guī)則的強(qiáng)化學(xué)習(xí)(RL/RFT)已成為替代 SFT 的高效方案,僅需少量樣本即可提升模型在特定任務(wù)中的表現(xiàn)。

該方法通過預(yù)定義獎勵函數(shù)規(guī)避人工標(biāo)注成本,如 DeepSeek-R1 在數(shù)學(xué)求解中的成功應(yīng)用,以及多模態(tài)領(lǐng)域在圖像定位等任務(wù)上的性能突破(通常使用 IOU 作為規(guī)則 reward)。

vivo 與香港中文大學(xué)的研究團(tuán)隊受到 DeepSeek-R1 的啟發(fā),首次將基于規(guī)則的強(qiáng)化學(xué)習(xí)(RL)應(yīng)用到了 GUI 智能體領(lǐng)域。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2503.21620
  • 項目主頁:https://yxchai.com/UI-R1/
  • 項目代碼:https://github.com/lll6gg/UI-R1

簡介

本研究創(chuàng)新性地將規(guī)則 RL 范式拓展至基于低級指令的 GUI 動作預(yù)測任務(wù)。具體實現(xiàn)中,多模態(tài)大語言模型為每個輸入生成包含推理標(biāo)記和最終答案的多條響應(yīng)軌跡,在訓(xùn)練和測試時的 prompt 設(shè)計如下:

打開網(wǎng)易新聞 查看精彩圖片

隨后通過我們設(shè)計的獎勵函數(shù)評估每條響應(yīng),并采用 GRPO 等策略優(yōu)化算法更新模型參數(shù)。該獎勵函數(shù)包含三個維度:

  • 動作類型獎勵:根據(jù)預(yù)測動作與真實動作的匹配度計算;
  • 動作參數(shù)獎勵(聚焦點擊操作):通過預(yù)測坐標(biāo)是否落入真實邊界框評估;
  • 格式規(guī)范獎勵:評估模型是否同時提供推理過程和最終答案。

數(shù)據(jù)制備方面,僅依據(jù)難度、多樣性和質(zhì)量三原則篩選 130 余個移動端訓(xùn)練樣本,展現(xiàn)出卓越的數(shù)據(jù)效率。實驗表明,UI-R1 在桌面端和網(wǎng)頁平臺等跨領(lǐng)域(OOD)數(shù)據(jù)上均取得顯著性能提升,印證了規(guī)則 RL 處理跨領(lǐng)域復(fù)雜 GUI 任務(wù)的潛力。

方法:強(qiáng)化學(xué)習(xí)驅(qū)動的 GUI 智能體

打開網(wǎng)易新聞 查看精彩圖片

我們提出的 UI-R1 模型采用了三個關(guān)鍵創(chuàng)新:

1. 獨特的獎勵函數(shù)設(shè)計

研究團(tuán)隊設(shè)計了專門針對 GUI 任務(wù)的獎勵函數(shù):R = R_T + R_C + R_F

R_T:行為類型獎勵(點擊、滑動、返回等)

R_C:坐標(biāo)準(zhǔn)確度獎勵(點擊位置是否準(zhǔn)確)

R_F:格式獎勵(輸出的格式是否正確)

2. 精心篩選的高質(zhì)量數(shù)據(jù)

與其使用大量普通數(shù)據(jù),我們提出采用了「質(zhì)量優(yōu)先」的策略,從三個維度精選訓(xùn)練數(shù)據(jù):

質(zhì)量:選擇標(biāo)注準(zhǔn)確、對齊良好的樣本

難度:專注于基礎(chǔ)模型難以解決的「困難」樣本

多樣性:確保涵蓋各種行為類型和元素類型

最終只使用了136 個高質(zhì)量樣本,比傳統(tǒng)方法少了幾百甚至上千倍,就能夠訓(xùn)練得到比 SFT 方式更優(yōu)的效果。

3. 群體相對策略優(yōu)化算法

UI-R1 采用了一種名為 GRPO(Group Relative Policy Optimization)的算法。這種算法不需要額外的評論家模型,而是通過比較同一問題的多個不同回答來學(xué)習(xí)什么是「好」的回答。

實驗結(jié)果

1. 域內(nèi)效果提升明顯

打開網(wǎng)易新聞 查看精彩圖片

在 AndroidControl 基準(zhǔn)測試上,UI-R1-3B 與基礎(chǔ)模型 Qwen2.5-VL-3B 相比:

  • 行為類型準(zhǔn)確率提高了 15%
  • 定位準(zhǔn)確率提高了 10.3%

2. 域外泛化能力驚人

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

UI-R1 在從未見過的桌面 PC 端和網(wǎng)頁界面上表現(xiàn)同樣出色:

  • 在 ScreenSpot 測試中,UI-R1-3B 的平均準(zhǔn)確率達(dá)到78.6%,超越 CogAgent-18B 等大模型。
  • 在專業(yè)高分辨率環(huán)境 ScreenSpot-Pro 測試中,UI-R1-3B 達(dá)到17.8%的平均準(zhǔn)確率,提升了與使用 76K 數(shù)據(jù)訓(xùn)練的 OS-Atlas-7B(18.9%)性能相當(dāng)。

分析

我們關(guān)于 UI-R1 做了一系列分析,研究發(fā)現(xiàn):在 GRPO 的強(qiáng)化學(xué)習(xí)微調(diào)的方式下,數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量重要

打開網(wǎng)易新聞 查看精彩圖片

  • 困難樣本更有價值:按難度選擇的方法比隨機(jī)選擇的性能顯著更好。
  • 數(shù)據(jù)增長收益遞減:隨著訓(xùn)練數(shù)據(jù)量增加,性能提升趨于平緩。
  • 精選小數(shù)據(jù)集比大數(shù)據(jù)集更有效:三階段數(shù)據(jù)選擇方法優(yōu)于使用整個數(shù)據(jù)集或者隨機(jī)篩選相同數(shù)量的子集。

此外,我們還發(fā)現(xiàn)動作預(yù)測的難度與思考的長度之間存在關(guān)聯(lián):思考長度越長,準(zhǔn)確率越低(說明問題越難),但通過 UI-R1 形式的強(qiáng)化學(xué)習(xí)微調(diào)之后,對于難樣本的成功率提升也更加明顯。

打開網(wǎng)易新聞 查看精彩圖片

這一現(xiàn)象證明了強(qiáng)化微調(diào)的價值,通過讓模型自主思考來提升難樣本的準(zhǔn)確率,這個特性是之前的監(jiān)督微調(diào)所難以獲得的。

未來探索方向

UI-R1 初步探索了大模型強(qiáng)化學(xué)習(xí)和推理技術(shù)在 GUI Agent 領(lǐng)域的應(yīng)用。下一步,我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合,實現(xiàn)大規(guī)模 UI 數(shù)據(jù)下統(tǒng)一的思考、決策、規(guī)劃的 GUI Agent 大模型