打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖文大模型通常采用「預(yù)訓(xùn)練 + 監(jiān)督微調(diào)」的兩階段范式進(jìn)行訓(xùn)練,以強(qiáng)化其指令跟隨能力。受語(yǔ)言領(lǐng)域的啟發(fā),多模態(tài)偏好優(yōu)化技術(shù)憑借其在數(shù)據(jù)效率和性能增益方面的優(yōu)勢(shì),被廣泛用于對(duì)齊人類(lèi)偏好。目前,該技術(shù)主要依賴(lài)高質(zhì)量的偏好數(shù)據(jù)標(biāo)注和精準(zhǔn)的獎(jiǎng)勵(lì)模型訓(xùn)練來(lái)提升模型表現(xiàn)。然而,這一方法不僅資源消耗巨大,訓(xùn)練過(guò)程仍然極具挑戰(zhàn)。

受到基于規(guī)則的強(qiáng)化學(xué)習(xí)(Rule-Based Reinforcement Learning)在 R1 上成功應(yīng)用的啟發(fā),中科院自動(dòng)化研究所與中科紫東太初團(tuán)隊(duì)探索了如何結(jié)合高質(zhì)量指令對(duì)齊數(shù)據(jù)與類(lèi) R1 的強(qiáng)化學(xué)習(xí)方法,進(jìn)一步增強(qiáng)圖文大模型的視覺(jué)定位能力。該方法首次在 Object Detection、Visual Grounding 等復(fù)雜視覺(jué)任務(wù)上,使 Qwen2.5-VL 模型實(shí)現(xiàn)了最高 50% 的性能提升,超越了參數(shù)規(guī)模超過(guò) 10 倍的 SOTA 模型。

目前,相關(guān)工作論文、模型及數(shù)據(jù)集代碼均已開(kāi)源。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2503.18013
  • Github 倉(cāng)庫(kù):https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
  • Huggingface 倉(cāng)庫(kù):https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262

引言

目標(biāo)定位任務(wù)要求模型能夠精準(zhǔn)識(shí)別用戶(hù)輸入的任意感興趣目標(biāo),并給出精確的目標(biāo)框,對(duì)圖文大模型的細(xì)粒度感知和空間理解能力提出了嚴(yán)峻挑戰(zhàn)。當(dāng)前,圖文大模型通常將目標(biāo)定位建模為文本序列預(yù)測(cè)任務(wù),并通過(guò)大規(guī)模預(yù)訓(xùn)練和指令數(shù)據(jù)的監(jiān)督微調(diào),以 Next Token Prediction 實(shí)現(xiàn)對(duì)不同粒度目標(biāo)描述的精準(zhǔn)定位。盡管在指代表達(dá)理解等任務(wù)上已超越傳統(tǒng)視覺(jué)專(zhuān)家模型,但在更復(fù)雜、目標(biāo)密集的場(chǎng)景中,其視覺(jué)定位與目標(biāo)檢測(cè)能力仍與專(zhuān)家模型存在顯著差距。

R1 的成功應(yīng)用推動(dòng)了對(duì)基于規(guī)則的任務(wù)級(jí)別獎(jiǎng)勵(lì)監(jiān)督的探索,使模型擺脫了對(duì)人工偏好數(shù)據(jù)標(biāo)注和獎(jiǎng)勵(lì)模型訓(xùn)練的依賴(lài)。值得注意的是,視覺(jué)定位指令數(shù)據(jù)本身具有精準(zhǔn)的空間位置標(biāo)注,并與與人類(lèi)對(duì)精準(zhǔn)目標(biāo)定位偏好高度一致?;谶@些優(yōu)勢(shì),Vision-R1 通過(guò)設(shè)計(jì)類(lèi) R1 的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架,在任務(wù)級(jí)別監(jiān)督中引入基于視覺(jué)任務(wù)評(píng)價(jià)指標(biāo)的反饋獎(jiǎng)勵(lì)信號(hào),為增強(qiáng)圖文大模型的細(xì)粒度視覺(jué)定位能力提供了創(chuàng)新突破方向。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Vision-R1 關(guān)鍵設(shè)計(jì)示意圖

Vision Criteria-Driven Reward Function

聚焦圖文大模型目標(biāo)定位問(wèn)題

在文本序列的統(tǒng)一建模和大規(guī)模數(shù)據(jù)的自回歸訓(xùn)練下,圖文大模型在目標(biāo)定位任務(wù)上取得了顯著的性能提升。然而,其進(jìn)一步發(fā)展仍受到三大關(guān)鍵問(wèn)題的限制:(1)密集場(chǎng)景中的長(zhǎng)序列預(yù)測(cè)易出現(xiàn)格式錯(cuò)誤,(2)有效預(yù)測(cè)目標(biāo)的召回率較低,(3)目標(biāo)定位精度不足。

這些問(wèn)題制約了模型在更復(fù)雜視覺(jué)任務(wù)上的表現(xiàn)。在自回歸 Token 級(jí)別的監(jiān)督機(jī)制下,模型無(wú)法獲得實(shí)例級(jí)別的反饋,而直接在單目標(biāo)場(chǎng)景下應(yīng)用 GRPO 訓(xùn)練方法又忽視了視覺(jué)定位任務(wù)的特性及 Completion 級(jí)別監(jiān)督的優(yōu)勢(shì)。

為此,研究團(tuán)隊(duì)結(jié)合圖文大模型在視覺(jué)定位任務(wù)中面臨的挑戰(zhàn),提出了一種基于視覺(jué)任務(wù)評(píng)價(jià)準(zhǔn)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)函數(shù),其設(shè)計(jì)包括以下四個(gè)核心部分:

  • 框優(yōu)先的預(yù)測(cè)匹配:與僅針對(duì)單個(gè)目標(biāo)進(jìn)行設(shè)計(jì)的方法不同,Vision-R1 采用多目標(biāo)預(yù)測(cè)的統(tǒng)一建模方式。為了計(jì)算包含多個(gè)目標(biāo)預(yù)測(cè)的獎(jiǎng)勵(lì),Vision-R1 首先對(duì)文本序列化的預(yù)測(cè)結(jié)果進(jìn)行反序列化,提取出每個(gè)目標(biāo)的預(yù)測(cè)框及其標(biāo)簽,并將預(yù)測(cè)結(jié)果與真實(shí)標(biāo)注進(jìn)行匹配,以確保獎(jiǎng)勵(lì)機(jī)制能夠全面衡量多目標(biāo)場(chǎng)景下的定位質(zhì)量。
  • 雙重格式獎(jiǎng)勵(lì):該獎(jiǎng)勵(lì)項(xiàng)旨在解決密集場(chǎng)景下長(zhǎng)序列預(yù)測(cè)的格式錯(cuò)誤問(wèn)題。對(duì)于每個(gè)預(yù)測(cè)文本序列,模型需滿(mǎn)足指定的模板格式(如 Qwen2.5-VL 采用的 JSON 格式),并確保目標(biāo)坐標(biāo)的數(shù)值正確性。僅當(dāng)預(yù)測(cè)結(jié)果同時(shí)滿(mǎn)足格式和內(nèi)容要求時(shí),模型才能獲得獎(jiǎng)勵(lì) 1,從而引導(dǎo)其生成符合標(biāo)準(zhǔn)的預(yù)測(cè)輸出。
  • 召回獎(jiǎng)勵(lì):該獎(jiǎng)勵(lì)項(xiàng)針對(duì)有效預(yù)測(cè)目標(biāo)召回率低的問(wèn)題,鼓勵(lì)模型盡可能多地識(shí)別目標(biāo)。具體而言,針對(duì)每個(gè)預(yù)測(cè)目標(biāo)及其匹配的真實(shí)目標(biāo)(GT),當(dāng)兩者的 IoU 超過(guò)預(yù)設(shè)閾值 ζ 時(shí),視為該預(yù)測(cè)有效。對(duì)于一個(gè)預(yù)測(cè)序列,其召回獎(jiǎng)勵(lì)定義為有效預(yù)測(cè)目標(biāo)數(shù)量與實(shí)際需要預(yù)測(cè)目標(biāo)數(shù)量的比例,以此激勵(lì)模型提高目標(biāo)的覆蓋率。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 精度獎(jiǎng)勵(lì):精度獎(jiǎng)勵(lì)與召回獎(jiǎng)勵(lì)協(xié)同作用,形成「1+1>2」的優(yōu)化效果。其中,召回獎(jiǎng)勵(lì)提升模型對(duì)目標(biāo)的全面識(shí)別能力,而精度獎(jiǎng)勵(lì)則確保預(yù)測(cè)的準(zhǔn)確性。精度獎(jiǎng)勵(lì)從單實(shí)例角度衡量預(yù)測(cè)質(zhì)量,其核心目標(biāo)是鼓勵(lì)模型生成高質(zhì)量的邊界框。具體地,精度獎(jiǎng)勵(lì)被定義為所有有效預(yù)測(cè)的平均 IoU 值,以直接激勵(lì)模型優(yōu)化目標(biāo)框的精確度:

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

Vision-R1 整體框架

Progressive Rule Refinement Strategy

實(shí)現(xiàn)持續(xù)性能提升

在目標(biāo)定位任務(wù)中,預(yù)測(cè)高質(zhì)量(高 IoU)的目標(biāo)框始終是一個(gè)挑戰(zhàn),尤其是在密集場(chǎng)景和小目標(biāo)情況下。這種困難可能導(dǎo)致模型在同組預(yù)測(cè)中獎(jiǎng)勵(lì)差異較小,從而影響優(yōu)化效果。針對(duì)這一問(wèn)題,研究團(tuán)隊(duì)提出了漸進(jìn)式規(guī)則調(diào)整策略,該策略通過(guò)在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)計(jì)算規(guī)則,旨在實(shí)現(xiàn)模型的持續(xù)性能提升。該策略主要包括兩個(gè)核心部分:

差異化策略:該策略的目標(biāo)是擴(kuò)大預(yù)測(cè)結(jié)果與實(shí)際獎(jiǎng)勵(lì)之間的映射差異。具體而言,通過(guò)懲罰低召回率(Recall)和低平均 IoU 的預(yù)測(cè),并對(duì)高召回率和高 IoU 的預(yù)測(cè)給予較高獎(jiǎng)勵(lì),從而鼓勵(lì)模型生成更高質(zhì)量的預(yù)測(cè),尤其是在當(dāng)前能夠達(dá)到的最佳預(yù)測(cè)上獲得最大獎(jiǎng)勵(lì)。這一策略引導(dǎo)模型在訓(xùn)練過(guò)程中逐漸提高預(yù)測(cè)精度,同時(shí)避免低質(zhì)量預(yù)測(cè)的獎(jiǎng)勵(lì)過(guò)高,促進(jìn)其優(yōu)化。具體實(shí)現(xiàn)如下:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

階段漸近策略:類(lèi)似于許多有效的學(xué)習(xí)方法,給初學(xué)者設(shè)定容易實(shí)現(xiàn)的目標(biāo)并逐步提升獎(jiǎng)勵(lì)難度是一個(gè)常見(jiàn)且行之有效的策略。在 Vision-R1 中,訓(xùn)練過(guò)程被劃分為初學(xué)階段和進(jìn)階階段,并通過(guò)逐步調(diào)整閾值 ζ 來(lái)實(shí)現(xiàn)獎(jiǎng)勵(lì)規(guī)則的逐漸變化。具體來(lái)說(shuō):

  • 初學(xué)階段(Beginner Phase): 在這一階段,設(shè)置較低的 ζ 閾值(0.5/0.75),給予模型相對(duì)寬松的獎(jiǎng)勵(lì)標(biāo)準(zhǔn),幫助其快速入門(mén)并學(xué)習(xí)基礎(chǔ)的定位能力。
  • 進(jìn)階階段(Advanced Phase): 隨著訓(xùn)練的深入,逐步提高 ζ 閾值,增加標(biāo)準(zhǔn)要求,以促使模型達(dá)到更高的準(zhǔn)確度,避免模型依賴(lài)簡(jiǎn)單策略,從而持續(xù)推動(dòng)模型性能的提升。

不同模型的域內(nèi)外目標(biāo)檢測(cè)評(píng)測(cè)

為全面評(píng)估 Vision-R1 的效果,研究團(tuán)隊(duì)選擇了近期定位能力大幅提升的 Qwen2.5-VL-7B 模型和定位能力突出的 Griffon-G-7B 模型,在更有挑戰(zhàn)的經(jīng)典目標(biāo)檢測(cè)數(shù)據(jù)集 COCO 和多樣場(chǎng)景的 ODINW-13 上進(jìn)行測(cè)試,以展現(xiàn)方法對(duì)不同定位水平模型的適用性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

經(jīng)典 COCO/ODINW 數(shù)據(jù)集上 Vision-R1 方法相較于基線(xiàn)模型性能的提升

實(shí)驗(yàn)結(jié)果表明,無(wú)論基礎(chǔ)性能如何,與基線(xiàn)模型相比這些模型在 Vision-R1 訓(xùn)練后性能大幅提升,甚至超過(guò)同系列 SOTA 模型,進(jìn)一步接近了定位專(zhuān)家模型。

研究團(tuán)隊(duì)還在模型沒(méi)有訓(xùn)練的域外定位數(shù)據(jù)集上進(jìn)行測(cè)試,Vision-R1 在不同模型的四個(gè)數(shù)據(jù)集上取得了平均 6% 的性能提升,充分論證了方法的泛化性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

域外數(shù)據(jù)集上 Vision-R1 方法相較于基線(xiàn)模型性能的提升

模型通用問(wèn)答能力評(píng)測(cè)

研究團(tuán)隊(duì)進(jìn)一步評(píng)估了模型在非定位等通用任務(wù)上的性能,以驗(yàn)證方法是否能在少量影響模型通用能力的情況下,大幅度提升模型的視覺(jué)定位能力。研究團(tuán)隊(duì)發(fā)現(xiàn),Vision-R1 近乎不損失模型的通用能力,在通用問(wèn)答、圖表問(wèn)答等評(píng)測(cè)集上模型實(shí)現(xiàn)了與基準(zhǔn)模型基本一致的性能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

通用問(wèn)答數(shù)據(jù)集上 Vision-R1 方法與基線(xiàn)模型性能的比較

可視化分析

研究團(tuán)隊(duì)提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多個(gè)場(chǎng)景下的目標(biāo)檢測(cè)可視化結(jié)果。如結(jié)果所示,Vision-R1 訓(xùn)練后,模型能夠更好召回所感興趣的物體,并進(jìn)一步提升定位的精度。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Vision-R1 訓(xùn)練模型與基準(zhǔn)模型檢測(cè)結(jié)果可視化