国产精品久久久久久av下载网址,av人妻激情在线,国产亚洲欧洲日本,国产精品亚洲观看,亚洲另类av在线

圖文大模型通常采用「預(yù)訓(xùn)練 + 監(jiān)督微調(diào)」的兩階段范式進(jìn)行訓(xùn)練，以強(qiáng)化其指令跟隨能力。受語(yǔ)言領(lǐng)域的啟發(fā)，多模態(tài)偏好優(yōu)化技術(shù)憑借其在數(shù)據(jù)效率和性能增益方面的優(yōu)勢(shì)，被廣泛用于對(duì)齊人類(lèi)偏好。目前，該技術(shù)主要依賴(lài)高質(zhì)量的偏好數(shù)據(jù)標(biāo)注和精準(zhǔn)的獎(jiǎng)勵(lì)模型訓(xùn)練來(lái)提升模型表現(xiàn)。然而，這一方法不僅資源消耗巨大，訓(xùn)練過(guò)程仍然極具挑戰(zhàn)。

受到基于規(guī)則的強(qiáng)化學(xué)習(xí)（Rule-Based Reinforcement Learning）在 R1 上成功應(yīng)用的啟發(fā)，中科院自動(dòng)化研究所與中科紫東太初團(tuán)隊(duì)探索了如何結(jié)合高質(zhì)量指令對(duì)齊數(shù)據(jù)與類(lèi) R1 的強(qiáng)化學(xué)習(xí)方法，進(jìn)一步增強(qiáng)圖文大模型的視覺(jué)定位能力。該方法首次在 Object Detection、Visual Grounding 等復(fù)雜視覺(jué)任務(wù)上，使 Qwen2.5-VL 模型實(shí)現(xiàn)了最高 50% 的性能提升，超越了參數(shù)規(guī)模超過(guò) 10 倍的 SOTA 模型。

目前，相關(guān)工作論文、模型及數(shù)據(jù)集代碼均已開(kāi)源。

論文標(biāo)題：Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
論文地址：https://arxiv.org/pdf/2503.18013
Github 倉(cāng)庫(kù)：https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
Huggingface 倉(cāng)庫(kù)：https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262

引言

目標(biāo)定位任務(wù)要求模型能夠精準(zhǔn)識(shí)別用戶(hù)輸入的任意感興趣目標(biāo)，并給出精確的目標(biāo)框，對(duì)圖文大模型的細(xì)粒度感知和空間理解能力提出了嚴(yán)峻挑戰(zhàn)。當(dāng)前，圖文大模型通常將目標(biāo)定位建模為文本序列預(yù)測(cè)任務(wù)，并通過(guò)大規(guī)模預(yù)訓(xùn)練和指令數(shù)據(jù)的監(jiān)督微調(diào)，以 Next Token Prediction 實(shí)現(xiàn)對(duì)不同粒度目標(biāo)描述的精準(zhǔn)定位。盡管在指代表達(dá)理解等任務(wù)上已超越傳統(tǒng)視覺(jué)專(zhuān)家模型，但在更復(fù)雜、目標(biāo)密集的場(chǎng)景中，其視覺(jué)定位與目標(biāo)檢測(cè)能力仍與專(zhuān)家模型存在顯著差距。

R1 的成功應(yīng)用推動(dòng)了對(duì)基于規(guī)則的任務(wù)級(jí)別獎(jiǎng)勵(lì)監(jiān)督的探索，使模型擺脫了對(duì)人工偏好數(shù)據(jù)標(biāo)注和獎(jiǎng)勵(lì)模型訓(xùn)練的依賴(lài)。值得注意的是，視覺(jué)定位指令數(shù)據(jù)本身具有精準(zhǔn)的空間位置標(biāo)注，并與與人類(lèi)對(duì)精準(zhǔn)目標(biāo)定位偏好高度一致?；谶@些優(yōu)勢(shì)，Vision-R1 通過(guò)設(shè)計(jì)類(lèi) R1 的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架，在任務(wù)級(jí)別監(jiān)督中引入基于視覺(jué)任務(wù)評(píng)價(jià)指標(biāo)的反饋獎(jiǎng)勵(lì)信號(hào)，為增強(qiáng)圖文大模型的細(xì)粒度視覺(jué)定位能力提供了創(chuàng)新突破方向。

Vision-R1 關(guān)鍵設(shè)計(jì)示意圖

Vision Criteria-Driven Reward Function

聚焦圖文大模型目標(biāo)定位問(wèn)題

在文本序列的統(tǒng)一建模和大規(guī)模數(shù)據(jù)的自回歸訓(xùn)練下，圖文大模型在目標(biāo)定位任務(wù)上取得了顯著的性能提升。然而，其進(jìn)一步發(fā)展仍受到三大關(guān)鍵問(wèn)題的限制：（1）密集場(chǎng)景中的長(zhǎng)序列預(yù)測(cè)易出現(xiàn)格式錯(cuò)誤，（2）有效預(yù)測(cè)目標(biāo)的召回率較低，（3）目標(biāo)定位精度不足。

這些問(wèn)題制約了模型在更復(fù)雜視覺(jué)任務(wù)上的表現(xiàn)。在自回歸 Token 級(jí)別的監(jiān)督機(jī)制下，模型無(wú)法獲得實(shí)例級(jí)別的反饋，而直接在單目標(biāo)場(chǎng)景下應(yīng)用 GRPO 訓(xùn)練方法又忽視了視覺(jué)定位任務(wù)的特性及 Completion 級(jí)別監(jiān)督的優(yōu)勢(shì)。

為此，研究團(tuán)隊(duì)結(jié)合圖文大模型在視覺(jué)定位任務(wù)中面臨的挑戰(zhàn)，提出了一種基于視覺(jué)任務(wù)評(píng)價(jià)準(zhǔn)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)函數(shù)，其設(shè)計(jì)包括以下四個(gè)核心部分：

框優(yōu)先的預(yù)測(cè)匹配：與僅針對(duì)單個(gè)目標(biāo)進(jìn)行設(shè)計(jì)的方法不同，Vision-R1 采用多目標(biāo)預(yù)測(cè)的統(tǒng)一建模方式。為了計(jì)算包含多個(gè)目標(biāo)預(yù)測(cè)的獎(jiǎng)勵(lì)，Vision-R1 首先對(duì)文本序列化的預(yù)測(cè)結(jié)果進(jìn)行反序列化，提取出每個(gè)目標(biāo)的預(yù)測(cè)框及其標(biāo)簽，并將預(yù)測(cè)結(jié)果與真實(shí)標(biāo)注進(jìn)行匹配，以確保獎(jiǎng)勵(lì)機(jī)制能夠全面衡量多目標(biāo)場(chǎng)景下的定位質(zhì)量。
雙重格式獎(jiǎng)勵(lì)：該獎(jiǎng)勵(lì)項(xiàng)旨在解決密集場(chǎng)景下長(zhǎng)序列預(yù)測(cè)的格式錯(cuò)誤問(wèn)題。對(duì)于每個(gè)預(yù)測(cè)文本序列，模型需滿(mǎn)足指定的模板格式（如 Qwen2.5-VL 采用的 JSON 格式），并確保目標(biāo)坐標(biāo)的數(shù)值正確性。僅當(dāng)預(yù)測(cè)結(jié)果同時(shí)滿(mǎn)足格式和內(nèi)容要求時(shí)，模型才能獲得獎(jiǎng)勵(lì) 1，從而引導(dǎo)其生成符合標(biāo)準(zhǔn)的預(yù)測(cè)輸出。
召回獎(jiǎng)勵(lì)：該獎(jiǎng)勵(lì)項(xiàng)針對(duì)有效預(yù)測(cè)目標(biāo)召回率低的問(wèn)題，鼓勵(lì)模型盡可能多地識(shí)別目標(biāo)。具體而言，針對(duì)每個(gè)預(yù)測(cè)目標(biāo)及其匹配的真實(shí)目標(biāo)（GT），當(dāng)兩者的 IoU 超過(guò)預(yù)設(shè)閾值 ζ 時(shí)，視為該預(yù)測(cè)有效。對(duì)于一個(gè)預(yù)測(cè)序列，其召回獎(jiǎng)勵(lì)定義為有效預(yù)測(cè)目標(biāo)數(shù)量與實(shí)際需要預(yù)測(cè)目標(biāo)數(shù)量的比例，以此激勵(lì)模型提高目標(biāo)的覆蓋率。

精度獎(jiǎng)勵(lì)：精度獎(jiǎng)勵(lì)與召回獎(jiǎng)勵(lì)協(xié)同作用，形成「1+1>2」的優(yōu)化效果。其中，召回獎(jiǎng)勵(lì)提升模型對(duì)目標(biāo)的全面識(shí)別能力，而精度獎(jiǎng)勵(lì)則確保預(yù)測(cè)的準(zhǔn)確性。精度獎(jiǎng)勵(lì)從單實(shí)例角度衡量預(yù)測(cè)質(zhì)量，其核心目標(biāo)是鼓勵(lì)模型生成高質(zhì)量的邊界框。具體地，精度獎(jiǎng)勵(lì)被定義為所有有效預(yù)測(cè)的平均 IoU 值，以直接激勵(lì)模型優(yōu)化目標(biāo)框的精確度：

Vision-R1 整體框架

Progressive Rule Refinement Strategy

實(shí)現(xiàn)持續(xù)性能提升

在目標(biāo)定位任務(wù)中，預(yù)測(cè)高質(zhì)量（高 IoU）的目標(biāo)框始終是一個(gè)挑戰(zhàn)，尤其是在密集場(chǎng)景和小目標(biāo)情況下。這種困難可能導(dǎo)致模型在同組預(yù)測(cè)中獎(jiǎng)勵(lì)差異較小，從而影響優(yōu)化效果。針對(duì)這一問(wèn)題，研究團(tuán)隊(duì)提出了漸進(jìn)式規(guī)則調(diào)整策略，該策略通過(guò)在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)計(jì)算規(guī)則，旨在實(shí)現(xiàn)模型的持續(xù)性能提升。該策略主要包括兩個(gè)核心部分：

差異化策略：該策略的目標(biāo)是擴(kuò)大預(yù)測(cè)結(jié)果與實(shí)際獎(jiǎng)勵(lì)之間的映射差異。具體而言，通過(guò)懲罰低召回率（Recall）和低平均 IoU 的預(yù)測(cè)，并對(duì)高召回率和高 IoU 的預(yù)測(cè)給予較高獎(jiǎng)勵(lì)，從而鼓勵(lì)模型生成更高質(zhì)量的預(yù)測(cè)，尤其是在當(dāng)前能夠達(dá)到的最佳預(yù)測(cè)上獲得最大獎(jiǎng)勵(lì)。這一策略引導(dǎo)模型在訓(xùn)練過(guò)程中逐漸提高預(yù)測(cè)精度，同時(shí)避免低質(zhì)量預(yù)測(cè)的獎(jiǎng)勵(lì)過(guò)高，促進(jìn)其優(yōu)化。具體實(shí)現(xiàn)如下：

階段漸近策略：類(lèi)似于許多有效的學(xué)習(xí)方法，給初學(xué)者設(shè)定容易實(shí)現(xiàn)的目標(biāo)并逐步提升獎(jiǎng)勵(lì)難度是一個(gè)常見(jiàn)且行之有效的策略。在 Vision-R1 中，訓(xùn)練過(guò)程被劃分為初學(xué)階段和進(jìn)階階段，并通過(guò)逐步調(diào)整閾值 ζ 來(lái)實(shí)現(xiàn)獎(jiǎng)勵(lì)規(guī)則的逐漸變化。具體來(lái)說(shuō)：

初學(xué)階段（Beginner Phase）：在這一階段，設(shè)置較低的 ζ 閾值（0.5/0.75），給予模型相對(duì)寬松的獎(jiǎng)勵(lì)標(biāo)準(zhǔn)，幫助其快速入門(mén)并學(xué)習(xí)基礎(chǔ)的定位能力。
進(jìn)階階段（Advanced Phase）：隨著訓(xùn)練的深入，逐步提高 ζ 閾值，增加標(biāo)準(zhǔn)要求，以促使模型達(dá)到更高的準(zhǔn)確度，避免模型依賴(lài)簡(jiǎn)單策略，從而持續(xù)推動(dòng)模型性能的提升。

不同模型的域內(nèi)外目標(biāo)檢測(cè)評(píng)測(cè)

為全面評(píng)估 Vision-R1 的效果，研究團(tuán)隊(duì)選擇了近期定位能力大幅提升的 Qwen2.5-VL-7B 模型和定位能力突出的 Griffon-G-7B 模型，在更有挑戰(zhàn)的經(jīng)典目標(biāo)檢測(cè)數(shù)據(jù)集 COCO 和多樣場(chǎng)景的 ODINW-13 上進(jìn)行測(cè)試，以展現(xiàn)方法對(duì)不同定位水平模型的適用性。

經(jīng)典 COCO/ODINW 數(shù)據(jù)集上 Vision-R1 方法相較于基線(xiàn)模型性能的提升

實(shí)驗(yàn)結(jié)果表明，無(wú)論基礎(chǔ)性能如何，與基線(xiàn)模型相比這些模型在 Vision-R1 訓(xùn)練后性能大幅提升，甚至超過(guò)同系列 SOTA 模型，進(jìn)一步接近了定位專(zhuān)家模型。

研究團(tuán)隊(duì)還在模型沒(méi)有訓(xùn)練的域外定位數(shù)據(jù)集上進(jìn)行測(cè)試，Vision-R1 在不同模型的四個(gè)數(shù)據(jù)集上取得了平均 6% 的性能提升，充分論證了方法的泛化性。

域外數(shù)據(jù)集上 Vision-R1 方法相較于基線(xiàn)模型性能的提升

模型通用問(wèn)答能力評(píng)測(cè)

研究團(tuán)隊(duì)進(jìn)一步評(píng)估了模型在非定位等通用任務(wù)上的性能，以驗(yàn)證方法是否能在少量影響模型通用能力的情況下，大幅度提升模型的視覺(jué)定位能力。研究團(tuán)隊(duì)發(fā)現(xiàn)，Vision-R1 近乎不損失模型的通用能力，在通用問(wèn)答、圖表問(wèn)答等評(píng)測(cè)集上模型實(shí)現(xiàn)了與基準(zhǔn)模型基本一致的性能。

通用問(wèn)答數(shù)據(jù)集上 Vision-R1 方法與基線(xiàn)模型性能的比較

可視化分析

研究團(tuán)隊(duì)提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多個(gè)場(chǎng)景下的目標(biāo)檢測(cè)可視化結(jié)果。如結(jié)果所示，Vision-R1 訓(xùn)練后，模型能夠更好召回所感興趣的物體，并進(jìn)一步提升定位的精度。