超越Y(jié)OLOv3、Faster-RCNN,首個(gè)在COCO2017 val set上突破30AP的純多模態(tài)開(kāi)源LLM來(lái)啦!

華中科技大學(xué)、北京郵電大學(xué)等多所高校研究團(tuán)隊(duì)共同推出的Perception-R1(PR1),在視覺(jué)推理中最基礎(chǔ)的感知層面,探究rule-based RL能給模型感知pattern帶來(lái)的增益。

PR1重點(diǎn)關(guān)注當(dāng)下主流的視覺(jué)(計(jì)數(shù),通用目標(biāo)檢測(cè))以及視覺(jué)語(yǔ)言(grounding,OCR)任務(wù),實(shí)驗(yàn)結(jié)果展現(xiàn)出在模型感知策略上的巨大潛力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

目前論文和代碼模型均已開(kāi)源,作者希望其工作能給社區(qū)提供一個(gè)強(qiáng)大的baseline來(lái)支持后續(xù)研究。

眼見(jiàn)為實(shí):為何AI視覺(jué)感知需要一場(chǎng)革命

隨著OpenAI o3的出現(xiàn),大模型競(jìng)賽也正式進(jìn)入以“視覺(jué)推理”為代表的下半場(chǎng),從GPT-4V到如今的o3,兩年時(shí)間,人工智能正在迅速改變?nèi)伺c世界互動(dòng)的方式,而這場(chǎng)革命在很大程度上依賴于AI理解視覺(jué)信息的能力。

從自動(dòng)駕駛汽車在復(fù)雜的街道上導(dǎo)航,到醫(yī)療AI從掃描圖像中診斷疾病,甚至是整理照片庫(kù)的應(yīng)用程序,視覺(jué)感知都是基礎(chǔ)。

模態(tài)大語(yǔ)言模型(MLLM),如OpenAI的GPT-4o、Google的Gemini,以及開(kāi)源的Qwen-VL和LLaVA,代表了巨大的進(jìn)步。這些模型將語(yǔ)言模型(LLM)的語(yǔ)言理解能力與處理圖像的能力相結(jié)合,使我們能夠與AI“交談”關(guān)于圖片的內(nèi)容。詢問(wèn)它們圖片中有什么,它們通常能告訴你。

然而,在識(shí)別物體和真正以細(xì)致入微的理解和邏輯感知視覺(jué)世界之間存在微妙的差異。雖然MLLM在一般的視覺(jué)問(wèn)答方面越來(lái)越出色,但它們?cè)谛枰_物體定位、準(zhǔn)確計(jì)數(shù)多個(gè)物體、在復(fù)雜布局中完美閱讀文本或執(zhí)行復(fù)雜視覺(jué)推理的任務(wù)上常常表現(xiàn)不佳。這就像知道圖片中有一只貓和能夠精確指出它的耳朵、計(jì)算它的胡須或理解它與其他物體的互動(dòng)之間的區(qū)別。

強(qiáng)化學(xué)習(xí)的崛起與Perception-R1的誕生

強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)引發(fā)了語(yǔ)言模型的范式轉(zhuǎn)變。像RLHF(來(lái)自人類反饋的強(qiáng)化學(xué)習(xí))和基于規(guī)則的RL等技術(shù),在DeepSeek-R1中被用來(lái)解鎖 emergent reasoning 能力,推動(dòng)LLM向更強(qiáng)的推理能力發(fā)展。

這引出了一個(gè)問(wèn)題:強(qiáng)化學(xué)習(xí)能否為MLLM的視覺(jué)感知能力帶來(lái)類似的革命?

早期的嘗試顯示出希望,但并非通用的成功。簡(jiǎn)單地將語(yǔ)言領(lǐng)域的RL技術(shù)應(yīng)用于視覺(jué)任務(wù)并不總能產(chǎn)生預(yù)期的收益。這暗示視覺(jué)感知可能遵循與純語(yǔ)言不同的規(guī)則。

Perception-R1 應(yīng)運(yùn)而生。由華科,北郵以及JHU等高校的研究人員聯(lián)合開(kāi)發(fā)的開(kāi)創(chuàng)性框架,如論文中所描述的那樣這種方法回歸到基本原理,探索如何有效地將基于規(guī)則的強(qiáng)化學(xué)習(xí)定制到MLLM視覺(jué)感知的獨(dú)特挑戰(zhàn)中。這不僅僅是讓MLLM看起來(lái)更好,而是通過(guò)學(xué)習(xí)最佳的“感知策略”(Perception Policy)來(lái)教導(dǎo)它們更智能地看。

Perception-R1框架:工作原理

Perception-R1 不是從頭開(kāi)始構(gòu)建一個(gè)新的MLLM,而是一個(gè)后訓(xùn)練框架,旨在通過(guò)基于規(guī)則的強(qiáng)化學(xué)習(xí)顯著增強(qiáng)現(xiàn)有 capable MLLM(如Qwen2-VLInstruct-2B)的視覺(jué)感知能力。

什么是“感知策略”?

“感知策略”可以視為MLLM處理視覺(jué)任務(wù)的內(nèi)部策略,具體包括以下步驟:

  1. 從圖像中提取和理解相關(guān)的視覺(jué)細(xì)節(jié)。
  2. 基于這種視覺(jué)理解執(zhí)行邏輯操作(例如,比較位置、識(shí)別實(shí)例、識(shí)別文本)
  3. 以正確的格式生成所需的輸出(例如,邊界框坐標(biāo)、計(jì)數(shù)、轉(zhuǎn)錄文本)

Perception-R1 使用一種名為Group Relative Policy Optimization(GRPO)的強(qiáng)化學(xué)習(xí)技術(shù)來(lái)優(yōu)化這一策略。GRPO 曾在DeepSeek-R1中取得成功,其工作原理如下(簡(jiǎn)版)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

GRPO原理公式:

  1. Rollout(多次嘗試):要求模型多次生成輸出(例如,8次)。由于生成中的隨機(jī)性(由溫度參數(shù)控制),每次輸出可能略有不同。
  2. 獎(jiǎng)勵(lì)建模:根據(jù)明確的評(píng)分標(biāo)準(zhǔn)(獎(jiǎng)勵(lì)函數(shù))評(píng)估每次嘗試。例如,對(duì)于邊界框任務(wù),使用Intersection over Union(IoU)衡量模型輸出與正確答案的重疊程度。
  3. 相對(duì)比較:GRPO 通過(guò)比較多次嘗試的獎(jiǎng)勵(lì)分?jǐn)?shù),計(jì)算平均值。優(yōu)于平均水平的嘗試獲得正“優(yōu)勢(shì)”,低于平均水平的獲得負(fù)“優(yōu)勢(shì)”。
  4. 策略更新:利用這些相對(duì)優(yōu)勢(shì)更新模型的策略,增加生成高獎(jiǎng)勵(lì)輸出的概率,減少低獎(jiǎng)勵(lì)輸出的概率。
  5. 重復(fù)優(yōu)化:在大量示例上重復(fù)此過(guò)程,逐步優(yōu)化感知策略。

具體框架如下:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

△Perception-R1 架構(gòu)示意圖

做好視覺(jué)任務(wù)的關(guān)鍵:獎(jiǎng)勵(lì)工程(Reward Modeling)

在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)至關(guān)重要,它是指導(dǎo)學(xué)習(xí)過(guò)程的核心信號(hào)。視覺(jué)感知任務(wù)通常具有直接、可量化的 ground truth,Perception-R1 利用這一點(diǎn)設(shè)計(jì)了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),總獎(jiǎng)勵(lì)由兩部分組成:

  1. 格式獎(jiǎng)勵(lì):檢查輸出是否符合預(yù)期結(jié)構(gòu)。例如,邊界框任務(wù)要求輸出
  2. 為格式,正確則得+1分,錯(cuò)誤則扣-1分。
  3. 答案獎(jiǎng)勵(lì):衡量感知的正確性,使用任務(wù)特定的指標(biāo):
  • 視覺(jué)定位(RefCOCO):預(yù)測(cè)邊界框與 ground truth 的 IoU。
  • 視覺(jué)計(jì)數(shù)(PixMo-Count):將任務(wù)重新定義為點(diǎn)檢測(cè)后計(jì)數(shù),獎(jiǎng)勵(lì)基于預(yù)測(cè)點(diǎn)與ground truth點(diǎn)的歐幾里得距離。
  • 光學(xué)字符識(shí)別(OCR - PageOCR):預(yù)測(cè)文本與 ground truth 的編輯距離(Levenshtein distance)

多主體獎(jiǎng)勵(lì)匹配的挑戰(zhàn)與解決方案

對(duì)于涉及多個(gè)實(shí)例的任務(wù)(如物體檢測(cè)和計(jì)數(shù)),如何匹配預(yù)測(cè)結(jié)果與 ground truth 是一個(gè)難題。Perception-R1 采用二分圖匹配解決:

  • 將預(yù)測(cè)結(jié)果和 ground truth 視為兩組點(diǎn)。
  • 計(jì)算每對(duì)之間的潛在獎(jiǎng)勵(lì)(例如,IoU)
  • 使用匈牙利算法找到總獎(jiǎng)勵(lì)最大的最優(yōu)匹配。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這確保了獎(jiǎng)勵(lì)計(jì)算基于最佳對(duì)應(yīng)關(guān)系,為多物體感知任務(wù)提供了更準(zhǔn)確的學(xué)習(xí)信號(hào)。最終總獎(jiǎng)勵(lì)為:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)結(jié)果:Perception-R1的突破性表現(xiàn)

Perception-R1 的實(shí)際表現(xiàn)如何?研究人員在一套標(biāo)準(zhǔn)視覺(jué)感知基準(zhǔn)上對(duì)其進(jìn)行了評(píng)估,并將其與強(qiáng)大的基準(zhǔn) MLLM(如原始 Qwen2-VL-2B-Instruct)進(jìn)行了比較,甚至與只為特定任務(wù)設(shè)計(jì)的專門 “專家 “模型進(jìn)行了比較。

visual grounding任務(wù)(RefCOCO/+/g)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

△visual grounding評(píng)測(cè)

OCR任務(wù)(PageOCR)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

△PageOCR評(píng)測(cè)

視覺(jué)計(jì)數(shù)任務(wù)(Pixmo-Count)以及目標(biāo)檢測(cè)任務(wù)(COCO2017)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

△視覺(jué)計(jì)數(shù)和目標(biāo)檢測(cè)評(píng)測(cè)

通用圖像理解(general image understanding)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

△image understanding and reasoning 評(píng)測(cè)

重要消融實(shí)驗(yàn)

Perception-R1也進(jìn)行了全面的消融實(shí)驗(yàn)來(lái)探究現(xiàn)階段rule-based RL對(duì)perception policy learning的有效性會(huì)受到哪些方面影響,研究人員詳細(xì)評(píng)測(cè)了reward matching,是否使用顯式的thinking以及SFT與RL優(yōu)劣的問(wèn)題都進(jìn)行了深刻的探討,接著Perception-R1也展示其良好的可擴(kuò)展特性,為后續(xù)大規(guī)模scale up提供了實(shí)驗(yàn)驗(yàn)證。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

△Perception-R1的可擴(kuò)展性實(shí)驗(yàn)

結(jié)論:邁向更加智能的AI視覺(jué)感知

Perception-R1 表明,當(dāng)強(qiáng)化學(xué)習(xí)被精心適配到視覺(jué)任務(wù)的獨(dú)特特性時(shí),它可以成為教導(dǎo)大模型更準(zhǔn)確、更邏輯地“看”的強(qiáng)大工具。通過(guò)優(yōu)化感知策略,該框架推動(dòng)了MLLM在物體檢測(cè)、計(jì)數(shù)和OCR等任務(wù)上的能力邊界。

盡管真正的視覺(jué)“頓悟”仍需探索,Perception-R1奠定了關(guān)鍵基礎(chǔ)。它挑戰(zhàn)了視覺(jué)任務(wù)必須依賴語(yǔ)言推理的假設(shè),并強(qiáng)調(diào)了任務(wù)復(fù)雜性對(duì)RL效果的重要性。

隨著模型規(guī)模擴(kuò)大和更具挑戰(zhàn)性的基準(zhǔn)出現(xiàn),Perception-R1的原則可能在構(gòu)建下一代智能感知AI系統(tǒng)中發(fā)揮關(guān)鍵作用。

論文鏈接:https://arxiv.org/pdf/2504.07954
代碼鏈接:https://github.com/linkangheng/PR1博客鏈接:https://medium.com/@jenray1986/perception-r1-reinventing-ai-vision-with-reinforcement-learning-253bf3e77657