
自 Deepseek-R1 發(fā)布以來,研究社區(qū)迅速響應,紛紛在各自任務中復現(xiàn) R1-moment。
在過去的幾個月中,越來越多的研究嘗試將 RL Scaling 的成功應用擴展到視覺語言模型(VLM)領域 —— 刷榜、追性能、制造 “Aha Moment”,整個社區(qū)正高速奔跑,RL for VLM 的邊界也在不斷被推遠。
但在這樣一個節(jié)奏飛快、聚焦結果的研究環(huán)境中,基礎設施層面的透明性、評估的一致性,以及訓練過程的可解釋性,往往被忽視
這會帶來三個問題:
- 當底層實現(xiàn)依賴封裝復雜的 RL 庫時,整體流程往往難以看清,理解和修改成本高,不利于方法的教學與傳播
- 缺乏一致、魯棒的評估標準,不同方法之間難以公平比較,也難以積累長期洞察
- 訓練過程行為不可觀測,模型如何學習、學習出了什么能力、訓練過程中出現(xiàn)了哪些行為變得難以分析
于是,來自上海交通大學、MiniMax、復旦大學和 SII 的研究團隊選擇按下暫停鍵,進行了一次關于 RL Scaling 的重新思考(Rethinking)
他們提出 MAYE —— 一個從零實現(xiàn)的 RL for VLM 框架與標準化評估方案,希望為該領域奠定一個透明、可復現(xiàn)、可教學的研究起點。

- 論文標題:Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
- 論文地址:https://arxiv.org/pdf/2504.02587
- 代碼地址:https://github.com/GAIR-NLP/MAYE
- 數據集地址:https://huggingface.co/datasets/ManTle/MAYE
三大核心貢獻
重塑 RL+VLMs 的研究范式
1. 簡潔透明的 RL for VLM 訓練架構:輕依賴、強可控
MAYE 的實現(xiàn)很「干凈」
- 沒有 Ray / DeepSpeed / TRL / Verl / OpenRLHF / AReaL
- 從零實現(xiàn),無黑箱封裝,無多余抽象
- 基于 Transformers / FSDP2 / vLLM 搭建,專為 VLM 設計
- 支持靈活改動,適合教學與研究場景
這樣的設計不僅提升了訓練過程的可解釋性,也極大降低了 RL for VLM 的入門門檻:每一行代碼、每一個環(huán)節(jié)都可見、可查、可改,研究者可以更清晰地理解模型是如何學習的,又為何能收斂。
我們并未采用當前 VLM-RL 社區(qū)常用的 GRPO,而是選擇探索 Reinforce++ 的替代可能性。整個項目的靈感來源于 OpenAI Spinning Up,我們希望 MAYE 能成為 VLM-RL 研究中的一個輕量、透明、可教學的入門底座
相比市面上黑盒化程度較高的 RL 框架,MAYE 更像是一個透明的「教學級實驗框架」:既可直接運行,也可任意插拔、修改各個組件,非常適合用于方法對比、原理教學,甚至作為新手入門的第一課。
我們將完整的訓練流程解構為 4 個輕量模塊:
數據流動(data flow) → 響應采集 (response collection) → 軌跡構造 (trajectory generation)→ 策略更新 (policy update)
每一步都通過清晰的接口呈現(xiàn),可以像樂高一樣自由拼接、替換,將原本復雜封裝的黑盒流程徹底 “白盒化”
訓練過程不再是只能看 loss 和 accuracy 的黑箱,而是變成一條可以觀察、分析、干預的路徑。

RL for VLM,只需四步:結構清晰,可拆可查
2. 標準化評估方案:看清訓練過程,看懂模型行為
RL 研究中,一直存在兩個老大難問題:訓練過程不穩(wěn)定,評估過程不透明。
尤其在 VLM 場景下,很多 RL 工作只關注 “最后結果”,缺乏對學習曲線、行為演化的系統(tǒng)性觀察與分析。
那么 —— 模型究竟是如何學會的?反思能力是如何出現(xiàn)的?長輸出真的等于更強推理嗎?過去缺乏統(tǒng)一的方式來回答這些問題。
為此,MAYE 提出了一整套細致、可復現(xiàn)的標準化評估方案(evaluation scheme),用于系統(tǒng)追蹤訓練動態(tài)和模型行為演化:
訓練集指標
- accuracy curve(準確率曲線)
- response length(響應長度)
- 多次獨立運行取均值,展現(xiàn)真實學習趨勢
驗證 & 測試集指標
- pass@1 與 pass@8,在不同溫度設置下評估泛化能力
- 提供平均值 + 最大值,全面覆蓋性能變化
反思行為指標
- 反思詞使用頻率統(tǒng)計(e.g., re-check, think again, verify)
- 五個比例指標,量化反思是否真正帶來了正確率提升
這些指標覆蓋了訓練全過程,既能用于算法開發(fā),也適合橫向比較、機制研究。
無論你是做方法、做分析,還是做認知能力探測,MAYE 都能提供一套清晰可復現(xiàn)的過程視角。

準確率曲線、輸出長度、反思指標——三類視角還原 RL 全貌
3. 實證發(fā)現(xiàn)與行為洞察:RL 不止有效,更值得被理解
MAYE 不只是一個框架和評估工具,也是一套可以產出研究發(fā)現(xiàn)的實驗平臺。
研究團隊在多個主流 VLMs(如 Qwen2 / Qwen2.5-VL-Instruct)和兩類視覺推理數據集(文本主導 / 圖像主導)上開展系統(tǒng)實驗,復現(xiàn)實驗足夠穩(wěn)?。核薪Y果均基于 3 次獨立運行,并報告均值與標準差
在此基礎上,我們觀察到了一些有代表性的現(xiàn)象:
- 輸出長度會隨著模型架構、數據分布、訓練隨機種子而顯著變化,是判斷模型推理策略演化的重要觀測信號;
- 反思行為(Reflection)頻率與輸出長度高度相關,但大多數性能提升仍來源于非反思型推理。輸出變長 ≠ 模型變強。長文本可能意味著更豐富的推理,也可能只是訓練過程中的隨機漂移或復讀堆疊。只有當 “更長” 帶來 “更準”,才值得被認為是有效行為;
- Aha Moment并不是 RL 訓練憑空生成的,而是在 VLM 模型本身能力基礎上被進一步激發(fā)和強化;

在多個模型和數據集上,系統(tǒng)追蹤了訓練動態(tài)與反思行為
在相同高質量監(jiān)督數據(來自 textbook-style CoT)下,RL 在驗證集和測試集上均顯著優(yōu)于 SFT,且具有更強的 OOD 泛化能力。即便是 Qwen2.5-VL 這類強基座模型,也能從 RL 中獲得額外提升。

驗證集與測試集全維度對比:RL 展現(xiàn)出更強的泛化能力

驗證集與測試集全維度對比:RL 展現(xiàn)出更強的泛化能力
這些實證結果不僅揭示了 RL 對模型行為的真實影響,也為后續(xù)研究者提供了穩(wěn)定、可對照的 baseline 實驗結果。我們也呼吁社區(qū)更多采用多次獨立運行報告結果,推動 RL for VLM 從 “能跑通” 邁向 “可分析、可信任”。
結語
MAYE 并不是一項追求極致性能的框架優(yōu)化工程,而是一套面向研究者與教學場景的基礎設施嘗試
我們希望它能成為 RL-VLM 研究中一塊干凈的起點,幫助社區(qū)更透明地理解訓練過程、更一致地衡量行為變化、也更高效地探索 RL Scaling for VLM 的邊界
這只是一個起步,希望它對你的工作有所幫助。歡迎反饋、改進、復用。論文與代碼資源全面開源,歡迎研究者探索和復現(xiàn)。
熱門跟貼