
本文第一作者為鄧慧琳,中國(guó)科學(xué)技術(shù)大學(xué)碩博連讀四年級(jí),研究方向?yàn)槎嗄B(tài)模型視覺(jué)理解、推理增強(qiáng)(R1強(qiáng)化學(xué)習(xí))、異常檢測(cè)。在TAI、TASE、ICCV等期刊和頂會(huì)發(fā)表論文。
近年來(lái),隨著大型語(yǔ)言模型(LLMs)的快速發(fā)展,多模態(tài)理解領(lǐng)域取得了前所未有的進(jìn)步。像 OpenAI、InternVL 和 Qwen-VL 系列這樣的最先進(jìn)的視覺(jué)-語(yǔ)言模型(VLMs),在處理復(fù)雜的視覺(jué)-文本任務(wù)時(shí)展現(xiàn)了卓越的能力。
然而,這些成就主要依賴(lài)于大規(guī)模模型擴(kuò)展(>32B 參數(shù)),這在資源受限的環(huán)境中造成了顯著的部署障礙。因此,如何通過(guò)有效的后訓(xùn)練(post-training)范式來(lái)縮小小規(guī)模多模態(tài)模型與大規(guī)模模型之間的性能差距,是亟待解決的問(wèn)題。
目前,VLM 的主流訓(xùn)練方法是監(jiān)督微調(diào)(SFT),即使用人工標(biāo)注或 AI 生成的高質(zhì)量數(shù)據(jù)對(duì)模型進(jìn)行有監(jiān)督訓(xùn)練。但這種方法在小模型上存在兩個(gè)關(guān)鍵問(wèn)題:
域外泛化能力不足(Out-of-Domain generalization collapse):容易過(guò)擬合訓(xùn)練數(shù)據(jù),在未見(jiàn)過(guò)的場(chǎng)景時(shí)性能顯著下降。
推理能力有限(shallow reasoning abilities):傾向于淺層模式匹配,而非真正的理解和推理。這導(dǎo)致模型雖能應(yīng)對(duì)相似問(wèn)題,但難以處理需要深度思考的復(fù)雜問(wèn)題。

圖 1. 實(shí)驗(yàn)結(jié)果分析。 (a) SFT 與 RL 方法性能對(duì)比:通過(guò)對(duì)比域內(nèi)和域外性能,實(shí)驗(yàn)證實(shí)了強(qiáng)化學(xué)習(xí)方法在各類(lèi)視覺(jué)任務(wù)中具有更強(qiáng)的 OOD 泛化能力。 (b) "磚墻"現(xiàn)象分析:在小規(guī)模 VLMs 中觀察到:面對(duì)復(fù)雜樣本時(shí)出現(xiàn)訓(xùn)練不穩(wěn)定性,模型最終收斂到次優(yōu)解。我們提出的課程強(qiáng)化學(xué)習(xí)方法采用難度感知的獎(jiǎng)勵(lì)設(shè)計(jì),確保模型能力從基礎(chǔ)任務(wù)到復(fù)雜推理任務(wù)的穩(wěn)步提升。
通過(guò)系統(tǒng)實(shí)驗(yàn),我們發(fā)現(xiàn)基于強(qiáng)化學(xué)習(xí)的訓(xùn)練方法在提升模型域外泛化性方面具有獨(dú)特優(yōu)勢(shì)。
然而,在實(shí)踐中我們觀察到一個(gè)顯著的「磚墻」(Brick Wall)現(xiàn)象:小規(guī)模模型在簡(jiǎn)單任務(wù)上快速進(jìn)步,但在復(fù)雜任務(wù)上遇到瓶頸,甚至導(dǎo)致已掌握能力的退化。這種現(xiàn)象表現(xiàn)為訓(xùn)練過(guò)程的劇烈震蕩,最終導(dǎo)致模型收斂到次優(yōu)解。
為突破這一瓶頸,我們從課程學(xué)習(xí)(Curriculum Learning, CL)中汲取靈感。課程學(xué)習(xí)是一種將模型逐步暴露于遞增復(fù)雜任務(wù)的訓(xùn)練策略。我們提出了課程式強(qiáng)化學(xué)習(xí)后訓(xùn)練范式(Curr-ReFT),確保模型能力從基礎(chǔ)任務(wù)到復(fù)雜推理任務(wù)的穩(wěn)步提升。
這一創(chuàng)新方法能夠幫助小型 VLMs 突破性能瓶頸,在保持部署友好性的同時(shí),實(shí)現(xiàn)與大規(guī)模模型相媲美的推理能力。

論文標(biāo)題: Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning
論文鏈接:https://arxiv.org/pdf/2503.07065
開(kāi)源鏈接:
https://github.com/ding523/Curr_REFT(代碼)https://huggingface.co/datasets/ZTE-AIM/Curr-ReFT-data(數(shù)據(jù))https://huggingface.co/ZTE-AIM/3B-Curr-ReFT(模型權(quán)重)https://huggingface.co/ZTE-AIM/7B-Curr-ReFT(模型權(quán)重)
工作概述
在中小尺寸多模態(tài)大模型上,我們成功復(fù)現(xiàn)了 R1,并提出了一種創(chuàng)新的后訓(xùn)練范式 Curr-ReFT。通過(guò)結(jié)合課程強(qiáng)化學(xué)習(xí)和基于拒絕采樣的自我改進(jìn)方法,我們顯著提升了視覺(jué)語(yǔ)言模型(VLM)的推理能力和泛化能力。
理論與實(shí)驗(yàn)分析
強(qiáng)化學(xué)習(xí)的重塑能力:我們證明了基于規(guī)則的強(qiáng)化學(xué)習(xí)能夠有效重塑多模態(tài)/CV 任務(wù)的訓(xùn)練方案,從傳統(tǒng)的精調(diào)轉(zhuǎn)向強(qiáng)化精調(diào)。
提升推理與泛化能力:實(shí)驗(yàn)結(jié)果顯示,強(qiáng)化學(xué)習(xí)方法顯著提升了 VLM 在分布外數(shù)據(jù)上的表現(xiàn)。
創(chuàng)新框架
Curr-ReFT:我們提出了一種新型后訓(xùn)練范式,結(jié)合課程強(qiáng)化學(xué)習(xí)和自我改進(jìn)策略。在 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型中驗(yàn)證了其有效性。
全面評(píng)估
在多個(gè)自建數(shù)據(jù)集和權(quán)威基準(zhǔn)測(cè)試上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了模型的通用表現(xiàn),結(jié)果表明 7B 模型甚至超越了最新的 InternVL2.5-26B 和 38B 模型。
具體方法

圖 2. 所提出的 Curr-ReFT 后訓(xùn)練范式整體框架。Curr-ReFT 包含兩個(gè)連續(xù)的訓(xùn)練階段:1.課程強(qiáng)化學(xué)習(xí):通過(guò)與任務(wù)復(fù)雜度匹配的獎(jiǎng)勵(lì)機(jī)制,逐步提升任務(wù)難度。2.基于拒絕采樣的自我改進(jìn):維持 LLM 模型的基礎(chǔ)能力。
Curr-ReFT 包含兩個(gè)連續(xù)的訓(xùn)練階段:
課程強(qiáng)化學(xué)習(xí):通過(guò)難度感知的獎(jiǎng)勵(lì)設(shè)計(jì)確保模型能力的穩(wěn)步提升,從基礎(chǔ)的視覺(jué)感知逐步過(guò)渡到復(fù)雜的推理任務(wù)。
基于拒絕采樣的自我改進(jìn):通過(guò)從高質(zhì)量的多模態(tài)和語(yǔ)言樣本中進(jìn)行選擇性學(xué)習(xí),維持 VLMs 的基礎(chǔ)能力。

圖 3. 訓(xùn)練數(shù)據(jù)組織架構(gòu)圖。 (a) 課程強(qiáng)化學(xué)習(xí)的三階段漸進(jìn)式響應(yīng)格式示例。展示了任務(wù)從簡(jiǎn)單到困難的遞進(jìn)過(guò)程,呈現(xiàn)不同階段的響應(yīng)格式變化。 (b) 拒絕采樣 SFT 階段使用的數(shù)據(jù)來(lái)源分布。
Stage1:課程強(qiáng)化學(xué)習(xí)(Curriculum Reinforcement Learning)
課程學(xué)習(xí)(Curriculum Learning,CL)作為一種教學(xué)式訓(xùn)練策略,其核心思想是讓模型循序漸進(jìn)地接觸復(fù)雜度遞增的任務(wù)。
針對(duì)強(qiáng)化學(xué)習(xí)中普遍存在的訓(xùn)練不穩(wěn)定性和收斂性問(wèn)題,我們創(chuàng)新性地將課程學(xué)習(xí)與 GRPO 相結(jié)合,突破了傳統(tǒng)基于樣本難度評(píng)估的局限,轉(zhuǎn)而關(guān)注任務(wù)層面的漸進(jìn)式學(xué)習(xí)。
本研究的關(guān)鍵創(chuàng)新點(diǎn)在于設(shè)計(jì)了難度感知的獎(jiǎng)勵(lì)機(jī)制,該機(jī)制與任務(wù)的自然進(jìn)階路徑相匹配,具體包括三個(gè)遞進(jìn)階段:
二元決策階段(Binary Decision)
多項(xiàng)選擇階段(Multiple Choice)
開(kāi)放式回答階段(Open-ended Response)
這一課程強(qiáng)化學(xué)習(xí)(Curr-RL)框架通過(guò)精確校準(zhǔn)任務(wù)復(fù)雜度對(duì)應(yīng)的獎(jiǎng)勵(lì)機(jī)制,成功實(shí)現(xiàn)了視覺(jué)感知和數(shù)學(xué)推理任務(wù)的穩(wěn)定優(yōu)化過(guò)程。
Stage2:拒絕采樣自我增強(qiáng)(Rejected Sample based Self-improvement)
數(shù)據(jù)準(zhǔn)備過(guò)程涉及對(duì)綜合數(shù)據(jù)集的系統(tǒng)采樣。我們使用 GPT-4-O 作為獎(jiǎng)勵(lì)模型,從多個(gè)維度評(píng)估生成的響應(yīng),評(píng)估標(biāo)準(zhǔn)包括:準(zhǔn)確性、邏輯一致性、格式規(guī)范性、語(yǔ)言流暢度。
所有響應(yīng)在 0-100 分范圍內(nèi)進(jìn)行量化評(píng)估。得分超過(guò) 85 分的響應(yīng)及其對(duì)應(yīng)的問(wèn)題會(huì)被納入增強(qiáng)數(shù)據(jù)集。最終整理的數(shù)據(jù)集包含 1,520 個(gè)高質(zhì)量樣本,涵蓋多個(gè)領(lǐng)域:數(shù)學(xué)、科學(xué)、通用場(chǎng)景的通用知識(shí)。數(shù)據(jù)分布如下:
1、數(shù)學(xué)領(lǐng)域(共 700 條數(shù)據(jù)):
多模態(tài)數(shù)據(jù)(300 條):
Geometry3K_MathV360K(100 條)
Geo170k_qa(100 條)
Geomverse(100 條)
純文本數(shù)據(jù):
SK1.1 數(shù)學(xué)題(400 條)
2、科學(xué)領(lǐng)域(共 320 條數(shù)據(jù)):
多模態(tài)數(shù)據(jù)(220 條):
Scienceqa_cauldron(100 條)
Scienceqa_nona_context(120 條)
純文本數(shù)據(jù):
SK1.1 科學(xué)題(100 條)
3、通識(shí)領(lǐng)域(共 500 條多模態(tài)數(shù)據(jù)):
Illava_cot_100k(300 條)
Visual7w(100 條)
VSR(100 條)
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證我們的模型在多模態(tài)數(shù)學(xué)推理任務(wù)中的表現(xiàn),我們進(jìn)行了廣泛的實(shí)驗(yàn),并在多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了測(cè)試。以下是實(shí)驗(yàn)部分的詳細(xì)介紹:
實(shí)驗(yàn)設(shè)置
1、 Visual Datasets
我們構(gòu)建了一個(gè)全面的評(píng)估框架,涵蓋視覺(jué)檢測(cè)、視覺(jué)分類(lèi)和多模態(tài)數(shù)學(xué)推理三個(gè)主要任務(wù),以評(píng)估強(qiáng)化學(xué)習(xí)對(duì)視覺(jué)語(yǔ)言模型的有效性和泛化能力。
視覺(jué)檢測(cè):使用 RefCOCO 和 RefGta 數(shù)據(jù)集。
視覺(jué)分類(lèi):采用 RefCOCO、RefCOCOg和 Pascal-VOC 數(shù)據(jù)集。
多模態(tài)數(shù)學(xué)推理:結(jié)合 Math360K、Geo170K 和 CLEVER-70k-Counting 數(shù)據(jù)集。
2、Benchmarks
我們?cè)诙鄠€(gè)權(quán)威基準(zhǔn)數(shù)據(jù)集上評(píng)估了模型的表現(xiàn),包括:
MathVisa:綜合數(shù)學(xué)基準(zhǔn)。
MATH:高中競(jìng)賽級(jí)別數(shù)學(xué)問(wèn)題。
AI2D:小學(xué)科學(xué)圖表及相關(guān)問(wèn)題。
MMVet 和 MMBench:復(fù)雜推理和多模態(tài)能力評(píng)估。
實(shí)驗(yàn)結(jié)果
我們展示了使用課程強(qiáng)化微調(diào)(Curr-ReFT)訓(xùn)練的模型在多模態(tài)任務(wù)上的顯著性能提升,特別是在跨領(lǐng)域泛化能力和復(fù)雜推理任務(wù)方面。
與傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法相比,我們的方法不僅提高了準(zhǔn)確率,還增強(qiáng)了模型處理未見(jiàn)過(guò)的數(shù)據(jù)的能力。以下表格展示了不同訓(xùn)練方法在域內(nèi)和域外數(shù)據(jù)集上的性能對(duì)比。具體包括傳統(tǒng)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)兩種方法:

通過(guò)這些實(shí)驗(yàn)結(jié)果可以看出,強(qiáng)化學(xué)習(xí)訓(xùn)練(RL)方法在提高模型的域內(nèi)和域外表現(xiàn)方面具有顯著優(yōu)勢(shì),尤其是在處理未見(jiàn)過(guò)的數(shù)據(jù)時(shí),能夠保持較高的準(zhǔn)確率。
Visual Datasets 上不同方法模型的測(cè)試結(jié)果如下:

為了驗(yàn)證 Curr-ReFT 的泛化性以及使用后不會(huì)削弱模型在其他領(lǐng)域的推理能力,我們?cè)诙嗄B(tài)領(lǐng)域多個(gè) Benchmark 數(shù)據(jù)集上進(jìn)行驗(yàn)證。Benchmarks 上不同方法模型的測(cè)試結(jié)果如下(評(píng)測(cè)集裁判模型使用 GPT-3.5):

總結(jié)
本研究聚焦于提升小規(guī)模視覺(jué)-語(yǔ)言模型(VLMs)在推理能力和域外(OOD)泛化性能兩個(gè)關(guān)鍵方面的表現(xiàn)。通過(guò)實(shí)證研究,我們發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)不僅能有效提升模型的推理能力,更在視覺(jué)任務(wù)中展現(xiàn)出超出預(yù)期的泛化性能提升。
基于這一重要發(fā)現(xiàn),我們提出了創(chuàng)新性的課程式強(qiáng)化學(xué)習(xí)微調(diào)(Curr-ReFT)后訓(xùn)練范式。該方法巧妙地融合了漸進(jìn)式課程學(xué)習(xí)與拒絕采樣策略。Curr-ReFT 通過(guò)兩個(gè)關(guān)鍵機(jī)制:
任務(wù)復(fù)雜度的漸進(jìn)式提升
高質(zhì)量樣本的選擇性學(xué)習(xí) 成功實(shí)現(xiàn)了模型性能的顯著提升。
熱門(mén)跟貼