- 夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一個7B獎勵模型搞定全學(xué)科,大模型強化學(xué)習(xí)不止數(shù)學(xué)和代碼。
o1/r1的強化學(xué)習(xí)很強,但主要探索了數(shù)學(xué)和代碼領(lǐng)域,因為這兩個領(lǐng)域的數(shù)據(jù)結(jié)構(gòu)化程度高,獎勵函數(shù)/獎勵模型比較好設(shè)計。
那么,想提升大模型在其他學(xué)科領(lǐng)域的能力該怎么辦?
騰訊&蘇州大學(xué)團隊提出新框架RLVR,將強化學(xué)習(xí)訓(xùn)練擴展到醫(yī)學(xué)、化學(xué)、法律、心理學(xué)、經(jīng)濟學(xué)等多學(xué)科。
RLVR使用基于生成模型的軟獎勵,與傳統(tǒng)基于二元規(guī)則的獎勵相比,在泛化、穩(wěn)健性和可擴展性方面有顯著的提升。

除論文外,還開源了獎勵模型和多學(xué)科數(shù)據(jù)集。

7B獎勵模型搞定全學(xué)科
研究基于一個有趣的發(fā)現(xiàn):當(dāng)任務(wù)有客觀參考答案時,不同大型語言模型在做二元判斷(正確/錯誤)時表現(xiàn)出高度一致性。
這或許意味著,并不需要在每個領(lǐng)域都訓(xùn)練一個大規(guī)模的獎勵模型。相反,直接用現(xiàn)成的大語言模型來充當(dāng)驗證器就能有效。
像這樣的二元獎勵雖然簡單直接,但在參考答案缺乏結(jié)構(gòu)化的領(lǐng)域又不直接適用。
于是研究團隊進一步引入基于模型的軟獎勵(model-basedsoft scroing),相比直接給出0或1的二元硬標(biāo)簽,軟獎勵根據(jù)生成式驗證器判斷的置信度打分,有了更高的靈活性。
受啟發(fā)于“大模型判斷高度一致”的發(fā)現(xiàn),團隊用72B參數(shù)的Qwen2.5-Instruct蒸餾出一個7B的獎勵模型。蒸餾過程不需要領(lǐng)域特定的標(biāo)注,完全依靠在線探索階段采集的數(shù)據(jù)進行訓(xùn)練。
整個過程分為3步流水線:

實驗數(shù)據(jù)從ExamQA中隨機采樣了6000個問題,廣泛分布于理工人文各學(xué)科。

實驗對比基礎(chǔ)模型(Base)、微調(diào)基礎(chǔ)模型(SFT)、基于規(guī)則的RL、使用SFT模型作為驗證器,以及本文蒸餾的RM-7B模型作為驗證器的多種方法,有以下結(jié)論:
- RM-7B在自由形式答案任務(wù)中表現(xiàn)出色
- 基于模型的獎勵在處理非結(jié)構(gòu)化參考答案場景中優(yōu)于基于規(guī)則的獎勵
- 軟獎勵在處理多學(xué)科任務(wù)中,面對復(fù)雜判斷時比二元獎勵表現(xiàn)更好

此外實驗還驗證了基于模型的獎勵在數(shù)據(jù)量增加時可擴展性更好。

在討論部分,作者指出本研究中未使用思維鏈推理(CoT),雖然CoT在有參考和無參考的場景中都有用,但對于評估同語言的參考答案和模型響應(yīng)之間的語義等價性,深入的推理依據(jù)是否必要仍有待研究。此外,在RLVR的過程獎勵建模中,當(dāng)中間步驟缺乏直接監(jiān)督時,如何分配獎勵也是一個開放問題。
本研究也不對參考答案或模型響應(yīng)設(shè)置格式約束,這樣做好處是減少了數(shù)據(jù)標(biāo)準(zhǔn)化和模式設(shè)計的人力投入,但格式相關(guān)約束和獎勵在這種情況下的作用仍需重新審視。
One More Thing
論文作者騰訊涂兆鵬發(fā)帖介紹了這篇文章,探討強化學(xué)習(xí)是否可以擴展到數(shù)學(xué)和編碼任務(wù)之外。

評論區(qū)有網(wǎng)友指出很有可能成立,因為不同的訓(xùn)練方法可以看成有不同邊界條件的學(xué)習(xí)空間。
涂兆鵬也認為這個視角與RLVR方法的觀點一致。

論文地址:
https://arxiv.org/abs/2503.23829
HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f
[1]https://x.com/tuzhaopeng/status/1906975869538914570
熱門跟貼