• 夢(mèng)晨 發(fā)自 凹非寺
    量子位 | 公眾號(hào) QbitAI

一個(gè)7B獎(jiǎng)勵(lì)模型搞定全學(xué)科,大模型強(qiáng)化學(xué)習(xí)不止數(shù)學(xué)和代碼。

o1/r1的強(qiáng)化學(xué)習(xí)很強(qiáng),但主要探索了數(shù)學(xué)和代碼領(lǐng)域,因?yàn)檫@兩個(gè)領(lǐng)域的數(shù)據(jù)結(jié)構(gòu)化程度高,獎(jiǎng)勵(lì)函數(shù)/獎(jiǎng)勵(lì)模型比較好設(shè)計(jì)。

那么,想提升大模型在其他學(xué)科領(lǐng)域的能力該怎么辦?

騰訊&蘇州大學(xué)團(tuán)隊(duì)提出新框架RLVR,將強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到醫(yī)學(xué)、化學(xué)、法律、心理學(xué)、經(jīng)濟(jì)學(xué)等多學(xué)科。

RLVR使用基于生成模型的軟獎(jiǎng)勵(lì),與傳統(tǒng)基于二元規(guī)則的獎(jiǎng)勵(lì)相比,在泛化、穩(wěn)健性和可擴(kuò)展性方面有顯著的提升。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除論文外,還開(kāi)源了獎(jiǎng)勵(lì)模型和多學(xué)科數(shù)據(jù)集。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

7B獎(jiǎng)勵(lì)模型搞定全學(xué)科

研究基于一個(gè)有趣的發(fā)現(xiàn):當(dāng)任務(wù)有客觀參考答案時(shí),不同大型語(yǔ)言模型在做二元判斷(正確/錯(cuò)誤)時(shí)表現(xiàn)出高度一致性。

這或許意味著,并不需要在每個(gè)領(lǐng)域都訓(xùn)練一個(gè)大規(guī)模的獎(jiǎng)勵(lì)模型。相反,直接用現(xiàn)成的大語(yǔ)言模型來(lái)充當(dāng)驗(yàn)證器就能有效。

像這樣的二元獎(jiǎng)勵(lì)雖然簡(jiǎn)單直接,但在參考答案缺乏結(jié)構(gòu)化的領(lǐng)域又不直接適用。

于是研究團(tuán)隊(duì)進(jìn)一步引入基于模型的軟獎(jiǎng)勵(lì)(model-basedsoft scroing),相比直接給出0或1的二元硬標(biāo)簽,軟獎(jiǎng)勵(lì)根據(jù)生成式驗(yàn)證器判斷的置信度打分,有了更高的靈活性。

受啟發(fā)于“大模型判斷高度一致”的發(fā)現(xiàn),團(tuán)隊(duì)用72B參數(shù)的Qwen2.5-Instruct蒸餾出一個(gè)7B的獎(jiǎng)勵(lì)模型。蒸餾過(guò)程不需要領(lǐng)域特定的標(biāo)注,完全依靠在線探索階段采集的數(shù)據(jù)進(jìn)行訓(xùn)練。

整個(gè)過(guò)程分為3步流水線:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)數(shù)據(jù)從ExamQA中隨機(jī)采樣了6000個(gè)問(wèn)題,廣泛分布于理工人文各學(xué)科。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)對(duì)比基礎(chǔ)模型(Base)、微調(diào)基礎(chǔ)模型(SFT)、基于規(guī)則的RL、使用SFT模型作為驗(yàn)證器,以及本文蒸餾的RM-7B模型作為驗(yàn)證器的多種方法,有以下結(jié)論:

  • RM-7B在自由形式答案任務(wù)中表現(xiàn)出色
  • 基于模型的獎(jiǎng)勵(lì)在處理非結(jié)構(gòu)化參考答案場(chǎng)景中優(yōu)于基于規(guī)則的獎(jiǎng)勵(lì)
  • 軟獎(jiǎng)勵(lì)在處理多學(xué)科任務(wù)中,面對(duì)復(fù)雜判斷時(shí)比二元獎(jiǎng)勵(lì)表現(xiàn)更好

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外實(shí)驗(yàn)還驗(yàn)證了基于模型的獎(jiǎng)勵(lì)在數(shù)據(jù)量增加時(shí)可擴(kuò)展性更好。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在討論部分,作者指出本研究中未使用思維鏈推理(CoT),雖然CoT在有參考和無(wú)參考的場(chǎng)景中都有用,但對(duì)于評(píng)估同語(yǔ)言的參考答案和模型響應(yīng)之間的語(yǔ)義等價(jià)性,深入的推理依據(jù)是否必要仍有待研究。此外,在RLVR的過(guò)程獎(jiǎng)勵(lì)建模中,當(dāng)中間步驟缺乏直接監(jiān)督時(shí),如何分配獎(jiǎng)勵(lì)也是一個(gè)開(kāi)放問(wèn)題。

本研究也不對(duì)參考答案或模型響應(yīng)設(shè)置格式約束,這樣做好處是減少了數(shù)據(jù)標(biāo)準(zhǔn)化和模式設(shè)計(jì)的人力投入,但格式相關(guān)約束和獎(jiǎng)勵(lì)在這種情況下的作用仍需重新審視。

One More Thing

論文作者騰訊涂兆鵬發(fā)帖介紹了這篇文章,探討強(qiáng)化學(xué)習(xí)是否可以擴(kuò)展到數(shù)學(xué)和編碼任務(wù)之外。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

評(píng)論區(qū)有網(wǎng)友指出很有可能成立,因?yàn)椴煌挠?xùn)練方法可以看成有不同邊界條件的學(xué)習(xí)空間。

涂兆鵬也認(rèn)為這個(gè)視角與RLVR方法的觀點(diǎn)一致。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文地址:
https://arxiv.org/abs/2503.23829

HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f

[1]https://x.com/tuzhaopeng/status/1906975869538914570