
來自DeepSeek和清華的一篇新研究《通用獎(jiǎng)勵(lì)模型的推理時(shí)擴(kuò)展》(Inference-Time Scaling for Generalist Reward Modeling)找到強(qiáng)化學(xué)習(xí)新方法

強(qiáng)化學(xué)習(xí)(RL)已被廣泛應(yīng)用于大語言模型(LLM)的大規(guī)模訓(xùn)練后階段。近期,通過強(qiáng)化學(xué)習(xí)來激勵(lì)LLM推理能力的研究表明,恰當(dāng)?shù)膶W(xué)習(xí)方法能夠?qū)崿F(xiàn)有效的推理時(shí)性能擴(kuò)展(inference-time scalability)。然而,強(qiáng)化學(xué)習(xí)面臨的一個(gè)關(guān)鍵挑戰(zhàn)是,如何在那些沒有明確答案或規(guī)則的通用領(lǐng)域中,為L(zhǎng)LM獲取準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào)
在這篇論文中,DeepSeek研究了如何針對(duì)通用查詢,通過增加推理計(jì)算量來改進(jìn)獎(jiǎng)勵(lì)建模(RM)——即實(shí)現(xiàn)通用獎(jiǎng)勵(lì)模型(generalist RM)的推理時(shí)可擴(kuò)展性;并進(jìn)一步探討了如何通過合適的學(xué)習(xí)方法,提升性能-計(jì)算量擴(kuò)展(performance-compute scaling)的有效性
在獎(jiǎng)勵(lì)模型方面,研究人員采用了逐點(diǎn)生成式獎(jiǎng)勵(lì)建模(pointwise generative reward modeling, GRM),因?yàn)樗鼘?duì)不同的輸入類型具有靈活性,并具備推理時(shí)擴(kuò)展的潛力。在學(xué)習(xí)方法上,DeepSeek提出了自洽原則評(píng)價(jià)微調(diào)(Self-Principled Critique Tuning, SPCT):通過在線強(qiáng)化學(xué)習(xí)來培養(yǎng)GRM中可擴(kuò)展的獎(jiǎng)勵(lì)生成行為,使其能夠自適應(yīng)地生成評(píng)價(jià)原則并給出精準(zhǔn)的評(píng)價(jià),最終形成了DeepSeek-GRM模型
此外,為了實(shí)現(xiàn)有效的推理時(shí)擴(kuò)展,使用并行采樣來增加計(jì)算量使用,并引入了一個(gè)元獎(jiǎng)勵(lì)模型(meta RM)來指導(dǎo)投票過程,以獲得更好的擴(kuò)展性能
實(shí)驗(yàn)證明,SPCT顯著提升了GRM的質(zhì)量和可擴(kuò)展性,在多個(gè)獎(jiǎng)勵(lì)模型基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于現(xiàn)有方法和模型,且沒有引入嚴(yán)重偏見;并且,它能取得比訓(xùn)練時(shí)擴(kuò)展(training-time scaling,即單純?cè)龃竽P鸵?guī)模)更好的性能
以下是詳細(xì)解讀
DeepSeek的解法:Pointwise GRM + SPCT + Meta RM
他們提出了一套組合拳:
基礎(chǔ)架構(gòu):Pointwise Generative Reward Model (GRM)
是什么:這是一種生成式的獎(jiǎng)勵(lì)模型,它不直接輸出分?jǐn)?shù),而是生成評(píng)價(jià)性的文本(Critique),比如“回答1在邏輯上更清晰,但細(xì)節(jié)不足...最終得分[[8, 6]]分(滿分10)”。分?jǐn)?shù)是從這些文本里提取出來的

為什么選它:因?yàn)樗烊混`活,既能評(píng)判單個(gè)回答,也能同時(shí)評(píng)判多個(gè)回答(Pointwise);而且生成的評(píng)價(jià)文本本身就有多樣性,為推理時(shí)擴(kuò)展提供了可能
核心訓(xùn)練方法:Self-Principled Critique Tuning (SPCT)
靈感來源:研究人員發(fā)現(xiàn),如果給獎(jiǎng)勵(lì)模型提供一些好的評(píng)價(jià)原則(Principles),比如“評(píng)分原則1:邏輯連貫性(權(quán)重35%);原則2:信息完整性(權(quán)重20%)...”,獎(jiǎng)勵(lì)模型的評(píng)分質(zhì)量能顯著提升
SPCT怎么做:這是一種結(jié)合了拒絕采樣微調(diào)(Rejective Fine-Tuning, RFT)和基于規(guī)則的在線強(qiáng)化學(xué)習(xí)(Rule-based Online RL的方法
?RFT (冷啟動(dòng)):先用一些有標(biāo)注的數(shù)據(jù)微調(diào)GRM,讓它學(xué)會(huì)生成符合格式的原則和評(píng)價(jià),并過濾掉明顯錯(cuò)誤的評(píng)價(jià)。
?Online RL (核心):讓GRM自己實(shí)時(shí)生成評(píng)價(jià)原則和對(duì)應(yīng)的評(píng)價(jià)文本,然后根據(jù)預(yù)設(shè)規(guī)則(比如生成的評(píng)價(jià)結(jié)果是否與真實(shí)偏好一致)給予獎(jiǎng)勵(lì)信號(hào),通過RL不斷優(yōu)化GRM,讓它學(xué)會(huì)動(dòng)態(tài)地、針對(duì)性地生成高質(zhì)量的原則和準(zhǔn)確的評(píng)價(jià)。這很關(guān)鍵,模型不再依賴固定的原則,而是學(xué)會(huì)了“自己思考該怎么評(píng)”
并行采樣與投票:推理時(shí),讓GRM對(duì)同一個(gè)問題和若干回答,并行生成k
份不同的“原則+評(píng)價(jià)+分?jǐn)?shù)”。因?yàn)槊看紊傻脑瓌t可能不同,評(píng)價(jià)角度也不同,最后把這k
次評(píng)分(比如通過簡(jiǎn)單投票或加總)綜合起來,得到一個(gè)更魯棒、更精細(xì)的最終獎(jiǎng)勵(lì)。采樣次數(shù)k
越多,相當(dāng)于考慮的評(píng)價(jià)維度越豐富,結(jié)果越好
Meta RM (裁判的裁判):為了解決并行采樣中可能出現(xiàn)的低質(zhì)量評(píng)價(jià)干擾結(jié)果的問題,他們還訓(xùn)練了一個(gè)元獎(jiǎng)勵(lì)模型(Meta RM)。這個(gè)Meta RM專門用來判斷GRM生成的某一份“原則+評(píng)價(jià)”的質(zhì)量高低。在最終投票時(shí),可以用Meta RM篩選掉低質(zhì)量的評(píng)價(jià),或者給高質(zhì)量的評(píng)價(jià)更高的權(quán)重,進(jìn)一步提升擴(kuò)展的效果
效果炸裂:推理擴(kuò)展 > 訓(xùn)練擴(kuò)展?
說了這么多,效果如何?
性能超越:基于Gemma-2-27B訓(xùn)練的DeepSeek-GRM-27B,在多個(gè)RM基準(zhǔn)測(cè)試上,顯著優(yōu)于之前的同類方法(包括LLM-as-a-Judge、PairRM等),并且和Nemotron-4-340B、GPT-40這些強(qiáng)大的閉源模型表現(xiàn)相當(dāng)

推理時(shí)擴(kuò)展性超強(qiáng):
通過增加采樣次數(shù)k
,DeepSeek-GRM的性能持續(xù)提升,效果遠(yuǎn)超其他模型
最驚人的是:在Reward Bench測(cè)試集上,DeepSeek-GRM-27B通過推理時(shí)擴(kuò)展(k=32采樣+Meta RM引導(dǎo)投票),其性能竟然可以媲美甚至超過DeepSeek自家訓(xùn)練的671B MoE模型的零樣本推理性能!這意味著,用增加推理計(jì)算量的方式,可以在小模型上達(dá)到甚至超越巨大模型的性能,這在成本和效率上意義重大!

偏見更少:相比Scalar或Semi-scalar RM,GRM在不同類型的任務(wù)上表現(xiàn)更均衡,偏見更小
SPCT很關(guān)鍵:消融實(shí)驗(yàn)證明,SPCT中的原則生成和在線RL部分都至關(guān)重要。即使沒有RFT冷啟動(dòng),在線RL也能大幅提升性能
給大家用deepseek來個(gè)可視化總結(jié)

參考:
https://arxiv.org/abs/2504.02495
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?
用你的贊和在看告訴我~
求贊
熱門跟貼