作者|沐風(fēng)
來(lái)源|AI先鋒官
近日,DeepSeek和清華大學(xué)共同發(fā)表了一篇論文《Inference-Time Scaling for Generalist Reward Modeling》,探討了獎(jiǎng)勵(lì)模型的推理時(shí)Scaling方法。
現(xiàn)在,強(qiáng)化學(xué)習(xí)(RL)已廣泛應(yīng)用于LLM的大規(guī)模后訓(xùn)練階段。
簡(jiǎn)單說(shuō),就是先訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型 (Reward Model, RM) 來(lái)模仿人類(lèi)對(duì) LLM 輸出的偏好(比如判斷哪個(gè)回答更好,或者給回答打分),然后用這個(gè)RM作為“獎(jiǎng)勵(lì)信號(hào)”去指導(dǎo) LLM 的進(jìn)一步學(xué)習(xí),讓LLM生成更符合人類(lèi)期望的內(nèi)容。
但現(xiàn)有的RM在通用領(lǐng)域卻表現(xiàn)出受限的情況,尤其是在面對(duì)復(fù)雜、多樣化任務(wù)的時(shí)候。
因此,就出現(xiàn)了兩個(gè)關(guān)鍵挑戰(zhàn)點(diǎn)。
一個(gè)是通用RM需要靈活性(支持單響應(yīng)、多響應(yīng)評(píng)分)和準(zhǔn)確性(跨領(lǐng)域高質(zhì)量獎(jiǎng)勵(lì))。
另一個(gè)則是現(xiàn)有RM(如標(biāo)量RM、半標(biāo)量RM)在推理時(shí)擴(kuò)展性差,無(wú)法通過(guò)增加計(jì)算資源顯著提升性能。

是否有可能通過(guò)增加推理計(jì)算資源,來(lái)提升通用查詢(xún)場(chǎng)景下RM的能力,即通用RM在推理階段的可擴(kuò)展性呢?
DeepSeek和清華的研究者發(fā)現(xiàn),在RM方法上采用點(diǎn)式生成式獎(jiǎng)勵(lì)建模(Pointwise Generative Reward Modeling, GRM),就能提升模型對(duì)不同輸入類(lèi)型的靈活適應(yīng)能力,并具備推理階段可擴(kuò)展的潛力。
對(duì)此,這篇論文提出了一種新的訓(xùn)練方法“SPCT”(Self-Principled Critique Tuning),可以理解為“自定原則、自我點(diǎn)評(píng)”的調(diào)優(yōu)方法。
SPCT 主要用在GRM上,通過(guò)在線強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練GRM,使其能動(dòng)態(tài)生成高質(zhì)量的原則(principles)和點(diǎn)評(píng)(critiques),從而提升獎(jiǎng)勵(lì)質(zhì)量。
SPCT的核心思想是: GRM先評(píng)估應(yīng)該看重哪些“原則” (Principles),然后再根據(jù)這些剛定好的原則去寫(xiě)一段“點(diǎn)評(píng)”(Critique),最后再?gòu)狞c(diǎn)評(píng)中提煉出分?jǐn)?shù)。
簡(jiǎn)單來(lái)說(shuō),SPCT就是把RM的工作流程從“直接給分”變成了“定原則-寫(xiě)點(diǎn)評(píng)-提分?jǐn)?shù)”的間接評(píng)估。
整體來(lái)看,SPCT包括兩個(gè)階段,它們分別是:
拒絕式微調(diào)(rejective fine-tuning)作為冷啟動(dòng)階段,通過(guò)采樣和拒絕策略生成初始數(shù)據(jù)。
基于規(guī)則的在線RL,通過(guò)提升生成的原則和點(diǎn)評(píng)內(nèi)容來(lái)強(qiáng)化通用獎(jiǎng)勵(lì)的生成過(guò)程。

另外,SPCT還可以促進(jìn)GRM在推理階段的可擴(kuò)展行為。
他們基于Gemma-2-27B經(jīng)過(guò)SPCT訓(xùn)練后推出了DeepSeek-GRM-27B。
可以發(fā)現(xiàn),SPCT顯著提高了GRM的質(zhì)量和可擴(kuò)展性,在多個(gè)綜合RM基準(zhǔn)測(cè)試中優(yōu)于現(xiàn)有方法和模型。
強(qiáng)制模型先想原則再點(diǎn)評(píng),評(píng)估結(jié)果自然更準(zhǔn)確、更可靠。
另外,他們還引入一個(gè)元獎(jiǎng)勵(lì)模型(Meta RM),專(zhuān)門(mén)評(píng)估每次采樣生成的 (原則, 點(diǎn)評(píng)) 的質(zhì)量,以提升擴(kuò)展性能。
SPCT的另外一個(gè)核心亮點(diǎn)是“越算越準(zhǔn)”。
對(duì)同一個(gè)問(wèn)題和回答,讓模型獨(dú)立地、帶點(diǎn)隨機(jī)性地(比如 temperature > 0)思考 k 次。因?yàn)橄敕ǎㄉ蛇^(guò)程)有多樣性,每次可能會(huì)得到不同的原則、點(diǎn)評(píng)和分?jǐn)?shù)。
論文里的實(shí)驗(yàn)結(jié)果清楚地顯示,隨著采樣次數(shù) k 增加,不管是Voting還是Meta RM,DeepSeek-GRM 的性能都會(huì)往上漲,證明了它確實(shí)能有效地“越算越準(zhǔn)”。

總的來(lái)說(shuō),SPCT 是個(gè)挺有創(chuàng)意的 GRM 訓(xùn)練方法。它通過(guò)讓模型學(xué)會(huì)“先定規(guī)則、再點(diǎn)評(píng)打分”的模式,實(shí)打?qū)嵉靥嵘霜?jiǎng)勵(lì)模型的準(zhǔn)確性、透明度、靈活性和通用性。
最關(guān)鍵的是,它訓(xùn)練出的GRM具備了出色的推理時(shí)可擴(kuò)展性,可以通過(guò)多花算力來(lái)?yè)Q取更高的評(píng)估質(zhì)量。
論文也提到,未來(lái)可以繼續(xù)優(yōu)化 GRM 的效率,或者讓它學(xué)會(huì)使用工具來(lái)處理更復(fù)雜的評(píng)估任務(wù)。
論文地址:
https://arxiv.org/pdf/2504.02495
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型,順便學(xué)一些AI搞錢(qián)技能。
往期文章回顧
熱門(mén)跟貼