此前有消息稱 DeepSeek 或?qū)⑻崆巴瞥鲈ㄓ谠谖逶路莩醢l(fā)布的 R2 模型。消息是否屬實(shí)還有待考量,不過在此之前,DeepSeek 剛剛新發(fā)布的一項(xiàng)關(guān)于推理時(shí)縮放的新研究,或許能讓我們窺到 R2 的一角。
當(dāng)前主流的 AI 模型大多采用了強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL),尤其是基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)作為后訓(xùn)練的核心方法。其核心在于訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(Reward Model, RM)來模擬人類偏好,并指導(dǎo) LLM 優(yōu)化。但傳統(tǒng) RLHF 依賴大量人類標(biāo)注,成本高昂且擴(kuò)展性受限,尤其難以處理復(fù)雜和主觀性強(qiáng)的任務(wù)。因此,構(gòu)建更強(qiáng)大、更通用的獎(jiǎng)勵(lì)模型成為突破瓶頸的關(guān)鍵。
現(xiàn)有獎(jiǎng)勵(lì)模型范式,如標(biāo)量評(píng)分(Scalar RM)或成對(duì)比較(Pairwise RM),在通用性和靈活性上存在局限。同時(shí),隨著推理時(shí)縮放(增加推理計(jì)算量)越發(fā)成為一個(gè)性能提升的重要途徑,如果獎(jiǎng)勵(lì)模型能在推理時(shí)通過更多計(jì)算變得更準(zhǔn)確,將直接提升 LLM 的對(duì)齊效果。
在此背景下,DeepSeek 聯(lián)合清華大學(xué)的研究團(tuán)隊(duì),提出了一種名為 DeepSeek-GRM 的通用獎(jiǎng)勵(lì)模型及其訓(xùn)練方法 SPCT(Self-Principled Critique Tuning,自我原則化批判調(diào)優(yōu)),旨在解決通用獎(jiǎng)勵(lì)模型的構(gòu)建難題,并系統(tǒng)探索利用推理時(shí)間縮放提升其性能的潛力。
相關(guān)論文以《通用獎(jiǎng)勵(lì)模型的推理時(shí)縮放》(Inference-Time Scaling for Generalist Reward Modeling)為題發(fā)表在預(yù)印本平臺(tái) arXiv 上。

研究首先關(guān)注獎(jiǎng)勵(lì)模型的結(jié)構(gòu)范式。團(tuán)隊(duì)認(rèn)為,為了實(shí)現(xiàn)通用性和充分利用推理時(shí)間縮放的潛力,需要一種更靈活、表達(dá)能力更強(qiáng)的范式。他們最終選擇了生成式獎(jiǎng)勵(lì)建模(Generative Reward Modeling, GRM),并具體采用了逐點(diǎn)式(Pointwise)的評(píng)分機(jī)制。
Pointwise GRM 的工作方式與傳統(tǒng) RM 不同。它不直接輸出分?jǐn)?shù)或排序,而是針對(duì)輸入的查詢和一組(一個(gè)或多個(gè))待評(píng)價(jià)的回答,生成一段結(jié)構(gòu)化的評(píng)價(jià)文本。
這段文本通常包含兩個(gè)主要部分:首先,模型會(huì)根據(jù)當(dāng)前的輸入內(nèi)容,自適應(yīng)地生成一系列評(píng)價(jià)原則,這些原則定義了評(píng)價(jià)的關(guān)注點(diǎn)和標(biāo)準(zhǔn),有時(shí)還會(huì)附帶各個(gè)原則的相對(duì)重要性(權(quán)重);其次,模型會(huì)基于這些生成的原則,對(duì)每一個(gè)回答進(jìn)行詳細(xì)的分析和批判,說明其優(yōu)缺點(diǎn)。最后,通過預(yù)設(shè)的解析規(guī)則,從生成的批判文本中提取出對(duì)每個(gè)回答的具體評(píng)分。

這種 Pointwise GRM 范式展現(xiàn)出兩大關(guān)鍵優(yōu)勢(shì):一是輸入靈活性。無論是評(píng)價(jià)單個(gè)回答,比較一對(duì)回答,還是需要對(duì)多個(gè)回答進(jìn)行獨(dú)立評(píng)分和排序,都可以使用統(tǒng)一的框架和模型進(jìn)行處理,極大地拓寬了模型的應(yīng)用范圍。
二是推理時(shí)縮放潛力。由于模型的核心行為是生成文本,因此在推理時(shí)進(jìn)行多次采樣變得非常自然且有意義。每次采樣可能產(chǎn)生不同的評(píng)價(jià)原則側(cè)重和批判分析角度。通過綜合這些多樣化的評(píng)價(jià)結(jié)果,有望獲得比單次生成更全面、更魯棒、更精細(xì)的最終評(píng)分,為利用推理計(jì)算提升獎(jiǎng)勵(lì)質(zhì)量提供了可能。
選擇了合適的模型范式后,關(guān)鍵在于如何有效訓(xùn)練,使 GRM 具備強(qiáng)大的通用評(píng)價(jià)能力,并能真正從推理時(shí)間縮放中受益。為此,團(tuán)隊(duì)設(shè)計(jì)了提出了一種名為 SPCT 的學(xué)習(xí)框架。
SPCT 的核心思想在于,對(duì)于通用的評(píng)價(jià)任務(wù),預(yù)先定義一套固定的、普適的評(píng)價(jià)標(biāo)準(zhǔn)(原則)是非常困難的。更有效的方式是讓模型學(xué)會(huì)根據(jù)具體的輸入(查詢和回答)動(dòng)態(tài)地、自適應(yīng)地生成最相關(guān)的評(píng)價(jià)原則,并基于這些原則進(jìn)行準(zhǔn)確的批判。這意味著模型需要從被動(dòng)應(yīng)用規(guī)則,轉(zhuǎn)變?yōu)橹鲃?dòng)構(gòu)建評(píng)價(jià)框架。
研究團(tuán)隊(duì)通過初步實(shí)驗(yàn)驗(yàn)證了原則的重要性:直接使用模型生成的原則效果有限,但如果提供經(jīng)過篩選的高質(zhì)量原則,獎(jiǎng)勵(lì)模型的準(zhǔn)確性會(huì)顯著提高。這表明,能否生成“好的原則”是實(shí)現(xiàn)高質(zhì)量獎(jiǎng)勵(lì)的關(guān)鍵。SPCT 的目標(biāo)就是訓(xùn)練模型掌握這種生成高質(zhì)量原則和準(zhǔn)確批判的能力。
SPCT的訓(xùn)練過程包含兩個(gè)階段:

第一階段是拒絕式微調(diào)(Rejective Fine-Tuning, RFT),作為模型的冷啟動(dòng)。此階段使用預(yù)訓(xùn)練的 LLM 作為基礎(chǔ)模型。研究人員利用包含查詢、回答和人類偏好標(biāo)簽的獎(jiǎng)勵(lì)模型數(shù)據(jù)集,讓模型嘗試生成“原則+批判”文本并提取評(píng)分。
關(guān)鍵在于“拒絕式”采樣策略:如果模型生成的評(píng)分結(jié)果與已知的人類偏好不符(例如,將較差的回答評(píng)為更優(yōu)),則該次生成的訓(xùn)練數(shù)據(jù)被視為“不正確”而被拒絕;另一方面,如果對(duì)于某個(gè)輸入,模型連續(xù)多次生成的評(píng)分結(jié)果都與人類偏好完全一致,這可能表明該任務(wù)過于簡(jiǎn)單,缺乏足夠的學(xué)習(xí)信號(hào),這類數(shù)據(jù)也會(huì)被視為“太容易”而被拒絕。
通過這種方式,模型得以專注于學(xué)習(xí)那些具有挑戰(zhàn)性且能幫助其更好理解人類偏好的樣本,從而快速掌握生成指定格式文本和初步區(qū)分回答優(yōu)劣的能力。此階段還結(jié)合了“提示式采樣”(輸入中包含最優(yōu)答案信息)和“非提示式采樣”,以平衡學(xué)習(xí)過程。
第二階段是基于規(guī)則的在線強(qiáng)化學(xué)習(xí)(Rule-Based Online RL)。RFT 階段提供了基礎(chǔ)能力,但要讓模型的原則生成和批判能力持續(xù)提升,適應(yīng)更廣泛場(chǎng)景,并為推理時(shí)間縮放做好準(zhǔn)備,需要在線優(yōu)化的介入。
在此階段,GRM 模型作為 RL 中的策略,根據(jù)實(shí)時(shí)輸入的查詢和回答,生成原則、批判并提取評(píng)分。研究人員設(shè)計(jì)了一套簡(jiǎn)單的準(zhǔn)確性規(guī)則作為獎(jiǎng)勵(lì)信號(hào):如果模型給出的評(píng)分能夠正確地將最優(yōu)回答排在首位(與數(shù)據(jù)集標(biāo)簽一致),則獲得正獎(jiǎng)勵(lì)(+1),否則獲得負(fù)獎(jiǎng)勵(lì)(-1)。這個(gè)獎(jiǎng)勵(lì)信號(hào)用于更新 GRM 模型的參數(shù)。
這個(gè)在線過程持續(xù)激勵(lì)模型去探索和學(xué)習(xí)如何生成那些能更可靠地區(qū)分回答質(zhì)量的原則和批判邏輯。這種訓(xùn)練方式旨在內(nèi)化模型的評(píng)價(jià)能力,使其在面對(duì)新情況時(shí)也能做出良好判斷,這對(duì)于推理時(shí)間縮放的有效性至關(guān)重要。研究團(tuán)隊(duì)還發(fā)現(xiàn),通過適當(dāng)調(diào)整 KL 散度懲罰(一種防止模型在優(yōu)化過程中偏離初始狀態(tài)過遠(yuǎn)的正則化技術(shù)),可以有效保證生成文本格式的穩(wěn)定性,并避免模型產(chǎn)生不必要的行為偏差。
經(jīng)過 SPCT 訓(xùn)練的 DeepSeek-GRM 模型,具備了通過增加推理階段計(jì)算量來提升性能的潛力。研究團(tuán)隊(duì)重點(diǎn)研究并實(shí)現(xiàn)了兩種推理時(shí)間縮放策略:
第一種是基于投票的縮放(Voting with Generated Rewards)。這是一種相對(duì)直接的方法。對(duì)于給定的查詢和一組待評(píng)價(jià)的回答,使用訓(xùn)練好的 DeepSeek-GRM 模型,設(shè)置一定的采樣隨機(jī)性(例如,temperature > 0),并行地進(jìn)行 k 次獨(dú)立的推理。每次推理都會(huì)生成一套可能不同的原則、批判和相應(yīng)的評(píng)分。
最后,將這 k 次推理得到的評(píng)分進(jìn)行聚合。對(duì)于 Pointwise 評(píng)分,通常的做法是將每個(gè)回答在 k 次采樣中獲得的分?jǐn)?shù)相加或取平均,得到最終的綜合評(píng)分,具體公式如下:

這種方法的好處在于,它不僅通過聚合多個(gè)評(píng)價(jià)視角來提高結(jié)果的魯棒性,而且通過求和等方式,實(shí)際上增加了最終獎(jiǎng)勵(lì)值的范圍和粒度(Granularity),使得模型能夠更好地區(qū)分質(zhì)量相近的回答。為了減少潛在的順序影響,每次采樣前還會(huì)對(duì)輸入回答的順序進(jìn)行隨機(jī)排列。
第二種是更進(jìn)一步的元獎(jiǎng)勵(lì)模型引導(dǎo)的投票(Meta Reward Modeling Guided Voting)。簡(jiǎn)單投票假設(shè)每次采樣的結(jié)果質(zhì)量相當(dāng),但在實(shí)際中,部分采樣可能由于隨機(jī)性或模型局限而產(chǎn)生較低質(zhì)量或有偏見的評(píng)價(jià)。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出訓(xùn)練一個(gè)元獎(jiǎng)勵(lì)模型(Meta Reward Model, Meta RM)。這個(gè) Meta RM 的作用是評(píng)估 DeepSeek-GRM 生成的每一次“原則+批判”輸出的質(zhì)量或可靠性。Meta RM 本身通常也是一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)模型(例如標(biāo)量 RM),它通過學(xué)習(xí)判斷 GRM 的輸出是否與基準(zhǔn)(如人類偏好)一致來進(jìn)行訓(xùn)練。
在推理時(shí),首先讓 DeepSeek-GRM 生成 k 份評(píng)價(jià)結(jié)果,然后使用Meta RM對(duì)這 k 份結(jié)果進(jìn)行評(píng)分,篩選出評(píng)分最高的 k_meta (k_meta ≤ k) 份結(jié)果,最后只基于這些被認(rèn)為是高質(zhì)量的評(píng)價(jià)結(jié)果進(jìn)行投票聚合。這種方法通過引入一個(gè)“質(zhì)量過濾器”,可以有效地剔除噪聲采樣,使得最終的聚合結(jié)果更加準(zhǔn)確,從而更充分地發(fā)揮推理時(shí)間縮放的優(yōu)勢(shì)。
研究團(tuán)隊(duì)在多個(gè)主流的獎(jiǎng)勵(lì)模型評(píng)估基準(zhǔn)(包括 Reward Bench, PPE, RMB, ReaLMistake)上,對(duì) DeepSeek-GRM 模型(基于不同尺寸的基礎(chǔ)模型)及其推理時(shí)間縮放策略進(jìn)行了全面的實(shí)驗(yàn)評(píng)估,并與多種公開的和其他基線方法進(jìn)行了對(duì)比。
實(shí)驗(yàn)結(jié)果清晰地展示了該研究方法的有效性:首先,即使在不進(jìn)行推理時(shí)間縮放的基礎(chǔ)設(shè)置下,經(jīng)過 SPCT 訓(xùn)練的 DeepSeek-GRM 模型在整體性能上已優(yōu)于同等規(guī)模的多種基線獎(jiǎng)勵(lì)模型,并展現(xiàn)出與一些大型閉源模型相競(jìng)爭(zhēng)的實(shí)力。
其次,SPCT 訓(xùn)練方法的有效性也得到了證實(shí),相比僅進(jìn)行 RFT 冷啟動(dòng),完整的 SPCT 流程帶來了顯著的性能提升,消融實(shí)驗(yàn)也證實(shí)了其關(guān)鍵組件(如原則生成、在線 RL)的貢獻(xiàn)。

再次,DeepSeek-GRM 展現(xiàn)了優(yōu)秀的推理時(shí)間縮放特性,隨著采樣次數(shù) k 的增加,模型性能持續(xù)穩(wěn)定提高,尤其是在 Meta RM 的引導(dǎo)下,提升效果更為明顯。
值得關(guān)注的是,實(shí)驗(yàn)數(shù)據(jù)表明,通過推理時(shí)間縮放(例如,在 27B 模型上進(jìn)行 32 次采樣并使用 Meta RM),其性能提升的幅度有時(shí)可以達(dá)到甚至超過通過數(shù)倍增加模型參數(shù)(訓(xùn)練時(shí)間縮放)所帶來的提升,顯示出推理時(shí)間縮放在提升獎(jiǎng)勵(lì)模型質(zhì)量方面可能具有更高的計(jì)算效率。
最后,相比一些偏科嚴(yán)重的標(biāo)量或半標(biāo)量模型,DeepSeek-GRM 在不同類型任務(wù)和評(píng)價(jià)維度上的表現(xiàn)更為均衡,展現(xiàn)出更好的通用性和更少的領(lǐng)域偏見。
不過,雖然 SPCT 在提升 GRM 的性能和推理時(shí)間可擴(kuò)展性方面取得了顯著成功,但該方法目前也存在一些局限性。
首先,生成式獎(jiǎng)勵(lì)模型的效率本質(zhì)上落后于同等規(guī)模的標(biāo)量獎(jiǎng)勵(lì)模型,這限制了其在在線強(qiáng)化學(xué)習(xí)管道中的大規(guī)模使用。不過,由于他們采用并行采樣進(jìn)行推理時(shí)間擴(kuò)展,使用合理數(shù)量(如 8 個(gè))樣本進(jìn)行獎(jiǎng)勵(lì)生成的延遲不會(huì)顯著增加。
其次,在特定領(lǐng)域(如可驗(yàn)證任務(wù))上,DeepSeek-GRM 仍落后于標(biāo)量模型。這可能是因?yàn)闃?biāo)量獎(jiǎng)勵(lì)模型捕獲了推理查詢和回答的隱藏特征,而 GRM 需要更強(qiáng)的推理能力來全面檢查回答。不過,標(biāo)量獎(jiǎng)勵(lì)模型存在嚴(yán)重的偏差和可擴(kuò)展性問題。
研究團(tuán)隊(duì)指出,未來的研究方向包括:工具集成、原則和批評(píng)生成范式的分解、在 LLM 離線評(píng)估中的應(yīng)用以及長(zhǎng)視野推理的探索。他們相信,具有增強(qiáng)可擴(kuò)展性和效率的 GRM 可以作為通用獎(jiǎng)勵(lì)系統(tǒng)的多功能接口,推動(dòng) LLM 后訓(xùn)練和推理的前沿發(fā)展。
參考資料:
1. https://arxiv.org/abs/2504.02495
排版:KIK
熱門跟貼