此前有消息稱 DeepSeek 或?qū)⑻崆巴瞥鲈ㄓ谠谖逶路莩醢l(fā)布的 R2 模型。消息是否屬實還有待考量,不過在此之前,DeepSeek 剛剛新發(fā)布的一項關(guān)于推理時縮放的新研究,或許能讓我們窺到 R2 的一角。
當前主流的 AI 模型大多采用了強化學(xué)習(xí)(Reinforcement Learning,RL),尤其是基于人類反饋的強化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)作為后訓(xùn)練的核心方法。其核心在于訓(xùn)練一個獎勵模型(Reward Model, RM)來模擬人類偏好,并指導(dǎo) LLM 優(yōu)化。但傳統(tǒng) RLHF 依賴大量人類標注,成本高昂且擴展性受限,尤其難以處理復(fù)雜和主觀性強的任務(wù)。因此,構(gòu)建更強大、更通用的獎勵模型成為突破瓶頸的關(guān)鍵。
現(xiàn)有獎勵模型范式,如標量評分(Scalar RM)或成對比較(Pairwise RM),在通用性和靈活性上存在局限。同時,隨著推理時縮放(增加推理計算量)越發(fā)成為一個性能提升的重要途徑,如果獎勵模型能在推理時通過更多計算變得更準確,將直接提升 LLM 的對齊效果。
在此背景下,DeepSeek 聯(lián)合清華大學(xué)的研究團隊,提出了一種名為 DeepSeek-GRM 的通用獎勵模型及其訓(xùn)練方法 SPCT(Self-Principled Critique Tuning,自我原則化批判調(diào)優(yōu)),旨在解決通用獎勵模型的構(gòu)建難題,并系統(tǒng)探索利用推理時間縮放提升其性能的潛力。
相關(guān)論文以《通用獎勵模型的推理時縮放》(Inference-Time Scaling for Generalist Reward Modeling)為題發(fā)表在預(yù)印本平臺 arXiv 上。

研究首先關(guān)注獎勵模型的結(jié)構(gòu)范式。團隊認為,為了實現(xiàn)通用性和充分利用推理時間縮放的潛力,需要一種更靈活、表達能力更強的范式。他們最終選擇了生成式獎勵建模(Generative Reward Modeling, GRM),并具體采用了逐點式(Pointwise)的評分機制。
Pointwise GRM 的工作方式與傳統(tǒng) RM 不同。它不直接輸出分數(shù)或排序,而是針對輸入的查詢和一組(一個或多個)待評價的回答,生成一段結(jié)構(gòu)化的評價文本。
這段文本通常包含兩個主要部分:首先,模型會根據(jù)當前的輸入內(nèi)容,自適應(yīng)地生成一系列評價原則,這些原則定義了評價的關(guān)注點和標準,有時還會附帶各個原則的相對重要性(權(quán)重);其次,模型會基于這些生成的原則,對每一個回答進行詳細的分析和批判,說明其優(yōu)缺點。最后,通過預(yù)設(shè)的解析規(guī)則,從生成的批判文本中提取出對每個回答的具體評分。

這種 Pointwise GRM 范式展現(xiàn)出兩大關(guān)鍵優(yōu)勢:一是輸入靈活性。無論是評價單個回答,比較一對回答,還是需要對多個回答進行獨立評分和排序,都可以使用統(tǒng)一的框架和模型進行處理,極大地拓寬了模型的應(yīng)用范圍。
二是推理時縮放潛力。由于模型的核心行為是生成文本,因此在推理時進行多次采樣變得非常自然且有意義。每次采樣可能產(chǎn)生不同的評價原則側(cè)重和批判分析角度。通過綜合這些多樣化的評價結(jié)果,有望獲得比單次生成更全面、更魯棒、更精細的最終評分,為利用推理計算提升獎勵質(zhì)量提供了可能。
選擇了合適的模型范式后,關(guān)鍵在于如何有效訓(xùn)練,使 GRM 具備強大的通用評價能力,并能真正從推理時間縮放中受益。為此,團隊設(shè)計了提出了一種名為 SPCT 的學(xué)習(xí)框架。
SPCT 的核心思想在于,對于通用的評價任務(wù),預(yù)先定義一套固定的、普適的評價標準(原則)是非常困難的。更有效的方式是讓模型學(xué)會根據(jù)具體的輸入(查詢和回答)動態(tài)地、自適應(yīng)地生成最相關(guān)的評價原則,并基于這些原則進行準確的批判。這意味著模型需要從被動應(yīng)用規(guī)則,轉(zhuǎn)變?yōu)橹鲃訕?gòu)建評價框架。
研究團隊通過初步實驗驗證了原則的重要性:直接使用模型生成的原則效果有限,但如果提供經(jīng)過篩選的高質(zhì)量原則,獎勵模型的準確性會顯著提高。這表明,能否生成“好的原則”是實現(xiàn)高質(zhì)量獎勵的關(guān)鍵。SPCT 的目標就是訓(xùn)練模型掌握這種生成高質(zhì)量原則和準確批判的能力。
SPCT的訓(xùn)練過程包含兩個階段:

第一階段是拒絕式微調(diào)(Rejective Fine-Tuning, RFT),作為模型的冷啟動。此階段使用預(yù)訓(xùn)練的 LLM 作為基礎(chǔ)模型。研究人員利用包含查詢、回答和人類偏好標簽的獎勵模型數(shù)據(jù)集,讓模型嘗試生成“原則+批判”文本并提取評分。
關(guān)鍵在于“拒絕式”采樣策略:如果模型生成的評分結(jié)果與已知的人類偏好不符(例如,將較差的回答評為更優(yōu)),則該次生成的訓(xùn)練數(shù)據(jù)被視為“不正確”而被拒絕;另一方面,如果對于某個輸入,模型連續(xù)多次生成的評分結(jié)果都與人類偏好完全一致,這可能表明該任務(wù)過于簡單,缺乏足夠的學(xué)習(xí)信號,這類數(shù)據(jù)也會被視為“太容易”而被拒絕。
通過這種方式,模型得以專注于學(xué)習(xí)那些具有挑戰(zhàn)性且能幫助其更好理解人類偏好的樣本,從而快速掌握生成指定格式文本和初步區(qū)分回答優(yōu)劣的能力。此階段還結(jié)合了“提示式采樣”(輸入中包含最優(yōu)答案信息)和“非提示式采樣”,以平衡學(xué)習(xí)過程。
第二階段是基于規(guī)則的在線強化學(xué)習(xí)(Rule-Based Online RL)。RFT 階段提供了基礎(chǔ)能力,但要讓模型的原則生成和批判能力持續(xù)提升,適應(yīng)更廣泛場景,并為推理時間縮放做好準備,需要在線優(yōu)化的介入。
在此階段,GRM 模型作為 RL 中的策略,根據(jù)實時輸入的查詢和回答,生成原則、批判并提取評分。研究人員設(shè)計了一套簡單的準確性規(guī)則作為獎勵信號:如果模型給出的評分能夠正確地將最優(yōu)回答排在首位(與數(shù)據(jù)集標簽一致),則獲得正獎勵(+1),否則獲得負獎勵(-1)。這個獎勵信號用于更新 GRM 模型的參數(shù)。
這個在線過程持續(xù)激勵模型去探索和學(xué)習(xí)如何生成那些能更可靠地區(qū)分回答質(zhì)量的原則和批判邏輯。這種訓(xùn)練方式旨在內(nèi)化模型的評價能力,使其在面對新情況時也能做出良好判斷,這對于推理時間縮放的有效性至關(guān)重要。研究團隊還發(fā)現(xiàn),通過適當調(diào)整 KL 散度懲罰(一種防止模型在優(yōu)化過程中偏離初始狀態(tài)過遠的正則化技術(shù)),可以有效保證生成文本格式的穩(wěn)定性,并避免模型產(chǎn)生不必要的行為偏差。
經(jīng)過 SPCT 訓(xùn)練的 DeepSeek-GRM 模型,具備了通過增加推理階段計算量來提升性能的潛力。研究團隊重點研究并實現(xiàn)了兩種推理時間縮放策略:
第一種是基于投票的縮放(Voting with Generated Rewards)。這是一種相對直接的方法。對于給定的查詢和一組待評價的回答,使用訓(xùn)練好的 DeepSeek-GRM 模型,設(shè)置一定的采樣隨機性(例如,temperature > 0),并行地進行 k 次獨立的推理。每次推理都會生成一套可能不同的原則、批判和相應(yīng)的評分。
最后,將這 k 次推理得到的評分進行聚合。對于 Pointwise 評分,通常的做法是將每個回答在 k 次采樣中獲得的分數(shù)相加或取平均,得到最終的綜合評分,具體公式如下:

這種方法的好處在于,它不僅通過聚合多個評價視角來提高結(jié)果的魯棒性,而且通過求和等方式,實際上增加了最終獎勵值的范圍和粒度(Granularity),使得模型能夠更好地區(qū)分質(zhì)量相近的回答。為了減少潛在的順序影響,每次采樣前還會對輸入回答的順序進行隨機排列。
第二種是更進一步的元獎勵模型引導(dǎo)的投票(Meta Reward Modeling Guided Voting)。簡單投票假設(shè)每次采樣的結(jié)果質(zhì)量相當,但在實際中,部分采樣可能由于隨機性或模型局限而產(chǎn)生較低質(zhì)量或有偏見的評價。
為了解決這個問題,研究團隊提出訓(xùn)練一個元獎勵模型(Meta Reward Model, Meta RM)。這個 Meta RM 的作用是評估 DeepSeek-GRM 生成的每一次“原則+批判”輸出的質(zhì)量或可靠性。Meta RM 本身通常也是一個簡單的獎勵模型(例如標量 RM),它通過學(xué)習(xí)判斷 GRM 的輸出是否與基準(如人類偏好)一致來進行訓(xùn)練。
在推理時,首先讓 DeepSeek-GRM 生成 k 份評價結(jié)果,然后使用Meta RM對這 k 份結(jié)果進行評分,篩選出評分最高的 k_meta (k_meta ≤ k) 份結(jié)果,最后只基于這些被認為是高質(zhì)量的評價結(jié)果進行投票聚合。這種方法通過引入一個“質(zhì)量過濾器”,可以有效地剔除噪聲采樣,使得最終的聚合結(jié)果更加準確,從而更充分地發(fā)揮推理時間縮放的優(yōu)勢。
研究團隊在多個主流的獎勵模型評估基準(包括 Reward Bench, PPE, RMB, ReaLMistake)上,對 DeepSeek-GRM 模型(基于不同尺寸的基礎(chǔ)模型)及其推理時間縮放策略進行了全面的實驗評估,并與多種公開的和其他基線方法進行了對比。
實驗結(jié)果清晰地展示了該研究方法的有效性:首先,即使在不進行推理時間縮放的基礎(chǔ)設(shè)置下,經(jīng)過 SPCT 訓(xùn)練的 DeepSeek-GRM 模型在整體性能上已優(yōu)于同等規(guī)模的多種基線獎勵模型,并展現(xiàn)出與一些大型閉源模型相競爭的實力。
其次,SPCT 訓(xùn)練方法的有效性也得到了證實,相比僅進行 RFT 冷啟動,完整的 SPCT 流程帶來了顯著的性能提升,消融實驗也證實了其關(guān)鍵組件(如原則生成、在線 RL)的貢獻。

再次,DeepSeek-GRM 展現(xiàn)了優(yōu)秀的推理時間縮放特性,隨著采樣次數(shù) k 的增加,模型性能持續(xù)穩(wěn)定提高,尤其是在 Meta RM 的引導(dǎo)下,提升效果更為明顯。
值得關(guān)注的是,實驗數(shù)據(jù)表明,通過推理時間縮放(例如,在 27B 模型上進行 32 次采樣并使用 Meta RM),其性能提升的幅度有時可以達到甚至超過通過數(shù)倍增加模型參數(shù)(訓(xùn)練時間縮放)所帶來的提升,顯示出推理時間縮放在提升獎勵模型質(zhì)量方面可能具有更高的計算效率。
最后,相比一些偏科嚴重的標量或半標量模型,DeepSeek-GRM 在不同類型任務(wù)和評價維度上的表現(xiàn)更為均衡,展現(xiàn)出更好的通用性和更少的領(lǐng)域偏見。
不過,雖然 SPCT 在提升 GRM 的性能和推理時間可擴展性方面取得了顯著成功,但該方法目前也存在一些局限性。
首先,生成式獎勵模型的效率本質(zhì)上落后于同等規(guī)模的標量獎勵模型,這限制了其在在線強化學(xué)習(xí)管道中的大規(guī)模使用。不過,由于他們采用并行采樣進行推理時間擴展,使用合理數(shù)量(如 8 個)樣本進行獎勵生成的延遲不會顯著增加。
其次,在特定領(lǐng)域(如可驗證任務(wù))上,DeepSeek-GRM 仍落后于標量模型。這可能是因為標量獎勵模型捕獲了推理查詢和回答的隱藏特征,而 GRM 需要更強的推理能力來全面檢查回答。不過,標量獎勵模型存在嚴重的偏差和可擴展性問題。
研究團隊指出,未來的研究方向包括:工具集成、原則和批評生成范式的分解、在 LLM 離線評估中的應(yīng)用以及長視野推理的探索。他們相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統(tǒng)的多功能接口,推動 LLM 后訓(xùn)練和推理的前沿發(fā)展。
參考資料:
1. https://arxiv.org/abs/2504.02495
排版:KIK
熱門跟貼