最新:DeepSeek,編輯:機(jī)器之心

這會是 DeepSeek R2 的雛形嗎?本周五,DeepSeek 提交到 arXiv 上的最新論文正在 AI 社區(qū)逐漸升溫。

當(dāng)前,強(qiáng)化學(xué)習(xí)(RL)已廣泛應(yīng)用于大語言模型(LLM)的后期訓(xùn)練。最近 RL 對 LLM 推理能力的激勵表明,適當(dāng)?shù)膶W(xué)習(xí)方法可以實現(xiàn)有效的推理時間可擴(kuò)展性。RL 的一個關(guān)鍵挑戰(zhàn)是在可驗證問題或人工規(guī)則之外的各個領(lǐng)域獲得 LLM 的準(zhǔn)確獎勵信號。

本周五提交的一項工作中,來自 DeepSeek、清華大學(xué)的研究人員探索了獎勵模型(RM)的不同方法,發(fā)現(xiàn)逐點生成獎勵模型(GRM)可以統(tǒng)一純語言表示中單個、成對和多個響應(yīng)的評分,從而克服了挑戰(zhàn)。研究者探索了某些原則可以指導(dǎo) GRM 在適當(dāng)標(biāo)準(zhǔn)內(nèi)生成獎勵,從而提高獎勵的質(zhì)量,這啟發(fā)我們,RM 的推理時間可擴(kuò)展性可以通過擴(kuò)展高質(zhì)量原則和準(zhǔn)確批評的生成來實現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Inference-Time Scaling for Generalist Reward Modeling

  • 論文鏈接:https://arxiv.org/abs/2504.02495

基于這一初步成果,作者提出了一種新學(xué)習(xí)方法,即自我原則批評調(diào)整(SPCT),以促進(jìn) GRM 中有效的推理時間可擴(kuò)展行為。通過利用基于規(guī)則的在線 RL,SPCT 使 GRM 能夠?qū)W習(xí)根據(jù)輸入查詢和響應(yīng)自適應(yīng)地提出原則和批評,從而在一般領(lǐng)域獲得更好的結(jié)果獎勵。

基于此技術(shù),DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 進(jìn)行后訓(xùn)練。對于推理時間擴(kuò)展,它通過多次采樣來擴(kuò)展計算使用量。通過并行采樣,DeepSeek-GRM 可以生成不同的原則集和相應(yīng)的批評,然后投票選出最終的獎勵。通過更大規(guī)模的采樣,DeepSeek-GRM 可以更準(zhǔn)確地判斷具有更高多樣性的原則,并以更細(xì)的粒度輸出獎勵,從而解決挑戰(zhàn)。

除了投票以獲得更好的擴(kuò)展性能外,DeepSeek 還訓(xùn)練了一個元 RM。從實驗結(jié)果上看,SPCT 顯著提高了 GRM 的質(zhì)量和可擴(kuò)展性,在多個綜合 RM 基準(zhǔn)測試中優(yōu)于現(xiàn)有方法和模型,且沒有嚴(yán)重的領(lǐng)域偏差。作者還將 DeepSeek-GRM-27B 的推理時間擴(kuò)展性能與多達(dá) 671B 個參數(shù)的較大模型進(jìn)行了比較,發(fā)現(xiàn)它在模型大小上可以獲得比訓(xùn)練時間擴(kuò)展更好的性能。雖然當(dāng)前方法在效率和特定任務(wù)方面面臨挑戰(zhàn),但憑借 SPCT 之外的努力,DeepSeek 相信,具有增強(qiáng)可擴(kuò)展性和效率的 GRM 可以作為通用獎勵系統(tǒng)的多功能接口,推動 LLM 后訓(xùn)練和推理的前沿發(fā)展。

這項研究的主要貢獻(xiàn)有以下三點:

  • 研究者們提出了一種新方法:Self-Principled Critique Tuning(SPCT),用于提升通用獎勵模型在推理階段的可擴(kuò)展性,并由此訓(xùn)練出 DeepSeek-GRM 系列模型。同時,他們進(jìn)一步引入了一種元獎勵模型(meta RM),使 DeepSeek-GRM 的推理效果在超越傳統(tǒng)投票機(jī)制的基礎(chǔ)上得到進(jìn)一步提升。

  • 實驗證明,SPCT 在生成質(zhì)量和推理階段的可擴(kuò)展性方面,明顯優(yōu)于現(xiàn)有方法,并超過了多個強(qiáng)大的開源模型。

  • SPCT 的訓(xùn)練方案還被應(yīng)用到更大規(guī)模的語言模型上。研究者們發(fā)現(xiàn)推理階段的擴(kuò)展性收益甚至超過了通過增加模型規(guī)模所帶來的訓(xùn)練效果提升。

打開網(wǎng)易新聞 查看精彩圖片

技術(shù)細(xì)節(jié)

我們一起來看看這篇論文所討論的技術(shù)細(xì)節(jié)。

Self-Principled Critique Tuning (SPCT)

受到初步實驗結(jié)果的啟發(fā),研究者提出了一種用于逐點通用獎勵模型的新方法,能夠?qū)W習(xí)生成具有適應(yīng)性和高質(zhì)量的原則,以有效引導(dǎo)批評內(nèi)容的生成,該方法被稱為自我原則批評調(diào)整(SPCT)。

如圖 3 所示,SPCT 包含兩個階段:

1. 拒絕式微調(diào)(rejective fine-tuning),作為冷啟動階段;

2. 基于規(guī)則的在線強(qiáng)化學(xué)習(xí)(rule-based online RL),通過不斷優(yōu)化生成的準(zhǔn)則和評論,進(jìn)一步增強(qiáng)泛化型獎勵生成能力。

此外,SPCT 還能促使獎勵模型在推理階段展現(xiàn)出良好的擴(kuò)展能力。

打開網(wǎng)易新聞 查看精彩圖片

研究者們觀察到,高質(zhì)量的準(zhǔn)則能夠在特定評判標(biāo)準(zhǔn)下有效引導(dǎo)獎勵的生成,是提升獎勵模型表現(xiàn)的關(guān)鍵因素。然而,對于通用型獎勵模型而言,如何自動生成適應(yīng)性強(qiáng)、指導(dǎo)性強(qiáng)的準(zhǔn)則仍是一個核心難題。

為此,他們提出將準(zhǔn)則的作用由傳統(tǒng)的理解階段的輔助性輸入,轉(zhuǎn)變?yōu)楠剟钌蛇^程中的核心組成部分。具體而言,這項研究不再將準(zhǔn)則僅作為模型生成前的提示信息,而是使模型能夠在生成過程中主動生成并運用準(zhǔn)則,從而實現(xiàn)更強(qiáng)的獎勵泛化能力與推理階段的可擴(kuò)展性。

在該研究的設(shè)定中,GRM 可以自主生成準(zhǔn)則,并在此基礎(chǔ)上生成對應(yīng)的批評內(nèi)容,其過程可形式化表示為:

其中,p_θ 表示由參數(shù) θ 所定義的準(zhǔn)則生成函數(shù),該函數(shù)與獎勵生成函數(shù) r_θ 共享同一模型架構(gòu)。這樣的設(shè)計使得準(zhǔn)則可以根據(jù)輸入的 query 和響應(yīng)自適應(yīng)生成,從而動態(tài)引導(dǎo)獎勵的生成過程。此外,準(zhǔn)則及其對應(yīng)批評的質(zhì)量與細(xì)粒度可以通過對 GRM 進(jìn)行后訓(xùn)練進(jìn)一步提升。

當(dāng)模型具備大規(guī)模生成準(zhǔn)則的能力后,GRM 便能夠在更合理的準(zhǔn)則框架下輸出更細(xì)致的獎勵評價,這對于推理階段的可擴(kuò)展性具有關(guān)鍵意義。

基于規(guī)則的強(qiáng)化學(xué)習(xí)

為同步優(yōu)化 GRM 中的原則生成與批判生成,DeepSeek 提出 SPCT 框架,整合了拒絕式微調(diào)與基于規(guī)則的強(qiáng)化學(xué)習(xí)。拒絕式微調(diào)作為冷啟動階段。

拒絕式微調(diào)(冷啟動階段) 的核心目標(biāo)是使 GRM 能夠生成格式正確且適配多種輸入類型的原則與批判。

不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)將單響應(yīng)、配對響應(yīng)和多響應(yīng)格式的 RM 數(shù)據(jù)混合使用的方案,DeepSeek 采用第 2.1 節(jié)提出的逐點 GRM,能以統(tǒng)一格式為任意數(shù)量響應(yīng)生成獎勵。

數(shù)據(jù)構(gòu)建方面,除通用指令數(shù)據(jù)外,DeepSeek 還通過預(yù)訓(xùn)練 GRM 對 RM 數(shù)據(jù)中不同響應(yīng)數(shù)量的查詢 - 響應(yīng)對進(jìn)行軌跡采樣,每個查詢 - 響應(yīng)對采樣次。拒絕策略也采用統(tǒng)一標(biāo)準(zhǔn):拒絕預(yù)測獎勵與真實值不符(錯誤)的軌跡,以及所有次軌跡均正確(過于簡單)的查詢 - 響應(yīng)對。形式化定義為:令表示查詢 x 第 i 個響應(yīng)的真實獎勵,當(dāng)預(yù)測逐點獎勵滿足以下條件時視為正確:

這里需確保真實獎勵僅包含一個最大值。然而,與 Zhang 等人(2025a)的研究類似,DeepSeek 發(fā)現(xiàn)預(yù)訓(xùn)練 GRM 在有限采樣次數(shù)內(nèi)難以對部分查詢及其響應(yīng)生成正確獎勵。

因此,他們選擇性地在 GRM 提示中追加(稱為暗示采樣),期望預(yù)測獎勵能與真實值對齊,同時保留非暗示采樣方式。對于暗示采樣,每個查詢及其響應(yīng)僅采樣一次,僅當(dāng)預(yù)測錯誤時才拒絕軌跡。相較于 Li 等人(2024a)和 Mahan 等人(2024)的研究,我們觀察到暗示采樣軌跡有時會簡化生成的批判(尤其在推理任務(wù)中),這表明 GRM 在線強(qiáng)化學(xué)習(xí)的必要性和潛在優(yōu)勢。

通過基于規(guī)則的在線 RL,研究者對 GRM 進(jìn)行了進(jìn)一步的微調(diào)。與 DeepSeek R1 不同的是,沒有使用格式獎勵。相反,為了確保格式和避免嚴(yán)重偏差,KL 懲罰采用了較大的系數(shù)。從形式上看,對給定查詢 x 和響應(yīng)的第 i 次輸出 o_i 的獎勵為:

逐點獎勵是從 o_i 中提取的。

獎勵函數(shù)鼓勵 GRM 通過在線優(yōu)化原則和批判來區(qū)分最佳響應(yīng),從而實現(xiàn)有效的推理時間擴(kuò)展。獎勵信號可以從任何偏好數(shù)據(jù)集和標(biāo)注的 LLM 響應(yīng)中無縫獲取。

SPCT 的推理時擴(kuò)展

為了進(jìn)一步提高 DeepSeek-GRM 在使用更多推理計算生成通用獎勵方面的性能,研究者探索了基于采樣的策略,以實現(xiàn)有效的推理時可擴(kuò)展性。

利用生成獎勵進(jìn)行投票?;仡櫟?2.1 節(jié)中的方法,逐點 GRM 的投票過程定義為獎勵總和:

其中,是第 i 個響應(yīng)(i = 1, ..., n)的最終獎勵。由于 S_i,j 通常設(shè)置在一個較小的離散范圍內(nèi),例如 {1,...,10},因此投票過程實際上將獎勵空間擴(kuò)大了 k 倍,并使 GRM 能夠生成大量原則,從而有利于提高最終獎勵的質(zhì)量和粒度。

一個直觀的解釋是,如果每個原則都可以被視為判斷視角的代表,那么更多的原則可能會更準(zhǔn)確地反映真實的分布情況,從而提高效率。值得注意的是,為了避免位置偏差和多樣性,在采樣之前會對回答進(jìn)行洗牌。

元獎勵模型指導(dǎo)投票。DeepSeek-GRM 的投票過程需要多次采樣,由于隨機(jī)性或模型的局限性,少數(shù)生成的原則和評論可能存在偏差或質(zhì)量不高。因此,研究者訓(xùn)練了一個元 RM 來指導(dǎo)投票過程。

引導(dǎo)投票非常簡單: 元 RM 對 k 個采樣獎勵輸出元獎勵,最終結(jié)果由 k_meta ≤ k 個元獎勵的獎勵投票決定,從而過濾掉低質(zhì)量樣本。

獎勵模型 Benchmark 上的結(jié)果

不同方法和模型在獎勵模型基準(zhǔn)測試上的整體結(jié)果如表 2 所示。

打開網(wǎng)易新聞 查看精彩圖片

不同方法在推理階段的擴(kuò)展性能結(jié)果如表 3 所示,整體趨勢可見圖 1。

打開網(wǎng)易新聞 查看精彩圖片

表 4 展示了 SPCT 各個組成部分所做的消融實驗結(jié)果。

研究者們還進(jìn)一步研究了 DeepSeek-GRM-27B 在推理階段和訓(xùn)練階段的擴(kuò)展性能,通過在不同規(guī)模的 LLM 上進(jìn)行后訓(xùn)練進(jìn)行評估。所有模型均在 Reward Bench 上進(jìn)行測試,結(jié)果如圖 4 所示。

打開網(wǎng)易新聞 查看精彩圖片