過程獎(jiǎng)勵(lì)模型(PRMs)作為驗(yàn)證機(jī)制在提升大型語言模型(LLMs)性能方面展現(xiàn)出顯著潛力。而當(dāng)前PRMs框架面臨三個(gè)核心技術(shù)挑戰(zhàn):過程監(jiān)督和泛化能力受限、未充分利用LLM生成能力而僅依賴標(biāo)量值預(yù)測(cè),以及在測(cè)試時(shí)計(jì)算無法有效擴(kuò)展。

針對(duì)上述局限,這篇論文提出了GenPRM,一種創(chuàng)新性的生成式過程獎(jiǎng)勵(lì)模型。該模型在評(píng)估每個(gè)推理步驟前,先執(zhí)行顯式的思維鏈(Chain-of-Thought, CoT)推理并實(shí)施代碼驗(yàn)證,從而實(shí)現(xiàn)對(duì)推理過程的深度理解與評(píng)估。

下圖直觀地展示了GenPRM與傳統(tǒng)基于分類方法的本質(zhì)區(qū)別:

打開網(wǎng)易新聞 查看精彩圖片

研究的主要技術(shù)貢獻(xiàn)包括:

  • 構(gòu)建了一種生成式過程獎(jiǎng)勵(lì)模型架構(gòu),該架構(gòu)通過顯式CoT推理和代碼驗(yàn)證機(jī)制,結(jié)合相對(duì)進(jìn)展估計(jì)技術(shù),實(shí)現(xiàn)了高精度PRM標(biāo)簽的獲取
  • 在ProcessBench及多種數(shù)學(xué)推理任務(wù)的實(shí)證評(píng)估表明,GenPRM在性能上顯著優(yōu)于現(xiàn)有的基于分類的PRMs方法

技術(shù)基礎(chǔ)

1、馬爾可夫決策過程框架

測(cè)試時(shí)擴(kuò)展過程可形式化為馬爾可夫決策過程(MDP),定義為五元組(,, , , ),其中:

  • 表示狀態(tài)空間
  • 代表動(dòng)作空間
  • 定義轉(zhuǎn)換動(dòng)態(tài)
  • : × → R為獎(jiǎng)勵(lì)函數(shù)
  • ∈ [0, 1]是折扣因子

在此框架下,優(yōu)化目標(biāo)可分為兩種:優(yōu)化每個(gè)步驟的獎(jiǎng)勵(lì)(適用于基于搜索的方法),或優(yōu)化整體響應(yīng)的累積獎(jiǎng)勵(lì)(適用于Best-of-N采樣技術(shù))。

2、監(jiān)督微調(diào)技術(shù)

該技術(shù)訓(xùn)練模型基于先前上下文預(yù)測(cè)后續(xù)標(biāo)記。針對(duì)數(shù)據(jù)集SFT = {((), ())}=1,監(jiān)督微調(diào)損失函數(shù)定義為:

打開網(wǎng)易新聞 查看精彩圖片

其中表示參數(shù)為的模型

3、測(cè)試時(shí)擴(kuò)展方法

研究考察兩種主要的測(cè)試時(shí)擴(kuò)展技術(shù):

  • 多數(shù)投票機(jī)制:從所有可能解決方案中選擇出現(xiàn)頻率最高的答案
  • Best-of-N (BoN)采樣:從N個(gè)候選解決方案中篩選性能最佳的答案

GenPRM架構(gòu)設(shè)計(jì)

打開網(wǎng)易新聞 查看精彩圖片

GenPRM框架由以下六個(gè)核心組件構(gòu)成:

  1. 策略模型負(fù)責(zé)生成解決步驟,同時(shí)通過rollout軌跡估計(jì)蒙特卡洛(MC)分?jǐn)?shù)
  2. 提出的相對(duì)進(jìn)展估計(jì)(RPE)機(jī)制用于獲取高精度PRM標(biāo)簽
  3. 通過增強(qiáng)的代碼驗(yàn)證和CoT推理合成高質(zhì)量過程監(jiān)督數(shù)據(jù)
  4. 應(yīng)用一致性過濾后進(jìn)行監(jiān)督微調(diào)(SFT)訓(xùn)練GenPRM
  5. 訓(xùn)練完成的GenPRM作為驗(yàn)證器或評(píng)論者,增強(qiáng)策略模型的測(cè)試時(shí)擴(kuò)展能力
  6. 通過測(cè)試時(shí)擴(kuò)展進(jìn)一步提升GenPRM自身性能

從判別式PRM到生成式PRM的模型演進(jìn)

i) 現(xiàn)有PRM方法分析

a) 判別式PRM

假設(shè)存在PRM數(shù)據(jù)集Disc = {(, ), },其中硬估計(jì)PRM標(biāo)簽 ∈ {0, 1}。判別式PRM 通過交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練:

b) 直接生成式PRM

基于數(shù)據(jù)集Direct-Gen = {(, ), },其中正確步驟標(biāo)記為Yes,錯(cuò)誤步驟標(biāo)記為No。直接生成式PRM通過SFT訓(xùn)練,為每個(gè)推理步驟預(yù)測(cè)Yes/No標(biāo)簽。對(duì)于步驟,將Yes標(biāo)記的預(yù)測(cè)概率作為過程獎(jiǎng)勵(lì)?:

打開網(wǎng)易新聞 查看精彩圖片

ii) 生成式PRM創(chuàng)新設(shè)計(jì)

生成式PRM通過為直接生成式PRM增加類CoT顯式推理過程實(shí)現(xiàn)性能提升。令1:?1表示從步驟1至?1的推理過程,表示步驟的推理。

基于數(shù)據(jù)集Gen = {(, , 1:?1), (, )},GenPRM通過監(jiān)督微調(diào)學(xué)習(xí)推理驗(yàn)證每個(gè)步驟。生成式過程獎(jiǎng)勵(lì)?計(jì)算如下:

打開網(wǎng)易新聞 查看精彩圖片

iii) 代碼驗(yàn)證增強(qiáng)的生成式PRM

與標(biāo)準(zhǔn)生成式PRM不同,代碼驗(yàn)證增強(qiáng)型GenPRM生成可執(zhí)行代碼驗(yàn)證推理步驟,通過代碼執(zhí)行結(jié)果提供客觀判斷。在步驟,生成推理(包含CoT分析和驗(yàn)證代碼)后,執(zhí)行代碼并獲取反饋。

給定當(dāng)前狀態(tài)、動(dòng)作、先前推理序列1:?1及其對(duì)應(yīng)執(zhí)行反饋1:?1,PRM首先生成當(dāng)前推理。執(zhí)行代碼并獲取反饋后,最終的生成式過程獎(jiǎng)勵(lì)計(jì)算方式為:

打開網(wǎng)易新聞 查看精彩圖片

GenPRM測(cè)試時(shí)擴(kuò)展技術(shù)(TTS)

i) 策略模型TTS:GenPRM驗(yàn)證器應(yīng)用

為擴(kuò)展策略模型的測(cè)試時(shí)計(jì)算能力,可從策略模型采樣多個(gè)響應(yīng),然后利用GenPRM作為驗(yàn)證器,通過并行TTS(Test-Time Scaling)方式選擇最優(yōu)答案。

ii) 策略模型TTS:GenPRM評(píng)論者機(jī)制

通過配備生成式過程監(jiān)督能力,GenPRM可自然地作為評(píng)論模型優(yōu)化策略模型輸出,通過多輪順序TTS方式擴(kuò)展改進(jìn)過程。

iii) GenPRM自身的TTS機(jī)制

在評(píng)估每個(gè)解決步驟時(shí),系統(tǒng)首先采樣N個(gè)推理驗(yàn)證路徑,然后通過獎(jiǎng)勵(lì)平均值計(jì)算多數(shù)投票結(jié)果,得出最終預(yù)測(cè)。

對(duì)于不含代碼驗(yàn)證的GenPRM,獎(jiǎng)勵(lì)計(jì)算公式為:

打開網(wǎng)易新聞 查看精彩圖片

進(jìn)一步整合代碼驗(yàn)證和執(zhí)行反饋的獎(jiǎng)勵(lì)計(jì)算公式:

打開網(wǎng)易新聞 查看精彩圖片

這些計(jì)算得到的獎(jiǎng)勵(lì)值可用于策略模型響應(yīng)排序,或通過0.5閾值轉(zhuǎn)換為二元標(biāo)簽,判定步驟正確性。

GenPRM數(shù)據(jù)合成方法

數(shù)據(jù)合成流程包含三個(gè)關(guān)鍵階段:

i) 解決方案生成與蒙特卡洛估計(jì)

a) 步驟強(qiáng)制解決方案生成技術(shù)

  • 利用MATH數(shù)據(jù)集訓(xùn)練集中的7.5K問題作為基礎(chǔ)問題集
  • 采用Qwen2.5–7B-Instruct作為生成模型,為每個(gè)問題收集多樣化解決方案
  • 具體實(shí)現(xiàn)中,添加"Step 1:"作為生成模型響應(yīng)前綴,對(duì)于包含個(gè)推理步驟的完整響應(yīng),其標(biāo)準(zhǔn)化格式為:

步驟強(qiáng)制響應(yīng)格式
Step 1: {步驟詳細(xì)內(nèi)容}
...
Step T: {步驟詳細(xì)內(nèi)容}

  • 為確保數(shù)據(jù)集包含足夠的正確與錯(cuò)誤路徑樣本,對(duì)難題和簡(jiǎn)單問題分別采樣最多2048條解題路徑,若采樣2048個(gè)響應(yīng)后仍未找到足夠的正確或錯(cuò)誤路徑,則從數(shù)據(jù)集中剔除相應(yīng)問題

b) MC估計(jì)精度與效率平衡策略

  • 利用基于完成的采樣方法估計(jì)各步驟正確概率
  • 對(duì)于每個(gè)推理步驟,使用完成模型(特別是Qwen2.5-Math-7B-Instruct)生成個(gè)完成軌跡,并通過MC估計(jì)計(jì)算當(dāng)前步驟的正確概率:

打開網(wǎng)易新聞 查看精彩圖片

其中代表第個(gè)響應(yīng)的答案,*為真實(shí)答案,1為指示函數(shù)

  • 為平衡計(jì)算資源開銷,根據(jù)估計(jì)的Pass@1 (1)動(dòng)態(tài)調(diào)整值:

打開網(wǎng)易新聞 查看精彩圖片

ii) 相對(duì)進(jìn)展估計(jì)技術(shù)

  • 提出相對(duì)進(jìn)展估計(jì)(RPE)方法,借鑒GRPO中相對(duì)優(yōu)勢(shì)估計(jì)思想,優(yōu)化傳統(tǒng)硬標(biāo)簽估計(jì)
  • MC分?jǐn)?shù)作為當(dāng)前狀態(tài)的經(jīng)驗(yàn)估計(jì)值。評(píng)估當(dāng)前動(dòng)作質(zhì)量時(shí),通過比較下一狀態(tài)+1與當(dāng)前狀態(tài)的MC分?jǐn)?shù)差異,其中+1 = [, ]
  • 對(duì)每個(gè)響應(yīng),若第一個(gè)錯(cuò)誤步驟為步驟′(即(′) = 0),則將后續(xù)步驟MC分?jǐn)?shù)設(shè)為0。步驟的RPE 定義為:

打開網(wǎng)易新聞 查看精彩圖片

其中(1)為解決方案生成階段計(jì)算的估計(jì)Pass@1值

  • 通過引入閾值確定最終獎(jiǎng)勵(lì)標(biāo)簽?:

打開網(wǎng)易新聞 查看精彩圖片

iii) 推理生成、驗(yàn)證與過濾機(jī)制

  • 采用QwQ-32B作為推理生成模型,實(shí)現(xiàn)三步自動(dòng)化管道生成并驗(yàn)證每個(gè)推理步驟
  • 給定問題、真實(shí)答案*和候選步驟序列{1, · · · , },生成與驗(yàn)證流程如下:

步驟1:基于代碼的推理生成

  • 指導(dǎo)推理生成模型使用和標(biāo)簽封裝CoT分析,使用和標(biāo)簽封裝驗(yàn)證代碼
  • 采用以下結(jié)構(gòu)化提示模板:(論文為英文prompt為了方便說明,我把它翻譯成中文)

CoT和代碼推理生成的提示模板
[System]:
你是一位數(shù)學(xué)老師。你的任務(wù)是使用python代碼逐步審查和評(píng)論解決方案中的段落。
[User]:
以下是數(shù)學(xué)問題和解決方案(按段落分割,用標(biāo)簽封閉并從1開始索引):
[Math Problem]
{problem}
[Solution]
...
你的任務(wù)是驗(yàn)證解決方案中段落的正確性。按'### Paragraph {{ID}}'分割你的驗(yàn)證。
你對(duì)每個(gè)段落的驗(yàn)證應(yīng)由2部分構(gòu)成,分別用''和''包裝。
1. 在''部分,你需要分析推理過程并詳細(xì)解釋為什么該段落是正確或不正確的。
2. 在''部分,你必須以'''python\n{{CODE}}\n'''的形式編寫**Python代碼**來驗(yàn)證可以通過代碼驗(yàn)證的每個(gè)細(xì)節(jié)。你可以導(dǎo)入PyPI(如'sympy'、'scipy'等)來實(shí)現(xiàn)復(fù)雜計(jì)算。確保在代碼中打印評(píng)論結(jié)果。每段代碼將由系統(tǒng)自動(dòng)執(zhí)行。你需要分析代碼執(zhí)行后的'[Code Output]'。
>注意,編寫代碼時(shí)必須遵循'''python\n{{CODE}}\n'''的格式,否則代碼將無法執(zhí)行。
完成所有驗(yàn)證后,如果你在某個(gè)段落中發(fā)現(xiàn)錯(cuò)誤,返回**最早出現(xiàn)錯(cuò)誤的段落索引**。否則,返回**索引-1(通常表示"未找到")**。請(qǐng)將你的最終答案(即索引)放在$\boxed{{INDEX}}$形式的框內(nèi)。

{solution_section_1}

{solution_section_n}

步驟2:代碼執(zhí)行與驗(yàn)證

  • 執(zhí)行生成的代碼,獲取步驟的反饋
  • 執(zhí)行反饋格式為[Code output: {execution result}],作為前綴與生成的CoT分析和驗(yàn)證代碼串聯(lián),用于后續(xù)處理

步驟3:標(biāo)簽判斷與一致性過濾

  • 完成所有候選步驟的推理數(shù)據(jù)生成與驗(yàn)證后,推理生成模型輸出一個(gè)最終判斷數(shù)字
  • 若所有步驟被判斷為正確,該數(shù)字為-1;否則,該數(shù)字表示首個(gè)錯(cuò)誤步驟的索引

實(shí)驗(yàn)評(píng)估

i) 實(shí)現(xiàn)細(xì)節(jié)

  • 使用QwQ-32B模型和上述提示模板生成CoT分析與驗(yàn)證代碼
  • 基礎(chǔ)模型選自DeepSeek-R1-Distill系列,包括1.5B、7B和32B三種參數(shù)規(guī)模變體
  • 從生成結(jié)果中提取標(biāo)簽內(nèi)容,重點(diǎn)關(guān)注策略模型預(yù)測(cè)為負(fù)面的步驟

ii) ProcessBench性能評(píng)估

下表展示了以F1分?jǐn)?shù)衡量的ProcessBench評(píng)估結(jié)果:

打開網(wǎng)易新聞 查看精彩圖片

從表中數(shù)據(jù)可得出以下關(guān)鍵發(fā)現(xiàn):

a) GenPRM在ProcessBench上性能優(yōu)于基于分類的PRMs

GenPRM-7B顯著優(yōu)于直接生成式PRM方法,并在ProcessBench基準(zhǔn)測(cè)試中超越了所有參數(shù)規(guī)模小于72B的現(xiàn)有PRMs模型。

b) GenPRM使較小參數(shù)規(guī)模模型通過TTS超越更大規(guī)模模型

GenPRM-1.5B通過簡(jiǎn)單的多數(shù)投票機(jī)制在ProcessBench上表現(xiàn)超過GPT-4,而GenPRM-7B甚至超越了Qwen2.5-Math-PRM-72B,這表明測(cè)試時(shí)計(jì)算擴(kuò)展對(duì)GenPRM極為有效。

iii) 策略模型測(cè)試時(shí)擴(kuò)展性能

a) GenPRM驗(yàn)證器模式評(píng)估

下圖顯示GenPRM-7B通過測(cè)試時(shí)擴(kuò)展在性能上不僅優(yōu)于同等參數(shù)規(guī)模的分類型PRMs,還超越了Qwen2.5-Math-PRM-72B:

打開網(wǎng)易新聞 查看精彩圖片

圖(a)-(d)展示了以Qwen2.5-Math-7B-Instruct作為生成模型時(shí),GenPRM在MATH、AMC23、AIME24和Minerva Math四個(gè)數(shù)據(jù)集上的優(yōu)勢(shì)表現(xiàn):

打開網(wǎng)易新聞 查看精彩圖片

上圖(e)-(h)進(jìn)一步證明,GenPRM能良好泛化至以Gemma-3–12b-it作為生成模型的響應(yīng)評(píng)估場(chǎng)景。

b) GenPRM評(píng)論者模式評(píng)估

下表展示了批評(píng)改進(jìn)實(shí)驗(yàn)的量化結(jié)果:

打開網(wǎng)易新聞 查看精彩圖片

下圖表明GenPRM比基線方法展現(xiàn)出更強(qiáng)的批評(píng)改進(jìn)能力,能顯著提升策略模型性能,且隨著基于批評(píng)反饋的迭代優(yōu)化次數(shù)增加,性能持續(xù)提升:

打開網(wǎng)易新聞 查看精彩圖片

研究局限性

  • GenPRM通過生成式推理提供過程監(jiān)督的方法在推理階段引入了額外計(jì)算開銷
  • 當(dāng)前研究主要關(guān)注數(shù)學(xué)推理任務(wù)領(lǐng)域,尚未全面探索在編碼和通用推理任務(wù)上的實(shí)際應(yīng)用效果

結(jié)論

研究提出了GenPRM,一種創(chuàng)新的生成式過程獎(jiǎng)勵(lì)模型,它通過執(zhí)行顯式推理和代碼驗(yàn)證實(shí)現(xiàn)高質(zhì)量過程監(jiān)督,并使PRMs能夠有效擴(kuò)展測(cè)試時(shí)計(jì)算能力。在ProcessBench和多個(gè)數(shù)學(xué)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,GenPRM在性能上顯著優(yōu)于現(xiàn)有PRMs方法。研究還證實(shí)GenPRM的性能可通過測(cè)試時(shí)擴(kuò)展技術(shù)進(jìn)一步提升,且GenPRM作為評(píng)論模型具有很強(qiáng)的有效性。

https://avoid.overfit.cn/post/ef726bb5397a44f9832baff4668fb1e2