過程獎勵模型(PRMs)作為驗證機制在提升大型語言模型(LLMs)性能方面展現(xiàn)出顯著潛力。而當前PRMs框架面臨三個核心技術挑戰(zhàn):過程監(jiān)督和泛化能力受限、未充分利用LLM生成能力而僅依賴標量值預測,以及在測試時計算無法有效擴展。
針對上述局限,這篇論文提出了GenPRM,一種創(chuàng)新性的生成式過程獎勵模型。該模型在評估每個推理步驟前,先執(zhí)行顯式的思維鏈(Chain-of-Thought, CoT)推理并實施代碼驗證,從而實現(xiàn)對推理過程的深度理解與評估。
下圖直觀地展示了GenPRM與傳統(tǒng)基于分類方法的本質(zhì)區(qū)別:

研究的主要技術貢獻包括:
- 構建了一種生成式過程獎勵模型架構,該架構通過顯式CoT推理和代碼驗證機制,結合相對進展估計技術,實現(xiàn)了高精度PRM標簽的獲取
- 在ProcessBench及多種數(shù)學推理任務的實證評估表明,GenPRM在性能上顯著優(yōu)于現(xiàn)有的基于分類的PRMs方法
技術基礎
1、馬爾可夫決策過程框架
測試時擴展過程可形式化為馬爾可夫決策過程(MDP),定義為五元組(,, , , ),其中:
- 表示狀態(tài)空間
- 代表動作空間
- 定義轉換動態(tài)
- : × → R為獎勵函數(shù)
- ∈ [0, 1]是折扣因子
在此框架下,優(yōu)化目標可分為兩種:優(yōu)化每個步驟的獎勵(適用于基于搜索的方法),或優(yōu)化整體響應的累積獎勵(適用于Best-of-N采樣技術)。
2、監(jiān)督微調(diào)技術
該技術訓練模型基于先前上下文預測后續(xù)標記。針對數(shù)據(jù)集SFT = {((), ())}=1,監(jiān)督微調(diào)損失函數(shù)定義為:

其中表示參數(shù)為的模型
3、測試時擴展方法
研究考察兩種主要的測試時擴展技術:
- 多數(shù)投票機制:從所有可能解決方案中選擇出現(xiàn)頻率最高的答案
- Best-of-N (BoN)采樣:從N個候選解決方案中篩選性能最佳的答案
GenPRM架構設計

GenPRM框架由以下六個核心組件構成:
- 策略模型負責生成解決步驟,同時通過rollout軌跡估計蒙特卡洛(MC)分數(shù)
- 提出的相對進展估計(RPE)機制用于獲取高精度PRM標簽
- 通過增強的代碼驗證和CoT推理合成高質(zhì)量過程監(jiān)督數(shù)據(jù)
- 應用一致性過濾后進行監(jiān)督微調(diào)(SFT)訓練GenPRM
- 訓練完成的GenPRM作為驗證器或評論者,增強策略模型的測試時擴展能力
- 通過測試時擴展進一步提升GenPRM自身性能
從判別式PRM到生成式PRM的模型演進
i) 現(xiàn)有PRM方法分析
a) 判別式PRM
假設存在PRM數(shù)據(jù)集Disc = {(, ), },其中硬估計PRM標簽 ∈ {0, 1}。判別式PRM 通過交叉熵損失函數(shù)進行訓練:
b) 直接生成式PRM
基于數(shù)據(jù)集Direct-Gen = {(, ), },其中正確步驟標記為Yes,錯誤步驟標記為No。直接生成式PRM通過SFT訓練,為每個推理步驟預測Yes/No標簽。對于步驟,將Yes標記的預測概率作為過程獎勵?:

ii) 生成式PRM創(chuàng)新設計
生成式PRM通過為直接生成式PRM增加類CoT顯式推理過程實現(xiàn)性能提升。令1:?1表示從步驟1至?1的推理過程,表示步驟的推理。
基于數(shù)據(jù)集Gen = {(, , 1:?1), (, )},GenPRM通過監(jiān)督微調(diào)學習推理驗證每個步驟。生成式過程獎勵?計算如下:

iii) 代碼驗證增強的生成式PRM
與標準生成式PRM不同,代碼驗證增強型GenPRM生成可執(zhí)行代碼驗證推理步驟,通過代碼執(zhí)行結果提供客觀判斷。在步驟,生成推理(包含CoT分析和驗證代碼)后,執(zhí)行代碼并獲取反饋。
給定當前狀態(tài)、動作、先前推理序列1:?1及其對應執(zhí)行反饋1:?1,PRM首先生成當前推理。執(zhí)行代碼并獲取反饋后,最終的生成式過程獎勵計算方式為:

GenPRM測試時擴展技術(TTS)
i) 策略模型TTS:GenPRM驗證器應用
為擴展策略模型的測試時計算能力,可從策略模型采樣多個響應,然后利用GenPRM作為驗證器,通過并行TTS(Test-Time Scaling)方式選擇最優(yōu)答案。
ii) 策略模型TTS:GenPRM評論者機制
通過配備生成式過程監(jiān)督能力,GenPRM可自然地作為評論模型優(yōu)化策略模型輸出,通過多輪順序TTS方式擴展改進過程。
iii) GenPRM自身的TTS機制
在評估每個解決步驟時,系統(tǒng)首先采樣N個推理驗證路徑,然后通過獎勵平均值計算多數(shù)投票結果,得出最終預測。
對于不含代碼驗證的GenPRM,獎勵計算公式為:

進一步整合代碼驗證和執(zhí)行反饋的獎勵計算公式:

這些計算得到的獎勵值可用于策略模型響應排序,或通過0.5閾值轉換為二元標簽,判定步驟正確性。
GenPRM數(shù)據(jù)合成方法
數(shù)據(jù)合成流程包含三個關鍵階段:
i) 解決方案生成與蒙特卡洛估計
a) 步驟強制解決方案生成技術
- 利用MATH數(shù)據(jù)集訓練集中的7.5K問題作為基礎問題集
- 采用Qwen2.5–7B-Instruct作為生成模型,為每個問題收集多樣化解決方案
- 具體實現(xiàn)中,添加"Step 1:"作為生成模型響應前綴,對于包含個推理步驟的完整響應,其標準化格式為:
步驟強制響應格式
Step 1: {步驟詳細內(nèi)容}
...
Step T: {步驟詳細內(nèi)容}
- 為確保數(shù)據(jù)集包含足夠的正確與錯誤路徑樣本,對難題和簡單問題分別采樣最多2048條解題路徑,若采樣2048個響應后仍未找到足夠的正確或錯誤路徑,則從數(shù)據(jù)集中剔除相應問題
b) MC估計精度與效率平衡策略
- 利用基于完成的采樣方法估計各步驟正確概率
- 對于每個推理步驟,使用完成模型(特別是Qwen2.5-Math-7B-Instruct)生成個完成軌跡,并通過MC估計計算當前步驟的正確概率:

其中代表第個響應的答案,*為真實答案,1為指示函數(shù)
- 為平衡計算資源開銷,根據(jù)估計的Pass@1 (1)動態(tài)調(diào)整值:

ii) 相對進展估計技術
- 提出相對進展估計(RPE)方法,借鑒GRPO中相對優(yōu)勢估計思想,優(yōu)化傳統(tǒng)硬標簽估計
- MC分數(shù)作為當前狀態(tài)的經(jīng)驗估計值。評估當前動作質(zhì)量時,通過比較下一狀態(tài)+1與當前狀態(tài)的MC分數(shù)差異,其中+1 = [, ]
- 對每個響應,若第一個錯誤步驟為步驟′(即(′) = 0),則將后續(xù)步驟MC分數(shù)設為0。步驟的RPE 定義為:

其中(1)為解決方案生成階段計算的估計Pass@1值
- 通過引入閾值確定最終獎勵標簽?:

iii) 推理生成、驗證與過濾機制
- 采用QwQ-32B作為推理生成模型,實現(xiàn)三步自動化管道生成并驗證每個推理步驟
- 給定問題、真實答案*和候選步驟序列{1, · · · , },生成與驗證流程如下:
步驟1:基于代碼的推理生成
- 指導推理生成模型使用和標簽封裝CoT分析,使用和標簽封裝驗證代碼
- 采用以下結構化提示模板:(論文為英文prompt為了方便說明,我把它翻譯成中文)
CoT和代碼推理生成的提示模板
[System]:
你是一位數(shù)學老師。你的任務是使用python代碼逐步審查和評論解決方案中的段落。
[User]:
以下是數(shù)學問題和解決方案(按段落分割,用標簽封閉并從1開始索引):
[Math Problem]
{problem}
[Solution]
...
你的任務是驗證解決方案中段落的正確性。按'### Paragraph {{ID}}'分割你的驗證。
你對每個段落的驗證應由2部分構成,分別用''和''包裝。
1. 在''部分,你需要分析推理過程并詳細解釋為什么該段落是正確或不正確的。
2. 在''部分,你必須以'''python\n{{CODE}}\n'''的形式編寫**Python代碼**來驗證可以通過代碼驗證的每個細節(jié)。你可以導入PyPI(如'sympy'、'scipy'等)來實現(xiàn)復雜計算。確保在代碼中打印評論結果。每段代碼將由系統(tǒng)自動執(zhí)行。你需要分析代碼執(zhí)行后的'[Code Output]'。
>注意,編寫代碼時必須遵循'''python\n{{CODE}}\n'''的格式,否則代碼將無法執(zhí)行。
完成所有驗證后,如果你在某個段落中發(fā)現(xiàn)錯誤,返回**最早出現(xiàn)錯誤的段落索引**。否則,返回**索引-1(通常表示"未找到")**。請將你的最終答案(即索引)放在$\boxed{{INDEX}}$形式的框內(nèi)。
{solution_section_1}
{solution_section_n}
步驟2:代碼執(zhí)行與驗證
- 執(zhí)行生成的代碼,獲取步驟的反饋
- 執(zhí)行反饋格式為[Code output: {execution result}],作為前綴與生成的CoT分析和驗證代碼串聯(lián),用于后續(xù)處理
步驟3:標簽判斷與一致性過濾
- 完成所有候選步驟的推理數(shù)據(jù)生成與驗證后,推理生成模型輸出一個最終判斷數(shù)字
- 若所有步驟被判斷為正確,該數(shù)字為-1;否則,該數(shù)字表示首個錯誤步驟的索引
實驗評估
i) 實現(xiàn)細節(jié)
- 使用QwQ-32B模型和上述提示模板生成CoT分析與驗證代碼
- 基礎模型選自DeepSeek-R1-Distill系列,包括1.5B、7B和32B三種參數(shù)規(guī)模變體
- 從生成結果中提取標簽內(nèi)容,重點關注策略模型預測為負面的步驟
ii) ProcessBench性能評估
下表展示了以F1分數(shù)衡量的ProcessBench評估結果:

從表中數(shù)據(jù)可得出以下關鍵發(fā)現(xiàn):
a) GenPRM在ProcessBench上性能優(yōu)于基于分類的PRMs
GenPRM-7B顯著優(yōu)于直接生成式PRM方法,并在ProcessBench基準測試中超越了所有參數(shù)規(guī)模小于72B的現(xiàn)有PRMs模型。
b) GenPRM使較小參數(shù)規(guī)模模型通過TTS超越更大規(guī)模模型
GenPRM-1.5B通過簡單的多數(shù)投票機制在ProcessBench上表現(xiàn)超過GPT-4,而GenPRM-7B甚至超越了Qwen2.5-Math-PRM-72B,這表明測試時計算擴展對GenPRM極為有效。
iii) 策略模型測試時擴展性能
a) GenPRM驗證器模式評估
下圖顯示GenPRM-7B通過測試時擴展在性能上不僅優(yōu)于同等參數(shù)規(guī)模的分類型PRMs,還超越了Qwen2.5-Math-PRM-72B:

圖(a)-(d)展示了以Qwen2.5-Math-7B-Instruct作為生成模型時,GenPRM在MATH、AMC23、AIME24和Minerva Math四個數(shù)據(jù)集上的優(yōu)勢表現(xiàn):

上圖(e)-(h)進一步證明,GenPRM能良好泛化至以Gemma-3–12b-it作為生成模型的響應評估場景。
b) GenPRM評論者模式評估
下表展示了批評改進實驗的量化結果:

下圖表明GenPRM比基線方法展現(xiàn)出更強的批評改進能力,能顯著提升策略模型性能,且隨著基于批評反饋的迭代優(yōu)化次數(shù)增加,性能持續(xù)提升:

研究局限性
- GenPRM通過生成式推理提供過程監(jiān)督的方法在推理階段引入了額外計算開銷
- 當前研究主要關注數(shù)學推理任務領域,尚未全面探索在編碼和通用推理任務上的實際應用效果
結論
研究提出了GenPRM,一種創(chuàng)新的生成式過程獎勵模型,它通過執(zhí)行顯式推理和代碼驗證實現(xiàn)高質(zhì)量過程監(jiān)督,并使PRMs能夠有效擴展測試時計算能力。在ProcessBench和多個數(shù)學數(shù)據(jù)集上的實驗結果表明,GenPRM在性能上顯著優(yōu)于現(xiàn)有PRMs方法。研究還證實GenPRM的性能可通過測試時擴展技術進一步提升,且GenPRM作為評論模型具有很強的有效性。
https://avoid.overfit.cn/post/ef726bb5397a44f9832baff4668fb1e2
熱門跟貼