久久狼人国产精品,日韩国产精品久久久久久亚洲,成人亚洲精品在线,久久精品久久久久观看99,在线观看亚洲一区二区三区

過程獎勵模型(PRMs)作為驗證機制在提升大型語言模型(LLMs)性能方面展現(xiàn)出顯著潛力。而當前PRMs框架面臨三個核心技術挑戰(zhàn)：過程監(jiān)督和泛化能力受限、未充分利用LLM生成能力而僅依賴標量值預測，以及在測試時計算無法有效擴展。

針對上述局限，這篇論文提出了GenPRM，一種創(chuàng)新性的生成式過程獎勵模型。該模型在評估每個推理步驟前，先執(zhí)行顯式的思維鏈(Chain-of-Thought, CoT)推理并實施代碼驗證，從而實現(xiàn)對推理過程的深度理解與評估。

下圖直觀地展示了GenPRM與傳統(tǒng)基于分類方法的本質(zhì)區(qū)別：

研究的主要技術貢獻包括：

構建了一種生成式過程獎勵模型架構，該架構通過顯式CoT推理和代碼驗證機制，結合相對進展估計技術，實現(xiàn)了高精度PRM標簽的獲取
在ProcessBench及多種數(shù)學推理任務的實證評估表明，GenPRM在性能上顯著優(yōu)于現(xiàn)有的基于分類的PRMs方法

技術基礎

1、馬爾可夫決策過程框架

測試時擴展過程可形式化為馬爾可夫決策過程(MDP)，定義為五元組(,, , , )，其中：

表示狀態(tài)空間
代表動作空間
定義轉換動態(tài)
: × → R為獎勵函數(shù)
∈ [0, 1]是折扣因子

在此框架下，優(yōu)化目標可分為兩種：優(yōu)化每個步驟的獎勵(適用于基于搜索的方法)，或優(yōu)化整體響應的累積獎勵(適用于Best-of-N采樣技術)。

2、監(jiān)督微調(diào)技術

該技術訓練模型基于先前上下文預測后續(xù)標記。針對數(shù)據(jù)集SFT = {((), ())}=1，監(jiān)督微調(diào)損失函數(shù)定義為：

其中表示參數(shù)為的模型

3、測試時擴展方法

研究考察兩種主要的測試時擴展技術：

多數(shù)投票機制：從所有可能解決方案中選擇出現(xiàn)頻率最高的答案
Best-of-N (BoN)采樣：從N個候選解決方案中篩選性能最佳的答案

GenPRM架構設計

GenPRM框架由以下六個核心組件構成：

策略模型負責生成解決步驟，同時通過rollout軌跡估計蒙特卡洛(MC)分數(shù)
提出的相對進展估計(RPE)機制用于獲取高精度PRM標簽
通過增強的代碼驗證和CoT推理合成高質(zhì)量過程監(jiān)督數(shù)據(jù)
應用一致性過濾后進行監(jiān)督微調(diào)(SFT)訓練GenPRM
訓練完成的GenPRM作為驗證器或評論者，增強策略模型的測試時擴展能力
通過測試時擴展進一步提升GenPRM自身性能

從判別式PRM到生成式PRM的模型演進

i) 現(xiàn)有PRM方法分析

a) 判別式PRM

假設存在PRM數(shù)據(jù)集Disc = {(, ), }，其中硬估計PRM標簽 ∈ {0, 1}。判別式PRM 通過交叉熵損失函數(shù)進行訓練：

b) 直接生成式PRM

基于數(shù)據(jù)集Direct-Gen = {(, ), }，其中正確步驟標記為Yes，錯誤步驟標記為No。直接生成式PRM通過SFT訓練，為每個推理步驟預測Yes/No標簽。對于步驟，將Yes標記的預測概率作為過程獎勵?：

ii) 生成式PRM創(chuàng)新設計

生成式PRM通過為直接生成式PRM增加類CoT顯式推理過程實現(xiàn)性能提升。令1:?1表示從步驟1至?1的推理過程，表示步驟的推理。

基于數(shù)據(jù)集Gen = {(, , 1:?1), (, )}，GenPRM通過監(jiān)督微調(diào)學習推理驗證每個步驟。生成式過程獎勵?計算如下：

iii) 代碼驗證增強的生成式PRM

與標準生成式PRM不同，代碼驗證增強型GenPRM生成可執(zhí)行代碼驗證推理步驟，通過代碼執(zhí)行結果提供客觀判斷。在步驟，生成推理(包含CoT分析和驗證代碼)后，執(zhí)行代碼并獲取反饋。

給定當前狀態(tài)、動作、先前推理序列1:?1及其對應執(zhí)行反饋1:?1，PRM首先生成當前推理。執(zhí)行代碼并獲取反饋后，最終的生成式過程獎勵計算方式為：

GenPRM測試時擴展技術（TTS）

i) 策略模型TTS：GenPRM驗證器應用

為擴展策略模型的測試時計算能力，可從策略模型采樣多個響應，然后利用GenPRM作為驗證器，通過并行TTS(Test-Time Scaling)方式選擇最優(yōu)答案。

ii) 策略模型TTS：GenPRM評論者機制

通過配備生成式過程監(jiān)督能力，GenPRM可自然地作為評論模型優(yōu)化策略模型輸出，通過多輪順序TTS方式擴展改進過程。

iii) GenPRM自身的TTS機制

在評估每個解決步驟時，系統(tǒng)首先采樣N個推理驗證路徑，然后通過獎勵平均值計算多數(shù)投票結果，得出最終預測。

對于不含代碼驗證的GenPRM，獎勵計算公式為：

進一步整合代碼驗證和執(zhí)行反饋的獎勵計算公式：

這些計算得到的獎勵值可用于策略模型響應排序，或通過0.5閾值轉換為二元標簽，判定步驟正確性。

GenPRM數(shù)據(jù)合成方法

數(shù)據(jù)合成流程包含三個關鍵階段：

i) 解決方案生成與蒙特卡洛估計

a) 步驟強制解決方案生成技術

利用MATH數(shù)據(jù)集訓練集中的7.5K問題作為基礎問題集
采用Qwen2.5–7B-Instruct作為生成模型，為每個問題收集多樣化解決方案
具體實現(xiàn)中，添加"Step 1:"作為生成模型響應前綴，對于包含個推理步驟的完整響應，其標準化格式為：

步驟強制響應格式
Step 1: {步驟詳細內(nèi)容}
...
Step T: {步驟詳細內(nèi)容}

為確保數(shù)據(jù)集包含足夠的正確與錯誤路徑樣本，對難題和簡單問題分別采樣最多2048條解題路徑，若采樣2048個響應后仍未找到足夠的正確或錯誤路徑，則從數(shù)據(jù)集中剔除相應問題

b) MC估計精度與效率平衡策略

利用基于完成的采樣方法估計各步驟正確概率
對于每個推理步驟，使用完成模型(特別是Qwen2.5-Math-7B-Instruct)生成個完成軌跡，并通過MC估計計算當前步驟的正確概率：

其中代表第個響應的答案，*為真實答案，1為指示函數(shù)

為平衡計算資源開銷，根據(jù)估計的Pass@1 (1)動態(tài)調(diào)整值：

ii) 相對進展估計技術

提出相對進展估計(RPE)方法，借鑒GRPO中相對優(yōu)勢估計思想，優(yōu)化傳統(tǒng)硬標簽估計
MC分數(shù)作為當前狀態(tài)的經(jīng)驗估計值。評估當前動作質(zhì)量時，通過比較下一狀態(tài)+1與當前狀態(tài)的MC分數(shù)差異，其中+1 = [, ]
對每個響應，若第一個錯誤步驟為步驟′(即(′) = 0)，則將后續(xù)步驟MC分數(shù)設為0。步驟的RPE 定義為：

其中(1)為解決方案生成階段計算的估計Pass@1值

通過引入閾值確定最終獎勵標簽?：

iii) 推理生成、驗證與過濾機制

采用QwQ-32B作為推理生成模型，實現(xiàn)三步自動化管道生成并驗證每個推理步驟
給定問題、真實答案*和候選步驟序列{1, · · · , }，生成與驗證流程如下：

步驟1：基于代碼的推理生成

指導推理生成模型使用和標簽封裝CoT分析，使用和標簽封裝驗證代碼
采用以下結構化提示模板：（論文為英文prompt為了方便說明，我把它翻譯成中文）

CoT和代碼推理生成的提示模板
[System]:
你是一位數(shù)學老師。你的任務是使用python代碼逐步審查和評論解決方案中的段落。
[User]:
以下是數(shù)學問題和解決方案（按段落分割，用標簽封閉并從1開始索引）：
[Math Problem]
{problem}
[Solution]
...
你的任務是驗證解決方案中段落的正確性。按'### Paragraph {{ID}}'分割你的驗證。
你對每個段落的驗證應由2部分構成，分別用''和''包裝。
1. 在''部分，你需要分析推理過程并詳細解釋為什么該段落是正確或不正確的。
2. 在''部分，你必須以'''python\n{{CODE}}\n'''的形式編寫**Python代碼**來驗證可以通過代碼驗證的每個細節(jié)。你可以導入PyPI（如'sympy'、'scipy'等）來實現(xiàn)復雜計算。確保在代碼中打印評論結果。每段代碼將由系統(tǒng)自動執(zhí)行。你需要分析代碼執(zhí)行后的'[Code Output]'。
>注意，編寫代碼時必須遵循'''python\n{{CODE}}\n'''的格式，否則代碼將無法執(zhí)行。
完成所有驗證后，如果你在某個段落中發(fā)現(xiàn)錯誤，返回**最早出現(xiàn)錯誤的段落索引**。否則，返回**索引-1（通常表示"未找到"）**。請將你的最終答案（即索引）放在$\boxed{{INDEX}}$形式的框內(nèi)。

{solution_section_1}

{solution_section_n}

步驟2：代碼執(zhí)行與驗證

執(zhí)行生成的代碼，獲取步驟的反饋
執(zhí)行反饋格式為[Code output: {execution result}]，作為前綴與生成的CoT分析和驗證代碼串聯(lián)，用于后續(xù)處理

步驟3：標簽判斷與一致性過濾

完成所有候選步驟的推理數(shù)據(jù)生成與驗證后，推理生成模型輸出一個最終判斷數(shù)字
若所有步驟被判斷為正確，該數(shù)字為-1；否則，該數(shù)字表示首個錯誤步驟的索引

實驗評估

i) 實現(xiàn)細節(jié)

使用QwQ-32B模型和上述提示模板生成CoT分析與驗證代碼
基礎模型選自DeepSeek-R1-Distill系列，包括1.5B、7B和32B三種參數(shù)規(guī)模變體
從生成結果中提取標簽內(nèi)容，重點關注策略模型預測為負面的步驟

ii) ProcessBench性能評估

下表展示了以F1分數(shù)衡量的ProcessBench評估結果：

從表中數(shù)據(jù)可得出以下關鍵發(fā)現(xiàn)：

a) GenPRM在ProcessBench上性能優(yōu)于基于分類的PRMs

GenPRM-7B顯著優(yōu)于直接生成式PRM方法，并在ProcessBench基準測試中超越了所有參數(shù)規(guī)模小于72B的現(xiàn)有PRMs模型。

b) GenPRM使較小參數(shù)規(guī)模模型通過TTS超越更大規(guī)模模型

GenPRM-1.5B通過簡單的多數(shù)投票機制在ProcessBench上表現(xiàn)超過GPT-4，而GenPRM-7B甚至超越了Qwen2.5-Math-PRM-72B，這表明測試時計算擴展對GenPRM極為有效。

iii) 策略模型測試時擴展性能

a) GenPRM驗證器模式評估

下圖顯示GenPRM-7B通過測試時擴展在性能上不僅優(yōu)于同等參數(shù)規(guī)模的分類型PRMs，還超越了Qwen2.5-Math-PRM-72B：

圖(a)-(d)展示了以Qwen2.5-Math-7B-Instruct作為生成模型時，GenPRM在MATH、AMC23、AIME24和Minerva Math四個數(shù)據(jù)集上的優(yōu)勢表現(xiàn)：

上圖(e)-(h)進一步證明，GenPRM能良好泛化至以Gemma-3–12b-it作為生成模型的響應評估場景。

b) GenPRM評論者模式評估

下表展示了批評改進實驗的量化結果：

下圖表明GenPRM比基線方法展現(xiàn)出更強的批評改進能力，能顯著提升策略模型性能，且隨著基于批評反饋的迭代優(yōu)化次數(shù)增加，性能持續(xù)提升：

研究局限性

GenPRM通過生成式推理提供過程監(jiān)督的方法在推理階段引入了額外計算開銷
當前研究主要關注數(shù)學推理任務領域，尚未全面探索在編碼和通用推理任務上的實際應用效果

結論

研究提出了GenPRM，一種創(chuàng)新的生成式過程獎勵模型，它通過執(zhí)行顯式推理和代碼驗證實現(xiàn)高質(zhì)量過程監(jiān)督，并使PRMs能夠有效擴展測試時計算能力。在ProcessBench和多個數(shù)學數(shù)據(jù)集上的實驗結果表明，GenPRM在性能上顯著優(yōu)于現(xiàn)有PRMs方法。研究還證實GenPRM的性能可通過測試時擴展技術進一步提升，且GenPRM作為評論模型具有很強的有效性。

https://avoid.overfit.cn/post/ef726bb5397a44f9832baff4668fb1e2