欧美精品hdvideosex4,天堂av高清在线,岛国视频在线看,av一区二区电影网站,免费视频色国产

趙儉，北京郵電大學本科三年級，研究方向為大語言模型。劉潤澤，清華大學碩士二年級，師從李秀教授，研究方向為大語言模型與強化學習，特別關(guān)注大模型推理能力增強與測試時間擴展，在 NeurIPS、ICML、ICLR、AAAI 等頂級學術(shù)會議發(fā)表多篇論文，個人主頁：ryanliu112.github.io。

隨著 OpenAI o1 和 DeepSeek R1 的爆火，大語言模型（LLM）的推理能力增強和測試時擴展（TTS）受到廣泛關(guān)注。然而，在復雜推理問題中，如何精準評估模型每一步回答的質(zhì)量，仍然是一個亟待解決的難題。傳統(tǒng)的過程獎勵模型（PRM）雖能驗證推理步驟，但受限于標量評分機制，難以捕捉深層邏輯錯誤，且其判別式建模方式限制了測試時的拓展能力。

那么，是否有辦法通過測試時拓展提升過程獎勵模型的過程監(jiān)督推理能力呢？

為此，清華大學聯(lián)合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM，將生成式思維鏈推理（CoT）與代碼驗證相結(jié)合，并引入測試時拓展機制，為過程監(jiān)督推理提供了新思路。與 DeepSeek 近期發(fā)布的逐點生成獎勵模型（GRM）類似，GenPRM 也通過生成式建模和測試時擴展增強獎勵模型的推理能力，但 GenPRM 更專注于過程獎勵模型，彌補了 GRM 在過程監(jiān)督方面的不足。

論文標題：GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

論文鏈接：http://arxiv.org/abs/2504.00891

項目鏈接：https://ryanliu112.github.io/GenPRM

GitHub：https://github.com/RyanLiu112/GenPRM

HuggingFace：https://huggingface.co/GenPRM

在 ProcessBench 等數(shù)學推理基準的測試中，GenPRM 展現(xiàn)出驚人實力：僅 1.5B 參數(shù)的模型通過測試時擴展超越 GPT-4o，而 7B 參數(shù)版本更是擊敗 72B 參數(shù)的 Qwen2.5-Math-PRM-72B，同時表現(xiàn)出強大的步驟級批評能力。

GenPRM：從評分到推理，再到測試時擴展

現(xiàn)有過程獎勵模型依賴分類器式的標量評分，這種 “黑箱” 機制導致兩個核心問題：一是無法解釋錯誤根源，僅能判斷步驟 “對錯”，卻無法解釋 “為何錯”，二是無法通過增加模型測試時間計算資源提升判斷精度。

生成式過程獎勵模型

為了突破這些瓶頸，GenPRM 引入生成式設(shè)計，徹底革新過程監(jiān)督范式：

思維鏈推理：GenPRM 模擬人類解題時的邏輯推導，對每一步推理進行自然語言分析，提供透明、可解釋的步驟評估。

代碼驗證：為確保推理的可靠性，GenPRM 還會生成并執(zhí)行對應數(shù)學運算的 Python 代碼，將文字推導與實際計算結(jié)果交叉驗證。例如，在求解三角函數(shù)表達式時，模型先分析角度轉(zhuǎn)換的合理性，再通過代碼計算具體數(shù)值，避免 “符號推導正確但計算失誤” 的情況。

其獎勵推理過程可以表示為：

其中 s_t 為當前狀態(tài)，a_t 為當前步驟，v_1:t?1 和 f_1:t-1 分別為之前步驟的推理過程和代碼執(zhí)行反饋，v_t 和 f_t 為當前步驟的推理與反饋。這種 “先解釋、再驗證” 的機制不僅能判斷對錯，還能提供步驟級別的批評改進建議和嚴謹準確的反饋，大幅提升了過程監(jiān)督的深度和實用性。

測試時擴展

在推理階段，GenPRM 通過并行采樣 N 條推理路徑，綜合多條路徑的獎勵值并取平均，得到最終獎勵：

這種策略充分利用額外計算資源，進一步提升評估精度，使小模型也能在復雜任務中表現(xiàn)出色。

數(shù)據(jù)高效：23K 樣本背后的合成秘密

GenPRM 的另一個亮點是僅使用 23K 訓練樣本就取得了優(yōu)異的性能，遠少于許多模型動輒數(shù)十萬級的數(shù)據(jù)量（如 PRM800K 需 80 萬人工標注），其高效性源于獨特的數(shù)據(jù)合成方法，結(jié)合相對進步估計（RPE）和代碼驗證，生成高質(zhì)量的過程監(jiān)督數(shù)據(jù)。

通過相對進步估計改進硬估計

傳統(tǒng)過程獎勵模型通過蒙特卡羅（MC）分數(shù)進行硬估計，研究者觀察到盡管許多步驟的 MC 分數(shù)大于 0，但這些步驟是卻存在錯誤。RPE 通過比較當前狀態(tài)和上一狀態(tài)的 MC 分數(shù)，用 “進步幅度” 評估每步質(zhì)量，比傳統(tǒng)硬標簽更準確。其形式化如下：

其中，MC (s_t, a_t) 表示當前步驟的蒙特卡羅分數(shù)，MC (s_t) 表示上一步驟的蒙特卡羅分數(shù)。若進步幅度低于閾值（?=0.8），則判定步驟無效；若首步錯誤（MC 為 0），后續(xù)步驟分數(shù)歸零。這種方法顯著提升標簽準確性，避免了硬估計的誤判。

代碼驗證驅(qū)動的數(shù)據(jù)合成

研究者利用 QwQ-32B 模型合成 CoT 和代碼驗證推理數(shù)據(jù)，通過在 Python 環(huán)境中真實執(zhí)行代碼重復檢驗 CoT 推理過程。使用共識過濾（過濾率 51%），保留高質(zhì)量過程監(jiān)督數(shù)據(jù)，最終得到 23K 訓練數(shù)據(jù)集。

測試時擴展：小模型的逆襲

在 ProcessBench 過程監(jiān)督基準測試中，GenPRM 展現(xiàn)出顯著優(yōu)勢：

僅用 23K 訓練數(shù)據(jù)的 1.5B GenPRM，通過多數(shù)投票（Maj@8）的測試時計算擴展策略，其 F1 分數(shù)超越 GPT-4o；

7B 版本的 GenPRM 以 80.5% 的 F1 分數(shù)一舉超過 72B 參數(shù)的 Qwen2.5-Math-PRM-72B。

這一結(jié)果證明，測試時擴展能有效放大過程獎勵模型的能力，使小模型實現(xiàn)性能飛躍。

此外，GenPRM 同樣適用于策略模型測試時擴展。通過 Best-of-N 實驗，GenPRM-7B 展現(xiàn)出相比于基線方法更加優(yōu)異的篩選能力，并可通過測試時擴展進一步增強過程監(jiān)督能力。

從驗證器到批評者：過程獎勵模型新范式

GenPRM 不僅能當 “裁判”，作為驗證器（Verifier）篩選答案，還能當 “教練”，作為步驟級別的批評模型（Critic）指導策略模型迭代優(yōu)化原始回答。實驗表明，GenPRM 通過 3 輪反饋將策略模型的回答準確率從 45.7% 提升至 51.5%，性能提升達到基線方法的 3.4 倍。