金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

有點意思。

這不DeepSeek前腳剛剛上新了一篇關(guān)于推理時Scaling Law的論文嘛,引得大家紛紛聯(lián)想是不是R2馬上要來了

然鵝……奧特曼這邊卻發(fā)了一條“變卦”的消息:

  • 計劃改變:我們可能在幾周之后先發(fā)布o3和o4-mini。

打開網(wǎng)易新聞 查看精彩圖片

至于大家翹首以盼的GPT-5,奧特曼表示:

  • 將在幾個月之后,而且效果會比我們最初設(shè)想的還要好。

至于原因,奧特曼也做出了解釋。

大概意思就是,順利整合所有內(nèi)容比他們想象的要困難得多,希望確保有足夠的能力來支持預(yù)期的需求。

打開網(wǎng)易新聞 查看精彩圖片

咱就是說啊,現(xiàn)在真的是DeepSeek這邊一有點聲響,OpenAI那邊就得有點動作來緊跟一下了。

DeepSeek新論文

在這個小插曲之后呢,我們還是把目光聚焦在DeepSeek這篇新論文身上。

這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清華大學(xué)共同提出。

打開網(wǎng)易新聞 查看精彩圖片

這篇研究核心的亮點,就是提出了一個叫做SPCT方法(Self-Principled Critique Tuning)的方法——

首次提出通過在線強化學(xué)習(xí)(RL)優(yōu)化原則和批判生成,實現(xiàn)推理時擴展。

之所以要做這么一項研究,是因為之前大家用獎勵模型(Reward Model, RM)在RL中為大語言模型生成獎勵信號。

但現(xiàn)有的RM在通用領(lǐng)域卻表現(xiàn)出受限的情況,尤其是在面對復(fù)雜、多樣化任務(wù)的時候。

因此,就出現(xiàn)了兩個關(guān)鍵挑戰(zhàn)點。

一個是通用RM需要靈活性(支持單響應(yīng)、多響應(yīng)評分)和準確性(跨領(lǐng)域高質(zhì)量獎勵)。

另一個則是現(xiàn)有RM(如標量RM、半標量RM)在推理時擴展性差,無法通過增加計算資源顯著提升性能。

打開網(wǎng)易新聞 查看精彩圖片

為了解決這個問題,DeepSeek和清華大學(xué)團隊便提出了SPCT。

打開網(wǎng)易新聞 查看精彩圖片

整體來看,這項研究主要包含三大核心技術(shù)點。

首先就是生成式獎勵模型(GRM)。

它采用點式生成獎勵模型(Pointwise GRM),通過生成文本形式的獎勵(如critiques)而非單一標量值,支持靈活輸入(單響應(yīng)、多響應(yīng))和推理時擴展。

其中,C是生成的critique,fextract從中提取分數(shù)。

接下來,是關(guān)鍵的SPCT了。

主要是通過在線強化學(xué)習(xí)(RL)訓(xùn)練GRM,使其能動態(tài)生成高質(zhì)量的原則(principles)和批判(critiques),從而提升獎勵質(zhì)量。

整體來看,SPCT是一個兩階段的過程,它們分別是:

  • 拒絕式微調(diào)(Rejective Fine-Tuning)
  • :冷啟動階段,通過采樣和拒絕策略生成初始數(shù)據(jù)。
  • 基于規(guī)則的在線RL
  • :使用規(guī)則化獎勵函數(shù)優(yōu)化原則和批判的生成,鼓勵模型區(qū)分最佳響應(yīng)。

在此基礎(chǔ)上,便是第三個技術(shù)點,即推理時擴展技術(shù)

先是通過多次采樣生成多樣化的原則和批判,投票聚合最終獎勵,擴展獎勵空間。

再訓(xùn)練一個輔助模型過濾低質(zhì)量采樣,進一步提升擴展效果。

基于上述的方法,團隊也對結(jié)果做了一波測試。

在Reward Bench、PPE、RMB等基準上,DeepSeek-GRM-27B顯著優(yōu)于基線方法(如LLM-as-a-Judge、標量RM),且通過推理時擴展(32次采樣)性能進一步提升(如Reward Bench準確率從86.0%提升至90.4%)。

打開網(wǎng)易新聞 查看精彩圖片

總而言之,這篇研究證明了推理時擴展在通用RM中的有效性,性能超越訓(xùn)練時擴展。

One More Thing

奧特曼發(fā)布“變卦”消息之外,還不忘給自己帶一波貨,稱有兩本他親自參與的書即將發(fā)布:

  • 一本是Keach Hagey寫的關(guān)于奧特曼本人的書
  • 一本是Ashlee Vance寫的關(guān)于OpenAI的書

打開網(wǎng)易新聞 查看精彩圖片

論文地址:https://arxiv.org/abs/2504.02495

[1]https://x.com/sama/status/1908167621624856998
[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/
[3]https://x.com/sama/status/1908163013192069460