打開網(wǎng)易新聞 查看精彩圖片

整理 | 華衛(wèi)、核子可樂

剛剛,OpenAI 的 CEO Sam Altman 對(duì)外發(fā)布重大變更計(jì)劃:整合多項(xiàng)尖端技術(shù)的 GPT-5 將免費(fèi)開放,o3 和 o4-mini 即將在幾周內(nèi)亮相,o3 Pro 也即將上線。Altman 還表示,他們?cè)诤芏喾矫鎸?duì) o3 之前所展示的內(nèi)容進(jìn)行了改進(jìn)。

打開網(wǎng)易新聞 查看精彩圖片

網(wǎng)友們?cè)谡痼@之余紛紛表示,“OpenAI 也打算像 DeepSeek 那樣把模型開源了嗎?”并且,這次 OpenAI 和 DeepSeek 又是“前后腳”發(fā)布更新。

打開網(wǎng)易新聞 查看精彩圖片

就在前日(4 月 3 日),DeepSeek 和清華大學(xué)研究人員最新發(fā)表了一篇關(guān)于獎(jiǎng)勵(lì)模型和 Scaling Law 的論文,正在 AI 社區(qū)中被廣泛討論。有許多人稱:這表示“R2 馬上要來(lái)了”。還有網(wǎng)友這樣肯定其成果:“從我在 o3 推理鏈中讀到的內(nèi)容來(lái)看,這很可能是 o3 方法論?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

總的來(lái)說,DeepSeek 找到了一個(gè)能夠有效實(shí)現(xiàn)推理時(shí)擴(kuò)展、進(jìn)而提升模型整體性能的新方法。主要成果如下:

  1. 提出一種名為自原則批判微調(diào)(SPCT)的方法,用于促進(jìn)通用獎(jiǎng)勵(lì)建模在推理階段的可擴(kuò)展性,并由此訓(xùn)練出 DeepSeek-GRM 模型,又引入了元 RM 來(lái)指導(dǎo)投票過程,進(jìn)一步有效提升 DeepSeek-GRM 的推理性能。據(jù)悉,DeepSeek-GRM 模型還將被開源。

  2. 通過實(shí)證表明,SPCT 顯著提高了 DeepSeek-GRM 的質(zhì)量和推理階段可擴(kuò)展性,在各種獎(jiǎng)勵(lì)建模基準(zhǔn)測(cè)試中優(yōu)于現(xiàn)有方法和多個(gè)強(qiáng)大開源模型。

  3. 將 SPCT 訓(xùn)練方案應(yīng)用于更大規(guī)模的大語(yǔ)言模型,并發(fā)現(xiàn)相比于在訓(xùn)練階段擴(kuò)大模型規(guī)模,在推理時(shí)擴(kuò)展的性能收益更高。

獎(jiǎng)勵(lì)建模到底是什么?

當(dāng)前,強(qiáng)化學(xué)習(xí)(RL)作為大語(yǔ)言模型(LLM)的一種訓(xùn)練后方法,已大規(guī)模地被廣泛應(yīng)用,并在大語(yǔ)言模型與人類價(jià)值觀的對(duì)齊、長(zhǎng)期推理以及環(huán)境適應(yīng)能力方面取得了顯著的提升。

獎(jiǎng)勵(lì)建模(Reward Modeling)是強(qiáng)化學(xué)習(xí)中的一個(gè)關(guān)鍵組成部分,對(duì)于為大語(yǔ)言模型的回復(fù)生成準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào)至關(guān)重要。有研究表明,在訓(xùn)練或推理階段,只要有高質(zhì)量且可靠的獎(jiǎng)勵(lì)機(jī)制,大語(yǔ)言模型就能在特定領(lǐng)域中取得出色的表現(xiàn)。

這些特定領(lǐng)域中的高質(zhì)量獎(jiǎng)勵(lì)主要來(lái)自于具有明確條件的人為設(shè)計(jì)環(huán)境或者來(lái)自于針對(duì)可驗(yàn)證問題的手工制定規(guī)則,例如部分?jǐn)?shù)學(xué)問題和編碼任務(wù)。在一般領(lǐng)域中,獎(jiǎng)勵(lì)生成更具挑戰(zhàn)性,因?yàn)楠?jiǎng)勵(lì)的標(biāo)準(zhǔn)更加多樣和復(fù)雜,并且通常沒有明確的參考標(biāo)準(zhǔn)或事實(shí)依據(jù)。

通俗地講,現(xiàn)在大模型在生成回復(fù)時(shí)需要對(duì)內(nèi)容進(jìn)行“打分”,比如判斷眾多答案中哪個(gè)更為準(zhǔn)確、哪個(gè)更符合安全規(guī)范,目前它們?nèi)匀灰蕾囉谌祟愵A(yù)先設(shè)定的規(guī)則來(lái)進(jìn)行評(píng)判。但在面對(duì)實(shí)際的復(fù)雜情況時(shí),這種方式就不太夠用了,需要大模型能夠?qū)崿F(xiàn)自我學(xué)習(xí),學(xué)會(huì)自主地應(yīng)對(duì)各種情況下的“打分” 。

因此,無(wú)論是從訓(xùn)練后階段(如大規(guī)模的強(qiáng)化學(xué)習(xí))還是推理階段的角度(如獎(jiǎng)勵(lì)建模引導(dǎo)的搜索)來(lái)看,通用獎(jiǎng)勵(lì)建模對(duì)于提升大語(yǔ)言模型在更廣泛應(yīng)用中的性能都至關(guān)重要。在實(shí)踐中,要使獎(jiǎng)勵(lì)建模既具有通用性,又能在推理階段實(shí)現(xiàn)有效擴(kuò)展,存在著諸多挑戰(zhàn)。

據(jù)了解,獎(jiǎng)勵(lì)建模方法主要由獎(jiǎng)勵(lì)生成范式和評(píng)分模式?jīng)Q定,這從本質(zhì)上影響著獎(jiǎng)勵(lì)建模在推理階段的可擴(kuò)展性以及輸入的靈活性,而獎(jiǎng)勵(lì)建模的性能可通過增加訓(xùn)練計(jì)算量和推理計(jì)算量來(lái)加以提升?,F(xiàn)有的獎(jiǎng)勵(lì)生成范式包括標(biāo)量式、半標(biāo)量式和生成式方法,評(píng)分模式有逐逐點(diǎn)和成對(duì)式。

然而,成對(duì)式獎(jiǎng)勵(lì)建模僅考慮成對(duì)回復(fù)的相對(duì)偏好,缺乏接受單個(gè)或多個(gè)回復(fù)作為輸入的靈活性;標(biāo)量式獎(jiǎng)勵(lì)建模很難為同一個(gè)回復(fù)生成多樣化的獎(jiǎng)勵(lì)信號(hào),阻礙了通過基于采樣的推理時(shí)擴(kuò)展方法來(lái)獲得更好的獎(jiǎng)勵(lì)。雖然當(dāng)前已有不同的學(xué)習(xí)方法來(lái)提高獎(jiǎng)勵(lì)質(zhì)量,但其中很少有方法關(guān)注推理階段的可擴(kuò)展性,也很少研究到學(xué)習(xí)到的獎(jiǎng)勵(lì)生成行為與獎(jiǎng)勵(lì)建模在推理時(shí)擴(kuò)展的有效性之間的聯(lián)系,導(dǎo)致性能提升依然有限。

DeepSeek 的主要技術(shù)突破

DeepSeek 團(tuán)隊(duì)在此前的研究中發(fā)現(xiàn),恰當(dāng)?shù)膶W(xué)習(xí)方法可以實(shí)現(xiàn)有效的推理階段可擴(kuò)展性,這就提出了一個(gè)問題:能否設(shè)計(jì)一種學(xué)習(xí)方法,旨在為通用獎(jiǎng)勵(lì)建模實(shí)現(xiàn)有效的推理時(shí)擴(kuò)展呢?

為此,這次他們分析了不同的獎(jiǎng)勵(lì)建模方法,并發(fā)現(xiàn):逐點(diǎn)生成式獎(jiǎng)勵(lì)建模(GRM)可以在純語(yǔ)言表示中統(tǒng)一對(duì)單個(gè)、成對(duì)和多個(gè)回復(fù)的評(píng)分;某些原則可以在合適的標(biāo)準(zhǔn)下指導(dǎo)生成式獎(jiǎng)勵(lì)建模的獎(jiǎng)勵(lì)生成,從而提高獎(jiǎng)勵(lì)質(zhì)量。那么,獎(jiǎng)勵(lì)建模的推理階段可擴(kuò)展性或許可以通過擴(kuò)展高質(zhì)量原則的生成和準(zhǔn)確的批判來(lái)實(shí)現(xiàn)。

SPCT

基于這一初步發(fā)現(xiàn),該團(tuán)隊(duì)提出了一種新穎的學(xué)習(xí)方法——自原則批判微調(diào)(Self-Principled Critique Tuning,簡(jiǎn)稱為 SPCT),以在生成式獎(jiǎng)勵(lì)建模中培養(yǎng)有效的推理階段可擴(kuò)展行為。通過利用基于規(guī)則的在線強(qiáng)化學(xué)習(xí),自原則批判微調(diào)使生成式獎(jiǎng)勵(lì)建模能夠?qū)W習(xí)根據(jù)輸入查詢和回復(fù)自適應(yīng)地提出原則和批判,從而在一般領(lǐng)域中獲得更好的結(jié)果獎(jiǎng)勵(lì)。

簡(jiǎn)單來(lái)說就是,SPCT 可以“教”大模型自主制定評(píng)分標(biāo)準(zhǔn)。

打開網(wǎng)易新聞 查看精彩圖片

SPCT 的架構(gòu)

據(jù)介紹,SPCT 包含兩個(gè)階段:作為冷啟動(dòng)的拒絕式微調(diào),以及基于規(guī)則的在線強(qiáng)化學(xué)習(xí),通過推進(jìn)生成原則和點(diǎn)評(píng)以增強(qiáng)生成式獎(jiǎng)勵(lì)生成,同時(shí)支持推理時(shí)擴(kuò)展。

其中,拒絕式微調(diào)的核心是讓 GRM 生成格式正確且適用于多種輸入類型的原則和批判。與以多種格式混合單 / 雙 / 多響應(yīng)數(shù)據(jù)的先前方案不同,逐點(diǎn) GRM 靈活生成任意數(shù)量響應(yīng)的獎(jiǎng)勵(lì)。數(shù)據(jù)構(gòu)建時(shí),除通用指令數(shù)據(jù)外,還使用預(yù)訓(xùn)練 GRM 從含多響應(yīng)的 RM 數(shù)據(jù)中采樣查詢及對(duì)應(yīng)響應(yīng)。

超越以往研究的一大關(guān)鍵是,DeepSeek 團(tuán)隊(duì)觀察到,提示采樣軌跡可能會(huì)簡(jiǎn)化生成的批判(尤其在推理任務(wù)中),凸顯了在線 RL 對(duì) GRM 的必要性和潛在優(yōu)勢(shì)。

而該團(tuán)隊(duì)也通過基于規(guī)則的在線 RL 來(lái)進(jìn)一步微調(diào)了 GRM,其采用 GRPO 的原始設(shè)置,使用基于規(guī)則的產(chǎn)出獎(jiǎng)勵(lì)。在滾動(dòng)過程中,GRM 基于查詢和響應(yīng)生成原則和點(diǎn)評(píng),然后提取預(yù)測(cè)獎(jiǎng)勵(lì)并與真值通過準(zhǔn)確率規(guī)則進(jìn)行比較。與 DeepSeek R1 不同,他們這次不使用格式獎(jiǎng)勵(lì),而是應(yīng)用更大的 KL 懲罰系數(shù)以確保格式并避免嚴(yán)重偏差。

基于 SPCT 的推理時(shí)擴(kuò)展

為利用更多推理計(jì)算提升 DeepSeek-GRM 的生成式獎(jiǎng)勵(lì)生成性能,該團(tuán)隊(duì)探索了基于采樣的策略,以實(shí)現(xiàn)有效的推理時(shí)擴(kuò)展。

首先是通過生成式獎(jiǎng)勵(lì)進(jìn)行投票。通過用 SPCT 進(jìn)行后訓(xùn)練,DeepSeek 基于 Gemma-2-27B 提出了 DeepSeek-GRM-27B,其通過多次采樣來(lái)擴(kuò)大計(jì)算量的使用。通過并行采樣,DeepSeek-GRM 可以生成不同的原則集以及相應(yīng)的批判,然后對(duì)最終獎(jiǎng)勵(lì)進(jìn)行投票。通過更大規(guī)模的采樣,DeepSeek-GRM 可以根據(jù)更多樣化的原則做出更準(zhǔn)確的判斷,并輸出更精細(xì)的獎(jiǎng)勵(lì)。

直觀解釋是:若每個(gè)原則可視為判斷視角的代理,更多原則可能更準(zhǔn)確地反映真實(shí)分布,提高擴(kuò)展有效性。值得注意的是,為避免位置偏差并增加多樣性,會(huì)在采樣前打亂響應(yīng)順序。

除此之外,DeepSeek 團(tuán)隊(duì)還訓(xùn)練了一個(gè)元獎(jiǎng)勵(lì)模型(meta RM)來(lái)引導(dǎo)投票過程。DeepSeek-GRM 的投票過程需要多次采樣,部分生成的原則和點(diǎn)評(píng)可能因隨機(jī)性或模型限制存在偏差或低質(zhì)量問題。元獎(jiǎng)勵(lì)模型為逐點(diǎn)標(biāo)量 RM,訓(xùn)練目標(biāo)為識(shí)別 DeepSeek-GRM 所生成原則和點(diǎn)評(píng)的正確性。

準(zhǔn)確率超越 GPT-4o,領(lǐng)域偏差更小

從實(shí)驗(yàn)結(jié)果看,SPCT 顯著提高了 GRM 的質(zhì)量和可擴(kuò)展性,在多個(gè)綜合獎(jiǎng)勵(lì)建?;鶞?zhǔn)測(cè)試中優(yōu)于現(xiàn)有方法和模型,且不存在嚴(yán)重的領(lǐng)域偏差。

打開網(wǎng)易新聞 查看精彩圖片

不同方法和模型在 RM 基準(zhǔn)測(cè)試上的總體結(jié)果

該團(tuán)隊(duì)將 DeepSeek-GRM-27B 的性能與公開模型的已報(bào)告結(jié)果以及各基準(zhǔn)方法的復(fù)現(xiàn)結(jié)果進(jìn)行了比較,并發(fā)現(xiàn),DeepSeek-GRM-27B 在總體性能上優(yōu)于基準(zhǔn)方法,并且與強(qiáng)大的公開獎(jiǎng)勵(lì)模型相比,如 Nemotron-4-340B-Reward 和 GPT-4o,取得了具有競(jìng)爭(zhēng)力的性能;通過推理時(shí)擴(kuò)展,DeepSeek-GRM-27B 能夠進(jìn)一步提升并取得最佳的總體結(jié)果。

詳細(xì)比較中,標(biāo)量 RM(DeepSeek-BTRM-27B、DeepSeek-PairRM-27B)和半標(biāo)量 RM(CLoud-Gemma-2-27B)在不同基準(zhǔn)上表現(xiàn)出顯著領(lǐng)域偏差,在可驗(yàn)證任務(wù)(PPE 正確性)上優(yōu)于 GRM,但在其他基準(zhǔn)上不及。多數(shù)公共標(biāo)量 RM 也存在嚴(yán)重領(lǐng)域偏差。LLM-as-a-Judge 與 DeepSeek-GRM-27B 趨勢(shì)相似但性能較低,可能是因?yàn)槿狈υ瓌t引導(dǎo)??傊?,SPCT 提高了 GRM 的獎(jiǎng)勵(lì)生成能力,與標(biāo)量和半標(biāo)量獎(jiǎng)勵(lì)模型相比,偏差明顯更小。

打開網(wǎng)易新聞 查看精彩圖片

不同方法在 RM 基準(zhǔn)測(cè)試上的推理時(shí)擴(kuò)展結(jié)果

在最多 8 次采樣下,DeepSeek-GRM-27B 相比貪心解碼和單次采樣性能提升最大,且隨計(jì)算量增加(最多 32 次采樣)展現(xiàn)出強(qiáng)擴(kuò)展?jié)摿?。在每個(gè)基準(zhǔn)測(cè)試中,元獎(jiǎng)勵(lì)模型也顯示出其在為 DeepSeek-GRM 過濾低質(zhì)量軌跡方面的有效性。LLM-as-a-Judge 通過 token 概率加權(quán)投票也顯著提升性能,表明定量權(quán)重可提高多數(shù)投票的可靠性。Cloud-Gemma-2-27B 性能提升有限,主要因標(biāo)量獎(jiǎng)勵(lì)生成缺乏方差。

總之,SPCT 提高了 GRM 的推理時(shí)可擴(kuò)展性,并且元獎(jiǎng)勵(lì)模型進(jìn)一步提升了擴(kuò)展性能。

打開網(wǎng)易新聞 查看精彩圖片

擬議 SPCT 不同組成部分的消融研究,粗體數(shù)字表示最佳性能

令人驚訝的是,即使沒有使用拒絕采樣的評(píng)估數(shù)據(jù)進(jìn)行冷啟動(dòng),經(jīng)過在線 RL 后,通用指令微調(diào)的 GRM 仍然有顯著提升,從 66.1 到 68.7。此外,非提示采樣似乎比提示采樣更重要,可能源自提示采樣軌跡中的捷徑問題。這些結(jié)果表明在線訓(xùn)練對(duì) GRM 的重要性。與以往的研究發(fā)現(xiàn)一致,DeepSeek 團(tuán)隊(duì)確認(rèn)通用指令數(shù)據(jù)對(duì) GRM 性能至關(guān)重要。原則生成對(duì) DeepSeek-GRM-27B 的貪心解碼和推理時(shí)間擴(kuò)展均至關(guān)重要。

該團(tuán)隊(duì)還通過在不同規(guī)模的大語(yǔ)言模型上進(jìn)行訓(xùn)練后處理,進(jìn)一步研究了 DeepSeek-GRM-27B 在推理時(shí)間和訓(xùn)練時(shí)間方面的擴(kuò)展性能。其發(fā)現(xiàn),DeepSeek-GRM-27B 使用 32 個(gè)樣本進(jìn)行直接投票可以達(dá)到與 671B 混合專家模型(MoE)相當(dāng)?shù)男阅?,而元?jiǎng)勵(lì)模型引導(dǎo)的投票在 8 次采樣時(shí)可以取得最佳結(jié)果,這表明與擴(kuò)大模型規(guī)模相比,DeepSeek-GRM-27B 的推理時(shí)擴(kuò)展是有效的。

最后,他們使用包含 300 個(gè)樣本的下采樣測(cè)試集對(duì) DeepSeek-R1 進(jìn)行了測(cè)試,發(fā)現(xiàn)其性能甚至不及 236B MoE RFT 模型,這表明為推理任務(wù)擴(kuò)展思維鏈長(zhǎng)度并不能顯著提升 GRM 的性能。

盡管當(dāng)前的方法在效率和特定任務(wù)方面面臨挑戰(zhàn),但 DeepSeek 相信,通過 SPCT 之外的努力,具有更高可擴(kuò)展性和效率的 GRM 可以作為通用獎(jiǎng)勵(lì)系統(tǒng)的通用接口,推動(dòng)大語(yǔ)言模型訓(xùn)練后階段和推理的前沿發(fā)展。

https://arxiv.org/abs/2504.02495

聲明:本文為 InfoQ 翻譯整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

在 AI 大模型重塑軟件開發(fā)的時(shí)代,我們?nèi)绾伟盐兆兏??如何突破技術(shù)邊界?4 月 10-12 日,QCon 全球軟件開發(fā)大會(huì)· 北京站 邀你共赴 3 天沉浸式學(xué)習(xí)之約,跳出「技術(shù)繭房」,探索前沿科技的無(wú)限可能。

本次大會(huì)將匯聚頂尖技術(shù)專家、創(chuàng)新實(shí)踐者,共同探討多行業(yè) AI 落地應(yīng)用,分享一手實(shí)踐經(jīng)驗(yàn),深度參與 DeepSeek 主題圓桌,洞見未來(lái)趨勢(shì)。