
新智元報(bào)道
編輯:犀牛
【新智元導(dǎo)讀】本文深入梳理了圍繞DeepSeek-R1展開(kāi)的多項(xiàng)復(fù)現(xiàn)研究,系統(tǒng)解析了監(jiān)督微調(diào)(SFT)、強(qiáng)化學(xué)習(xí)(RL)以及獎(jiǎng)勵(lì)機(jī)制、數(shù)據(jù)構(gòu)建等關(guān)鍵技術(shù)細(xì)節(jié)。
最近,推理語(yǔ)言模型(RLMs)已經(jīng)成為主流。
最新發(fā)布的、性能最強(qiáng)的LLM大都是推理模型。
尤其是DeepSeek-R1的發(fā)布,更是引發(fā)了廣泛的社會(huì)影響,同時(shí)也點(diǎn)燃了研究社區(qū)對(duì)推理的熱情。
但是,DeepSeek-R1的一些實(shí)現(xiàn)細(xì)節(jié)還沒(méi)有完全開(kāi)源,比如DeepSeek-R1-Zero以及蒸餾的小模型等。
因此,許多復(fù)制DeepSeek-R1的研究應(yīng)運(yùn)而生(圖1),試圖通過(guò)相似的訓(xùn)練流程和完全開(kāi)源的訓(xùn)練數(shù)據(jù)來(lái)重現(xiàn)DeepSeek-R1的優(yōu)異性能。

這些研究探索了監(jiān)督微調(diào)(SFT)和基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)的可行策略,重點(diǎn)關(guān)注數(shù)據(jù)準(zhǔn)備和方法設(shè)計(jì),產(chǎn)出了不少寶貴經(jīng)驗(yàn)。
為此,本文總結(jié)了近期的這些復(fù)現(xiàn)研究,以啟發(fā)未來(lái)的探索。

論文地址:https://arxiv.org/abs/2505.00551
本文的結(jié)構(gòu)大致對(duì)應(yīng)DeepSeek-R1的訓(xùn)練流程,介紹當(dāng)前在SFT、RLVR以及其他增強(qiáng)推理能力技術(shù)方面的復(fù)制工作:
監(jiān)督微調(diào)提升語(yǔ)言模型推理能力:研究團(tuán)隊(duì)全面梳理了通過(guò)監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)增強(qiáng)語(yǔ)言模型推理能力的相關(guān)研究。
用可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)訓(xùn)練推理語(yǔ)言模型:研究團(tuán)隊(duì)介紹了近期通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards, RLVR)訓(xùn)練RLMs的研究,詳細(xì)闡述了訓(xùn)練數(shù)據(jù)、學(xué)習(xí)算法和獎(jiǎng)勵(lì)系統(tǒng)設(shè)計(jì)。
推理語(yǔ)言模型的更多發(fā)展方向:研究團(tuán)隊(duì)注意到,盡管DeepSeek-R1推動(dòng)了RLMs的訓(xùn)練,但仍有許多監(jiān)督策略尚未探索。他們提出了RLMs的更多發(fā)展方向,包括獎(jiǎng)勵(lì)建模和偏好優(yōu)化,并分析了當(dāng)前RLMs的優(yōu)缺點(diǎn),例如強(qiáng)大的分布外泛化能力和偶爾的過(guò)度思考。
通過(guò)監(jiān)督微調(diào)提升RLMs
推理數(shù)據(jù)集大多數(shù)從收集多樣化領(lǐng)域的問(wèn)題開(kāi)始,例如數(shù)學(xué)、科學(xué)、編程和謎題,數(shù)據(jù)來(lái)源包括現(xiàn)有的基準(zhǔn)測(cè)試或網(wǎng)絡(luò)爬取。
在收集原始數(shù)據(jù)后,通常會(huì)進(jìn)行多輪過(guò)濾以提升數(shù)據(jù)質(zhì)量,包括:
去重:通過(guò)嵌入相似性或n-gram方法去除重復(fù)數(shù)據(jù);
拒絕采樣:剔除低質(zhì)量數(shù)據(jù);
真值驗(yàn)證:確保數(shù)據(jù)準(zhǔn)確性。
為了保證數(shù)據(jù)的覆蓋面和豐富性,許多數(shù)據(jù)集在選擇過(guò)程中明確強(qiáng)調(diào)難度和多樣性,通常使用啟發(fā)式方法或模型通過(guò)率來(lái)優(yōu)先選擇較難的問(wèn)題。
此外,大多數(shù)數(shù)據(jù)集依賴(lài)經(jīng)過(guò)驗(yàn)證的思維鏈(COTs)或解決方案來(lái)確保正確性和質(zhì)量。
驗(yàn)證方法因領(lǐng)域而異,例如:
數(shù)學(xué)問(wèn)題通常通過(guò)Math Verify驗(yàn)證;
編程問(wèn)題通過(guò)代碼執(zhí)行或單元測(cè)試驗(yàn)證;
通用任務(wù)則由大語(yǔ)言模型(LLM)作為評(píng)判者進(jìn)行驗(yàn)證。
這種結(jié)合領(lǐng)域驗(yàn)證和選擇性保留的方法,使數(shù)據(jù)管理人員能夠提煉出高質(zhì)量的推理軌跡,從而更好地支持監(jiān)督微調(diào)。
雖然這些數(shù)據(jù)集覆蓋多個(gè)領(lǐng)域,但如表1所示,大多數(shù)數(shù)據(jù)集主要集中在數(shù)學(xué)和編程任務(wù)上。涉及更廣泛推理任務(wù)(如科學(xué)、邏輯謎題和開(kāi)放性問(wèn)題)的覆蓋率仍然相對(duì)有限。

值得注意的例外包括DeepSeek-R1和AM,它們?cè)跀?shù)據(jù)收集和蒸餾過(guò)程中納入了更廣泛的領(lǐng)域,旨在培養(yǎng)更通用的推理能力。
長(zhǎng)度分布
圖2展示了數(shù)據(jù)集的token長(zhǎng)度分布情況。
盡管這些數(shù)據(jù)集的長(zhǎng)思維鏈(CoTs)都來(lái)源于同一個(gè)教師模型——DeepSeek-R1,但它們的分布卻存在明顯差異。
例如,AM和Synthetic-1的數(shù)據(jù)集傾向于較短的序列,而Light-R1和Open-R1的分布范圍更廣,尾部更長(zhǎng),這表明它們包含更多復(fù)雜問(wèn)題,這些問(wèn)題通常會(huì)引發(fā)更長(zhǎng)的思維鏈。

圖3中展示了常用數(shù)學(xué)推理數(shù)據(jù)集之間的交叉引用結(jié)構(gòu)。該圖清晰地呈現(xiàn)了數(shù)據(jù)集之間的依賴(lài)網(wǎng)絡(luò)和共享數(shù)據(jù),幫助研究人員更好地解讀結(jié)果,避免重復(fù)的訓(xùn)練或評(píng)估設(shè)置。

圖中箭頭從源數(shù)據(jù)集指向包含其部分?jǐn)?shù)據(jù)的目標(biāo)數(shù)據(jù)集。以淡紫色高亮顯示的數(shù)據(jù)集包含從DeepSeek-R1提取的思維鏈(Chain-of-Thought)軌跡
性能比較
在實(shí)踐中,SFT階段對(duì)于讓基礎(chǔ)模型從更強(qiáng)的模型中學(xué)習(xí)高質(zhì)量推理軌跡至關(guān)重要。
表2展示了在常見(jiàn)數(shù)學(xué)推理基準(zhǔn)(如AIME24/25和MATH500)上的SFT結(jié)果比較,突出不同數(shù)據(jù)集選擇和初始模型檢查點(diǎn)的影響。

雖然許多方法強(qiáng)調(diào)通過(guò)增加訓(xùn)練樣本數(shù)量來(lái)提升性能,但LIMO和S1k-1.1表明,通過(guò)精心挑選的小規(guī)模數(shù)據(jù)集也能取得優(yōu)異成果。
訓(xùn)練細(xì)節(jié)
對(duì)于復(fù)雜推理等長(zhǎng)上下文任務(wù),通常會(huì)調(diào)整模型配置中的RoPE縮放因子(θ)和最大上下文長(zhǎng)度,以支持?jǐn)U展的上下文能力。
例如,Open-R1將θ設(shè)為300,000,上下文長(zhǎng)度設(shè)為32,768個(gè)token。常用的學(xué)習(xí)率包括1.0 × 10??和5.0 × 10??,批大小通常為96或128。
此外,通常采用打包(packing)技術(shù)來(lái)提高訓(xùn)練效率。
RLVR在推理語(yǔ)言模型中的應(yīng)用
RL數(shù)據(jù)集
DeepSeek-R1-Zero通過(guò)獨(dú)立的RLVR流程在推理和知識(shí)任務(wù)中取得了優(yōu)異表現(xiàn)。其RLVR過(guò)程中使用的高質(zhì)量精選數(shù)據(jù)集是成功的關(guān)鍵。
因此,多項(xiàng)復(fù)制研究探索了如何利用開(kāi)源數(shù)據(jù)和強(qiáng)大模型高效創(chuàng)建訓(xùn)練數(shù)據(jù)集的策略。
這些數(shù)據(jù)集涵蓋R訓(xùn)練中可驗(yàn)證的多種任務(wù),主要聚焦于數(shù)學(xué)和編程問(wèn)題解決的數(shù)據(jù)集。表3提供了這些數(shù)據(jù)集的統(tǒng)計(jì)概覽。

RL組件
隨著DeepSeek-R1-Zero和DeepSeek-R1的發(fā)布,DeepSeek展示了通過(guò)強(qiáng)化學(xué)習(xí)(RL)微調(diào)LLM以應(yīng)對(duì)復(fù)雜推理任務(wù)的成功經(jīng)驗(yàn)。
基于精心挑選的訓(xùn)練數(shù)據(jù),相關(guān)研究主要集中在配置RL框架的關(guān)鍵部分,以實(shí)現(xiàn)卓越性能:采用高效的RL算法(如GRPO)以及設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制。
表4提供了這些研究方法的比較。

表4總結(jié)了多個(gè)競(jìng)爭(zhēng)性開(kāi)源 DeepSeek-R1 復(fù)制研究在強(qiáng)化學(xué)習(xí)驗(yàn)證任務(wù)(RLVR)中使用的算法和獎(jiǎng)勵(lì)設(shè)計(jì)方案。為了便于比較,DeepSeek-R1 系列模型的相關(guān)信息被單獨(dú)列出
在基于結(jié)果-獎(jiǎng)勵(lì)的RL方法中,PPO和GRPO是最常用的微調(diào)大語(yǔ)言模型的算法。
有趣的是,近期的一些復(fù)制研究對(duì)這些方法進(jìn)行了各種改進(jìn),針對(duì)特定目標(biāo)優(yōu)化了訓(xùn)練效果。
研究團(tuán)隊(duì)回顧了幾種代表性的基于RL的大語(yǔ)言模型微調(diào)算法,包括 REINFORCE、PPO、GRPO及其變體。此外,他們還梳理了這些方法的改進(jìn)及其背后的動(dòng)機(jī),旨在清晰概述基于結(jié)果-獎(jiǎng)勵(lì)的RL訓(xùn)練方法的技術(shù)進(jìn)步。
獎(jiǎng)勵(lì)機(jī)制
獎(jiǎng)勵(lì)是RL訓(xùn)練的核心,因?yàn)樗x了優(yōu)化的目標(biāo),引導(dǎo)模型的行為。
一個(gè)設(shè)計(jì)良好的獎(jiǎng)勵(lì)機(jī)制能提供清晰、一致的信號(hào),幫助模型學(xué)習(xí)到有效的策略。
然而,獎(jiǎng)勵(lì)模型常常容易被「獎(jiǎng)勵(lì)欺騙」(reward hacking,指模型通過(guò)鉆空子獲得高分而非真正解決問(wèn)題),因此近期研究更傾向于使用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)系統(tǒng)。
這些系統(tǒng)通常分為三類(lèi):
準(zhǔn)確性獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)評(píng)估回答是否正確,通常給正確回答打 1 分,錯(cuò)誤回答打 0 分或 -1 分。
格式獎(jiǎng)勵(lì):格式獎(jiǎng)勵(lì)鼓勵(lì)回答遵循預(yù)定義的結(jié)構(gòu)或推理格式,通常給正確格式打 1 分,偏離格式則打 0 分或 -1 分。
長(zhǎng)度獎(jiǎng)勵(lì):長(zhǎng)度獎(jiǎng)勵(lì)影響模型回答的詳盡程度。一些方法獎(jiǎng)勵(lì)生成特定長(zhǎng)度的回答,而另一些方法則鼓勵(lì)在保證準(zhǔn)確性的前提下盡量簡(jiǎn)潔。
采樣策略
直觀來(lái)說(shuō),在訓(xùn)練過(guò)程中合理選擇樣本對(duì)RL的有效性至關(guān)重要。
一方面,課程學(xué)習(xí)方法通過(guò)逐步增加任務(wù)難度,提高了復(fù)雜樣本的利用率。另一方面,合理使用拒絕采樣技術(shù)可以提升樣本效率并穩(wěn)定訓(xùn)練。
RLVR在其他任務(wù)上的應(yīng)用
通過(guò)RLVR,DeepSeek-R1的復(fù)雜推理能力顯著增強(qiáng),在復(fù)雜語(yǔ)境理解和問(wèn)題解決等推理密集型任務(wù)中取得成功。
RLVR使大模型能夠在無(wú)需人工指導(dǎo)的情況下,通過(guò)可驗(yàn)證的答案學(xué)習(xí)和執(zhí)行任務(wù),激發(fā)其復(fù)雜推理能力。
受此啟發(fā),多項(xiàng)研究探索了RLVR在不同任務(wù)中的復(fù)雜推理范式。
邏輯推理:TinyZero和Mini-R1嘗試在倒計(jì)時(shí)游戲中重現(xiàn)DeepSeek R1的「靈光一現(xiàn)」時(shí)刻,使用簡(jiǎn)單的基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)。
面向應(yīng)用的實(shí)際任務(wù):推理語(yǔ)言模型需要通過(guò)思考、規(guī)劃和反思來(lái)學(xué)習(xí)處理現(xiàn)實(shí)世界的應(yīng)用型任務(wù)。
超越監(jiān)督的探索:通過(guò)強(qiáng)化學(xué)習(xí)過(guò)程,研究發(fā)現(xiàn)大模型展現(xiàn)出了令人驚喜且意想不到的能力。
這些結(jié)果凸顯了復(fù)雜推理語(yǔ)言模型通過(guò)RL訓(xùn)練策略,超越監(jiān)督數(shù)據(jù)資源甚至人類(lèi)能力的潛力。
更多發(fā)展方向
雖然DeepSeek-R1的成功推進(jìn)了RLMs的訓(xùn)練,但仍有許多監(jiān)督策略有待探索。
推理增強(qiáng)的替代方法:旨在解決傳統(tǒng) RLVR 在捕捉中間步驟和對(duì)齊人類(lèi)期望方面的局限性。
主要方向包括:
過(guò)程級(jí)獎(jiǎng)勵(lì)建模 (Process-level Reward Modeling, PRM):對(duì)推理的中間步驟提供反饋,而非僅評(píng)估最終結(jié)果。例如rStar-Math使用過(guò)程偏好模型和自我演進(jìn),PRIME使用隱式PRM,僅依賴(lài)結(jié)果標(biāo)簽進(jìn)行訓(xùn)練,更具可擴(kuò)展性并減少獎(jiǎng)勵(lì)欺騙。
偏好優(yōu)化策略 (Preference Optimization):特別是 直接偏好優(yōu)化 (Direct Preference Optimization, DPO),相比PPO或GRPO計(jì)算資源需求更少。一些研究探索使用DPO提升推理能力,如Light-R1、Iterative DPO、RedStar、DPO-R1。
泛化性:RLMs在學(xué)習(xí)推理能力時(shí),能夠很好地泛化到域外任務(wù)。
持續(xù)預(yù)訓(xùn)練(例如在數(shù)學(xué)領(lǐng)域)能顯著增強(qiáng)專(zhuān)業(yè)和通用推理能力。
監(jiān)督微調(diào) (SFT) 通過(guò)提供高質(zhì)量示例和結(jié)構(gòu)化歸納先驗(yàn),對(duì)泛化能力至關(guān)重要,為后續(xù)強(qiáng)化學(xué)習(xí)奠定穩(wěn)定基礎(chǔ)。精心策劃的高質(zhì)量數(shù)據(jù)尤為重要。
強(qiáng)化學(xué)習(xí) (RL) 展示了強(qiáng)大的域外泛化潛力,甚至超越了模仿學(xué)習(xí)。經(jīng)過(guò)RL訓(xùn)練的模型可以在不同任務(wù)、語(yǔ)言和模態(tài)上泛化,例如Llama3-SWE-RL和RL-Poet。像AGRO這樣整合On-policy和Off-policy經(jīng)驗(yàn)的方法可以增強(qiáng)泛化能力。
安全性:推理語(yǔ)言模型面臨一些安全挑戰(zhàn),包括過(guò)度思考(生成過(guò)長(zhǎng)推理鏈,增加成本,可能忽略環(huán)境反饋) 和獎(jiǎng)勵(lì)欺騙(模型利用獎(jiǎng)勵(lì)函數(shù)的漏洞或模糊性獲取高分)。
自我演進(jìn)過(guò)程引入了失控和未對(duì)齊的風(fēng)險(xiǎn)。
越獄攻擊 (Jailbreaking) 是一個(gè)普遍關(guān)注的問(wèn)題。推理增強(qiáng)的模型可能會(huì)犧牲安全性(「安全稅」)。
應(yīng)對(duì)措施包括改進(jìn)算法設(shè)計(jì)、訓(xùn)練策略、對(duì)齊安全策略以及開(kāi)發(fā)具有推理能力的防護(hù)模型。
多模態(tài)和多語(yǔ)言:
多模態(tài)推理語(yǔ)言模型:整合視覺(jué)、音頻等多種模態(tài)。當(dāng)前多模態(tài)模型的推理能力通常弱于單模態(tài)模型。將單模態(tài)推理能力遷移到多模態(tài)是前景廣闊但具有挑戰(zhàn)性的方向。
多語(yǔ)言推理語(yǔ)言模型:主要挑戰(zhàn)在于某些語(yǔ)言資源的有限性。在英語(yǔ)中訓(xùn)練的推理能力向其他語(yǔ)言泛化程度有限??赡苄枰獙?zhuān)門(mén)的能力來(lái)促進(jìn)跨語(yǔ)言的洞察或「頓悟」。未來(lái)的研究需要專(zhuān)注于更高效的跨語(yǔ)言訓(xùn)練策略,特別是針對(duì)低資源語(yǔ)言。
結(jié)論
在本文中,研究團(tuán)隊(duì)全面概述了受DeepSeek-R1啟發(fā)而進(jìn)行的復(fù)現(xiàn)工作,特別重點(diǎn)關(guān)注了其背后的監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)方法。
他們探討了開(kāi)源項(xiàng)目如何整理指令微調(diào)數(shù)據(jù)集,如何實(shí)現(xiàn)基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)策略,以及如何設(shè)計(jì)旨在增強(qiáng)模型推理能力的獎(jiǎng)勵(lì)系統(tǒng)。
除了總結(jié)當(dāng)前各項(xiàng)工作的趨勢(shì)之外,還對(duì)該領(lǐng)域未來(lái)充滿(mǎn)希望的方向提出了自己的看法。這些方向包括將推理技能擴(kuò)展到數(shù)學(xué)和編程任務(wù)之外,提升模型的安全性和可解釋性,以及改進(jìn)獎(jiǎng)勵(lì)機(jī)制以促進(jìn)更復(fù)雜的推理行為。
團(tuán)隊(duì)希望本次綜述不僅能捕捉到近期進(jìn)展,還能為正在進(jìn)行的研究提供堅(jiān)實(shí)的基礎(chǔ),并標(biāo)志著向?qū)崿F(xiàn)通用人工智能邁出了更進(jìn)一步。
參考資料:
https://arxiv.org/abs/2505.00551
熱門(mén)跟貼