
本文第一作者王宜平是華盛頓大學(xué)的博士生,其導(dǎo)師、通訊作者杜少雷為華盛頓大學(xué)Assistant Professor;另外兩位通訊作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。
最近, 大型語言模型(LLM)在推理能力方面取得了顯著進(jìn)展,特別是在復(fù)雜數(shù)學(xué)任務(wù)上。推動(dòng)上述進(jìn)步的關(guān)鍵方法之一就是帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Reward,RLVR),其根據(jù)數(shù)學(xué)題最終答案的正確性提供 0-1 的結(jié)果獎(jiǎng)勵(lì)(outcome reward)。然而, 大量研究工作集中于改進(jìn)原有的強(qiáng)化學(xué)習(xí)算法(如 PPO,GRPO),對(duì)于 RLVR 中所利用數(shù)據(jù)的研究仍相對(duì)不足。
近日,來自華盛頓大學(xué)西雅圖分校、微軟等機(jī)構(gòu)的研究人員探索了一個(gè)重要的問題:RLVR 中究竟需要多少數(shù)據(jù)才能有較好的表現(xiàn)?
他們發(fā)現(xiàn)了一個(gè)神奇的現(xiàn)象:用一個(gè)數(shù)學(xué)數(shù)據(jù)就能夠大幅提升模型在各種數(shù)學(xué)推理任務(wù)上的表現(xiàn)!

- 論文標(biāo)題:Reinforcement Learning for Reasoning in Large Language Models with One Training Example
- 論文地址:https://arxiv.org/abs/2504.20571
- 代碼地址:https://github.com/ypwang61/One-Shot-RLVR
- W&B 實(shí)驗(yàn)記錄:https://wandb.ai/yipingwanguw/verl_few_shot?nw=nwuseryipingwang22
- X(Twitter):https://x.com/ypwang61/status/1917596101953348000
論文發(fā)現(xiàn),只在 RLVR 訓(xùn)練中使用一個(gè)訓(xùn)練數(shù)據(jù)(稱作 1-shot RLVR),就可以在 MATH500 上,將 Qwen2.5-Math-1.5B 的表現(xiàn)從 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表現(xiàn)從 51.0% 提升到 79.2% 。
這個(gè)表現(xiàn)和使用 1.2k 數(shù)據(jù)集(包括這一個(gè)數(shù)據(jù))的 RLVR 效果差不多。使用兩個(gè)訓(xùn)練樣本的 RLVR 甚至略微超過了使用 1.2k 數(shù)據(jù)集(稱作 DSR-sub)的表現(xiàn),和使用 7.5k MATH 訓(xùn)練集的 RLVR 表現(xiàn)相當(dāng)。這種表現(xiàn)可以在 6 個(gè)常用的數(shù)學(xué)推理任務(wù)上都可以觀察到。

這種利用一個(gè)數(shù)學(xué)訓(xùn)練數(shù)據(jù)的 1-shot RLVR 激發(fā)的推理能力甚至可以拓展到非數(shù)學(xué)的推理任務(wù)上,如 ARC-Easy/Challenge。

背景介紹
在這項(xiàng)工作中,論文使用了包含 policy gradient loss ,KL divergence loss 以及 entropy loss 三項(xiàng)損失函數(shù)。這里 policy loss 使用 GRPO 格式的損失函數(shù),對(duì)應(yīng)是否解決數(shù)學(xué)題的 0-1 結(jié)果獎(jiǎng)勵(lì);KL loss 用于保持模型在一般任務(wù)上的語言質(zhì)量;而 entropy loss(系數(shù)為負(fù))用于鼓勵(lì)模型產(chǎn)生更加多樣化的推理模式。
對(duì)于數(shù)據(jù)選擇,研究者使用一個(gè)叫 historical variance score 的指標(biāo)來將數(shù)據(jù)池(前面提到的 1.2k DSR-sub 數(shù)據(jù)集)中的數(shù)據(jù)來排序,為了優(yōu)先選擇在模型訓(xùn)練過程中準(zhǔn)確度方差較大的那些數(shù)據(jù)。不過論文強(qiáng)調(diào)這種數(shù)據(jù)選擇并不一定是最優(yōu)的,只是為了更好的說明現(xiàn)象。而且 1-shot RLVR 對(duì)很多 historical variance score 不那么高的數(shù)據(jù)也能生效,可能是更通用的現(xiàn)象。
此外,研究者還發(fā)現(xiàn)讓 1-shot RLVR 表現(xiàn)的很好的數(shù)據(jù)其實(shí)都不是特別困難。初始模型就已經(jīng)有一定的概率可以解決。

通過 1-shot RLVR,論文還發(fā)現(xiàn)了很多有趣的現(xiàn)象:
(1) 飽和后泛化:論文發(fā)現(xiàn), 1-shot RLVR 中,單個(gè)訓(xùn)練樣本的訓(xùn)練準(zhǔn)確率快速達(dá)到接近 100%,但是下游任務(wù)的表現(xiàn)隨著訓(xùn)練的進(jìn)行還在不斷地提升。(后文說明因?yàn)?entropy loss 鼓勵(lì)多樣性的探索,使得準(zhǔn)確率略小于 100%,因此在訓(xùn)練過程中始終保持有 policy gradient)。

與此同時(shí),在飽和后泛化的過程中,過擬合發(fā)生的比較晚,在單個(gè)樣本 rollout 超過 1 百萬次之后才出現(xiàn)明顯亂碼混合正確解答。而且此時(shí)下游任務(wù)的 reasoning 輸出仍然正常而且表現(xiàn)良好。

(2) 1-shot RLVR 對(duì)很多數(shù)學(xué)樣例都有效,而且可泛化性好。論文嘗試了十多個(gè)樣本,基本都可以在 MATH500 上取得接近或超過 30% 的提升。同時(shí),來自一個(gè)數(shù)學(xué)主題(如幾何)的單個(gè)訓(xùn)練數(shù)據(jù)可以同時(shí)提升其他數(shù)學(xué)主題(如代數(shù),數(shù)論等)的表現(xiàn)。

(3) 更多的自我反思:1-shot RLVR 的訓(xùn)練過程也會(huì)出現(xiàn)之前 R1 之類的工作提到的回答長度(response length)的增加。而且更重要的是,論文觀察到了模型在下游任務(wù)上的自我反思(self-reflection)相關(guān)詞匯的頻率的增加。

(4) 1-shot RLVR 可用在不同的模型和算法上。研究人員嘗試了不同的模型 (Qwen2.5-Math-1.5B/7B, Llama-3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B),不同的 RL 算法 (GRPO, PPO),都可以觀察到很大的提升。而且這里使用的數(shù)據(jù)是用 Qwen2.5-Math-1.5B 模型的 historical variance score 計(jì)算得到的,說明有些數(shù)據(jù)對(duì)不同的模型都適用。

消融實(shí)驗(yàn)和分析
論文進(jìn)一步分析 1-shot RLVR 取得的改進(jìn)的主要原因。通過移除其他的損失函數(shù),論文發(fā)現(xiàn) 1-shot RLVR 對(duì)模型的改進(jìn)主要來自于 policy gradient loss,而且和 KL divergence loss 以及 weight decay 關(guān)系不大。因此,即使飽和后泛化現(xiàn)象與 “grokking” 現(xiàn)象有相似之處(都出現(xiàn)了在過擬和之后仍能在下游任務(wù)泛化良好),因?yàn)?“grokking”受到 regularization 方法(如 weight decay)的影響較大,兩者仍有較大區(qū)別。

此外,論文也發(fā)現(xiàn)鼓勵(lì)探索的重要性,如額外在 policy gradient loss 的基礎(chǔ)上加合適大小的 entropy loss 能夠進(jìn)一步提升 1-shot RLVR 的表現(xiàn),尤其是對(duì)飽和后泛化較為重要。作為一個(gè)額外的觀察,論文發(fā)現(xiàn)只加 entropy loss 進(jìn)行少量 step 的訓(xùn)練也能神奇的提升模型表現(xiàn),并且這導(dǎo)致了在 1-shot RLVR 中如果數(shù)據(jù)的 lable 出現(xiàn)錯(cuò)誤,也仍能部分提高模型的表現(xiàn)。論文作者們也仍在探究這一現(xiàn)象的原因。


總結(jié)和討論
1-shot RLVR 在數(shù)學(xué)任務(wù)上的表現(xiàn)支持了之前很多論文的結(jié)論,即用于RLVR 的基礎(chǔ)模型本身往往就有較好的推理能力,而這篇論文進(jìn)一步展示了這種能力可能可以用非常少的數(shù)據(jù)就激發(fā)出來。
論文相信這些現(xiàn)象可以促進(jìn)人們進(jìn)一步反思最近 RLVR 的進(jìn)展,并思考 RLVR 的內(nèi)部機(jī)制。并且它們對(duì)一些問題留下了一些啟發(fā),例如如何設(shè)計(jì)更好的 RLVR 數(shù)據(jù)選擇算法,如何理解 1-shot RLVR 以及飽和后泛化現(xiàn)象,如何更好的鼓勵(lì)探索,以及如何探索其他任務(wù)的少樣本 RLVR 及其應(yīng)用等等。
熱門跟貼