
新智元報道
編輯:編輯部 NXs
【新智元導讀】一項來自清華大學和上海交通大學的研究顛覆了對可驗證獎勵強化學習(RLVR)的認知。RLVR被認為是打造自我進化大模型的關鍵,但實驗表明,它可能只是提高了采樣效率,而非真正賦予模型全新推理能力。
最近,以推理能力為核心的大語言模型已然成為了主流,比如OpenAI o系列模型、DeepSeek-R1等等。
推理模型在處理數(shù)學和編程等復雜邏輯問題方面取得了顯著突破。
相比于之前依賴人工標注進行指令微調(diào)的方法,這一突破的關鍵在于可驗證獎勵強化學習(RLVR)。
RLVR從預訓練模型或經(jīng)過長思維鏈(CoT)微調(diào)的模型出發(fā),利用簡單、自動的獎勵信號通過強化學習進行優(yōu)化。
在數(shù)學問題中,如果模型給出的答案和正確答案一致,或者編程任務里,代碼能通過單元測試,模型就能得到獎勵。這擺脫了對大量人工標注數(shù)據(jù)的依賴,具備很好的可擴展性。
RLVR被認為能激發(fā)模型進行自主推理,比如枚舉、反思和優(yōu)化,這些能力恰恰是基礎模型所欠缺的。
因此,RLVR被視為是打造自我進化大模型的路徑,可持續(xù)提升模型推理能力,甚至接近AGI。
然而,盡管RLVR在經(jīng)驗上取得了成功,但在追求不斷自我進化的推理能力過程中,一個關鍵問題仍然存在:RLVR真的帶來了全新的推理能力嗎?如果有,模型到底從RLVR訓練中學到了什么?
為了嚴謹?shù)鼗卮疬@個問題,來自清華大學和上海交通大學的團隊對此進行了深入的研究。

論文地址:https://arxiv.org/pdf/2504.13837
他們采用了簡單的pass@k指標,即只要k次采樣中任意一次正確,問題就算解決。
核心思想是:如果我們?yōu)榛A模型投入大量采樣(超大k值),它的表現(xiàn)能否匹敵RLVR訓練的模型?
通過給予模型大量嘗試機會,能夠評估基礎模型和RL訓練模型的推理能力邊界。
這為檢驗RLVR訓練是否能帶來根本性的超越能力提供了關鍵且嚴謹?shù)臏y試,即是否讓模型能解決基礎模型無法解決的問題。
結果,研究團隊發(fā)現(xiàn)了一些可能顛覆傳統(tǒng)認知的意外結果:
1. 在超大k值下,RLVR訓練模型的表現(xiàn)不如基礎模型
雖然小k值下RL訓練模型通常優(yōu)于基礎模型,但當k值變大時,基礎模型在所有測試中都表現(xiàn)更好。令人驚訝的是,在足夠大的k值下,基礎模型的pass@k分數(shù)甚至超過RL訓練模型。這表明,未經(jīng)RL訓練的基礎模型通過多樣化采樣,就能生成原本以為只有RL模型才能解決的正確答案。
2. RLVR提升采樣效率,但縮小推理能力范圍
RLVR訓練模型生成的推理路徑在基礎模型的輸出分布中已有相當?shù)母怕拭芏?,表明這些推理模式和CoT對基礎模型而言并非完全陌生或不可實現(xiàn)。RLVR訓練提升了采樣效率,但同時降低了模型的探索能力,導致在大k值下可解決問題的覆蓋范圍變?。ㄒ妶D1右)。這挑戰(zhàn)了RLVR 能激發(fā)推理能力的普遍看法。相反,RLVR訓練模型的推理能力邊界可能受限于基礎模型的能力。RLVR對LLM推理能力的影響如圖1左所示。
3. 不同RLVR算法表現(xiàn)相似,且遠未達到最優(yōu)
盡管不同RL算法(如PPO、GRPO、Reinforce++)在性能上略有差異,但并無本質區(qū)別。這表明,當前主要通過提升采樣效率的RL方法仍遠未達到最優(yōu)。
4. RLVR與蒸餾有根本區(qū)別
RL提升的是采樣效率,而蒸餾能真正為模型引入新知識。因此,蒸餾模型通常通過學習蒸餾數(shù)據(jù),展現(xiàn)出超越基礎模型的推理能力范圍,而RLVR訓練模型的能力始終受限于基礎模型。

圖1:(左)灰色表示模型不太可能采樣的路徑,黑色表示大概率采樣的路徑,綠色表示正確的路徑(帶有正向獎勵)。(右)隨著RLVR訓練的進行,模型的平均性能(即pass@1)有所提升,但可解決問題的覆蓋率(即pass@256)下降,表明模型推理能力的上限在降低
大佬紛紛入局討論
大模型的「推理能力」究竟來自于哪里?概率機器真的能「涌現(xiàn)」推理能力嗎?
強化學習,特別是可驗證獎勵的強化學習(RLVR)是否真正從基礎模型中「引導」或「發(fā)掘」出推理能力?
關于模型中「涌現(xiàn)」出推理能力這個話題還得說回DeepSeek-R1開源他們的論文而引發(fā)那波熱潮。
雖然OpenAI-o1是第一個發(fā)布的推理模型,但是他們「猶抱琵琶半遮面」的遮掩態(tài)度,讓DeepSeek摘了推理模型的桃子。
在DeepSeek-R1的訓練過程中,第一步就是通過基于GRPO的純強化學習,訓練出了DeepSeek-R1-Zero,后續(xù)的訓練過程都涉及到強化學習。

低成本的訓練方式得到媲美千萬資金的訓練結果,這讓基于強化學習的訓練范式與Scaling Law正面相撞。
這個論文發(fā)布后,大佬們紛紛表示對這個話題有話要說。
Nathan Lambert是一名電氣工程與計算機科學博士,畢業(yè)于加利福尼亞大學伯克利分校,他率先轉發(fā)了這篇論文,并表示
「也許關于強化學習是否激勵了推理能力并不是一個直覺,而是一組有依據(jù)的新成果」。

本文作者Yang Yue也表示實驗結果表明,RLVR除此之外并沒有做太多其他的事情。

如果基礎模型無法解決問題,經(jīng)過強化學習后的模型依然無法解決。
這似乎說明強化學習并不是萬能的,有它的局限性。

也有網(wǎng)友表示,RL本質是改變了概率分布,增加了原本不太常見的,很可能是正確答案軌跡的概率。
也就是說,能力依然來自于基礎模型,RL只是讓正確答案更好的「涌現(xiàn)」出來。

當然,從另外一方面Nathan Lambert也表示,這些結果都是來自類似R1-Zero的訓練風格,即僅僅通過了單純的強化學習。
在R1的訓練過程中,還有很多「熱身」的過程,比如對冷啟動數(shù)據(jù)后的SFT,這些在強化學習訓練開始前的「熱身」過程可以給模型帶來更強大的能力。

這從另一個方面說明,強化學習依然有效,只不過RL和蒸餾有本質的區(qū)別。
正如上述論文中所描述,強化學習提升了模型涌現(xiàn)「正確」的概率,而蒸餾則是為模型引入了全新的能力。
論文的作者Yang Yue也表示「熱身」是一個不錯的提升性能的方式。
以蒸餾為例,一些開源的基礎模型,比如Qwen或者Llama,通過蒸餾后,可以從教師模型引入基礎模型之外的新推理模式。

Autodesk首席AI研究科學家Mehdi Ataei同樣表示,以他的經(jīng)驗來看,如果沒有一個很好的基礎模型,RL根本無法工作。

大佬的討論很精彩,其實也和幾個月前DeepSeek-R1爆火后,經(jīng)過大佬們討論后的結論一樣,「厲害的不是DeepSeek-R1,而是DeepSeek-V3」。

找到Karpathy在V3發(fā)布時的態(tài)度就能看出來,結合這篇論文,決定模型推理能力上限的大概率就是基礎模型本身。

正如這篇論文的結論,RLVR縮小了模型的探索范圍,傾向于選擇已知的高回報路徑,而不是發(fā)現(xiàn)新的推理策略。

關鍵的是,所有來自RL訓練模型的正確解其實早就已經(jīng)存在于基礎模型的分布中。
RLVR只是提高了采樣效率,而不是「推理能力」,但同時無意中也縮小了解空間。
所以,似乎Scaling Law并沒有失效,一個足夠好的基礎模型,它的解空間包含正確答案的概率依然要高于那些不夠好的模型。
只不過,可能需要多給大模型一些機會。
實驗發(fā)現(xiàn)驚人
研究人員在數(shù)學、編程、視覺推理等領域展開了大量實驗,涵蓋了不同模型(像Qwen-2.5系列、LLaMA-3.1-8B)和多種RL算法。


研究人員在多個數(shù)學基準測試中比較了基礎模型和RLVR訓練后的模型。
結果發(fā)現(xiàn),當k值較小時(比如k=1),經(jīng)過RL訓練的模型確實表現(xiàn)更優(yōu),說明RLVR能讓模型在單次嘗試時更有可能得出正確答案。
但隨著k值不斷增大,情況發(fā)生了反轉,基礎模型逐漸趕上并超過了經(jīng)過RL訓練的模型。
就拿Minerva基準測試來說,用32B大小的模型時,當k=128,基礎模型的表現(xiàn)比RL訓練的模型高出近9%。
在AIME24這種極具挑戰(zhàn)性的測試中,一開始,基于Qwen-2.5-7B-Base訓練的RL模型Oat-Zero-7B表現(xiàn)很不錯,比基礎模型高出近30%,可最后還是被基礎模型超越了。
在此過程中,基礎模型展現(xiàn)出強大的潛力,通過大量采樣,能找到有效的推理路徑。

研究人員手動檢查了最難問題的思維鏈(CoT),發(fā)現(xiàn)就算是最難的問題上,無論是原始模型還是RL模型,大多是通過有效的推理路徑得出正確答案的,而不是運氣。
為了避免模型作弊,也就是通過錯誤的推理過程偶然得出正確答案,研究人員還專門過濾掉了容易被猜中的問題,再次驗證后發(fā)現(xiàn),基礎模型依舊能憑借有效的推理路徑解決難題。
代碼生成實驗也呈現(xiàn)出類似的趨勢。
研究人員選用了開源的Code-R1模型及其經(jīng)過RLVR訓練的版本CodeR1-Zero-Qwen2.5-7B,在LiveCodeBench v5、HumanEval+和MBPP+這些基準測試中評估。
當k值較小時,RLVR訓練的模型單樣本性能更好,但隨著k值增大,基礎模型可解決問題的覆蓋范圍更廣。
例如,在LiveCodeBench上,原始模型pass@1得分是23.8%,RLVR訓練的模型為28.1%,可當采樣128次時,原始模型能解決約50%的編程問題,而RLVR模型只能解決42.8%。

視覺推理實驗中,研究人員選擇視覺背景下的數(shù)學推理任務,用EasyR1框架訓練Qwen-2.5-VL-7B,并在經(jīng)過濾的MathVista-TestMini和MathVision-TestMini等基準測試中評估。

基礎模型在可解決問題的覆蓋范圍上更具優(yōu)勢,RLVR并沒有讓模型獲得超越基礎模型的推理能力。
基礎模型已經(jīng)包含推理模式
實驗表明,基礎模型能解決的問題范圍竟然比經(jīng)過RLVR訓練的模型更大。
RL訓練模型解決的問題幾乎是基礎模型可解決問題的一個子集。在編程任務中也觀察到類似趨勢。
這引出了一個問題:RL訓練模型生成的所有推理路徑,是不是早已存在于基礎模型的輸出分布中?
困惑度分析
為了回答這個問題,研究人員使用了困惑度(Perplexity)指標。
困惑度反映了模型在給定問題x下預測某個回答Y的難易程度。困惑度越低,說明模型越可能生成這個回答。
他們從AIME24中隨機抽取兩個問題,用Qwen-7B-Base和SimpleRL-Qwen-7B-Base生成16個回答(分別記為Ybase和YRL),并讓OpenAI-o1生成8個回答(記為YGT)。
結果顯示(圖6左),RL訓練模型的回答困惑度分布與基礎模型生成回答的低困惑度部分高度重合,這說明RL訓練模型的回答很可能是基礎模型本身就能生成的。

由此得出以下結論:
RLVR沒有帶來新的推理能力:通過pass@k(k較大時)和困惑度分布分析,RL模型的推理能力完全在基礎模型的范圍內(nèi),RL模型利用的推理路徑早已存在于基礎模型中。
RLVR提升了采樣效率:盡管RL模型的推理路徑存在于基礎模型中,但RL訓練提升了pass@1的表現(xiàn)。
RLVR縮小了推理邊界:RLVR的效率提升以覆蓋范圍為代價,pass@k在k較大時低于基礎模型。
蒸餾拓展了推理邊界
除了直接進行RL訓練,另一種提升小型基礎模型推理能力的有效方法是從強大的推理模型(如DeepSeek-R1)進行蒸餾。
這類似于后訓練中的指令微調(diào),將基礎模型轉化為指令模型。
但訓練數(shù)據(jù)不是短指令-回答對,而是DeepSeek-R1生成的長思維鏈(CoT)軌跡。
研究團隊以DeepSeek-R1-Distill-Qwen-7B為例,比較了它與基礎模型Qwen-2.5-Math-7B、RL訓練模型Qwen-2.5-Math-7B-Oat-Zero以及指令微調(diào)模型Qwen-2.5-Math-7B-Instruct的表現(xiàn)。
結果顯示(圖6右),蒸餾模型的pass@k曲線始終顯著高于基礎模型,表明與RL不同,蒸餾通過學習更強教師模型的推理模式,突破了基礎模型的推理邊界。
不同RL算法的效果
RL的主要作用是提升采樣效率,而非擴展推理能力。
為了量化這一點,研究團隊提出了采樣效率差距(?SE),定義為RL訓練模型的pass@1與基礎模型的pass@k(k=256)的差值,?SE越低越好。
結果顯示(圖7上),不同RL算法在pass@1和pass@256上的表現(xiàn)略有差異,但無根本性區(qū)別。
研究團隊研究了訓練步數(shù)對模型漸進性能的影響。結果顯示(圖7下),隨著RL訓練的進行,訓練集上的pass@1穩(wěn)步提升,但觀察表明,延長訓練可能收益有限。

作者介紹
樂洋

清華大學自動化系的三年級博士生,導師是黃高教授。
于2022年獲得計算機科學學士學位,在本科期間還學習了電氣工程。此前,在Sea AI Lab新加坡實習了一年多,在顏水成教授的指導下工作。還曾在字節(jié)跳動Seed實習。
參考資料:
https://x.com/natolambert/status/1914351774699512270
https://arxiv.org/abs/2504.13837
https://limit-of-RLVR.github.io
https://huggingface.co/papers/2504.13837
熱門跟貼