打開(kāi)網(wǎng)易新聞 查看精彩圖片

大數(shù)據(jù)文摘出品

強(qiáng)化學(xué)習(xí)(RL)真的能讓大模型獲得超越基礎(chǔ)模型的新推理能力嗎?

近日,清華大學(xué)LeapLab團(tuán)隊(duì)聯(lián)合上海交大,發(fā)布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))又“潑了一盆冷水”。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文地址:https://arxiv.org/pdf/2504.13837

論文標(biāo)題翻譯過(guò)來(lái)是:強(qiáng)化學(xué)習(xí)(RL)真的能讓大模型獲得推理能力上的躍遷嗎?

論文結(jié)論是:RLVR提升的,其實(shí)只是采樣效率,而不是讓模型學(xué)會(huì)了真正全新的推理能力。

換句話說(shuō):RLVR只是把基礎(chǔ)模型本來(lái)就會(huì)的東西,采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗(yàn)知識(shí)”,大家都覺(jué)得RLVR是讓大模型變聰明的“加速器”,特別是在數(shù)學(xué)、代碼等需要推理的任務(wù)上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后處理,成績(jī)一騎絕塵。 原理很簡(jiǎn)單: 先有個(gè)基礎(chǔ)大模型→ 用RLVR強(qiáng)化一下→ 通過(guò)自動(dòng)判分(比如答案對(duì)不對(duì)、代碼測(cè)不測(cè)得過(guò))給獎(jiǎng)勵(lì)。

理論上,它能自我提升,學(xué)到以前沒(méi)見(jiàn)過(guò)的新解題套路。于是, 這幾年,大家都在說(shuō),RLVR能讓大模型“自我進(jìn)化”,推理能力突破天花板。

清華團(tuán)隊(duì)的“靈魂拷問(wèn)”:RLVR,真能越過(guò)基座嗎?

清華團(tuán)隊(duì)這篇論文,直接拋出了“靈魂三問(wèn)”:

  • RLVR強(qiáng)化訓(xùn)練,究竟有沒(méi)有讓大模型獲得“超越基座模型”的全新推理能力?

  • 模型的推理邊界到底被RLVR拓寬了嗎?還是只是換了一種方式采樣?

  • 我們是否過(guò)于高估了RLVR的“自我進(jìn)化”魔力?

對(duì)于上述三個(gè)問(wèn)題,作者用pass@k作為研究方法的核心。因?yàn)閭鹘y(tǒng)的模型評(píng)測(cè),大多用“平均準(zhǔn)確率”或“單次采樣成功率”來(lái)衡量模型能否解題。但作者敏銳地意識(shí)到,這種評(píng)估方式其實(shí)低估”了模型的潛力。 原因是: 有些難題,模型可能前幾次都答錯(cuò),但多采樣幾次,或許就能“撞”出正確答案。

于是,論文采用了 pass@k 這個(gè)指標(biāo): 對(duì)于每道題,采樣k次,只要有一次答對(duì),就算成功。 k越大,越能“榨干”模型內(nèi)在的推理極限。

核心邏輯是:如果RLVR真能帶來(lái)新能力,那在k再大時(shí),它也應(yīng)該比基座模型更能解出難題。

實(shí)驗(yàn)結(jié)果有點(diǎn)顛覆大家認(rèn)知——

RLVR訓(xùn)練的模型,在k小的時(shí)候表現(xiàn)更好,但k大了以后,基礎(chǔ)模型能超過(guò)它!

也就是: RLVR訓(xùn)練讓模型更高效采樣出正確答案,但沒(méi)有帶來(lái)全新的推理能力,能力邊界始終被基座模型“鎖死”。

案例1:數(shù)學(xué)推理

以AIME24數(shù)學(xué)競(jìng)賽題為例,RLVR模型一開(kāi)始比基座模型高出30%的準(zhǔn)確率,但多采樣后,基座模型最終能解出更多題目,RLVR的“能力天花板”反而更低。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

案例2:代碼生成

在LiveCodeBench等編程基準(zhǔn)上,RLVR模型單采樣表現(xiàn)亮眼,但當(dāng)k采樣數(shù)提升到128時(shí),基座模型解題覆蓋率反超RLVR。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

案例3:視覺(jué)推理

多模態(tài)視覺(jué)推理同樣復(fù)現(xiàn)上述現(xiàn)象——RLVR提升了采樣效率,卻沒(méi)讓模型產(chǎn)生全新的多模態(tài)推理路徑。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

RLVR的“聰明”,其實(shí)是把基礎(chǔ)模型會(huì)的東西,輸出概率調(diào)高了,真正的新推理路徑?并沒(méi)有,基礎(chǔ)模型多采樣就能覆蓋所有RLVR模型能做的題

甚至,RLVR還收窄了模型的探索能力——它會(huì)更集中在“能得分的套路”上,但反而失去一些“歪打正著”的能力,導(dǎo)致極限覆蓋沒(méi)基礎(chǔ)模型廣。

無(wú)論是代碼生成(LiveCodeBench、HumanEval+),還是視覺(jué)推理(MathVista、MathVision),趨勢(shì)都是一樣:RLVR提升了單次成功率,但大采樣下基礎(chǔ)模型能覆蓋更多難題。

為什么會(huì)這樣?

清華的這篇論文認(rèn)為有兩點(diǎn)原因:

一是大模型的“先驗(yàn)”太強(qiáng)了。RLVR本質(zhì)上是在基礎(chǔ)模型原有輸出分布里找高分的“套路”,不走新路;RL算法本身不適合探索超大動(dòng)作空間(語(yǔ)言的組合爆炸),靠獎(jiǎng)勵(lì)信號(hào)很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩(wěn)”,但也更“保守”,輸出熵降低,探索新解法的能力變?nèi)酢?/p>

RLVR在大模型推理這件事上,和AlphaGo那種“純RL自我進(jìn)化”完全不是一回事。大模型的RLVR只是“采樣分布微調(diào)”,不是“能力進(jìn)化”。

怎么解決?

論文做了一個(gè)實(shí)驗(yàn),把更強(qiáng)的模型的推理鏈條喂給小模型,小模型能真的學(xué)到新花樣,推理上限突破原有格局。

所以,如果真想讓模型能力更進(jìn)一步,靠RLVR遠(yuǎn)遠(yuǎn)不夠,得靠知識(shí)蒸餾“老師帶學(xué)生”那一套。

即“讓模型變聰明”的關(guān)鍵,或許在于“注入新知識(shí)”(如蒸餾),而不是單純靠獎(jiǎng)勵(lì)強(qiáng)化。

或者探索“更強(qiáng)的探索范式”,比如結(jié)合RL和生成式探索、提升模型對(duì)“低概率創(chuàng)新路徑”的容忍度等。

圖源:清華大學(xué)LeapLab實(shí)驗(yàn)室官網(wǎng)

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級(jí)計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

掃碼了解詳情?

打開(kāi)網(wǎng)易新聞 查看精彩圖片