
基座模型天花板,困住強(qiáng)化學(xué)習(xí)。
作者丨鄭佳美、梁丙鑒
編輯丨馬曉寧
清華和上交的最新論文中,上演了一場(chǎng) “學(xué)術(shù)打假” 的戲碼。文中研究者們對(duì)當(dāng)前 “純 RL 有利于提升模型推理能力” 的主流觀點(diǎn)提出了相反的意見。
通過一系列實(shí)驗(yàn),他們證明引入強(qiáng)化學(xué)習(xí)的模型在某些任務(wù)中的表現(xiàn),竟然不如未使用強(qiáng)化學(xué)習(xí)的模型。
論文批判性地探討了 RLVR 在提升 LLM 推理能力方面的作用,尤其是在賦予模型超越自身原有能力方面,效果可能并非像人們普遍認(rèn)為的那樣“無(wú)懈可擊”。

消息一出,網(wǎng)友們紛紛下場(chǎng)站隊(duì)。
有人認(rèn)為這篇文章抓住了 RL 自身的漏洞,雖然提高了采樣效率,但它似乎在推理方面存在不足,未來(lái)我們需要新的方法來(lái)釋放 LLM 的全部潛力。

也有人表示,或許強(qiáng)化學(xué)習(xí)實(shí)際上限制了模型開發(fā)新推理行為的能力。真正的推理增強(qiáng)可能需要蒸餾等方法。

質(zhì)疑聲之外,RL 的追隨者也在為“信仰”發(fā)聲:這種說法是錯(cuò)的,驗(yàn)證遠(yuǎn)比生成簡(jiǎn)單的多。

也有網(wǎng)友表示,這更像是獎(jiǎng)勵(lì)結(jié)構(gòu)的缺陷,而非 RLVR 本身的問題。如果用二元獎(jiǎng)勵(lì)結(jié)構(gòu),出現(xiàn)這種情況可以理解。但我們可以調(diào)整獎(jiǎng)勵(lì)結(jié)構(gòu)來(lái)緩解這個(gè)問題,甚至還能激勵(lì)更好的推理。

1
強(qiáng)化學(xué)習(xí):擅長(zhǎng)加速,不擅長(zhǎng)開路
實(shí)驗(yàn)中,研究人員在三個(gè)具有代表性的領(lǐng)域進(jìn)行了實(shí)驗(yàn),來(lái)評(píng)估 RLVR 對(duì)基礎(chǔ)模型和 RLVR 模型的推理能力邊界的影響。
在數(shù)學(xué)任務(wù)實(shí)驗(yàn)中,研究團(tuán)隊(duì)在 GSM8K、MATH500 和 AIME24 等基準(zhǔn)上評(píng)估了多個(gè)大語(yǔ)言模型系列(如 Qwen-2.5 和 LLaMA-3.1)及其經(jīng)過 RL 訓(xùn)練的變體。他們通過分析 pass@k 曲線,比較了基礎(chǔ)模型與 RL 模型的表現(xiàn),發(fā)現(xiàn)雖然 RL 在低 k 值下提升了模型的準(zhǔn)確性,但在高 k 情況下卻顯著降低了問題的覆蓋范圍。
此外,研究者還手動(dòng)審查了模型生成的 CoT(Chain of Thought)推理過程,以確認(rèn)正確答案是推理得出而非純屬運(yùn)氣。最后,他們還研究了采用 Oat-Zero 方法訓(xùn)練的模型,并對(duì)數(shù)據(jù)集進(jìn)行了過濾,剔除容易猜測(cè)的問題,從而聚焦于更具挑戰(zhàn)性的樣本。
整體結(jié)果顯示,盡管 RL 能在初始準(zhǔn)確率上帶來(lái)提升,基礎(chǔ)模型在推理覆蓋率方面仍表現(xiàn)更為穩(wěn)健。

在編碼任務(wù)實(shí)驗(yàn)中,研究團(tuán)隊(duì)在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基準(zhǔn)上評(píng)估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 訓(xùn)練模型 CodeR1-Zero-Qwen2.5-7B。他們通過 pass@k 指標(biāo)來(lái)衡量性能,并根據(jù)預(yù)定義的測(cè)試用例評(píng)估模型的正確性。
結(jié)果顯示,RLVR 提升了單樣本 pass@1 的分?jǐn)?shù),但在較高采樣數(shù)(k = 128)時(shí),模型的覆蓋率有所下降。與此相比,原始模型在較大 k 值下表現(xiàn)出了持續(xù)改進(jìn)的潛力,而 RLVR 的性能則趨于平穩(wěn)。這表明,盡管 RLVR 提高了模型的確定性準(zhǔn)確性,但在探索多樣性方面存在一定的限制。

在視覺推理實(shí)驗(yàn)中,研究團(tuán)隊(duì)在過濾后的視覺推理基準(zhǔn)(MathVista 和 MathVision)上評(píng)估了 Qwen-2.5-VL-7B,刪除了多項(xiàng)選擇題,聚焦于穩(wěn)健的問題解決能力。RLVR 在視覺推理任務(wù)中的表現(xiàn)提升與數(shù)學(xué)和編碼基準(zhǔn)中的改進(jìn)相一致,表明原始模型已能夠解決廣泛的問題,即便是在多模態(tài)任務(wù)中也同樣如此。
跨領(lǐng)域的一致性表明,RLVR 提升了模型的推理能力,同時(shí)并未從根本上改變模型的問題解決策略。

2
推理能力的邊界
使用單次通過的成功率或平均核采樣衡量模型推理能力邊界的傳統(tǒng)指標(biāo)存在重要缺陷。如果模型在少數(shù)幾次嘗試后未能解決難題,但卻本可以通過更多次的采樣獲得成功,此時(shí)其真實(shí)推理潛力可能會(huì)被低估。
如果為基礎(chǔ)模型投入大量采樣資源,它的性能能否與經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型相匹配?
為精準(zhǔn)評(píng)估大語(yǔ)言模型的推理能力邊界,研究團(tuán)隊(duì)將代碼生成領(lǐng)域常用的pass@k指標(biāo)拓展至所有可驗(yàn)證獎(jiǎng)勵(lì)的任務(wù)。針對(duì)一個(gè)問題,從模型中采樣k個(gè)輸出,若至少一個(gè)樣本通過驗(yàn)證,該問題的pass@k 值為1,否則為0。數(shù)據(jù)集上的平均 pass@k 值反映了模型在 k 次試驗(yàn)內(nèi)可解決的數(shù)據(jù)集問題比例,能嚴(yán)格評(píng)估 LLM 的推理能力覆蓋范圍。
直接按問題采樣k個(gè)輸出計(jì)算pass@k可能導(dǎo)致高方差。他們采用無(wú)偏估計(jì)法,對(duì)評(píng)估數(shù)據(jù)集D中的每個(gè)問題生成 n 個(gè)樣本(n ≥ k),統(tǒng)計(jì)正確樣本數(shù)。對(duì)于使用編譯器和預(yù)定義單元測(cè)試用例作為驗(yàn)證器的編碼任務(wù),pass@k 值能準(zhǔn)確反映模型是否能解決問題。
然而,隨著 k 增大,數(shù)學(xué)問題中 “黑客” 行為可能凸顯,即模型可能生成錯(cuò)誤的推理過程,卻在多次采樣中偶然得出正確答案,這一情況常被以往指標(biāo)忽視。為此,他們篩選出易被 “黑客” 攻克的問題,并手動(dòng)檢查部分模型輸出的 CoT 正確性。結(jié)合這些措施,他們嚴(yán)格評(píng)估了 LLM 的推理能力極限。
3
當(dāng)強(qiáng)化學(xué)習(xí)不再“強(qiáng)化”
清華與上交的這篇論文,為當(dāng)前業(yè)界廣泛推崇的強(qiáng)化學(xué)習(xí)范式敲響了警鐘。讓我們不得不重新思考強(qiáng)化學(xué)習(xí)在大模型訓(xùn)練流程中的真正角色。
我們也不能將模型的“能力”與“效率”混為一談。能力,指的是模型是否擁有解決某類問題的潛質(zhì)與邏輯鏈條;效率,則是在給定的能力范圍內(nèi),模型能以多快、多穩(wěn)、多省資源的方式得出答案。
強(qiáng)化學(xué)習(xí)或許確實(shí)能夠提升模型在已有能力基礎(chǔ)上的輸出表現(xiàn)(比如在低采樣次數(shù)下更快給出正確答案),但這并不代表它為模型帶來(lái)了新的推理路徑或更復(fù)雜問題的解決能力。相反,在高采樣場(chǎng)景中,RL 帶來(lái)的“收斂性”可能犧牲了答案的多樣性,從而錯(cuò)失了解決更多難題的機(jī)會(huì)。
強(qiáng)化學(xué)習(xí)更像是一種能力調(diào)控器,而非能力創(chuàng)造器。它可以讓模型更擅長(zhǎng)做已經(jīng)能做的事,但難以讓模型做出“原本不會(huì)的事”。正因如此,若將 RL 簡(jiǎn)單視為提升模型通用智能的萬(wàn)能鑰匙,未免過于樂觀。接下來(lái)的技術(shù)路線,可能需要更多關(guān)注基礎(chǔ)模型在表示能力、知識(shí)組織與推理路徑構(gòu)建等方面的設(shè)計(jì),而非過度依賴下游的策略微調(diào)。
總的來(lái)說,這項(xiàng)研究的意義不在于“RL 無(wú)用”的結(jié)論,而在于它揭示了在過熱預(yù)期背后,強(qiáng)化學(xué)習(xí)真正適用的邊界。這或許會(huì)促使研究者和企業(yè)在制定大模型優(yōu)化方案時(shí),回歸問題本質(zhì),用更清晰的標(biāo)準(zhǔn)衡量“能力的提升”究竟意味著什么。
https://arxiv.org/pdf/2504.13837
https://x.com/iScienceLuvr/status/1914171319970848942
https://limit-of-rlvr.github.io/


更多內(nèi)容,點(diǎn)擊下方關(guān)注:
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
熱門跟貼