機器之心報道
編輯:蛋醬、+0
「推理」已成為語言模型的下一個主要前沿領(lǐng)域,近期學(xué)術(shù)界和工業(yè)界都取得了突飛猛進的進展。
在探索的過程中,一個核心的議題是:對于模型推理性能的提升來說,什么有效?什么無效?
DeepSeek - R1 論文曾提到:「我們發(fā)現(xiàn)將強化學(xué)習(xí)應(yīng)用于這些蒸餾模型可以獲得顯著的進一步提升」。3 月 20 日,論文《Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't》再次驗證了 RL 對于蒸餾模型是有效的。
盡管這些論文的結(jié)論統(tǒng)統(tǒng)指向了強化學(xué)習(xí)帶來的顯著性能提升,但來自圖賓根大學(xué)和劍橋大學(xué)的研究者發(fā)現(xiàn),強化學(xué)習(xí)導(dǎo)致的許多「改進」可能只是噪音。

論文標(biāo)題:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
論文鏈接:https://arxiv.org/pdf/2504.07086
「受推理領(lǐng)域越來越多不一致的經(jīng)驗說法的推動,我們對推理基準(zhǔn)的現(xiàn)狀進行了嚴(yán)格的調(diào)查,特別關(guān)注了數(shù)學(xué)推理領(lǐng)域評估算法進展最廣泛使用的測試平臺之一 HuggingFaceH4,2024;AI - MO?!?/p>
論文指出,在 AIME24 等小型基準(zhǔn)測試中,結(jié)果極不穩(wěn)定:僅僅改變一個隨機種子就足以使得分發(fā)生幾個百分點的變化。 當(dāng)在更可控和標(biāo)準(zhǔn)化的設(shè)置下評估強化學(xué)習(xí)模型時,其收益會比最初報告的要小得多,而且通常不具有統(tǒng)計顯著性。
然而,一些使用強化學(xué)習(xí)訓(xùn)練的模型確實表現(xiàn)出了適度的改進,但這些改進通常比監(jiān)督微調(diào)所取得的成果更弱,而且它們通常不能很好地推廣到新的基準(zhǔn)。

研究者系統(tǒng)分析了造成這種不穩(wěn)定性的根本原因,包括采樣差異、解碼配置、評估框架和硬件異質(zhì)性。我們表明,如果不仔細(xì)控制,這些因素會嚴(yán)重扭曲結(jié)論。與此同時,研究者提出了一套最佳實踐,旨在提高推理基準(zhǔn)的可重復(fù)性和嚴(yán)謹(jǐn)性。
AI 研究者Sebastian Raschka表示:「盡管強化學(xué)習(xí)在某些情況下可能有助于改進較小的蒸餾模型,但它的好處被夸大了,需要更好的評估標(biāo)準(zhǔn)來了解哪些方法真正有效。此外,這不僅僅是強化學(xué)習(xí)和推理模型的問題,我認(rèn)為 LLM 研究整體上都受到了影響?!?/p>
探索推理的設(shè)計空間:什么最重要?
最近的以推理為重點的語言模型是在非常不同的條件下進行評估的,包括評估框架和硬件、隨機種子數(shù)量、溫度和核采樣參數(shù)(top_p)的差異(見表 1)。

雖然此前的研究已經(jīng)考察了采樣參數(shù)在多選題和編碼任務(wù)中的影響,但這些選擇對開放式推理模型(特別是那些用強化學(xué)習(xí)訓(xùn)練的模型)的影響仍未得到充分探索。
本文的研究者系統(tǒng)地評估了這些設(shè)計選擇如何影響性能,并強調(diào)了對結(jié)果可靠性影響最大的變異來源。
評估中的種子方差
研究者首先分析了評估過程中使用的隨機種子所引起的方差,這是基準(zhǔn)測試實踐中經(jīng)常被忽視的一個方面。近期的工作盡管要求統(tǒng)計的嚴(yán)謹(jǐn)性(如使用誤差棒和多次運行),但評估經(jīng)常依賴于單種子運行,從而掩蓋了潛在的變異性。本文評估了九種模型中,每種模型在 20 次獨立評估運行中種子引起的變異。結(jié)果如圖 2 所示。

可以看到,Pass@1 值的標(biāo)準(zhǔn)偏差出奇地高,各種子的標(biāo)準(zhǔn)偏差從 5 個百分點到 15 個百分點不等。這一問題在 AIME'24 和 AMC'23 中尤為嚴(yán)重,這兩個考試分別只有 30 和 40 個測試樣本。僅一個問題的變化就會使 Pass@1 偏移 2.5 - 3.3 個百分點。
硬件和軟件因素造成的差異
硬件和評估框架等非顯而易見的因素也會造成性能差異,但這一點很少得到承認(rèn)。模型通常在異構(gòu)系統(tǒng)上進行測試,并使用不同的工具鏈進行評估。
硬件差異
研究者在五個不同的計算集群上對同一模型進行了評估,每個集群的 GPU 類型和內(nèi)存配置各不相同。
如圖 8 所示,在 AIME'24 上,OpenRS - 1.5B 的性能差異高達(dá) 8%,DeepSeek - R1 - Distill - 7B 的性能差異為 6%,在 AMC'23 上也觀察到了類似的趨勢。眾所周知,vLLM 等推理引擎對硬件差異非常敏感,而 PyTorch 或 CUDA 中的底層優(yōu)化可能會引入非確定性,但結(jié)果表明,即使對多個種子進行平均,這些影響也會對基準(zhǔn)精度產(chǎn)生顯著影響。

不同 Python 框架下的評估
為了評估這種影響,研究者對 lighteval 和 evalchemy 進行了比較,同時保持所有其他變量固定不變:模型、數(shù)據(jù)集、硬件、解碼參數(shù)和隨機種子(每個模型 3 個)。
為了進行公平比較,研究者在單個 GPU 上以默認(rèn)溫度和 top_p 參數(shù)值對 DeepSeek - R1 - Distill - 1.5B 和 S1.1 - 7B 這兩個模型進行了評估。為了提高魯棒性,本文給出了三個種子的平均結(jié)果。
如表 2 所示,框架引起的差異通常很?。? - 2pp),但在緊密聚類的情況下仍會影響模型排名。

Prompt 格式和上下文長度的影響
最大輸出 token。如圖 9 所示,減少 max_new_tokens 會降低性能,尤其是在長表單問題上。這種敏感度因模型和數(shù)據(jù)集而異。雖然減少這一設(shè)置可以降低成本,但可能會導(dǎo)致過早停止,從而導(dǎo)致錯誤答案。
Prompt 格式。提示格式對準(zhǔn)確性有顯著影響。如圖 10 所示,模型在使用數(shù)學(xué)特定 Prompt 及其本地聊天模板時表現(xiàn)最佳。省略模板會導(dǎo)致性能下降,特別是對于經(jīng)過指令調(diào)優(yōu)的模型。

(一級)怎么解決?答案是「評估的標(biāo)準(zhǔn)化」
在本節(jié)中,研究者將對評估框架進行標(biāo)準(zhǔn)化,并對現(xiàn)有方法進行全面評估。關(guān)鍵結(jié)論如下:
大多數(shù)通過強化學(xué)習(xí)(RL)訓(xùn)練的 DeepSeek R1 - Distill 模型的變體未能顯著提高性能(DeepscaleR 除外),這表明仍缺乏可靠和可擴展的強化學(xué)習(xí)訓(xùn)練方案。
盡管通過強化學(xué)習(xí)訓(xùn)練的方法通常能顯著改善基礎(chǔ)模型的性能,但指令調(diào)優(yōu)依然優(yōu)于強化學(xué)習(xí)訓(xùn)練的方法(Open Reasoner Zero 除外),這再次表明仍缺乏可靠和可擴展的強化學(xué)習(xí)訓(xùn)練方案。
在較大模型的推理軌跡上進行監(jiān)督微調(diào)可在基準(zhǔn)測試中獲得顯著且可推廣的提升,且隨著時間推移進展得以成功復(fù)制——這突顯了其作為訓(xùn)練范式的穩(wěn)健性和成熟性。
當(dāng)前基于強化學(xué)習(xí)的方法非常容易過擬合,強調(diào)了需要更嚴(yán)格的異域基準(zhǔn)測試。相比之下,SFT(監(jiān)督微調(diào))模型表現(xiàn)出更強的泛化能力和韌性。
較長的響應(yīng)與較高的錯誤概率相關(guān)聯(lián),響應(yīng)長度在consensus@k 中是識別低置信度或失敗生成的一種實用啟發(fā)式思路。
準(zhǔn)解碼策略似乎足以捕捉模型在有效推理路徑上的完整分布,反駁了多樣性坍縮假說。
清醒的觀察:結(jié)果
表 3 展示了實驗結(jié)果,并對結(jié)果的不同方面進行了分析。

研究者在標(biāo)準(zhǔn)化評估環(huán)境中,對六個數(shù)學(xué)推理基準(zhǔn)測試進行了模型評估,并針對這些模型的 Pass@1 準(zhǔn)確率(均值 ± 標(biāo)準(zhǔn)差)進行了報告。在 AIME 和 AMC 基準(zhǔn)測試中,結(jié)果采用了十個隨機種子的平均值,而其他基準(zhǔn)測試則使用了三個隨機種子的平均值。研究者采用了 LightEval 框架,并為每種方法調(diào)試了最佳超參數(shù)。
需要指出的是,除了數(shù)學(xué)模型的上下文長度為 4096 之外,其他模型的上下文長度均設(shè)定為 32768,并使用了適宜的提示模板。同時,基于強化學(xué)習(xí)(RL)和監(jiān)督微調(diào)(SFT)的模型變體分別針對各自的基礎(chǔ)模型或指令調(diào)優(yōu)模型進行了評估。
主要結(jié)論如下:
通過強化學(xué)習(xí)訓(xùn)練的方法未能顯著提升性能。
在推理路徑上,SFT 展現(xiàn)了顯著的泛化能力。
發(fā)現(xiàn)的現(xiàn)象是否可復(fù)現(xiàn)?詳細(xì)分析
研究者進一步調(diào)查了最近注意到的兩種現(xiàn)象,以驗證它們是否在實驗中得以復(fù)現(xiàn):
響應(yīng)長度與性能之間的關(guān)系。
以推理為重點的訓(xùn)練后,響應(yīng)的多樣性是否有所下降。
1、錯誤響應(yīng)是否更長?
較長的響應(yīng)是否意味著錯誤答案的可能性更高?他們比較了在六個數(shù)據(jù)集(AIME24、AIME25、AMC23、MATH500、Minerva 和 OlympiadBench)中正確和錯誤答案的響應(yīng)長度分布,并在每個模型的隨機種子上進行了平均。
圖 11 展示了按響應(yīng)長度分組的每個種子的平均響應(yīng)數(shù)量直方圖。

數(shù)據(jù)顯示了一個明顯趨勢:較短的響應(yīng)更可能是正確的,而較長的響應(yīng)則逐漸表現(xiàn)出更高的錯誤率。這一模式在所有種子中都保持一致,特別是在超過 10000 個 token 的響應(yīng)中表現(xiàn)得最為顯著。研究者就此提出兩個關(guān)鍵問題:
Q1:這一模式是否同時適用于基于 RL 和 SFT 訓(xùn)練的模型?
分析結(jié)果表明,這一趨勢在 RL 和 SFT 訓(xùn)練的模型中均存在。具體而言:
RL 訓(xùn)練模型(左側(cè)顯示)中這一效應(yīng)更為顯著
SFT 訓(xùn)練模型(右側(cè)顯示)中這一效應(yīng)相對較弱
Qwen 2.5 Math 基礎(chǔ)模型也表現(xiàn)出輕微的長度相關(guān)性,但這種相關(guān)性在 R1 - distill 及后續(xù)的 RL 訓(xùn)練模型中更為突出
Q2. 這種現(xiàn)象是否主要由截斷或不完整的響應(yīng)導(dǎo)致?
盡管接近 32000 token 限制的響應(yīng)幾乎總是錯誤的(由上下文長度限制所致),但即便是較短的完整響應(yīng),這一趨勢依然存在——較長的響應(yīng)與較高的錯誤概率相關(guān)。
2、在推理訓(xùn)練中是否存在多樣性坍縮?
為了驗證這些主張,研究者比較了 RL 訓(xùn)練模型在所有數(shù)據(jù)集中的 Pass@k 性能(對于 k∈1, 5, 10)與其相應(yīng)的基礎(chǔ)模型(如 DeepSeek - R1 - Distill - Qwen - 1.5B)。表 4 呈現(xiàn)了各方法的 Pass@k 相對于基礎(chǔ)模型的變化情況。

結(jié)果顯示,并未觀察到一致的多樣性坍縮現(xiàn)象。Pass@1 的提升通常伴隨著 Pass@k 的整體改善,盡管不同指標(biāo)的提升幅度存在差異。在 Pass@k 性能下降的情況下,這種下降往往與 Pass@1 的偶發(fā)性下降同時出現(xiàn),而非獨立發(fā)生,這一發(fā)現(xiàn)并不支持多樣性坍縮的假設(shè)。
熱門跟貼