
今天給大家?guī)硪黄匕跹芯拷庾x,來自新加坡國立大學 和SeaAILab團隊 Zichen Liu 博士的最新工作,直擊 R1-Zero-Like 訓練的核心痛點,信息量爆炸!

這篇論文題目就非常硬核:《Understanding R1-Zero-Like Training: A Critical Perspective》(理解類 R1-Zero 訓練:批判性視角)。 他們沒有盲目跟風,而是選擇了 “先理解,再改進” 的硬核路線,深入剖析了 R1-Zero 這類訓練方法的兩大基石:基座模型和強化學習 (RL)
重磅發(fā)現(xiàn)一:基座模型才是真大佬?“頓悟時刻” 比你想的早!
文章一上來就拋出震撼彈: DeepSeek-V3-Base 竟然在 RL 微調(diào)之前就展現(xiàn)出了 “Aha moment”(頓悟時刻)!這直接顛覆了我們之前的認知,難道 RL 只是錦上添花?

更讓人驚訝的是,他們發(fā)現(xiàn)Qwen2.5 基座模型,這個 R1-Zero-like 訓練的 “網(wǎng)紅選手”, 即使不用 Prompt 模板,推理能力也強到離譜!平均 benchmark 分數(shù)直接飆升 ~60%! 這簡直不像基座模型,更像是用 QA 數(shù)據(jù)集 SFT 過的模型!

這些現(xiàn)象都在暗示一個扎心的真相: 基座模型的預訓練階段可能已經(jīng)注入了太多 “偏見”。 比如,自我反思能力、數(shù)學解題技巧,可能在 RL 獎勵信號強化之前就早已埋下種子。
等等,那模型回復越來越長,真的是 RL 的功勞嗎?這里面可能另有隱情…
重磅發(fā)現(xiàn)二: RL 環(huán)節(jié)暗藏 “長度偏見”? GRPO 原來沒那么完美!
研究團隊深入扒了 RL 環(huán)節(jié),尤其是 GRPO (Generalized Reward Policy Optimization) 算法,結(jié)果發(fā)現(xiàn)… GRPO 竟然是有偏見的!

具體來說,GRPO 的長度歸一化 (length normalization)會偏愛短的正確答案,卻對 長的錯誤答案更寬容! 這就導致了“長度偏見”(length bias)。
更可怕的是,GRPO 的標準差歸一化 (std normalization)還會偏愛太簡單或太難的問題,而忽略難度適中的題目! 這又帶來了“難度偏見”** (difficulty bias)
PPO 也躺槍? 開源實現(xiàn)竟然也引入了 “長度偏見”!
更讓人意想不到的是,即使理論上PPO (Proximal Policy Optimization)算法是無偏的,但幾乎所有開源實現(xiàn)都通過計算masked_mean
引入了 “長度偏見”! 這簡直防不勝防!

劃重點: “長度偏見” 可能就是模型回復越來越長的幕后黑手之一!
利器: Dr. GRPO 橫空出世!兩行代碼解決 “偏見” 問題!
為了解決 GRPO 的 “偏見” 問題,研究團隊祭出大招 —— Dr. GRPO (Doctor GRPO)! 只需兩行代碼的魔改: 移除長度歸一化和標準差歸一化 (圖中紅色部分)!

Dr. GRPO 不僅無偏,還能提升 Token 效率!因為它能有效阻止 GRPO 產(chǎn)生越來越長的錯誤答案,避免浪費計算資源。
R1-Zero 訓練極簡配方大公開! 7B 模型 AIME 怒刷 SOTA!
基于以上分析,研究團隊給出了一個極簡的 R1-Zero 訓練配方,沒有花里胡哨的技巧:
?算法:Dr. GRPO (無偏優(yōu)化器)
?數(shù)據(jù):MATH level 3-5 難度問題
?模板:Qwen-Math
?算力:27 小時 * 8 * A100
結(jié)果震撼: 7B 模型在 Zero-RL setting 下,AIME 2024 怒刷 43.3 分 SOTA!

這還不是全部! 這篇論文和代碼庫里還有更多有趣發(fā)現(xiàn),例如:
a.基礎(chǔ)代數(shù) (+ ? × ÷) 問題上的 RL 訓練,竟然能提升奧賽級別的推理能力!
b.Llama 模型也能 “頓悟”!
強烈建議大家去圍觀論文和代碼
論文地址:
https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf
代碼地址:
https://github.com/sail-sg/understand-r1-zero
總結(jié)一下:這項研究不僅揭示了 R1-Zero-like 訓練的深層機制,更指出了現(xiàn)有方法的潛在問題,并提出了有效的改進方案。 對于想要深入理解和實踐 R1-Zero 訓練的朋友們來說,絕對是不可多得的寶藏資料! 趕緊學起來吧!
作者信息:Zichen Liu, PhD student, RL believer @SeaAIL @NUSingapore
?星標AI寒武紀,好內(nèi)容不錯過?
用你的贊和在看告訴我~
求贊
熱門跟貼