夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
什么開源算法自稱為DeepSeek-R1(-Zero) 框架的第一個(gè)復(fù)現(xiàn)?
新強(qiáng)化學(xué)習(xí)框架RAGEN,作者包括DeepSeek前員工Zihan Wang、斯坦福李飛飛團(tuán)隊(duì)等,可訓(xùn)練Agent在行動(dòng)中深度思考。

論文一作Zihan Wang在DeepSeek期間參與了Deepseek-v2和Expert Specialized Fine-Tuning等工作,目前在美國(guó)西北大學(xué)讀博。
他在介紹這項(xiàng)工作時(shí)上來就是一個(gè)靈魂提問:為什么你的強(qiáng)化學(xué)習(xí)訓(xùn)練總是崩潰?
而RAGEN正是探討了使用多輪強(qiáng)化學(xué)習(xí)訓(xùn)練Agent時(shí)會(huì)出現(xiàn)哪些問題 ,以及如何解決這些問題。

通過大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)了訓(xùn)練深度推理型Agent的三大難點(diǎn):
- Echo Trap(回聲陷阱):多輪強(qiáng)化學(xué)習(xí)中,模型過度依賴局部收益的推理,導(dǎo)致行為單一化、探索能力衰退,從而影響長(zhǎng)期收益。
- 數(shù)據(jù)質(zhì)量:Agent生成的交互數(shù)據(jù)直接影響強(qiáng)化學(xué)習(xí)的效果。合理的數(shù)據(jù)應(yīng)該具有多樣性、適度的交互粒度和實(shí)時(shí)性。比如在單個(gè)任務(wù)上多試幾次,每輪限制5-6個(gè)動(dòng)作,并保持rollout的頻繁更新。
- 缺乏推理動(dòng)機(jī):如果沒有精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),Agent很難學(xué)會(huì)多輪任務(wù)中持續(xù)的推理能力。甚至?xí)霈F(xiàn)表面看起來能完成任務(wù),實(shí)際上只是匹配了固定模式的假象。下一步的關(guān)鍵在于建立更細(xì)粒度、面向解釋的獎(jiǎng)勵(lì)機(jī)制。
在交互式隨機(jī)環(huán)境中訓(xùn)練推理Agent
RAGEN是一個(gè)模塊化的Agent訓(xùn)練和評(píng)估系統(tǒng),基于StarPO(State-Thinking-Actions-Reward Policy Optimization)框架,通過多輪強(qiáng)化學(xué)習(xí)來優(yōu)化軌跡級(jí)別的交互過程,由兩個(gè)關(guān)鍵部分組成:
MDP Formulation
將Agent與環(huán)境的交互表述為馬爾可夫決策過程(MDP),其中狀態(tài)和動(dòng)作是token序列,從而允許在環(huán)境動(dòng)態(tài)上推理。

StarPO:通過軌跡級(jí)優(yōu)化強(qiáng)化推理
StarPO是一個(gè)通用的強(qiáng)化學(xué)習(xí)框架,用于優(yōu)化Agent的整個(gè)多輪交互軌跡,在兩個(gè)階段之間交替進(jìn)行,支持在線和離線學(xué)習(xí)。
Rollout階段:
給定初始狀態(tài),該模型會(huì)生成多條軌跡。在每一步中,模型都會(huì)接收軌跡歷史記錄并生成推理引導(dǎo)的動(dòng)作。
...reasoning process...think>actionans>
環(huán)境接收動(dòng)作并返回反饋(獎(jiǎng)勵(lì)和下一個(gè)狀態(tài))。

Update階段:多回合軌跡優(yōu)化
生成軌跡后,訓(xùn)練優(yōu)化預(yù)期獎(jiǎng)勵(lì)。StarPO并非采用逐步優(yōu)化的方式,而是使用重要性采樣來優(yōu)化整個(gè)軌跡。這種方法能夠在保持計(jì)算效率的同時(shí)實(shí)現(xiàn)長(zhǎng)遠(yuǎn)推理。
StarPO支持PPO、GRPO等多種優(yōu)化策略。


除提出算法外,RAGEN論文中還重點(diǎn)介紹了通過研究推理穩(wěn)定性和強(qiáng)化學(xué)習(xí)動(dòng)態(tài)得出的6點(diǎn)主要發(fā)現(xiàn)。
6點(diǎn)主要發(fā)現(xiàn)
發(fā)現(xiàn)1:多輪訓(xùn)練引入了新的不穩(wěn)定模式
像PPO和GRPO這樣的單輪強(qiáng)化學(xué)習(xí)方法的adaptations在Agent任務(wù)中有效,但經(jīng)常會(huì)崩潰。PPO中的“批評(píng)者”或許可以**延緩不穩(wěn)定性,但無法阻止推理能力的下降,這凸顯了在Agent任務(wù)中對(duì)專門的穩(wěn)定性進(jìn)行改進(jìn)的必要性。
發(fā)現(xiàn)2:Agent強(qiáng)化學(xué)習(xí)中的模型崩潰體現(xiàn)為訓(xùn)練過程中的“回聲陷阱”
早期智能體會(huì)以多樣化的符號(hào)推理做出反應(yīng),但訓(xùn)練后會(huì)陷入確定性、重復(fù)性的模板。模型會(huì)收斂到固定的措辭,這表明強(qiáng)化學(xué)習(xí)可能會(huì)強(qiáng)化表面模式而非一般推理,并形成阻礙長(zhǎng)期泛化的“回聲陷阱”。
發(fā)現(xiàn)3:崩潰遵循類似的動(dòng)態(tài),可以通過指標(biāo)預(yù)測(cè)
獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)差和熵通常會(huì)在性能下降之前發(fā)生波動(dòng),而梯度范數(shù)的峰值通常標(biāo)志著不可逆崩潰的臨界點(diǎn)。這些指標(biāo)提供了早期指標(biāo),并激發(fā)了對(duì)穩(wěn)定策略的需求。
發(fā)現(xiàn)4:基于不確定性的過濾提高了訓(xùn)練的穩(wěn)定性和效率
基于獎(jiǎng)勵(lì)方差過濾訓(xùn)練數(shù)據(jù)可以有效對(duì)抗“回聲陷阱”。僅保留高度不確定的訓(xùn)練實(shí)例可以延遲或防止跨任務(wù)崩潰,并提高數(shù)據(jù)效率。
發(fā)現(xiàn)5:任務(wù)多樣性、行動(dòng)預(yù)算和推出頻率影響數(shù)據(jù)質(zhì)量
多樣化的任務(wù)實(shí)例能夠?qū)崿F(xiàn)更好的策略對(duì)比和跨環(huán)境泛化。合適的行動(dòng)預(yù)算能夠提供充足的規(guī)劃空間,并避免過長(zhǎng)序列引入的噪聲。Up-to-date rollouts能夠確保優(yōu)化目標(biāo)與當(dāng)前策略行為保持一致。
發(fā)現(xiàn)6:如果沒有精心的獎(jiǎng)勵(lì)設(shè)計(jì),推理行為就無法產(chǎn)生
雖然符號(hào)推理在弱監(jiān)督下的單輪任務(wù)中自然出現(xiàn),但在多輪環(huán)境中,如果沒有明確鼓勵(lì)可解釋的中間推理步驟的獎(jiǎng)勵(lì)設(shè)計(jì),它就無法持續(xù)存在。
團(tuán)隊(duì)觀察到,即使有結(jié)構(gòu)化的提示,如果獎(jiǎng)勵(lì)信號(hào)僅關(guān)注最終結(jié)果,推理能力也會(huì)在訓(xùn)練過程中逐漸衰退。這表明如果沒有細(xì)致的獎(jiǎng)勵(lì)塑造,智能體可能會(huì)傾向于走捷徑,完全繞過推理。
One More Thing
同團(tuán)隊(duì)還有另一個(gè)項(xiàng)目VAGEN,使用多輪強(qiáng)化學(xué)習(xí)訓(xùn)練多模態(tài)Agent。
VAGEN 引入了回合感知推理交互鏈優(yōu)化 (TRICO) 算法,通過兩項(xiàng)關(guān)鍵創(chuàng)新擴(kuò)展了傳統(tǒng)的RICO方法:選擇性token屏蔽,跨輪credit分配。
與傳統(tǒng)的Agent強(qiáng)化學(xué)習(xí)相比,VAGEN不會(huì)平等對(duì)待軌跡中的所有token,而是重點(diǎn)優(yōu)化最關(guān)鍵的決策token并在交互過程中創(chuàng)建更細(xì)致的獎(jiǎng)勵(lì)結(jié)構(gòu),更適合多模態(tài)Agent

RAGEN、VAGEN代碼均已開源,感興趣的團(tuán)隊(duì)可以跑起來了。
論文:
https://github.com/RAGEN-AI/RAGEN/blob/main/RAGEN.pdf
代碼
https://github.com/RAGEN-AI/RAGEN
https://github.com/RAGEN-AI/VAGEN
[1]https://ragen-ai.github.io
[2]https://x.com/wzihanw/status/1915052871474712858
熱門跟貼