00 后王子涵,是 DeepSeek 的前實習(xí)生,曾參與 DeepSeek-V2 的開發(fā)。其本科畢業(yè)于中國人民大學(xué),目前在美國西北大學(xué)讀博。

圖 | 王子涵(來源:https://zihanwang314.github.io/)
打開網(wǎng)易新聞 查看精彩圖片
圖 | 王子涵(來源:https://zihanwang314.github.io/)

幾天前,他和所在團隊以及合作者針對智能體提出一種新的通用框架和模塊化系統(tǒng)。

論文作者分別來自于 7 所高校,同時這次論文也是一個由“三代 AI 人”打造的新成果。作為共同一作的王子涵是 00 后,共同作者之一是王子涵的導(dǎo)師——美國西北大學(xué)助理教授李曼玲,而另一位論文共同作者則是李曼玲的博士后導(dǎo)師——美國斯坦福大學(xué)教授李飛飛。

研究中,王子涵和所在團隊提出了一種名為狀態(tài)-思考-動作-獎勵策略優(yōu)化(StarPO,State-Thinking-Actions-Reward Policy Optimization)的通用框架,能被用于軌跡級智能體強化學(xué)習(xí)。同時,他們還打造出一款模塊化系統(tǒng) RAGEN,該系統(tǒng)能用于訓(xùn)練和評估大模型智能體。

通過研究三種典型環(huán)境,課題組揭示了三個核心發(fā)現(xiàn):

首先,研究團隊利用強化學(xué)習(xí)訓(xùn)練展示了一種名為回聲陷阱(Echo Trap)的反復(fù)模式,即獎勵方差會出現(xiàn)斷崖和梯度尖峰。為了解決這一問題,他們基于 StarPO 打造了 StarPO-S 這一變體,這種變體是一種帶有軌跡過濾、評價融入和解耦裁剪的穩(wěn)定變體。

其次,研究團隊發(fā)現(xiàn)強化學(xué)習(xí)訓(xùn)練過程之所以能夠得到優(yōu)化,主要得益于多樣化的初始狀態(tài)、適中的交互粒度以及更加頻繁的采樣。

再次,研究團隊發(fā)現(xiàn)如果沒有細粒度且符合推理邏輯的獎勵信號,智能體很難在多輪強化學(xué)習(xí)中形成有效推理能力,反而可能表現(xiàn)出淺層策略或產(chǎn)生幻覺性思維。

打開網(wǎng)易新聞 查看精彩圖片

如何讓智能體實現(xiàn)有效、穩(wěn)定的學(xué)習(xí)?

本次研究旨在探索:到底哪些因素能讓智能體實現(xiàn)有效、穩(wěn)定的學(xué)習(xí)。為了探討這一問題,他們基于 StarPO 這一通用強化學(xué)習(xí)框架開展了研究。

研究人員表示,StarPO 能為多輪次、軌跡級別的智能體訓(xùn)練提供一個統(tǒng)一視角,并能靈活地控制推理、獎勵分配和提示-學(xué)習(xí)過程結(jié)構(gòu)。

基于 StarPO,他們開發(fā)了模塊化的智能體訓(xùn)練和評估系統(tǒng) RAGEN,以便能夠支持大模型中基于強化學(xué)習(xí)的推理研究。

據(jù)了解,RAGEN 能夠?qū)崿F(xiàn)完整的訓(xùn)練循環(huán),包括連續(xù)輸出生成、獎勵分配和軌跡優(yōu)化。作為一套研究基礎(chǔ)設(shè)施,針對多輪交互以及隨機環(huán)境下的大模型智能體訓(xùn)練動態(tài),RAGEN 能夠?qū)ζ溥M行系統(tǒng)性分析。

此前,在一些現(xiàn)實世界任務(wù)比如網(wǎng)頁瀏覽和實體操作上,訓(xùn)練大模型智能體通常依賴大量的預(yù)訓(xùn)練先驗知識和特定任務(wù)的工程化處理。

為了研究大模型智能體從零開始的學(xué)習(xí)過程,并排除一些混雜因素的影響,研究團隊在 Bandit、Sokoban 和 FrozenLake 這三種風(fēng)格化訓(xùn)練環(huán)境中,通過 RAGEN 來開展評估。這些環(huán)境被刻意設(shè)計得極為簡潔,同時在難度、符號變化和轉(zhuǎn)換動態(tài)方面是完全可控的。

更加重要的是,以上三種風(fēng)格化訓(xùn)練環(huán)境要求智能體必須盡可能更少地依賴先前的世界知識,而是通過與環(huán)境交互來學(xué)習(xí)決策策略。

完成這些設(shè)置之后,他們分析了強化學(xué)習(xí)中的三個關(guān)鍵維度,并揭示了穩(wěn)定強化學(xué)習(xí)訓(xùn)練的核心挑戰(zhàn)和設(shè)計原則:

首先,要想實現(xiàn)穩(wěn)定的訓(xùn)練,多回合強化學(xué)習(xí)中的梯度穩(wěn)定性是關(guān)鍵。研究人員發(fā)現(xiàn)多回合強化學(xué)習(xí)訓(xùn)練往往會催生一種反復(fù)出現(xiàn)的不穩(wěn)定模式,這種模式便是前文提到的回聲陷阱(Echo Trap),當(dāng)智能體過度擬合局部獎勵推理模式的時候,會出現(xiàn)獎勵方差崩潰、熵下降和梯度尖峰等現(xiàn)象。為了緩解這一失效模式,他們提出了 StarPO-S,這是 StarPO 框架的一個穩(wěn)定變體,這個變體能夠通過基于方差的軌跡過濾、評價基線化和解耦剪切來提高學(xué)習(xí)魯棒性。

其次,研究人員展示了推演頻率與多樣性塑造自我進化。在基于強化學(xué)習(xí)的智能體訓(xùn)練中,大模型自我生成的展開軌跡會被作為核心訓(xùn)練材料。而通過本次研究他們確定了用于穩(wěn)定智能體強化學(xué)習(xí)訓(xùn)練的關(guān)鍵部署因素:第一個因素是要確保推演數(shù)據(jù)來自于多樣化的提示集,并且每個提示都能生成多個響應(yīng)。第二個因素是在固定的回合限制之內(nèi),每個回合通過執(zhí)行多個動作來提高交互范圍。第三個因素是要保持較高的推演頻率,以便確保在線反饋能夠反映當(dāng)前策略的最新狀態(tài)。

再次,研究人員發(fā)現(xiàn)新興智能體推理需要細致的獎勵信號。他們發(fā)現(xiàn),僅僅在行動格式中鼓勵推理并不能確保產(chǎn)生實際的推理行為。即使模型通過 StarPO 進行軌跡級優(yōu)化來進行推理,如果推理沒有帶來明顯的獎勵優(yōu)勢,它們也往往會退化為直接選擇動作。研究團隊認為這是由于馬爾科夫決策過程(MDP,Markov Decision Process)中的動作空間較為簡單,因此使用淺層策略就已經(jīng)足夠應(yīng)對。此外,當(dāng)獎勵僅僅反映任務(wù)是否成功完成時,模型會產(chǎn)生推理幻覺,這表明思維與環(huán)境狀態(tài)之間存在不匹配的情況。也說明在強化學(xué)習(xí)中,要想進行長期的智能體訓(xùn)練,就需要細粒度的、具有推理意識的獎勵信號。

通過此,研究人員揭示了一個具備推理能力、穩(wěn)定性和泛化性的大模型智能體背后的核心原則。

而為了在實際場景中實施 StarPO,研究團隊構(gòu)建了 RAGEN,RAGEN 是一個用于在受控環(huán)境中訓(xùn)練大模型智能體的完整系統(tǒng)。

RAGEN 框架支持結(jié)構(gòu)化推演軌跡和可定制獎勵函數(shù),并能適配多輪隨機環(huán)境的集成需求。

RAGEN 既可以作為 StarPO 的執(zhí)行后端,也可作為一種研究智能體的穩(wěn)定性、泛化能力和學(xué)習(xí)動態(tài)的平臺。

與此同時,RAGEN 采用模塊化設(shè)計,因此具備一定的可擴展性。即使是新的環(huán)境、新的獎勵方案或新的展示策略,也可以輕松插入訓(xùn)練循環(huán)之中,從而能為基于強化學(xué)習(xí)的智能體訓(xùn)練分析奠定基礎(chǔ)。

打開網(wǎng)易新聞 查看精彩圖片

轉(zhuǎn)向基于可驗證結(jié)果的獎勵驅(qū)動型訓(xùn)練模式

在實驗設(shè)計上,他們選擇了三個小而全面的符號環(huán)境,即前文提到的 Bandit、Sokoban 和 FrozenLake,這些環(huán)境旨在隔離核心決策挑戰(zhàn)。這些符號環(huán)境小而可控,并且去除了現(xiàn)實世界的先驗知識,因此能對推理涌現(xiàn)和學(xué)習(xí)動態(tài)進行清晰的分析。

具體而言,Bandit 測試了在隨機反饋下的風(fēng)險敏感符號推理。

(來源:GitHub)
打開網(wǎng)易新聞 查看精彩圖片
(來源:GitHub)

Sokoban 需要在確定性環(huán)境中進行不可逆的多步規(guī)劃。

(來源:GitHub)
打開網(wǎng)易新聞 查看精彩圖片
(來源:GitHub)

而 FrozenLake 則將規(guī)劃與概率性轉(zhuǎn)換相結(jié)合。

(來源:GitHub)
打開網(wǎng)易新聞 查看精彩圖片
(來源:GitHub)

實驗中,研究團隊首先評估了在默認配置之下,StarPO 在三個智能體任務(wù)中的基線性能。

如下圖所示,多數(shù)訓(xùn)練過程在早期階段展現(xiàn)出性能的顯著提升,但最終仍會陷入性能崩潰。

(來源:GitHub)
打開網(wǎng)易新聞 查看精彩圖片
(來源:GitHub)

這種行為與靜態(tài)單輪任務(wù)并不相同,在靜態(tài)單輪任務(wù)中,崩潰問題幾乎不會成為主要問題。

值得注意的是,研究團隊觀察到在發(fā)生性能退化之前,StarPO 的近端策略優(yōu)化(PPO,Proximal Policy Optimization)變體比梯度懲罰策略優(yōu)化(GRPO,Gradient Penalty Policy Optimization)變體,能夠保持更長的穩(wěn)定時間。

例如,在 Bandit 和 Sokoban 任務(wù)上,梯度懲罰策略優(yōu)化變體分別在 20 步和 10 步時開始崩潰,而近端策略優(yōu)化變體則能維持到 100 步和 50 步。

這些結(jié)果表明:雖然近端策略優(yōu)化算法和梯度懲罰策略優(yōu)化算法等單輪次強化學(xué)習(xí)方法,在初期能夠適應(yīng)多輪次的交互場景,但是在需要長程交互的多輪智能體訓(xùn)練中它們變現(xiàn)得缺乏魯棒性。此外,價值函數(shù)也在穩(wěn)定訓(xùn)練動態(tài)中扮演著關(guān)鍵角色。

令人驚訝的是,在 FrozenLake 任務(wù)上,梯度懲罰策略優(yōu)化變體似乎比近端策略優(yōu)化變體更加穩(wěn)定。研究團隊推測,這可能是由于 FrozenLake 任務(wù)存在狀態(tài)值難以估計的固有特性,因此可能會降低近端策略優(yōu)化變體的穩(wěn)定性。

為了探究性能崩潰的原因,研究團隊比較了早期和晚期的推演軌跡。在 Bandit 任務(wù)中:早期階段的軌跡表現(xiàn)顯示,該任務(wù)實現(xiàn)了對于符號意義和預(yù)期獎勵的多樣化推理;而后期階段的軌跡表現(xiàn),則變得重復(fù)并且具有確定性。

如下表所示,最上面兩行展示了關(guān)于中國傳說中神異動物“龍”和“鳳”的不同假設(shè),而最下面三行收斂到幾乎相同的措辭,這些措辭側(cè)重于“選擇龍”,但卻沒有給出任何理由。

(來源:GitHub)
打開網(wǎng)易新聞 查看精彩圖片
(來源:GitHub)

這表明,強化學(xué)習(xí)訓(xùn)練可能過度地放大了固有的推理捷徑,在強化局部獎勵模板的同時抑制了探索。

研究團隊將這種失敗模式稱為“回聲陷阱”(Echo Trap),即模型在獎勵反饋下反復(fù)重用記憶中的推理路徑,從而導(dǎo)致軌跡多樣性的崩潰和長期性能的下降。

為了識別訓(xùn)練崩潰的早期跡象,研究團隊分析了反映行為冗余與策略不穩(wěn)定的軌跡級統(tǒng)計信號。具體而言,研究團隊檢測了兩個早期指標(biāo):第一個指標(biāo)是獎勵標(biāo)準(zhǔn)差,旨在衡量同一任務(wù)實例下的多次軌跡能否產(chǎn)生多樣化結(jié)果,或是否已經(jīng)崩潰為具有相似回報的重復(fù)模式。第二個指標(biāo)是輸出熵,旨在捕捉模型輸出的不確定性,假如它出現(xiàn)驟降則意味著策略過度自信,并收斂至狹窄的推理路徑。

為了判定性能崩潰是否發(fā)生,研究團隊又追蹤了以下兩項關(guān)鍵指標(biāo):第一個指標(biāo)是平均獎勵值,其增長停滯或下降標(biāo)志著任務(wù)解決能力退化。第二個指標(biāo)是梯度范數(shù),該數(shù)值的突變意味著微小參數(shù)更新引發(fā)劇烈變化,通常是訓(xùn)練不穩(wěn)定及崩潰的前兆。

(來源:GitHub)
打開網(wǎng)易新聞 查看精彩圖片
(來源:GitHub)

上圖呈現(xiàn)了不同任務(wù)和優(yōu)化方法下的動態(tài)趨勢?;趯嶒灲Y(jié)果,關(guān)于多輪次智能體強化學(xué)習(xí)中模型崩潰演化過程,研究人員得出了以下結(jié)論:

首先,獎勵標(biāo)準(zhǔn)差可能是一個可靠的早期信號。對于 FrozenLake-PPO,獎勵均值在第 90 步時崩潰,但標(biāo)準(zhǔn)差在第 40 步時急劇下降,這一時間遠遠早于性能下降發(fā)生的時間。在 Bandit-PPO 中,標(biāo)準(zhǔn)差在第 70 步左右觸底,而獎勵在第 120 步達到峰值。在 Sokoban-PPO 中,標(biāo)準(zhǔn)差和均值在第 10 步左右?guī)缀跬瑫r崩潰。

其次,梯度范數(shù)的激增表明發(fā)生了不可逆的崩潰。一旦梯度范數(shù)激增出現(xiàn),在第 170 步(Bandit)、第 110 步(Sokoban)和第 90 步(FrozenLake)的時候,即使是小幅更新也會導(dǎo)致參數(shù)劇烈變化,在此之后恢復(fù)的可能性微乎其微。

再次,在有效的學(xué)習(xí)過程中,熵值通常會遵循一種穩(wěn)定的下降趨勢。熵值的迅速增加或無規(guī)律的變化,往往與推理行為的崩潰相關(guān)聯(lián)。

這些模式證實,多回合強化學(xué)習(xí)(multi-turn RL)帶來了單回合強化學(xué)習(xí)方法無法應(yīng)對的獨特挑戰(zhàn)。為此,研究團隊推出了 StarPO-S 這一穩(wěn)定變體,旨在提高采樣質(zhì)量、增強梯度穩(wěn)定性并規(guī)范探索行為,以避免過早崩潰。

總的來說,通過本次研究該團隊證明,當(dāng)強化學(xué)習(xí)能夠適應(yīng)復(fù)雜且隨機多變的環(huán)境時,也意味著能夠針對大模型智能體進行有效訓(xùn)練,進而讓智能體進行推理和行動。

本次研究成果的提出,也標(biāo)志著人們從程序繁瑣、有人工監(jiān)督的學(xué)習(xí)模式,轉(zhuǎn)向了基于可驗證結(jié)果的獎勵驅(qū)動型訓(xùn)練模式。

這為定理證明、軟件工程、科學(xué)發(fā)現(xiàn)和游戲等領(lǐng)域構(gòu)建 AI 系統(tǒng)開辟了一條可擴展的道路。

參考資料:

論文全文:https://github.com/RAGEN-AI/RAGEN/blob/main/RAGEN.pdf

https://x.com/wzihanw/status/1915052871474712858

https://github.com/RAGEN-AI/RAGEN

https://ragen-ai.github.io/

運營/排版:何晨龍