
MARFT 微調(diào)后的大語言模型多智能體系統(tǒng)性能優(yōu)于未經(jīng)微調(diào)的系統(tǒng)性能和單智能體 PPO 方法,這在數(shù)學(xué)任務(wù)上得到驗證并提升顯著。
作者丨廖俊威、溫睦寧
近期,基于大型語言模型(LLM)的多智能體系統(tǒng)(LLM-based Multi-Agent Systems, LaMAS),例如 Google Co-Scientist、CAMEL-OWL 等,已展示出卓越的能力,能夠處理需要多種能力復(fù)合和多角色協(xié)作的復(fù)雜交互任務(wù)。同時,隨著 GRPO、DAPO 等面向大語言模型的強化微調(diào)因其在增強單個智能體能力方面的有效性而得到廣泛認可,盡管如此,針對 LaMAS 進行強化學(xué)習(xí)微調(diào)的相關(guān)研究仍然很少。并且,由于 LaMAS 固有的獨特特性和機制,將傳統(tǒng)的多智能體強化學(xué)習(xí)方法直接應(yīng)用于 LaMAS 會帶來額外的挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),上海交通大學(xué)聯(lián)合上海創(chuàng)智學(xué)院、西安交通大學(xué)、OPPO 研究院對作用于 LaMAS 的強化微調(diào)進行了全面調(diào)研與深入分析,提出了適用于 LaMAS 的強化微調(diào)新范式 —— Multi-Agent Reinforcement Fine-Tuning(MARFT),給出了一種實現(xiàn)方案并通過實驗初步確認了其有效性。最后,研究團隊還對 MARFT 的應(yīng)用前景及開放挑戰(zhàn)進行了深入討論,提供了一系列有價值的潛在研究方向。
該論文詳細介紹了 MARFT 的核心實現(xiàn),強調(diào)了其模塊化和適應(yīng)性,并提供了完整的開源代碼,以促進采用和進一步研究,具體見如下論文與代碼鏈接。

arxiv link: https://arxiv.org/abs/2504.16129
github repo: https://github.com/jwliao-ai/MARFT

1
研究背景:以LLM為基礎(chǔ)的多智能體強化微調(diào)的研究空缺與困境
隨著大規(guī)模語言模型(LLM)被部署為新一代自主智能體,其在自主任務(wù)處理領(lǐng)域嶄露頭角。然而,將強化學(xué)習(xí)微調(diào)(RFT)應(yīng)用于 LLM 多智能體系統(tǒng)(LaMAS)時,面臨諸多挑戰(zhàn)。一方面,RFT 在提升單智能體 LLM 性能上成果斐然,但目前缺少基于強化學(xué)習(xí)試錯學(xué)習(xí)本質(zhì)的多智能體強化微調(diào)方法,另一方面,LaMAS在解決實際問題時存在高度的組織動態(tài)性,傳統(tǒng)多智能體強化學(xué)習(xí)(MARL)框架難以適配 LLM 多智能體系統(tǒng)的獨特復(fù)雜性,現(xiàn)有框架在整合 LLM 作為動態(tài)環(huán)境中的智能體執(zhí)行代理任務(wù)時存在缺失,限制了 LaMAS 的群體智能發(fā)揮。譬如一個針對軟件開發(fā)的LaMAS可能需要分別完成“需求實現(xiàn)”和“代碼糾錯”兩個子任務(wù),但二者涉及的智能體集合與工作流程均可能不同;這對于傳統(tǒng)MARL而言可能是個很少被考慮的情況,但在LaMAS里則十分常見。
2
基于大語言模型的多智能體強化微調(diào) —— MARFT
在正式提出 MARFT 前,文章先對 RFT、LaMAS 和 MARL 進行了系統(tǒng)性的回顧,列舉出了 RFT 與 RL 的不同點以及 MARFT 與 MARL 的不同點。研究團隊創(chuàng)新性地提出了 Flex-POMDP ,該部分可觀測馬爾可夫決策過程(POMDP)考慮到 LaMAS 執(zhí)行決策時智能體之間可能存在某種結(jié)果依賴關(guān)系,引入了動態(tài)依賴函數(shù)
D
D
(a
i
, a
j表示智能體
j的決策依賴于智能體
i的決策。該函數(shù)具有高度動態(tài)性,在每一個時間步都有可能不同,這取決于預(yù)先定義的 LaMAS 解決實際問題的機制或者 LaMAS 中的協(xié)管智能體。例如,在圖 1 展示的時間步中,該依賴函數(shù)由協(xié)管智能體給出,訂票智能體的決策則依賴于日歷智能體與位置智能體。當(dāng)狀態(tài)依賴函數(shù)對所有智能體
i、j均為0時,F(xiàn)lex-POMDP退化為 DEC-POMDP,證明了 Flex-POMDP 的通用性。同時,為了更好地從微調(diào)角度剖析 LaMAS,文章對 LaMAS 進行了是否參數(shù)共享、是否異步?jīng)Q策和是否同時更新參數(shù)的討論,為下文針對 LaMAS 的 MARFT 做鋪墊。


MARFT 采用 On-policy 算法框架,推理與訓(xùn)練交替進行,使用當(dāng)前最新的策略生成軌跡數(shù)據(jù),并用這些軌跡數(shù)據(jù)來微調(diào) LaMAS。該論文提供了一種示例的實現(xiàn)方案(為了方便,后續(xù)直接稱為 MARFT)。MARFT 通過多智能體優(yōu)勢值分解,將具有任意組織或動態(tài)依賴關(guān)系的多智能體微調(diào)重新建模為多智能體的序列決策微調(diào),這很好地緩解了 LaMAS 面對實際問題時高度動態(tài)性所導(dǎo)致的優(yōu)化復(fù)雜度過高的問題。MARFT 采用了類 Transformer(Encoder-Decoder)的方法和信賴域?qū)W習(xí)(Trust Region Learning)。其中,“編碼器”用于初步構(gòu)建 LaMAS 中每個智能體的局部觀測,“解碼器”則基于局部觀測和有依賴關(guān)聯(lián)的前序決策,順序輸出下一個智能體的決策。每個智能體的優(yōu)化是在前序智能體決策的條件下進行的信賴域優(yōu)化,從而保證了 LaMAS 性能的穩(wěn)定提升。圖 2 詳細地展示了 MARFT 的推理和訓(xùn)練流程。
在基礎(chǔ)算法的基礎(chǔ)上,研究團隊還討論和實現(xiàn)了正則化、智能體順序更新以及 Token 層面的 MARFT。

3
初步試驗結(jié)果及分析
研究團隊在MATH任務(wù)上進行了初步的驗證,并對初步的實驗結(jié)果進行了深入的分析和討論。

1. 單智能體 vs 多智能體
從單智能體和多智能體的訓(xùn)練曲線圖可以看出,LaMAS(大規(guī)模多智能體系統(tǒng))得益于群體智能,其基線性能和優(yōu)化后的性能均優(yōu)于單智能體方法。與此同時,與單智能體 PPO 相比,MARFT 展現(xiàn)出更好的穩(wěn)定性。單智能體 PPO 盡管在訓(xùn)練初期有所提升,但隨著訓(xùn)練的進行,其性能逐漸崩潰。而 MARFT 的正確率達到了大約 50%,比基線高出約 5%。
2. 動作級別微調(diào) vs Token 級別微調(diào)
對比動作級別微調(diào)和 Token 級別微調(diào)的訓(xùn)練曲線可以看出,Token 級別微調(diào)在大約 8k 步之前表現(xiàn)出早期的波動,之后其準確率飆升至約 0.49,比未調(diào)整的雙智能體 LaMAS 高出約 5%。這與文中解釋的訓(xùn)練 Token 級別價值函數(shù)的挑戰(zhàn)一致,即 Token 級別價值函數(shù)最初難以訓(xùn)練,導(dǎo)致早期階段出現(xiàn)波動,這一點也在價值函數(shù)的訓(xùn)練曲線中有所體現(xiàn)。
3. 異常實驗曲線
在初步試驗曲線中,單智能體 PPO 在動作級別和 Token 級別微調(diào)中分別在 3k 步和 6k 步后出現(xiàn)了顯著的性能崩潰。通過觀察其輸出熵的訓(xùn)練曲線圖,研究團隊發(fā)現(xiàn)熵值出現(xiàn)了大幅波動,這導(dǎo)致了梯度爆炸,進而引發(fā)了模型崩潰。這種現(xiàn)象是使用強化學(xué)習(xí)訓(xùn)練 LLMs 時的常見挑戰(zhàn),通常源于方差過大,并且智能體容易探索到無效 Token,而價值函數(shù)無法給出準確的價值。盡管這一問題難以完全消除,但可以通過從穩(wěn)定的檢查點恢復(fù)訓(xùn)練、調(diào)整上下文 epsilon 的值等方式來緩解。
除此之外,研究團隊還對將來的實驗進行了詳細規(guī)劃,具體包括將 MARFT 擴展到更多更困難、更能體現(xiàn) LaMAS 代理能力的任務(wù)上,逐步增加智能體數(shù)量等。
4
前景與挑戰(zhàn)
文章在方法與實驗部分結(jié)束后,對 MARFT 的發(fā)展前景提出以下幾點:
1. 復(fù)雜任務(wù)解決能力出色:MARFT 借助強化學(xué)習(xí)微調(diào)(RFT),使基于大型語言模型(LLM)的多智能體系統(tǒng)(LaMAS)在解決復(fù)雜任務(wù)方面表現(xiàn)出色。它能高效分解復(fù)雜指令為子任務(wù)并分配給各智能體,這些智能體通過自然語言交互,動態(tài)共享目標(biāo)、協(xié)商策略及協(xié)調(diào)行動。在物流場景下,可優(yōu)化智能體協(xié)作,實現(xiàn)應(yīng)急物資高效配送。
2. 可擴展性和魯棒性良好:MARFT 可適應(yīng)多智能體問題的靈活性,智能體數(shù)量、環(huán)境復(fù)雜性和任務(wù)規(guī)模增加時,通過動態(tài)任務(wù)分解與智能體角色調(diào)整,在變化組織結(jié)構(gòu)下仍能高效運行,面對復(fù)雜多變?nèi)蝿?wù)可保持穩(wěn)定性能和高效協(xié)調(diào)能力。
3. 具備隱私保護優(yōu)勢:MARFT 的多智能體系統(tǒng)中,智能體不共享本地私有數(shù)據(jù),僅通過行為貢獻集體智慧,與聯(lián)邦學(xué)習(xí)理念相似,但更注重協(xié)作提升系統(tǒng)性能,在隱私敏感場景有天然優(yōu)勢。
4. 與區(qū)塊鏈技術(shù)融合度高:MARFT 的去中心化特性和隱私保護能力契合區(qū)塊鏈技術(shù),在智能合約執(zhí)行等場景中,可實現(xiàn)安全高效協(xié)作,無需共享敏感數(shù)據(jù),其動態(tài)適應(yīng)性和保留預(yù)訓(xùn)練能力的特點,使其在區(qū)塊鏈的不確定性和對抗性環(huán)境中表現(xiàn)出色。
同時,研究團隊為MARFT接下來的研究指出了幾個潛在方向:
1. 動態(tài)訓(xùn)練環(huán)境缺失:推動 MARFT 面臨的一大難題是缺少用于解決代理任務(wù)的動態(tài)交互環(huán)境,該環(huán)境需易于實現(xiàn)且可擴展。一方面,構(gòu)建含復(fù)雜代理任務(wù)的環(huán)境需大量工程專業(yè)知識;另一方面,在高度動態(tài)環(huán)境中為多智能體系統(tǒng)設(shè)計獎勵反饋機制極為困難,獎勵信號多維,平衡不同目標(biāo)權(quán)重很精細。當(dāng)下雖有部分 “動態(tài)” 基準測試,但將其轉(zhuǎn)化為支持 MARL 訓(xùn)練的動態(tài)環(huán)境仍是待解問題。
2. 樣本效率低與缺乏優(yōu)質(zhì)合成數(shù)據(jù):強化學(xué)習(xí)樣本效率低,像 PPO、TRPO 算法需頻繁在采樣軌跡與訓(xùn)練間切換,應(yīng)用于 LLM 時更耗時低效。且樣本效率低導(dǎo)致缺乏高質(zhì)量合成數(shù)據(jù),有效的多智能體軌跡需高成功率及高效的溝通協(xié)作,目前該領(lǐng)域缺少用于多智能體冷啟動的此類數(shù)據(jù)。
3. MARFT 框架需進一步完善:整合 LLM 和 MARL 的工程解決方案極具挑戰(zhàn),雖有 OpenRLHF 和 MALib 等友好、高效、可擴展的框架,但專門針對 MARFT 的綜合性框架缺失。創(chuàng)建這類框架需整合 LLM 和 MARL 組件,比單獨開發(fā)上述框架更費力,本文所開源的 MARFT 框架也尚處于早期階段。
4. 通信機制或協(xié)議不統(tǒng)一:近年出現(xiàn)諸多智能體通信協(xié)議,如 MCP、A2A 和 ANP,這些協(xié)議對促進智能體有效協(xié)作、與用戶互動至關(guān)重要,也滿足智能體保留自身數(shù)據(jù)和知識的需求。但協(xié)議眾多導(dǎo)致碎片化格局,缺乏統(tǒng)一高效通信管道,阻礙不同智能體在 LaMAS 動態(tài)異構(gòu)環(huán)境中的無縫集成與互操作,還使系統(tǒng)設(shè)計、可擴展性復(fù)雜化,引入低效和潛在瓶頸。
5
研究貢獻總結(jié)
在文章的最后,研究團隊對整篇文章進行了總結(jié),該工作的主要貢獻有:
提出了一種新的多智能體強化微調(diào)范式MARFT并給出了一種完整的開源實現(xiàn):MARFT框架是針對基于大型語言模型(LLM)的多智能體系統(tǒng)(LaMAS)的強化微調(diào)而提出的,它在理論和實踐上都具有創(chuàng)新性。該框架能夠有效應(yīng)對LaMAS的獨特復(fù)雜性,填補了現(xiàn)有研究的空白。此外,研究團隊開源了MARFT的完整代碼并進行了深入的分析,這不僅有助于其他研究人員快速上手和驗證MARFT的效果,還能夠推動該領(lǐng)域的快速發(fā)展。
探討了MARFT的發(fā)展前景和挑戰(zhàn):文章不僅提出了 MARFT 的當(dāng)前成果,還對其未來的發(fā)展方向和面臨的挑戰(zhàn)進行了深入分析。MARFT 在解決復(fù)雜任務(wù)、提升系統(tǒng)可擴展性、保護隱私以及與區(qū)塊鏈技術(shù)融合等方面展現(xiàn)出巨大的潛力。然而,當(dāng)前研究仍面臨諸多挑戰(zhàn),如缺乏動態(tài)訓(xùn)練環(huán)境、樣本效率低下、缺乏高質(zhì)量合成數(shù)據(jù)、以及缺乏完善的 MARFT 框架和統(tǒng)一的智能體通信機制。這些挑戰(zhàn)為后續(xù)的研究工作提供了明確的指引,有助于推動 MARFT 在更廣泛的應(yīng)用場景中發(fā)揮作用。

更多內(nèi)容,點擊下方關(guān)注:

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
熱門跟貼