當(dāng)前,在安全對(duì)齊、代碼生成等下游任務(wù)中,大語言模型要想進(jìn)一步提升性能,往往需要進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。

但是,從強(qiáng)化學(xué)習(xí)的視角來看,如果把大語言模型當(dāng)成根據(jù) prompt 做決策的智能體,就會(huì)發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)微調(diào)這個(gè)任務(wù)可謂十分困難。

其中主要存在兩個(gè)難點(diǎn):

一是大語言模型擁有非常龐大的離散動(dòng)作空間,整個(gè) token 字典都是它的動(dòng)作空間。以 Meta 公司的 Llama2 模型為例,它的動(dòng)作空間有 32000 維。

而生成一個(gè)回答可能包含幾十甚至上千個(gè) token 的組合,其復(fù)雜度遠(yuǎn)遠(yuǎn)大于在強(qiáng)化學(xué)習(xí)領(lǐng)域已經(jīng)被解決得很好的圍棋和星際爭(zhēng)霸等任務(wù)。

二是稀疏獎(jiǎng)勵(lì)問題,即大語言模型只有在完整生成一個(gè)回答后才會(huì)得到一個(gè)獎(jiǎng)勵(lì)。

這兩個(gè)問題導(dǎo)致強(qiáng)化學(xué)習(xí)微調(diào)很不穩(wěn)定,在微調(diào)的時(shí)候容易使模型的輸出分布大幅偏離預(yù)訓(xùn)練模型,從而導(dǎo)致模型原有的對(duì)語言結(jié)構(gòu)的建模發(fā)生崩潰(即分布崩潰),進(jìn)而引發(fā)模型輸出質(zhì)量的急劇下降。

現(xiàn)有很多研究都是從構(gòu)建密集獎(jiǎng)勵(lì)函數(shù)入手來解決大語言模型的強(qiáng)化學(xué)習(xí)微調(diào)的問題。

但是,中國(guó)科學(xué)院自動(dòng)化所博士生馬昊和所在團(tuán)隊(duì)嘗試從多智能體的角度來看這個(gè)問題。

結(jié)合團(tuán)隊(duì)在群體智能領(lǐng)域的大量積累,他們認(rèn)為:如果使用多個(gè)大語言模型構(gòu)成一個(gè)多智能體系統(tǒng),在多個(gè)大語言模型之間構(gòu)造一種博弈關(guān)系,也許能實(shí)現(xiàn)大語言模型能力的進(jìn)一步涌現(xiàn)。

這一思路的背后主要基于兩個(gè)觀察:一是自然語言本身就是在群體交互中涌現(xiàn)的;二是在群體中,智能體間的博弈關(guān)系無論是合作關(guān)系還是競(jìng)爭(zhēng)關(guān)系,都可以促進(jìn)軍備競(jìng)賽或協(xié)同演化,從而在智能體之間形成一種相互促進(jìn)的動(dòng)態(tài)。

那么,如何在多個(gè)大語言模型之間構(gòu)造一種博弈關(guān)系?要知道,基于特定任務(wù)針對(duì)大語言模型進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),它本身是一個(gè)單智能體強(qiáng)化學(xué)習(xí)問題,因此把它構(gòu)造成博弈問題頗具挑戰(zhàn)。

在嘗試了多種構(gòu)造方式后,他們最終發(fā)現(xiàn)將兩個(gè)大語言模型之間的交互構(gòu)造為 Stackelberg 博弈可以將強(qiáng)化學(xué)習(xí)微調(diào)轉(zhuǎn)化為一個(gè)多智能體強(qiáng)化學(xué)習(xí)問題,并實(shí)現(xiàn)研究初期所設(shè)想的“協(xié)同演化”。

這種方法包含兩種機(jī)制:

1. 從一個(gè)初始大語言模型出發(fā),來將其復(fù)制成兩份:Pioneer 大語言模型和 Observer 大語言模型,其中前者僅通過任務(wù) prompt 輸出回答,后者則根據(jù)任務(wù) prompt 并以前者的回答作為參考來輸出新的回答。

2. 兩個(gè)大語言模型智能體通過各自獨(dú)立的數(shù)據(jù)來進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),任務(wù)獎(jiǎng)勵(lì)為兩者之和。當(dāng)微調(diào)到固定輪次之后,再交換兩者的角色,之后反復(fù)迭代。

通過此,該團(tuán)隊(duì)打造出一款名為 CORY 的即插即用型框架,任何能被用于微調(diào)大語言模型的強(qiáng)化學(xué)習(xí)算法,都可以放在這個(gè)框架中進(jìn)行使用。

圖 | CORY 的框架(來源:arXiv[1])
打開網(wǎng)易新聞 查看精彩圖片
圖 | CORY 的框架(來源:arXiv[1])

馬昊表示,這種方式既能有效地避免分布崩潰,還能確保大語言模型的能力穩(wěn)定提升。

另外,在消融實(shí)驗(yàn)中他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在不交換兩個(gè)智能體的角色的時(shí)候,僅僅依靠 Stackelberg 博弈這種信息傳遞,Observer 也能保持一個(gè)相對(duì)比較低的相對(duì)熵。

這意味著 Pioneer 所提供的參考答案構(gòu)成了一種針對(duì)搜索空間的隱式約束,無意中解決了搜索空間過大的問題。

在這個(gè)被約束的搜索空間中,更利于 Observer 找到高質(zhì)量的策略。

隨著高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)的枯竭,大語言模型的基礎(chǔ)能力逐漸達(dá)到瓶頸。

而長(zhǎng)期來看,強(qiáng)化學(xué)習(xí)微調(diào)是一個(gè)能夠打破這種瓶頸的手段,其在數(shù)學(xué)推理、代碼生成等存在客觀獎(jiǎng)勵(lì)函數(shù)的任務(wù)中的上限可能遠(yuǎn)超我們想象。

圖 | 馬昊(來源:馬昊)
打開網(wǎng)易新聞 查看精彩圖片
圖 | 馬昊(來源:馬昊)

日前,本次研究的相關(guān)論文以《與另一個(gè)你共同進(jìn)化:使用序列合作型多智能體強(qiáng)化學(xué)習(xí)微調(diào)大語言模型》(Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning)為題已被 NeurIPS(Conference and Workshop on Neural Information Processing Systems) 2024 接收 [2]。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

自動(dòng)化研究所博士生馬昊是第一作者,自動(dòng)化研究所博士生扈天翼是共同一作,自動(dòng)化研究所蒲志強(qiáng)研究員擔(dān)任通訊作者。

馬昊表示:“CORY 是將多智能體強(qiáng)化學(xué)習(xí)引入大語言模型的強(qiáng)化學(xué)習(xí)微調(diào)的最早工作?!钡?,從多智能體強(qiáng)化學(xué)習(xí)的角度來看,還有很多可以繼續(xù)開展的工作。

比如,增加智能體的數(shù)目、改變智能體的角色、在規(guī)模性和交互性等群體要素上進(jìn)行更深入的探討。而這些都將是他和所在團(tuán)隊(duì)的后續(xù)研究方向。

參考資料:

1.https://arxiv.org/pdf/2410.06101

2.https://neurips.cc/virtual/2024/poster/95347

運(yùn)營(yíng)/排版:何晨龍