SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓(xùn)練時(shí)信息的逐步評(píng)估)是多輪大型語(yǔ)言模型(LLM)代理強(qiáng)化學(xué)習(xí)領(lǐng)域的重要技術(shù)進(jìn)展。該算法相較于現(xiàn)有最先進(jìn)的方法,成功率提升了6%,使Llama-3.1-8B等小型開(kāi)源模型能夠達(dá)到甚至超越GPT-4O等大型專有模型的性能水平。本文將深入分析SWEET-RL如何改進(jìn)AI代理在復(fù)雜協(xié)作任務(wù)中的訓(xùn)練方法。
LLM代理與多輪交互機(jī)制
LLM代理是經(jīng)過(guò)特定任務(wù)微調(diào)的大型語(yǔ)言模型,能夠作為決策實(shí)體與環(huán)境或人類進(jìn)行交互以完成預(yù)定目標(biāo)。多輪交互過(guò)程本質(zhì)上是一系列連續(xù)的信息交換,類似于結(jié)構(gòu)化對(duì)話,每個(gè)交互步驟都朝著最終解決方案遞進(jìn)。這種交互模式可類比于協(xié)作規(guī)劃過(guò)程:例如在共同規(guī)劃旅行時(shí),一方提出目的地建議,另一方提出問(wèn)題或顧慮,然后初始建議被逐步完善直至形成完整計(jì)劃。在此類情境中,代理需要學(xué)習(xí)如何有效貢獻(xiàn),而反饋往往僅在整個(gè)交互序列結(jié)束時(shí)才能獲得,這顯著增加了訓(xùn)練的復(fù)雜性。
強(qiáng)化學(xué)習(xí)在此情境中發(fā)揮關(guān)鍵作用,它使代理能夠通過(guò)試錯(cuò)方法進(jìn)行學(xué)習(xí),以最大化累積獎(jiǎng)勵(lì)。然而,多輪交互環(huán)境中的傳統(tǒng)強(qiáng)化學(xué)習(xí)面臨信用分配問(wèn)題——即難以準(zhǔn)確判定長(zhǎng)期序列中哪些特定行動(dòng)導(dǎo)致了最終的成功或失敗。對(duì)于已經(jīng)通過(guò)大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練的LLM而言,這一挑戰(zhàn)尤為明顯,因?yàn)樗鼈冃枰诒3滞ㄓ梅夯芰Φ耐瑫r(shí)適應(yīng)特定任務(wù)的要求。
ColBench:協(xié)作推理任務(wù)的評(píng)估基準(zhǔn)
ColBench是專為驗(yàn)證LLM代理在協(xié)作產(chǎn)物創(chuàng)建過(guò)程中的多輪強(qiáng)化學(xué)習(xí)算法而設(shè)計(jì)的基準(zhǔn)。該基準(zhǔn)主要關(guān)注后端編程和前端設(shè)計(jì)兩個(gè)關(guān)鍵領(lǐng)域,遵循以下核心原則:
ColBench確保任務(wù)具有足夠的復(fù)雜性,要求代理具備推理和泛化能力,從而真實(shí)反映實(shí)際應(yīng)用場(chǎng)景。同時(shí),它采用LLM作為人類模擬器和功能評(píng)估器,實(shí)現(xiàn)了低開(kāi)銷的快速原型設(shè)計(jì)。

在后端編程任務(wù)中,代理最多可與人類模擬器進(jìn)行10輪交互,從高級(jí)需求描述和函數(shù)簽名開(kāi)始,最終通過(guò)通過(guò)全部10個(gè)單元測(cè)試(二元獎(jiǎng)勵(lì)制:0或1)評(píng)估性能。該數(shù)據(jù)集包含10,000個(gè)訓(xùn)練任務(wù)和1,000個(gè)測(cè)試任務(wù),以及來(lái)自Llama-3.1-8B/70B-Instruct的15,000個(gè)離線交互軌跡。前端設(shè)計(jì)任務(wù)則要求代理設(shè)計(jì)網(wǎng)頁(yè)界面,通過(guò)計(jì)算與參考設(shè)計(jì)的余弦相似度評(píng)估效果,包含10,000個(gè)訓(xùn)練任務(wù)和500個(gè)測(cè)試任務(wù),以及來(lái)自Llama-3.1-8B和Qwen2-VL-72B的6,000個(gè)交互軌跡。

通過(guò)與現(xiàn)有多輪LLM代理基準(zhǔn)的比較可知,ColBench是唯一同時(shí)滿足三個(gè)關(guān)鍵標(biāo)準(zhǔn)的評(píng)估框架:1)具備充分的任務(wù)多樣性,確保強(qiáng)化學(xué)習(xí)訓(xùn)練不會(huì)過(guò)度擬合;2)擁有足夠的任務(wù)復(fù)雜性,能夠挑戰(zhàn)代理的推理和泛化能力;3)工程開(kāi)銷最小化,適合快速研究原型開(kāi)發(fā)。
多輪LLM代理面臨的核心挑戰(zhàn)
在當(dāng)前快速發(fā)展的AI技術(shù)生態(tài)中,構(gòu)建高效多輪LLM代理是最具挑戰(zhàn)性的前沿研究領(lǐng)域之一。這類代理必須能夠參與持續(xù)的交互過(guò)程,做出連貫一致的決策序列,同時(shí)保持對(duì)長(zhǎng)期目標(biāo)的導(dǎo)向性。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在應(yīng)對(duì)此類復(fù)雜性時(shí)面臨諸多困難,主要體現(xiàn)在三個(gè)方面:跨回合的信用分配問(wèn)題、對(duì)不同任務(wù)的泛化能力,以及如何高效利用有限訓(xùn)練數(shù)據(jù)。
SWEET-RL作為一種創(chuàng)新解決方案,通過(guò)根本性改變LLM代理在協(xié)作推理任務(wù)中的訓(xùn)練方法,有效應(yīng)對(duì)了上述挑戰(zhàn)。

圖左展示了ColBench框架概覽,包括后端編程和前端設(shè)計(jì)兩個(gè)評(píng)估任務(wù),支持在真實(shí)環(huán)境中對(duì)代理多輪強(qiáng)化學(xué)習(xí)算法進(jìn)行低成本且可靠的評(píng)估。圖右闡述了SWEET-RL的核心理念,即利用額外的訓(xùn)練時(shí)信息結(jié)合適當(dāng)?shù)腂radley-Terry(BT)目標(biāo)函數(shù)實(shí)現(xiàn)有效的信用分配。
SWEET-RL的技術(shù)創(chuàng)新:核心組件與架構(gòu)
非對(duì)稱Actor-Critic結(jié)構(gòu)
SWEET-RL的核心創(chuàng)新在于其非對(duì)稱actor-critic架構(gòu),該架構(gòu)從根本上改變了代理從經(jīng)驗(yàn)中學(xué)習(xí)的方式:
Critic(評(píng)估器)可以訪問(wèn)額外的訓(xùn)練時(shí)信息,從而提供更精確的行動(dòng)評(píng)估,實(shí)現(xiàn)更有效的跨回合信用分配。而Actor(策略網(wǎng)絡(luò))則在有限觀察條件下運(yùn)作,根據(jù)交互歷史做出決策,保持在實(shí)際應(yīng)用場(chǎng)景中的泛化能力。
這種非對(duì)稱設(shè)計(jì)使SWEET-RL能夠同時(shí)獲得兩種優(yōu)勢(shì):Critic在訓(xùn)練階段的全面深入理解能力,以及Actor在實(shí)際部署中的適用性。
創(chuàng)新的優(yōu)勢(shì)函數(shù)參數(shù)化
SWEET-RL引入了一種新型優(yōu)勢(shì)函數(shù)參數(shù)化方法,顯著區(qū)別于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法。該方法直接建模優(yōu)勢(shì)函數(shù),與LLM預(yù)訓(xùn)練目標(biāo)保持一致,提高了訓(xùn)練穩(wěn)定性和泛化能力,同時(shí)增強(qiáng)了信用分配效率。
兩階段訓(xùn)練流程
該算法實(shí)現(xiàn)了精心設(shè)計(jì)的兩階段訓(xùn)練過(guò)程:
第一階段:回合式Critic訓(xùn)練- 使用Bradley-Terry目標(biāo)函數(shù)訓(xùn)練Critic,利用訓(xùn)練時(shí)信息進(jìn)行準(zhǔn)確評(píng)估,根據(jù)偏好對(duì)優(yōu)勢(shì)函數(shù)進(jìn)行優(yōu)化。
第二階段:策略改進(jìn)- 利用訓(xùn)練好的Critic指導(dǎo)策略更新,實(shí)施直接偏好優(yōu)化的變體算法,確保學(xué)習(xí)過(guò)程穩(wěn)定高效。

SWEET-RL訓(xùn)練流程概述。在宏觀層面,我們首先應(yīng)用Bradley-Terry目標(biāo)函數(shù)直接訓(xùn)練一個(gè)能夠訪問(wèn)額外訓(xùn)練時(shí)信息的逐步優(yōu)勢(shì)函數(shù)。優(yōu)勢(shì)函數(shù)訓(xùn)練完成后,通過(guò)將其作為每個(gè)回合的獎(jiǎng)勵(lì)模型執(zhí)行策略改進(jìn)。
實(shí)驗(yàn)性能與應(yīng)用效果
后端編程任務(wù)性能
SWEET-RL在后端編程任務(wù)中展現(xiàn)出卓越性能,達(dá)到了40.4%的成功率,而多輪DPO方法僅為34.4%;單元測(cè)試通過(guò)率達(dá)到56.8%,顯著高于競(jìng)爭(zhēng)方法的48.0%。
前端設(shè)計(jì)任務(wù)性能
在前端設(shè)計(jì)場(chǎng)景中,SWEET-RL同樣取得了顯著進(jìn)步,與參考解決方案的余弦相似度達(dá)到77.7%,對(duì)基線方法的勝率為48.2%。

ColBench基準(zhǔn)上不同LLM和多輪強(qiáng)化學(xué)習(xí)算法的性能比較。SWEET-RL相較于其他多輪強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了超過(guò)6%的性能提升,使Llama-3.1-8B-Instruct模型能夠達(dá)到與更大規(guī)模專有模型相當(dāng)?shù)男阅芩健?/p>
技術(shù)優(yōu)勢(shì)與創(chuàng)新特點(diǎn)
增強(qiáng)的信用分配機(jī)制
SWEET-RL的創(chuàng)新信用分配方法解決了多輪強(qiáng)化學(xué)習(xí)中最具挑戰(zhàn)性的問(wèn)題之一,通過(guò)有效利用訓(xùn)練時(shí)信息,提供準(zhǔn)確的回合級(jí)獎(jiǎng)勵(lì)信號(hào),減少學(xué)習(xí)信號(hào)的方差。
優(yōu)化的泛化能力
該算法通過(guò)與LLM預(yù)訓(xùn)練目標(biāo)保持一致性,展現(xiàn)出卓越的泛化能力,在未見(jiàn)過(guò)的任務(wù)上表現(xiàn)強(qiáng)勁,并能隨訓(xùn)練數(shù)據(jù)增加而有效擴(kuò)展。
計(jì)算效率優(yōu)化
SWEET-RL在實(shí)現(xiàn)性能提升的同時(shí)保持了較高的計(jì)算效率,通過(guò)直接優(yōu)勢(shì)函數(shù)建模、穩(wěn)定的訓(xùn)練動(dòng)態(tài)以及有效利用訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)這一目標(biāo)。

性能比較圖表:(a)展示了不同步進(jìn)獎(jiǎng)勵(lì)模型在后端編程任務(wù)上Best-of-N采樣的擴(kuò)展曲線。結(jié)果表明SWEET能夠在回合基礎(chǔ)上最優(yōu)判斷高質(zhì)量行動(dòng),從而實(shí)現(xiàn)Best-of-N采樣的最佳擴(kuò)展性能。需注意,此曲線區(qū)別于測(cè)試時(shí)擴(kuò)展曲線,因?yàn)镾WEET利用了額外的訓(xùn)練時(shí)信息。(b)展示了不同多輪強(qiáng)化學(xué)習(xí)算法在后端編程任務(wù)上隨微調(diào)數(shù)據(jù)量增加的性能擴(kuò)展情況。盡管SWEET-RL初期需要更多數(shù)據(jù)以學(xué)習(xí)可靠的Critic,但它能迅速趕上并最終實(shí)現(xiàn)更優(yōu)的收斂性能。
實(shí)驗(yàn)表明,利用訓(xùn)練時(shí)信息顯著增強(qiáng)了信用分配能力,這一點(diǎn)從SWEET-RL與不使用訓(xùn)練時(shí)信息的SWEET-RL之間的性能差距得到證實(shí)。雖然相對(duì)于固定的LLM-as-a-Judge的Best-of-N采樣可在零樣本成功率上帶來(lái)一定改進(jìn),但這種改進(jìn)有限。從質(zhì)性分析看,固定的LLM評(píng)判器容易被響應(yīng)的長(zhǎng)度和格式影響,而未能真正關(guān)注其對(duì)任務(wù)成功的實(shí)際效用。最后,盡管在深度強(qiáng)化學(xué)習(xí)文獻(xiàn)中較為常見(jiàn),但價(jià)值函數(shù)的使用與SWEET-RL相比未能實(shí)現(xiàn)相當(dāng)?shù)臄U(kuò)展性能,這凸顯了SWEET-RL在強(qiáng)化學(xué)習(xí)算法選擇上的精心設(shè)計(jì),同時(shí)表明訓(xùn)練價(jià)值函數(shù)的常規(guī)做法可能在未見(jiàn)過(guò)任務(wù)上泛化能力較差。
總結(jié)
SWEET-RL代表了多輪LLM代理訓(xùn)練技術(shù)的重大進(jìn)展。其在信用分配、優(yōu)勢(shì)函數(shù)參數(shù)化和非對(duì)稱actor-critic結(jié)構(gòu)方面的創(chuàng)新為該領(lǐng)域確立了新的基準(zhǔn)。該算法使小型模型能夠?qū)崿F(xiàn)與大型專有模型相當(dāng)?shù)男阅?,成為AI能力民主化進(jìn)程中的關(guān)鍵一步。
展望未來(lái),SWEET-RL的影響可能超越其當(dāng)前應(yīng)用范圍,影響更復(fù)雜AI系統(tǒng)的開(kāi)發(fā),特別是需要復(fù)雜推理和協(xié)作能力的系統(tǒng)。其成功證明了強(qiáng)化學(xué)習(xí)的持續(xù)發(fā)展價(jià)值及其在構(gòu)建更強(qiáng)大、更高效AI代理中的重要性。
SWEET-RL通過(guò)技術(shù)創(chuàng)新、實(shí)用性和卓越性能的結(jié)合,成為人工智能領(lǐng)域的關(guān)鍵發(fā)展,可能深刻影響未來(lái)多輪LLM代理和強(qiáng)化學(xué)習(xí)的研究與發(fā)展方向。
代碼
Jenray
Jenray
熱門跟貼