打開網(wǎng)易新聞 查看精彩圖片

機(jī)器之心報(bào)道

編輯:Panda

現(xiàn)如今,微調(diào)和強(qiáng)化學(xué)習(xí)等后訓(xùn)練技術(shù)已經(jīng)成為提升 LLM 能力的重要關(guān)鍵。

近日,一份圍繞 LLM 后訓(xùn)練的綜述報(bào)告收獲了不少好評(píng),其整理相關(guān)論文和工具的資源庫(kù)已經(jīng)收獲了超過(guò) 700 star。

打開網(wǎng)易新聞 查看精彩圖片

該綜述來(lái)自阿聯(lián)酋人工智能大學(xué)、中佛羅里達(dá)大學(xué)、谷歌 DeepMind 和牛津大學(xué)等多所機(jī)構(gòu),涵蓋通過(guò)強(qiáng)化學(xué)習(xí)增強(qiáng) LLM 的技術(shù)、監(jiān)督式微調(diào)、測(cè)試時(shí)擴(kuò)展以及 LLM 后訓(xùn)練基準(zhǔn)評(píng)估等內(nèi)容。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:LLM Post-Training: A Deep Dive into Reasoning Large Language Models
  • 論文地址:https://arxiv.org/abs/2502.21321
  • 資源庫(kù):https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

機(jī)器之心在下面簡(jiǎn)要整理了該綜述報(bào)告的內(nèi)容主干,更多詳情請(qǐng)?jiān)L問(wèn)以上鏈接。

近些年,大型語(yǔ)言模型(LLM)的能力在不斷提升,應(yīng)用領(lǐng)域也在急速擴(kuò)展。盡管如此,仍有問(wèn)題存在。

比如 LLM 可能出現(xiàn)所謂的「幻覺」,即生成誤導(dǎo)性內(nèi)容或不正確的事實(shí);也可能在較長(zhǎng)的會(huì)話中難以保持邏輯一致性。此外,LLM 中的推理概念仍然是一個(gè)備受爭(zhēng)論的話題。雖然推理模型可以給出看似邏輯連貫的響應(yīng),但它們的推理與人類那樣的邏輯推理有著根本的不同。這種區(qū)別至關(guān)重要,因?yàn)檫@有助于解釋為什么 LLM 雖然可以產(chǎn)生令人信服的輸出,但卻仍然會(huì)在相對(duì)簡(jiǎn)單的邏輯任務(wù)上遇到困難。

與操縱顯式規(guī)則和事實(shí)的符號(hào)推理不同,LLM 以隱式和概率的方式運(yùn)行。在這篇綜述報(bào)告中,LLM 的「推理(reasoning)」是指基于數(shù)據(jù)中的統(tǒng)計(jì)模式生成邏輯上連貫的響應(yīng),而不是顯式的邏輯推理或符號(hào)操作。

此外,僅通過(guò)下一 token 預(yù)測(cè)訓(xùn)練得到的模型可能無(wú)法與用戶的期望或道德標(biāo)準(zhǔn)對(duì)齊,尤其是在模糊或惡意場(chǎng)景中 。這些問(wèn)題表明,為了解決 LLM 輸出中的可靠性、偏差和上下文敏感性問(wèn)題,還需要專門的策略。

LLM 的訓(xùn)練過(guò)程大致可分為兩個(gè)階段:預(yù)訓(xùn)練后訓(xùn)練

預(yù)訓(xùn)練階段通常依賴在大規(guī)模語(yǔ)料庫(kù)上的下一 token 預(yù)測(cè)目標(biāo),后訓(xùn)練階段通常則包括多輪微調(diào)和對(duì)齊。后訓(xùn)練機(jī)制的目標(biāo)是通過(guò)優(yōu)化模型行為來(lái)改進(jìn)模型行為以及實(shí)現(xiàn)與人類意圖的對(duì)齊(包括減少偏見和不準(zhǔn)確度)。

要讓 LLM 適應(yīng)特定領(lǐng)域的任務(wù),通常涉及到微調(diào)等技術(shù)。這些技術(shù)雖然可以實(shí)現(xiàn)針對(duì)具體任務(wù)的學(xué)習(xí),但也存在過(guò)擬合的風(fēng)險(xiǎn),并且還會(huì)產(chǎn)生高計(jì)算成本。

為了解決這些難題,強(qiáng)化學(xué)習(xí)(RL)被引入進(jìn)來(lái);這能讓模型使用動(dòng)態(tài)的反饋和優(yōu)化序列決策來(lái)提升適應(yīng)能力。此外,包括低秩適應(yīng)(LoRA)、適配器和檢索增強(qiáng)生成(RAG)在內(nèi)的 scaling 技術(shù)也可提高計(jì)算效率和事實(shí)準(zhǔn)確性。

這些策略加上分布式訓(xùn)練框架,促進(jìn)了大規(guī)模部署,并進(jìn)一步提高了 LLM 在不同應(yīng)用中的可用性,見下圖 1。通過(guò)這些目標(biāo)明確的后訓(xùn)練技術(shù),LLM 可以更好地與人類意圖和道德倫理要求對(duì)齊,最終提高其在現(xiàn)實(shí)世界中的適用性。下面總結(jié)了關(guān)鍵的后訓(xùn)練階段。

打開網(wǎng)易新聞 查看精彩圖片

微調(diào)

微調(diào)(Fine-Tuning)是讓已經(jīng)預(yù)訓(xùn)練的 LLM 適應(yīng)具體的任務(wù)或領(lǐng)域,具體做法是基于精選數(shù)據(jù)集來(lái)更新參數(shù)。

盡管經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練的 LLM 通常具有很好的泛化能力,但微調(diào)也確實(shí)可以增強(qiáng)其在具體任務(wù)上的能力,包括情緒分析、問(wèn)答和醫(yī)療診斷。這個(gè)過(guò)程通常是監(jiān)督式的,可以使模型與任務(wù)要求對(duì)齊,但也會(huì)帶來(lái)過(guò)擬合、高計(jì)算成本和對(duì)數(shù)據(jù)偏差的敏感性等難題。

為此,LoRA 和適配器等參數(shù)高效型技術(shù)可通過(guò)更新顯式參數(shù)來(lái)學(xué)習(xí)特定于任務(wù)的適應(yīng),從而顯著減少計(jì)算開銷。隨著模型的專業(yè)化,它們可能會(huì)在領(lǐng)域外泛化方面遇到困難,為此需要權(quán)衡考慮模型的專業(yè)性或多功能性。

強(qiáng)化學(xué)習(xí)

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning)設(shè)置中,智能體需要與結(jié)構(gòu)化環(huán)境交互,采取離散的動(dòng)作在狀態(tài)之間轉(zhuǎn)換,同時(shí)最大化累積獎(jiǎng)勵(lì)。適用強(qiáng)化學(xué)習(xí)的領(lǐng)域都應(yīng)具有定義良好的狀態(tài) - 動(dòng)作空間和明晰的目標(biāo),比如機(jī)器人、棋盤游戲和控制系統(tǒng)。

而 LLM 領(lǐng)域的強(qiáng)化學(xué)習(xí)有很大不同。LLM 并不是從一個(gè)有限的動(dòng)作集中進(jìn)行選取,而是從一個(gè)巨大詞匯表中選取 token,而它們不斷演進(jìn)的狀態(tài)則是由不斷增長(zhǎng)的文本序列構(gòu)成。這樣一來(lái),規(guī)劃和 credit 分配就會(huì)變得非常復(fù)雜,因?yàn)?token 選取的效果通常要到后面才會(huì)顯現(xiàn)。

另外,基于語(yǔ)言的強(qiáng)化學(xué)習(xí)中的反饋存在稀疏、主觀和延遲的特點(diǎn),因此通常依賴于啟發(fā)式評(píng)估和用戶偏好,而不是明確的性能指標(biāo)。

不同于通常針對(duì)單個(gè)目標(biāo)進(jìn)行優(yōu)化的傳統(tǒng)強(qiáng)化學(xué)習(xí),LLM 還必須平衡多個(gè)有時(shí)相互沖突的目標(biāo)。將基于過(guò)程的獎(jiǎng)勵(lì)(例如,思維鏈推理)與基于結(jié)果的評(píng)估(例如,響應(yīng)質(zhì)量)相結(jié)合的混合方法有助于改進(jìn)學(xué)習(xí)效果。因此,LLM 的強(qiáng)化學(xué)習(xí)需要專門的優(yōu)化技術(shù)來(lái)處理高維輸出、非穩(wěn)態(tài)目標(biāo)和復(fù)雜的獎(jiǎng)勵(lì)結(jié)構(gòu),確保響應(yīng)保持上下文相關(guān)性并與用戶期望對(duì)齊。

規(guī)模擴(kuò)展

規(guī)模擴(kuò)展(Scaling)對(duì)于提高 LLM 的性能和效率至關(guān)重要。這能幫助提升模型在任務(wù)上的泛化性能,但同時(shí)也會(huì)帶來(lái)顯著的計(jì)算挑戰(zhàn)。為了平衡性能和資源效率,需要在推理時(shí)采取有針對(duì)性的策略。

思維鏈(CoT)推理和思維樹(ToT)框架等技術(shù)通過(guò)將復(fù)雜問(wèn)題分解為順序或樹狀結(jié)構(gòu)的步驟來(lái)增強(qiáng)多步驟推理。此外,基于搜索的技術(shù)可以迭代探索可能的輸出,幫助改進(jìn)響應(yīng)并確保更高的事實(shí)準(zhǔn)確性。這些方法與 LoRA、適配器和 RAG 等方法相結(jié)合,可以提升模型處理復(fù)雜、特定領(lǐng)域大規(guī)模任務(wù)的能力。

  • RAG 可通過(guò)動(dòng)態(tài)檢索外部知識(shí)來(lái)提高事實(shí)準(zhǔn)確性,從而緩解靜態(tài)訓(xùn)練數(shù)據(jù)的局限性。
  • 分布式訓(xùn)練框架可利用并行處理來(lái)管理大規(guī)模模型的高計(jì)算需求。
  • 測(cè)試時(shí)擴(kuò)展可根據(jù)任務(wù)復(fù)雜性動(dòng)態(tài)調(diào)整參數(shù)來(lái)優(yōu)化推理。
  • 修改深度、寬度或活動(dòng)層可以平衡計(jì)算效率和輸出質(zhì)量,使其適應(yīng)資源有限或多變的條件。

盡管擴(kuò)展方面進(jìn)步頗多,但挑戰(zhàn)仍在,例如收益遞減、推理時(shí)間更長(zhǎng)以及環(huán)境影響,尤其是在測(cè)試時(shí)而不是訓(xùn)練期間執(zhí)行搜索技術(shù)時(shí)。為了高質(zhì)量、高效地部署 LLM,確??稍L問(wèn)性和可行性是至關(guān)重要的。

背景信息

該綜述報(bào)告的第二部分介紹了 LLM 后訓(xùn)練相關(guān)的背景信息,其中包括基礎(chǔ)的形式化描述、基于強(qiáng)化學(xué)習(xí)的序列推理、以及用于語(yǔ)言建模的早期強(qiáng)化學(xué)習(xí)方法。但這里我們就略過(guò)了,詳見原報(bào)告。

表 1 概述了近期的模型,包括它們的參數(shù)、架構(gòu)類型和所采用的蒸餾 RL 方法。

打開網(wǎng)易新聞 查看精彩圖片

圖 2 則總結(jié)了 LLM 的推理方法,其中展示了通過(guò)思維鏈(CoT)提示、自我反饋和情景記憶等方法增強(qiáng)推理能力的途徑。同時(shí)也突出展示了多種基于強(qiáng)化學(xué)習(xí)的優(yōu)化技術(shù),包括 GRPO、RLHF、DPO 和 RLAIF。

打開網(wǎng)易新聞 查看精彩圖片

強(qiáng)化 LLM

從方法論的角度來(lái)看,為了將強(qiáng)化學(xué)習(xí)集成到 LLM 推理中,通常要遵循以下核心步驟:

1、監(jiān)督式微調(diào)(SFT):從預(yù)訓(xùn)練語(yǔ)言模型開始,在包含高質(zhì)量、人工制作的示例樣本的監(jiān)督數(shù)據(jù)集上,對(duì)模型進(jìn)行微調(diào)。此階段可確保模型獲得符合格式和樣式的基線。

2、獎(jiǎng)勵(lì)模型(RM)訓(xùn)練:收集微調(diào)模型生成的輸出并進(jìn)行人工偏好標(biāo)注。然后對(duì)獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練以復(fù)現(xiàn)這些基于標(biāo)簽的分?jǐn)?shù)或排名,從而有效地學(xué)習(xí)將響應(yīng)文本映射到標(biāo)量值的連續(xù)獎(jiǎng)勵(lì)函數(shù)。

3、強(qiáng)化學(xué)習(xí)微調(diào):最后,通過(guò)策略梯度算法(例如 PPO)優(yōu)化主語(yǔ)言模型,以最大化獎(jiǎng)勵(lì)模型的輸出。通過(guò)迭代此循環(huán),LLM 可學(xué)習(xí)在準(zhǔn)確性、有用性和風(fēng)格連貫性等關(guān)鍵維度上生成人類更偏好的響應(yīng)。

4、獎(jiǎng)勵(lì)建模和對(duì)齊:開發(fā)復(fù)雜的獎(jiǎng)勵(lì)函數(shù)(借鑒人類偏好、對(duì)抗性反饋或自動(dòng)化指標(biāo))以引導(dǎo)模型獲得連貫、安全且適配上下文的輸出。為了在多步推理過(guò)程中有效分配 credit,這些獎(jiǎng)勵(lì)至關(guān)重要。

在早期,將 LLM 與人類偏好對(duì)齊的強(qiáng)化學(xué)習(xí)算法是經(jīng)典算法,例如 PPO 和信任域策略優(yōu)化(TRPO),這些算法優(yōu)化策略的方式是最大化預(yù)期累積獎(jiǎng)勵(lì),同時(shí)通過(guò)智能體目標(biāo)函數(shù)和 KL 散度正則化對(duì)策略更新施加約束。

針對(duì)可擴(kuò)展的基于偏好的優(yōu)化,已經(jīng)出現(xiàn)了這些方法的改進(jìn)版替代方案,例如直接偏好優(yōu)化(DPO)和組相對(duì)策略優(yōu)化(GRPO)。這些方法是將對(duì)齊目標(biāo)重新表述為基于人類標(biāo)注的偏好數(shù)據(jù)的排名式對(duì)比損失函數(shù)。

不同于依賴顯式獎(jiǎng)勵(lì)模型和評(píng)價(jià)網(wǎng)絡(luò)的 PPO 和 TRPO,DPO 和 GRPO 分別利用對(duì)數(shù)似然比和組獎(jiǎng)勵(lì)比較來(lái)直接優(yōu)化策略,從而無(wú)需顯式價(jià)值函數(shù)近似,同時(shí)還能保留偏好一致的學(xué)習(xí)動(dòng)態(tài)。

這一節(jié)涉及的具體內(nèi)容如下:

獎(jiǎng)勵(lì)建模

  • 顯示顯式獎(jiǎng)勵(lì)建模
  • 隱式獎(jiǎng)勵(lì)建模
  • 結(jié)果獎(jiǎng)勵(lì)建模
  • 過(guò)程獎(jiǎng)勵(lì)建模
  • 使用自適應(yīng)獎(jiǎng)勵(lì)模型的迭代式強(qiáng)化學(xué)習(xí)

策略優(yōu)化

  • 勝算比偏好優(yōu)化(ORPO)
  • LLM 中的近端策略優(yōu)化(PPO)
  • 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)
  • 基于 AI 反饋的強(qiáng)化學(xué)習(xí)(RLAIF)
  • 信任區(qū)域策略優(yōu)化(TRPO)
  • 直接偏好優(yōu)化(DPO)
  • 離線推理優(yōu)化(OREO)
  • 組相對(duì)策略優(yōu)化(GRPO)
  • 多樣本比較優(yōu)化

圖 3 給出了 PPO、GRPO 和 DPO 的比較。

打開網(wǎng)易新聞 查看精彩圖片

基于純強(qiáng)化學(xué)習(xí)的 LLM 微調(diào)

  • 冷啟動(dòng)強(qiáng)化學(xué)習(xí)階段
  • 拒絕采樣和微調(diào)
  • 面向推理的強(qiáng)化學(xué)習(xí)
  • 用于人類對(duì)齊的第二個(gè)強(qiáng)化學(xué)習(xí)階段
  • 蒸餾以獲得較小模型

圖 4 的維恩圖說(shuō)明了在實(shí)現(xiàn)高效的微調(diào)和部署時(shí),系統(tǒng)、數(shù)據(jù)和模型之間的相互作用。它涵蓋了用以提升性能和可擴(kuò)展性的加速器(Groq、vLLM)、適應(yīng)器(LoRA、PEFT)、共同優(yōu)化架構(gòu)(FlashAttention)、數(shù)據(jù)壓縮(TokenMerging)、Scaling Law(Chinchilla)和模型壓縮(GPTQ)等策略。

打開網(wǎng)易新聞 查看精彩圖片

LLM 中的監(jiān)督微調(diào)

如圖 2 所示,微調(diào)是 LLM 后訓(xùn)練配方的基本組成部分。這一節(jié)總結(jié)了不同類型的 LLM 微調(diào)機(jī)制,具體包括:

  • 指令微調(diào)
  • 對(duì)話(多輪)微調(diào)
  • CoT 推理微調(diào)
  • 特定于具體領(lǐng)域的(專業(yè))微調(diào)
  • 基于蒸餾的微調(diào)
  • 偏好和對(duì)齊 SFT
  • 高效微調(diào)

下表概括性地總結(jié)了現(xiàn)代的 LLM 框架和方法。

打開網(wǎng)易新聞 查看精彩圖片

測(cè)試時(shí)擴(kuò)展方法

強(qiáng)化學(xué)習(xí)微調(diào)的是模型的策略,而測(cè)試時(shí)擴(kuò)展(TTS)通常是在推理過(guò)程中增強(qiáng)模型的能力,這個(gè)過(guò)程無(wú)需更新模型。圖 5 給出了 TTS 方法的分類情況 —— 基于其底層技術(shù)進(jìn)行了分類。

打開網(wǎng)易新聞 查看精彩圖片

具體來(lái)說(shuō),包含以下技術(shù):

  • 集束搜索
  • Best-of-N 搜索(拒絕抽樣)
  • 計(jì)算最優(yōu)擴(kuò)展
  • 思維鏈提示
  • 自我一致性解碼
  • 思維樹(Tree-of-thoughts)
  • 思維圖譜(Graph of Thoughts)
  • 基于置信度的采樣
  • 針對(duì)驗(yàn)證者進(jìn)行搜索
  • 通過(guò)優(yōu)化實(shí)現(xiàn)自我改進(jìn)
  • 蒙特卡洛樹搜索(MCTS)
  • 行動(dòng)-思維鏈推理
  • 預(yù)訓(xùn)練與測(cè)試時(shí)擴(kuò)展

圖 6 則比較了 LLM 的推理策略,從直接提示法(不使用推理地將輸入映射到輸出)到更結(jié)構(gòu)化的方法。

打開網(wǎng)易新聞 查看精彩圖片

思維鏈(CoT)引入了逐步推理,而自我一致性(CoT-SC)則是生成多個(gè) CoT 路徑并選擇最常出現(xiàn)的答案。Mutiple CoT 會(huì)獨(dú)立探索不同的推理路徑。思維樹(ToT)則是將推理構(gòu)造為樹,從而實(shí)現(xiàn)回溯和細(xì)化,而思維圖譜(GoT)則是通過(guò)對(duì)思維進(jìn)行動(dòng)態(tài)聚合和連接來(lái)實(shí)現(xiàn)這一點(diǎn)。

LLM 后訓(xùn)練評(píng)估基準(zhǔn)

為了評(píng)估 LLM 后訓(xùn)練階段的表現(xiàn),人們已經(jīng)提出了很多涉及多個(gè)領(lǐng)域的基準(zhǔn):

  • 推理
  • 強(qiáng)化學(xué)習(xí)對(duì)齊
  • 多語(yǔ)言評(píng)估
  • 通用理解
  • 對(duì)話和搜索

結(jié)構(gòu)良好的評(píng)估框架可確保全面了解 LLM 在各種任務(wù)中的優(yōu)勢(shì)和局限性。

這些基準(zhǔn)在 LLM 后處理階段起著至關(guān)重要的作用,模型在此階段經(jīng)過(guò)微調(diào)、校準(zhǔn)、對(duì)齊和優(yōu)化,可以提高響應(yīng)準(zhǔn)確性、穩(wěn)健性和道德合規(guī)性。本節(jié)分組介紹了主流的基準(zhǔn)。表 3 概述了這些基準(zhǔn)分組下的關(guān)鍵數(shù)據(jù)集。

打開網(wǎng)易新聞 查看精彩圖片

未來(lái)方向

最后,作者團(tuán)隊(duì)還收集了與 LLM 后訓(xùn)練方法相關(guān)的論文并分析了它們的趨勢(shì),如圖 7 所示。

打開網(wǎng)易新聞 查看精彩圖片

可以看到,自 2020 年以來(lái),強(qiáng)化學(xué)習(xí)在優(yōu)化 LLM 方面的地位有了顯著提升(圖 7a),其中還突出了對(duì)交互式方法的需求,例如人機(jī)交互強(qiáng)化和可擴(kuò)展性。

與此同時(shí),由于自我獎(jiǎng)勵(lì)語(yǔ)言模型的出現(xiàn),人們對(duì)獎(jiǎng)勵(lì)建模(圖 7b)的興趣也在穩(wěn)步上升,但該領(lǐng)域仍在努力應(yīng)對(duì)獎(jiǎng)勵(lì) hacking 問(wèn)題,以及設(shè)計(jì)解決獎(jiǎng)勵(lì) hacking 的穩(wěn)健型、可感知問(wèn)題的獎(jiǎng)勵(lì)函數(shù)。

解碼和搜索(圖 7c)方法包括思維和蒙特卡洛策略,其目標(biāo)是通過(guò)迭代自我批評(píng)來(lái)增強(qiáng)模型推理能力,但這些技術(shù)也需要可靠的不確定性估計(jì)器,以防止計(jì)算開銷過(guò)高。

安全性、穩(wěn)健性和可解釋性同樣已成為核心關(guān)注點(diǎn)(圖 7d),這個(gè)方向的研究者推動(dòng)了偏見感知型和不確定性感知型強(qiáng)化學(xué)習(xí)方法的發(fā)展,這些方法超越了與人類不確定性的相關(guān)性,可以維護(hù)用戶信任并防止對(duì)抗性攻擊。

個(gè)性化和適應(yīng)性(圖 7e)也是關(guān)鍵領(lǐng)域 —— 在為特定領(lǐng)域定制 LLM 時(shí),必須權(quán)衡考慮隱私風(fēng)險(xiǎn),特別是涉及企業(yè)數(shù)據(jù)或敏感個(gè)人信息時(shí)。

與此同時(shí),過(guò)程與結(jié)果獎(jiǎng)勵(lì)優(yōu)化(圖 7f)仍然是一個(gè)懸而未決的問(wèn)題:雖然基于過(guò)程的獎(jiǎng)勵(lì)有助于指導(dǎo)漸進(jìn)式改進(jìn),但以結(jié)果為中心的指標(biāo)更簡(jiǎn)單,但可能無(wú)法捕捉關(guān)鍵的中間決策步驟。

除了獎(jiǎng)勵(lì)結(jié)構(gòu)之外,針對(duì)新任務(wù)微調(diào) LLM 時(shí)仍然會(huì)遇到災(zāi)難性遺忘和潛在的數(shù)據(jù)泄露等問(wèn)題,這就凸顯了對(duì)參數(shù)高效型方法和隱私保護(hù)策略(如差分隱私和聯(lián)邦學(xué)習(xí))的需求。

人工反饋雖然是對(duì)齊的核心,但其成本高昂且范圍有限;Constitutional AI 和 RLAIF 等方法希望實(shí)現(xiàn)部分監(jiān)督的自動(dòng)化,盡管它們也引發(fā)了人們對(duì)偏差校準(zhǔn)和模型自洽性的新?lián)鷳n。

最后,測(cè)試時(shí)擴(kuò)展和動(dòng)態(tài)推理框架也帶來(lái)了進(jìn)一步的挑戰(zhàn):模型必須學(xué)習(xí)何時(shí)為復(fù)雜查詢分配更多計(jì)算,如何有效地調(diào)整驗(yàn)證模塊,以及如何在面對(duì)對(duì)抗性輸入時(shí)保持穩(wěn)健的性能。這些融合的研究方向(涵蓋獎(jiǎng)勵(lì)建模、解碼策略、可解釋性、個(gè)性化和安全微調(diào))凸顯了強(qiáng)化學(xué)習(xí)在 LLM 中作用的多樣性,并共同塑造了大規(guī)模語(yǔ)言模型開發(fā)的未來(lái)軌跡。