
作者:孫浩
https://zhuanlan.zhihu.com/p/1896382036689810197
RL + LLM 升級(jí)之路的四層階梯。
2025 年伊始,RL 以一種破局歸來(lái)的姿態(tài)在 LLM 的后訓(xùn)練時(shí)代證明了其巨大價(jià)值,Sutton 和 Barto 拿了圖靈獎(jiǎng),David Silver 去年在 RLC 上說(shuō) “(RL 受關(guān)注的程度)終將跨越 LLM 帶來(lái)的低谷”,竟然來(lái)得如此之快。
PhD 這些年即將告一段落,這幾個(gè)月梳理先前的工作,準(zhǔn)備 Tutorial,借鑒了不少去年從 RLC 上聽(tīng) David Silver 講過(guò)的思想,在這個(gè) “RL Finally Generalizes (Shunyu Yao)” 的時(shí)代到來(lái)之際,也一直想寫一篇文章作為整理,恰好最近讀 Silver 和 Sutton 一起寫的《經(jīng)驗(yàn)時(shí)代》(Welcome to the era of experience),結(jié)合了一些自己的思考和理解,在出發(fā)開(kāi)會(huì)前寫下這篇文章,拋磚引玉,希望在新加坡可以和大家有更多的深度交流【關(guān)于 RL,Alignment,Reasoning,Agent,MCP,以及其他有關(guān) AGI 的一切!】
RLxLLM 的當(dāng)下
成功歸于 Inverse RL 和 Data-Driven Reward Models
0.1 RL 和 LLM 分別強(qiáng)在哪里?
距離 AlphaGo 擊敗李世石已經(jīng)快有十年,這期間 RL 征服了各種棋類游戲,即時(shí)策略游戲,也被應(yīng)用到了各種系統(tǒng)的性能優(yōu)化當(dāng)中。在這些任務(wù)中,RL總能找到比人類專家更好的策略,它能將優(yōu)化做到極致。也有在持續(xù)訓(xùn)練中不斷提升的潛力。RL 找到的策略和解決方案,可以給人類專家?guī)?lái)啟發(fā) —— 雖然這并不容易。一個(gè)著名的例子是 AlphaGo 的 "Move 37",它被當(dāng)作 “RL 具有創(chuàng)造力” 的驗(yàn)證。
另一方面,數(shù)據(jù)驅(qū)動(dòng)的生成模型在更好的架構(gòu),更穩(wěn)定的優(yōu)化器,更強(qiáng)的算力,更科學(xué)的算法,種種 buff 加持之下不斷朝著 scaling law 的前沿推進(jìn)。如今包括 Sora,StableDiffusion,GPT 在內(nèi)的這些模型已經(jīng)可以很好地理解用戶,按照指令生成能讓用戶滿意(甚至驚喜)的文字,圖片,和視頻。
然而,世界上的數(shù)據(jù)總量是有限的,即使 Scaling Law 總是成立,數(shù)據(jù)也遲早會(huì)枯竭。數(shù)據(jù)驅(qū)動(dòng)的生成模型雖然有諸多優(yōu)勢(shì) —— 比如在小樣本上極強(qiáng)的泛化能力,強(qiáng)大的指令跟隨能力,以及自然語(yǔ)言模型天然的可解釋性 —— 然而這些模型不具備 RL 系統(tǒng)所擁有的創(chuàng)造力,持續(xù)進(jìn)步提升的能力,和糾錯(cuò)的能力,也無(wú)法超越人類的專家水平。
0.2 RL + LLM?
那么,有沒(méi)有可能有一個(gè)系統(tǒng),它可以和 Data-Driven 的大模型一樣去理解、幫助人,同時(shí)又可以不斷迭代更新自己,糾錯(cuò)和變強(qiáng)呢?
從 LLM4RL 的角度來(lái)說(shuō),如果我們能用 LLM 實(shí)現(xiàn) super-human performance,那么用自然語(yǔ)言為媒介可以更加容易地把這些 RL 系統(tǒng)的創(chuàng)造力用來(lái)啟發(fā)人類。
從 RL4LLM 的角度來(lái)說(shuō),RL 可以賦予 LLM 不斷提升(由 Reward 定義的任務(wù)上性能)的能力。如果把 Alignment 和 Post-train 統(tǒng)一地定義為提升特定方向的能力,那 post-train/alignment 的優(yōu)化方向本身就是和 RL 這一學(xué)習(xí)范式非常契合的。
在數(shù)學(xué)領(lǐng)域,去年 AlphaProof+Alpha Geometry2 拿了 IMO 的銀牌,今年 DeepSeek R1 的風(fēng)已經(jīng)席卷了全世界;在通用聊天領(lǐng)域,RLHF 里如火如荼的_PO 研究已經(jīng)即將用盡字母表,龐大的用戶規(guī)模加上 preference 標(biāo)注為 OpenAI 提供了源源不斷建模用戶偏好,改進(jìn)用戶體驗(yàn)的數(shù)據(jù)。這些都是 RL + LLM 的成功。那么,如果想要把 RL + LLM 這一范式推廣到更多的場(chǎng)景,我們面臨的困難是什么?比較有潛力的解決方案是什么?這正是我們之前的 Tutorial 希望重點(diǎn)向大家介紹的 —— 當(dāng)前的 LLM Alignment 是一種數(shù)據(jù)驅(qū)動(dòng)(人類經(jīng)驗(yàn)驅(qū)動(dòng))的 RL,Inverse RL 是這里最自然和簡(jiǎn)單的方案。
LLM 從人類生成的數(shù)據(jù)或反饋中學(xué)習(xí) —— 也就是 Silver&Sutton 文章里所說(shuō)的 "Human-Centered AI"。過(guò)去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數(shù)據(jù)中構(gòu)建更好的獎(jiǎng)勵(lì)模型” 進(jìn)行探索 *[1]。
既然是探索,當(dāng)然不該止步于 “什么方案最簡(jiǎn)單,最自然”,也要想未來(lái)進(jìn)一步優(yōu)化的方向在哪里。
0.3 人類如何學(xué)習(xí)?
相比 LLM,人類的學(xué)習(xí)似乎 “容易” 很多,人類不需要也不可能看完所有的書(shū),電視,電影,不會(huì)去過(guò)所有的地方,但一樣可以擁有(更)高程度的智能 —— 可以理解世界,推理,創(chuàng)造,交流,學(xué)習(xí)。人先在成長(zhǎng)初期通過(guò)語(yǔ)言學(xué)習(xí),交互,理解;同時(shí)通過(guò)和世界的簡(jiǎn)單交互了解非常簡(jiǎn)單的 "物理"(world model, laws);后來(lái)習(xí)得書(shū)寫和文字,又在游戲 / 虛擬世界中學(xué)習(xí),學(xué)會(huì)從互聯(lián)網(wǎng)上主動(dòng)尋找有用的信息,最終通過(guò)和世界以及社會(huì)的交互不斷提升能力。我想這恰好可以對(duì)應(yīng) LLM+RL 發(fā)展的四個(gè)不同階段:Data-Driven,Game, Virtual Interaction,Physical Interaction。(人類在學(xué)習(xí)過(guò)程中,除了幼兒時(shí)期學(xué)語(yǔ)言幾乎嚴(yán)格早于其他三者,剩下的學(xué)習(xí)過(guò)程是持續(xù),同步發(fā)生的,這里的層級(jí)遞進(jìn)關(guān)系不一定成立。從 LLM -> AGI 的角度,分成這幾層主要是考慮到實(shí)現(xiàn)起來(lái)的困難程度和安全可控程度。)
當(dāng)下,主流的方法站在AGI 的第一層:通過(guò) Data-Driven Reward Model + RL 提升任務(wù)性能,接下來(lái)我們從這一層開(kāi)始聊起。
第一層:【Data-Driven RL】(Human-Centered) RL with Data-Driven Reward Model
1.1 如何理解當(dāng)下 Post-Training 中的 RL?
RL 是什么
從 RL 的基礎(chǔ)談起 —— 從統(tǒng)計(jì)的角度,RL 研究的是如何在動(dòng)態(tài)變化的數(shù)據(jù)分布中主動(dòng)學(xué)習(xí)并建模(包括策略建模和環(huán)境建模,有前者可以 Black-box policy inference,有后者可以做 planning);用更 RL 一點(diǎn)的語(yǔ)言描述,就是如何在和環(huán)境的交互中找到長(zhǎng)期回報(bào)最高的策略。
解決思路上來(lái)說(shuō),不同的方法都在嘗試于探索和利用之間找到平衡(無(wú)論是對(duì)環(huán)境 / Dynamics 的探索還是對(duì)策略的探索)。從這個(gè)角度出發(fā),也可以理解為什么沒(méi)有某種探索策略或者學(xué)習(xí)方法總是好的—— 對(duì)于任何的探索策略,總能針對(duì)它設(shè)計(jì) counter example,使得這種探索方法不是最優(yōu)。而隨機(jī)性是應(yīng)對(duì) counter example 設(shè)計(jì)的強(qiáng)有力工具。這也是為什么 MaxEntropy 類方法總是拿一個(gè) random policy 的 KL 保持探索,且這一類方法總是在各種環(huán)境中都不太差的原因。
RL 優(yōu)化 “長(zhǎng)期回報(bào)”,這意味著首先要定義什么是回報(bào) (Reward),在大多數(shù)任務(wù)中,沒(méi)有這樣的 Reward。所以我們無(wú)法做到從 “和環(huán)境交互中優(yōu)化策略”,而只能讓 LLM 從人類的語(yǔ)言數(shù)據(jù)中學(xué)習(xí),也就是從行為中學(xué)習(xí)。方法上分為兩大類:(1) 模仿學(xué)習(xí) (Imitation Learning)—— 比如 Behavior Clone,就是直接對(duì)著行為做監(jiān)督學(xué)習(xí),來(lái)生成與行為數(shù)據(jù)相同的行為模式;(2) 逆強(qiáng)化學(xué)習(xí) (Inverse Reinforcement Learning)—— 先通過(guò)行為數(shù)據(jù)找到這些行為在嘗試優(yōu)化的獎(jiǎng)勵(lì)函數(shù),然后用這個(gè)獎(jiǎng)勵(lì)函數(shù)做 RL 來(lái)生成與行為數(shù)據(jù)相同的行為模式。
Post-Train 在做什么
(1).[Behavior Clone]先從 Pre-train 說(shuō)起,Pre-train model 的任務(wù)是預(yù)測(cè)下一個(gè) token,也就是非常經(jīng)典的 Behavior Clone,模仿人類的語(yǔ)料庫(kù)。隨著訓(xùn)練規(guī)模的擴(kuò)大,模型各方面的能力不斷提升,開(kāi)始有能力理解比字面意更深層的語(yǔ)義,學(xué)會(huì)更能泛化更加有效的 embedding 模式,并且在新的任務(wù)上有了 few-shot 甚至 zero-shot 的能力。
(2).[Prompt Engineering]Post-train 階段,我們從最簡(jiǎn)單的 prompt-optimization(或者 in-context learning)說(shuō)起。因?yàn)檫@些 Autoregressive LLM 都是 Conditional Generator,隨著輸入的變化,輸出 token 的條件概率和分布也會(huì)隨之變化。因此,通過(guò)控制輸入的樣本,甚至是問(wèn)問(wèn)題的方式,都可以讓模型在特定任務(wù)上達(dá)到更好的表現(xiàn)。這個(gè)方向在 2023 年是比較熱的話題,后來(lái)的趨勢(shì)是隨著模型能力的提升,prompt optimization 的邊際效應(yīng)過(guò)于明顯,并且大家意識(shí)到對(duì)著某一個(gè) LLM 做 prompt engineering 很大概率是在 overfit test set,到下一個(gè)迭代的版本就又要重新找,與此同時(shí) "lazy prompting (Andrew Ng)" 的效果也越來(lái)越好,工程上也需要在成本和性能之間進(jìn)行更好的權(quán)衡。
(3).[Supervised Fine-Tuning]接下來(lái),如果我們有一些高質(zhì)量的垂類數(shù)據(jù)或?qū)<覕?shù)據(jù),在這個(gè)小規(guī)模數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào) Supervised Fine Tuning 效果也可能會(huì)不錯(cuò),且這個(gè)過(guò)程簡(jiǎn)單穩(wěn)定,非常適合資源有限,數(shù)據(jù)質(zhì)量高,任務(wù)對(duì) LLM 基模來(lái)說(shuō)相對(duì)簡(jiǎn)單,并不追求極致的性能改進(jìn)的場(chǎng)景。
總結(jié)來(lái)看,Post-train 的總體目標(biāo)是通過(guò)少量的高質(zhì)量樣本,來(lái)調(diào)整基座模型生成回答的數(shù)據(jù)分布,使之適應(yīng)新的任務(wù)或特定的某類由樣本特性所定義的任務(wù)。BC 和 SFT 是直接的模仿學(xué)習(xí)手段,而 Prompt-Engineering 很有一種 Prior-hacking 的味道,我們姑且把它也歸為一種對(duì) "成功 prior hacking 經(jīng)驗(yàn)的模仿"。最近一年里有很多工作講了 SFT 和 RL (HF) 分別在做什么,有很多種含義相近的描述,比如 SFT 負(fù)責(zé)記憶,RL 負(fù)責(zé)泛化,SFT 做 mass-covering,RL 做 Mode-Seeking。接下來(lái),我們通過(guò)三個(gè)例子來(lái)看為什么有了 SFT/Prompt-Engineering 這些簡(jiǎn)單有效的方法,還需要 RL,或者說(shuō)需要Reward Model。
1.2 為什么用 Inverse RL 來(lái)解決 Data-Driven RL?
Inverse-RL 中的重要一步是通過(guò)數(shù)據(jù)建模 Reward Model,從而使不完整的 MDP\R 問(wèn)題轉(zhuǎn)化為完整的 MDP,進(jìn)而能夠調(diào)用 RL 工具去解決。我們把這里從人類行為數(shù)據(jù)出發(fā),建模獎(jiǎng)勵(lì)函數(shù)的過(guò)程稱為 (Neural) Reward Modeling,這是現(xiàn)階段的主流做法,也是 Silver 和 Sutton 在文章中提到的 Human-Centered AI。我們通過(guò)以下三個(gè)例子來(lái)理解 Reward Model 的作用與優(yōu)勢(shì)
1. Inverse RL (Reward Models) 可以收集更加規(guī)?;臄?shù)據(jù)
這里舉 ChatGPT 的例子 —— 當(dāng)我們使用 GPT 的時(shí)候,會(huì)遇到讓我們提供 preference,幫助 OpenAI 提供未來(lái)模型的選項(xiàng),這件事能大規(guī)模應(yīng)用的主要原因是 Preference 這個(gè)判別任務(wù)遠(yuǎn)比demonstration 的生成任務(wù)更加容易和可拓展。我們能欣賞頂級(jí)網(wǎng)球選手打球,看谷愛(ài)凌蘇翊鳴飛臺(tái)子看 FWT,不需要我們自身有很高的運(yùn)動(dòng)水平
2. Inverse RL (Reward Models) 可以幫助找到更有泛化能力的解決方案
在 DeepSeek R1 的數(shù)學(xué)任務(wù)中,Rule-based (Data-Driven) reward model 給了 LLM 最大限度的自由度去探索有可能能夠成功的回答問(wèn)題模式,這種自由度允許模型自己去發(fā)現(xiàn) “l(fā)ong chain-of-thought” 這種行為可以有效提升回答正確的可能,進(jìn)而把最能夠泛化的做題能力保持住。這里 (Outcome) RM 是因,找到可泛化的 pattern 是果,具體如何更高效率地 exploration,或者學(xué)這些發(fā)現(xiàn)的 pattern,是因果之間的媒介 —— 它會(huì)影響學(xué)習(xí)效率,但不會(huì)影響 “能不能學(xué)”。
3. Inverse RL (Reward Models) 是 Inference Time Optimization 的基礎(chǔ)
正如文章一開(kāi)始所說(shuō),在普通的 RL 任務(wù)中,沒(méi)有 “Inference-Time” 和 “Training-Time” 的區(qū)別,大多數(shù) RL 都是在測(cè)試任務(wù)上訓(xùn)練的。所以大多數(shù) RL Policy 解決任務(wù)的方式就是訓(xùn)練完了之后部署在這個(gè)系統(tǒng)上做 Inference,每次生成 action 只需要 Network Forward 一把,也談不上 Inference Time Optimization(比如 Mujoco/Atari 都是這樣的任務(wù))。然而,在圍棋任務(wù)中,目前還沒(méi)有每一步直接做一次 Neural Network Inference 就能擊敗人類頂級(jí)選手的 RL Policy,需要這些 Policy Network 配合 Value Network 做 MCTS 才能取得較好的效果。在這個(gè)過(guò)程中,value network 扮演的決策就是一個(gè) "dense reward function",能夠在 inference 過(guò)程中把不好的 action 過(guò)濾掉。
同理,Reward Model 在困難的 LLM 任務(wù)中也可以扮演 Inference-time 過(guò)濾器的角色,它總能和已有的 post-train 方法相結(jié)合,進(jìn)一步提升 LLM 生成的質(zhì)量。
1.3 為什么關(guān)注 Inverse (Reward Model) 部分而不是 Forward (Policy Optimization) 部分
首先,準(zhǔn)確的 evaluation 是一切算法改進(jìn)的根基。Online RL 的工具庫(kù)里有很多工具,但這些工具能用的前提是有一個(gè)靠譜的 Reward Model。找到問(wèn)題出在哪是研究的第一步,如果 Reward Model 沒(méi)有研究清楚,在第二階段各種 RL 算法如此難收斂,超參如此之多又如此敏感,LLM 的訓(xùn)練又如此之慢的前提下,對(duì)著不靠譜的 Reward Model 做優(yōu)化,得到的實(shí)驗(yàn)觀察很難總結(jié)出可信的結(jié)論(更別提有人不到 10 個(gè)數(shù)據(jù)點(diǎn)取完 log 都 fit 不好也起名叫 scaling law 了)。
此外,RL 領(lǐng)域無(wú)數(shù)任務(wù)中的經(jīng)驗(yàn)告訴我們,RL 里沒(méi)有 Silver Bullet,最重要的是理解任務(wù)的特點(diǎn),并根據(jù)任務(wù)(數(shù)據(jù),獎(jiǎng)勵(lì)性質(zhì),系統(tǒng)性質(zhì),算力約束)去優(yōu)化相應(yīng)的算法。DPO 和 GRPO 的成功不是因?yàn)樗鼈兪?LLM 時(shí)代的策略優(yōu)化萬(wàn)金油,而是因?yàn)樗鼈冋业搅讼惹跋到y(tǒng)中存在的問(wèn)題(冗余),根據(jù)任務(wù)的需求和硬件進(jìn)行了優(yōu)化。
1.4 為什么 Reasoning 是這一層里最重要 (和目前為止最成功) 的任務(wù)
首先是觀察:Reasoning task 確實(shí)可以提升模型 "聰明" 的程度,跟隨用戶指令,完成任務(wù)和解決問(wèn)題的能力,在數(shù)學(xué)上訓(xùn)出來(lái)的模型,整體能力都提升了。
其次是動(dòng)機(jī):如果能夠真的讓 LLM reasoning 起來(lái),行為上具有想的越久,正確率越高的能力,那么這個(gè)系統(tǒng)興許真的可以自舉起來(lái)。數(shù)學(xué)家不斷推理就有可能發(fā)現(xiàn)新的定理,提出新的問(wèn)題,或是在解決問(wèn)題的方向上取得進(jìn)展。不過(guò)話說(shuō)回來(lái),用沒(méi)有這種能力的模型嘗試達(dá)到 “左腳踩右腳原地起飛” 的效果,并且用 “左腳踩右腳原地起飛” 宣傳工作,或許有點(diǎn)不太合適。。
第二層:【Game】Experience from Games and Rule-based Tasks
在第一層,我們知道通過(guò)人類的經(jīng)驗(yàn),反饋,或是人工生成的題庫(kù)來(lái)建立獎(jiǎng)勵(lì)模型,可以把 LLM Post-Train 這個(gè)缺失了 Reward Function 的 MDP\R 問(wèn)題轉(zhuǎn)化成完整的 MDP 問(wèn)題。這種數(shù)據(jù)驅(qū)動(dòng)的方式廉價(jià),可規(guī)?;?,在數(shù)學(xué)任務(wù)上優(yōu)化過(guò)后取得了非常好的優(yōu)化泛化性,顯著提升了模型的通用能力。但是但凡是有限樣本擬合的獎(jiǎng)勵(lì)函數(shù),都會(huì)有過(guò)擬合的風(fēng)險(xiǎn),只是不同的模型,不同規(guī)模的數(shù)據(jù),不同的任務(wù),這種過(guò)擬合的風(fēng)險(xiǎn)不同罷了。Reward Model 的過(guò)擬合帶來(lái)的后果是 Reward Hacking,也就是朝著背離 Reward 設(shè)計(jì)初衷的方向狂奔,比如 helpful 這個(gè)任務(wù)里一個(gè)經(jīng)典的 reward hacking 是 "length bias"—— 模型不管說(shuō)的話有沒(méi)有用,發(fā)現(xiàn)說(shuō)的越多分?jǐn)?shù)越高,就可勁輸出廢話。
短期來(lái)看,我們可以想辦法在有限的范圍內(nèi)緩解 Reward hacking,就像這一路 data-driven 的科研模式中大家通過(guò)各種方式減少 overfit,提升模型的泛化性一樣。但是長(zhǎng)期來(lái)看,這種發(fā)展不符合數(shù)據(jù) x 算力這種更加可預(yù)測(cè)的擴(kuò)張模式 —— 在所有有可能的改進(jìn)中,算法的改進(jìn)可能是最難預(yù)測(cè)的(天不生 Sutton,RL 如長(zhǎng)夜)
那么,除了數(shù)學(xué),還有什么任務(wù)是或許可以突破數(shù)據(jù)瓶頸,增強(qiáng)模型能力的呢?回想人類幼崽的學(xué)習(xí)過(guò)程,從小時(shí)候?qū)W會(huì)了語(yǔ)言之后,首先接觸的是游戲!技術(shù)上來(lái)講,游戲往往是定義良好的完整 MDP,十幾年前我們用游戲訓(xùn)練了 DeepRL 算法,那如果 DeepRL 算法運(yùn)行在 LLM 上呢?
我們的終極目標(biāo)是通過(guò)在環(huán)境中進(jìn)行無(wú)窮多次的嘗試探索,讓 LLM 不斷提升自己的理解 / 推理 / 規(guī)劃 / 指令跟隨能力。游戲恰好提供了這樣的(廉價(jià)模擬)環(huán)境 —— 想要在游戲中取勝,需要首先理解其規(guī)則,進(jìn)而在規(guī)則限定的范圍內(nèi)對(duì)策略進(jìn)行優(yōu)化。這里的游戲包括文字為基礎(chǔ)的辯論 / 討論類型的游戲,規(guī)則更為明確的棋牌類游戲,以及其他更一般的 3D 類型游戲。其中文字 / 辯論類游戲的勝負(fù)判斷相對(duì)困難,但輸入輸出空間最適用于語(yǔ)言模型。棋牌類游戲雖然可行,但輸入輸出空間的表征適配或許是一個(gè)較大的挑戰(zhàn)。更復(fù)雜一些的游戲雖然可行,但現(xiàn)在 LLM 包括 VLM 的能力可能距離玩好這些游戲太遠(yuǎn)了,找到合適的 curriculum 和任務(wù)是重要的問(wèn)題。從去年下半年開(kāi)始 ^*[3],我們陸續(xù)看到了這個(gè)方向的嘗試,包括簡(jiǎn)單的 Atari,貪吃蛇類型游戲,3D,Text-based game,未來(lái)可期,但也有諸多亟待解決的問(wèn)題:
什么樣的任務(wù)最適合評(píng)估 LLM 的能力?如何避免 text-based game 中的 cheating?
怎樣找到 LLM 處理輸入輸出,理解游戲的最佳表示?
什么樣的游戲可以最全面地發(fā)展 LLM 個(gè)方面的能力(而不至于讓 LLM “玩物喪志” overfit 到游戲)
游戲中取得的進(jìn)展是否可以像數(shù)學(xué)一樣帶來(lái)全面的能力提升?
如果允許調(diào)用 Tool(比如 AlphaGo 的 value function 或者 GTO 軟件),LLM 還能(需要)在這個(gè)過(guò)程中學(xué)會(huì)推理嗎,學(xué)會(huì)造輪子更重要還是使用輪子更重要
這里是否會(huì)有一個(gè)對(duì)應(yīng)的 game supremacy scaling law 之類的東西存在?游戲提升 LLM 推理能力的上限在哪里
解決了這些問(wèn)題之后,大規(guī)模上 Self-Play,突破目前的數(shù)據(jù)局限,提升 LLM 的推理能力就只剩下算力問(wèn)題。
第三層:【Virtual Experience】“Experience” in the Virtual World
在過(guò)去兩年做 Alignment 研究的過(guò)程中,一直很想做但又沒(méi)有合適機(jī)會(huì)的方向是 Agent——Agent 是一個(gè)非常面向產(chǎn)品 / 用戶 / 落地的課題,工程上的優(yōu)化,用戶的反饋,活躍開(kāi)發(fā)社群的建設(shè)和維護(hù)都十分重要。除此之外,即使可以在研究中盡可能地將基座模型的能力和框架以及學(xué)習(xí)范式二者分離,基座模型的能力提升往往可以直接帶來(lái)質(zhì)變。
至于非技術(shù)上的問(wèn)題,例如早期大家擔(dān)心的適配與權(quán)限問(wèn)題,目前看來(lái)在 MCP 到來(lái)以后都不再是重點(diǎn)。除非數(shù)據(jù)的擁有者能做到壟斷,不然市場(chǎng)的反向選擇一定會(huì)讓數(shù)據(jù)的擁有者對(duì) Agent 更加開(kāi)放。當(dāng)然,一切的前提都是 Agent 背后有足量用戶的支持,Agent 足夠強(qiáng)大和有用。從這個(gè)角度看,Agent 時(shí)代做內(nèi)容和社交,或許能帶來(lái)洗牌的機(jī)會(huì)。Agent 時(shí)代很或許會(huì)有新的微信。
從 RL 的角度,Agent 時(shí)代也有更多的機(jī)遇和挑戰(zhàn):
首先,Agent 與虛擬世界(互聯(lián)網(wǎng)中的內(nèi)容)進(jìn)行交互,完成 “任務(wù)”。所以其實(shí) Agent 相比 LLM 的變化,重點(diǎn)不在于加了幾個(gè) prompt,引入了工作流,而是增加了很多它們和非語(yǔ)言系統(tǒng)交互的可能性。有交互就會(huì)有反饋,這些反饋信息是一手的,真實(shí)的,on-policy 的,用 Silver 和 Sutton 的話說(shuō)就是它們自己的 Experience。
在這個(gè)交互過(guò)程中,用戶可以定義無(wú)窮多的任務(wù),并且提供任務(wù)是否成功的反饋。相比在游戲中進(jìn)行 self-play,直接和用戶打交道的 Agent 所參與的場(chǎng)景和用戶的日常需求高度對(duì)齊,不太需要擔(dān)心能力提升的泛化問(wèn)題。通過(guò)用戶眾包形式的反饋,提升 Agent 的能力就像是在培養(yǎng)具有專業(yè)技能的勞動(dòng)者。
更重要的是,Agent 達(dá)成目標(biāo)這個(gè)任務(wù)屬于 RL 中的 Multi-Goal 問(wèn)題,Multi-Goal 最大的特點(diǎn)就是很方便從失敗的經(jīng)驗(yàn)中學(xué)習(xí) (Hindsight Methods)。舉個(gè)例子,LLM 做數(shù)學(xué)題的時(shí)候,一道題做錯(cuò)了,生成的錯(cuò)誤答案只能通過(guò) “反思,糾錯(cuò)”,來(lái)幫助 LLM 以后在類似的題上不犯同樣的錯(cuò)誤 —— 但是它很有可能會(huì)犯別的錯(cuò)誤。這里失敗的經(jīng)驗(yàn)只能被拿來(lái)做排除法,從失敗中學(xué)習(xí)難就難在失敗的可能千千萬(wàn),成功的路徑相比之下要稀缺很多。所以數(shù)學(xué)就不是一個(gè)很好的 “multi-goal” 的例子 —— 沒(méi)有人會(huì)把 “做錯(cuò)這道題” 當(dāng)成一個(gè)有效的目標(biāo)。
再來(lái)看 Agent 達(dá)成目標(biāo)這個(gè)任務(wù),如果我讓 Agent 幫我【訂一張從北京到上海的火車票】,結(jié)果 Agent 一通操作,幫我買了一張從北京到深圳的機(jī)票,我們會(huì)認(rèn)為這個(gè)任務(wù)失敗了,但是這個(gè)失敗的經(jīng)驗(yàn)只是對(duì)于原始的目標(biāo)失敗了,如果有一天我想從北京去深圳,這次 Agent 的失敗經(jīng)驗(yàn)是很有用的,只需要更改這次失敗經(jīng)驗(yàn)的目標(biāo),就可以讓 Agent 的 Experience 中有【訂一張從北京到深圳的機(jī)票】這個(gè)目標(biāo)應(yīng)該如何達(dá)成這一條,對(duì)著成功的案例學(xué)習(xí),效率自然會(huì)比用排除法高很多。
在這些機(jī)遇背后,很多技術(shù)問(wèn)題的答案也讓人充滿好奇 ——
可以規(guī)模化的持續(xù)學(xué)習(xí)的能力如何注入,范式是什么
RL 會(huì)有 plasticity vanishment 的問(wèn)題,GPT 系列模型做 Supervised Learning 的 scaling law 到了 RL 還是否存在?
大規(guī)模的 Agent Learning 是工程和算力的雙重挑戰(zhàn)。人類社會(huì)是多元的,Agent 更像是人類社會(huì)中承擔(dān)不同工作的員工們,人類的多元化和不同的天賦讓分工更加明確,并且持續(xù)積累經(jīng)驗(yàn),不斷提升專業(yè)化的程度和業(yè)務(wù)能力。用 Prompt 給 Agent 注入的 Diversity 或許幫助有限,用 Fine-tuning 甚至不同的 pretrain model 又難以支撐。
Agentic Personalization 是必然的趨勢(shì),但端側(cè)友好的輕量化實(shí)現(xiàn)目前并沒(méi)有好的方案。對(duì)齊和監(jiān)管要求這個(gè)過(guò)程必然是中心化進(jìn)行的,如果要用目前的技術(shù)手段做到這個(gè)規(guī)模的中心化,英偉達(dá)的卡是不是需要普及到人手一塊。
第四層:【Physical Experience】“Experience” in the Physical World
最近兩年機(jī)器人和具身智能再度火熱,早期做 RL 方向的同學(xué)可能大多都對(duì)這個(gè)方向有著比較深的感情,robot control、mujoco 應(yīng)該是當(dāng)年開(kāi)始 RL 的時(shí)候大家最先接觸的任務(wù)。能夠和物理世界做真實(shí)交互的機(jī)器人一定是未來(lái),但是硬件和倫理是兩大繞不開(kāi)的挑戰(zhàn)。硬件的成本會(huì)隨著技術(shù)的進(jìn)步不斷降低,但風(fēng)險(xiǎn)和倫理問(wèn)題一眼還需要更多思考。
硬件方面,2020 年和朋友一起琢磨過(guò)面向發(fā)燒友的手工出海,做過(guò)一條非常簡(jiǎn)易的 “四足機(jī)器 (狗?)”。元件就是幾個(gè)電機(jī),樹(shù)莓派,四條腿是一次性筷子做的,拍腦袋寫了個(gè)聲控往前爬往后爬的運(yùn)動(dòng)模式。然而出師未捷,內(nèi)憂外患一起出現(xiàn) —— 貿(mào)易戰(zhàn)升級(jí),小米也出了一款價(jià)格四位數(shù)的消費(fèi)級(jí)器狗。對(duì)比過(guò)后發(fā)現(xiàn)硬件這個(gè)東西不比服務(wù)或者互聯(lián)網(wǎng),一分價(jià)格一分貨,且重資產(chǎn)輕技術(shù),十幾二十塊的電機(jī)就是做不到精準(zhǔn)有力的操控,力度不夠就是沒(méi)辦法后空翻,這個(gè)產(chǎn)品或許只能賣給發(fā)燒友搞著玩,價(jià)格也不便宜,后來(lái)就不了了之了。
更現(xiàn)實(shí)一些,距離我們生活最近的場(chǎng)景是智能 (輔助) 駕駛,在這個(gè)場(chǎng)景里,車是市場(chǎng)上存在的剛醒需求,客戶不會(huì)因?yàn)橹悄艿?“具身” 支付太多額外的硬件成本。車作為智能的載體,能執(zhí)行的動(dòng)作也比較有限,更加可控。即使在這樣的 Embodied AI 系統(tǒng)里 —— 我們多大程度上可以接受自己的車一邊開(kāi)一邊學(xué),增強(qiáng)推理和理解場(chǎng)景的能力?多大程度上可以接受它犯錯(cuò)?誰(shuí)來(lái)承擔(dān)系統(tǒng)的錯(cuò)誤。
人的分工和相互信任建立在長(zhǎng)時(shí)間的社會(huì)穩(wěn)定和協(xié)作共贏之上,但人和機(jī)器如何做到互信,要花多久?當(dāng)智能能夠通過(guò)具身或者物理世界的載體和人交互,就不可避免會(huì)帶來(lái)倫理問(wèn)題,包括我在內(nèi)的大多數(shù)的技術(shù) / 科研工作者對(duì)此可能都一無(wú)所知,這里也就不多做討論。可以確定的是,AGI 時(shí)代會(huì)有更多的挑戰(zhàn),關(guān)于 AI Safety 的探討也會(huì)更加迫切,當(dāng) Agent 有有了無(wú)限探索的能力和物理世界做交互的時(shí)候,碳基文明的存亡也有了實(shí)實(shí)在在的威脅。
在 AGI 的前夜,人類更加需要偉大哲學(xué)家的指引
[1] 過(guò)去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數(shù)據(jù)中構(gòu)建更好的獎(jiǎng)勵(lì)模型” 進(jìn)行探索
ICLR'24: RM for Math & Prompting;
ICML'24: Dense RM for RLHF;
RLC workshop'24: RM from Demonstration data;
DMRL'24: When is RM (off-policy-evaluation) useful?;
ICLR'25: foundation of RM from preference data;
Preprint (s)'25: Active RM, Infra for Embedding-based Efficient RM Research, PCA for Diverse/Personalized RM)
[2] 關(guān)于未來(lái)方向的暢想,理解和思路上距離在 Agent 方向深耕的研究難免會(huì)有偏差,煩請(qǐng)大家不吝斧正!
[3] 更早一些在 2023 年底的 NeurIPS 就有一篇工作是講外交類游戲博弈的,希望 LLM+Game 這個(gè)方向的未來(lái)不要步前幾年的 RL + 阿瓦隆 / 狼人殺 /xx 游戲的后塵,而是在選擇任務(wù)上多一些思考,做長(zhǎng)期更有價(jià)值的探索!
作者簡(jiǎn)介
孫浩是劍橋大學(xué) 4 年級(jí)在讀博士生,研究課題為強(qiáng)化學(xué)習(xí)和大語(yǔ)言模型的對(duì)齊(后訓(xùn)練)。他關(guān)于強(qiáng)化學(xué)習(xí)的研究涵蓋了稀疏獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)塑形,可解釋性等課題,研究發(fā)表于 NeurIPS 會(huì)議;在關(guān)于大語(yǔ)言模型對(duì)齊的工作中,重點(diǎn)關(guān)注如何從數(shù)據(jù)中獲得獎(jiǎng)勵(lì)函數(shù),提升大模型在對(duì)話和數(shù)學(xué)上的能力,論文發(fā)表于 ICLR 會(huì)議,并參與貢獻(xiàn)了 AAAI2025 和 ACL2025 的系列課程報(bào)告。
熱門跟貼