操出白浆20p,三级全黄色毛片,国产三级aa在线观看不卡,国产精久久精品,亚洲欧美日韩电影在线专区

作者：孫浩

https://zhuanlan.zhihu.com/p/1896382036689810197

RL + LLM 升級(jí)之路的四層階梯。

2025 年伊始，RL 以一種破局歸來(lái)的姿態(tài)在 LLM 的后訓(xùn)練時(shí)代證明了其巨大價(jià)值，Sutton 和 Barto 拿了圖靈獎(jiǎng)，David Silver 去年在 RLC 上說(shuō) “（RL 受關(guān)注的程度）終將跨越 LLM 帶來(lái)的低谷”，竟然來(lái)得如此之快。

PhD 這些年即將告一段落，這幾個(gè)月梳理先前的工作，準(zhǔn)備 Tutorial，借鑒了不少去年從 RLC 上聽(tīng) David Silver 講過(guò)的思想，在這個(gè) “RL Finally Generalizes (Shunyu Yao)” 的時(shí)代到來(lái)之際，也一直想寫一篇文章作為整理，恰好最近讀 Silver 和 Sutton 一起寫的《經(jīng)驗(yàn)時(shí)代》(Welcome to the era of experience)，結(jié)合了一些自己的思考和理解，在出發(fā)開(kāi)會(huì)前寫下這篇文章，拋磚引玉，希望在新加坡可以和大家有更多的深度交流【關(guān)于 RL，Alignment，Reasoning，Agent，MCP，以及其他有關(guān) AGI 的一切！】

RLxLLM 的當(dāng)下

成功歸于 Inverse RL 和 Data-Driven Reward Models

0.1 RL 和 LLM 分別強(qiáng)在哪里？

距離 AlphaGo 擊敗李世石已經(jīng)快有十年，這期間 RL 征服了各種棋類游戲，即時(shí)策略游戲，也被應(yīng)用到了各種系統(tǒng)的性能優(yōu)化當(dāng)中。在這些任務(wù)中，RL總能找到比人類專家更好的策略，它能將優(yōu)化做到極致。也有在持續(xù)訓(xùn)練中不斷提升的潛力。RL 找到的策略和解決方案，可以給人類專家?guī)?lái)啟發(fā) —— 雖然這并不容易。一個(gè)著名的例子是 AlphaGo 的 "Move 37"，它被當(dāng)作 “RL 具有創(chuàng)造力” 的驗(yàn)證。

另一方面，數(shù)據(jù)驅(qū)動(dòng)的生成模型在更好的架構(gòu)，更穩(wěn)定的優(yōu)化器，更強(qiáng)的算力，更科學(xué)的算法，種種 buff 加持之下不斷朝著 scaling law 的前沿推進(jìn)。如今包括 Sora，StableDiffusion，GPT 在內(nèi)的這些模型已經(jīng)可以很好地理解用戶，按照指令生成能讓用戶滿意（甚至驚喜）的文字，圖片，和視頻。

然而，世界上的數(shù)據(jù)總量是有限的，即使 Scaling Law 總是成立，數(shù)據(jù)也遲早會(huì)枯竭。數(shù)據(jù)驅(qū)動(dòng)的生成模型雖然有諸多優(yōu)勢(shì) —— 比如在小樣本上極強(qiáng)的泛化能力，強(qiáng)大的指令跟隨能力，以及自然語(yǔ)言模型天然的可解釋性 —— 然而這些模型不具備 RL 系統(tǒng)所擁有的創(chuàng)造力，持續(xù)進(jìn)步提升的能力，和糾錯(cuò)的能力，也無(wú)法超越人類的專家水平。

0.2 RL + LLM?

那么，有沒(méi)有可能有一個(gè)系統(tǒng)，它可以和 Data-Driven 的大模型一樣去理解、幫助人，同時(shí)又可以不斷迭代更新自己，糾錯(cuò)和變強(qiáng)呢？

從 LLM4RL 的角度來(lái)說(shuō)，如果我們能用 LLM 實(shí)現(xiàn) super-human performance，那么用自然語(yǔ)言為媒介可以更加容易地把這些 RL 系統(tǒng)的創(chuàng)造力用來(lái)啟發(fā)人類。
從 RL4LLM 的角度來(lái)說(shuō)，RL 可以賦予 LLM 不斷提升（由 Reward 定義的任務(wù)上性能）的能力。如果把 Alignment 和 Post-train 統(tǒng)一地定義為提升特定方向的能力，那 post-train/alignment 的優(yōu)化方向本身就是和 RL 這一學(xué)習(xí)范式非常契合的。

在數(shù)學(xué)領(lǐng)域，去年 AlphaProof+Alpha Geometry2 拿了 IMO 的銀牌，今年 DeepSeek R1 的風(fēng)已經(jīng)席卷了全世界；在通用聊天領(lǐng)域，RLHF 里如火如荼的_PO 研究已經(jīng)即將用盡字母表，龐大的用戶規(guī)模加上 preference 標(biāo)注為 OpenAI 提供了源源不斷建模用戶偏好，改進(jìn)用戶體驗(yàn)的數(shù)據(jù)。這些都是 RL + LLM 的成功。那么，如果想要把 RL + LLM 這一范式推廣到更多的場(chǎng)景，我們面臨的困難是什么？比較有潛力的解決方案是什么？這正是我們之前的 Tutorial 希望重點(diǎn)向大家介紹的 —— 當(dāng)前的 LLM Alignment 是一種數(shù)據(jù)驅(qū)動(dòng)（人類經(jīng)驗(yàn)驅(qū)動(dòng)）的 RL，Inverse RL 是這里最自然和簡(jiǎn)單的方案。

LLM 從人類生成的數(shù)據(jù)或反饋中學(xué)習(xí) —— 也就是 Silver&Sutton 文章里所說(shuō)的 "Human-Centered AI"。過(guò)去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數(shù)據(jù)中構(gòu)建更好的獎(jiǎng)勵(lì)模型” 進(jìn)行探索 *[1]。

既然是探索，當(dāng)然不該止步于 “什么方案最簡(jiǎn)單，最自然”，也要想未來(lái)進(jìn)一步優(yōu)化的方向在哪里。

0.3 人類如何學(xué)習(xí)？

相比 LLM，人類的學(xué)習(xí)似乎 “容易” 很多，人類不需要也不可能看完所有的書(shū)，電視，電影，不會(huì)去過(guò)所有的地方，但一樣可以擁有（更）高程度的智能 —— 可以理解世界，推理，創(chuàng)造，交流，學(xué)習(xí)。人先在成長(zhǎng)初期通過(guò)語(yǔ)言學(xué)習(xí)，交互，理解；同時(shí)通過(guò)和世界的簡(jiǎn)單交互了解非常簡(jiǎn)單的 "物理"(world model, laws)；后來(lái)習(xí)得書(shū)寫和文字，又在游戲 / 虛擬世界中學(xué)習(xí)，學(xué)會(huì)從互聯(lián)網(wǎng)上主動(dòng)尋找有用的信息，最終通過(guò)和世界以及社會(huì)的交互不斷提升能力。我想這恰好可以對(duì)應(yīng) LLM+RL 發(fā)展的四個(gè)不同階段：Data-Driven，Game， Virtual Interaction，Physical Interaction。（人類在學(xué)習(xí)過(guò)程中，除了幼兒時(shí)期學(xué)語(yǔ)言幾乎嚴(yán)格早于其他三者，剩下的學(xué)習(xí)過(guò)程是持續(xù)，同步發(fā)生的，這里的層級(jí)遞進(jìn)關(guān)系不一定成立。從 LLM -> AGI 的角度，分成這幾層主要是考慮到實(shí)現(xiàn)起來(lái)的困難程度和安全可控程度。）

當(dāng)下，主流的方法站在AGI 的第一層：通過(guò) Data-Driven Reward Model + RL 提升任務(wù)性能，接下來(lái)我們從這一層開(kāi)始聊起。

第一層：【Data-Driven RL】(Human-Centered) RL with Data-Driven Reward Model

1.1 如何理解當(dāng)下 Post-Training 中的 RL？

RL 是什么

從 RL 的基礎(chǔ)談起 —— 從統(tǒng)計(jì)的角度，RL 研究的是如何在動(dòng)態(tài)變化的數(shù)據(jù)分布中主動(dòng)學(xué)習(xí)并建模（包括策略建模和環(huán)境建模，有前者可以 Black-box policy inference，有后者可以做 planning）；用更 RL 一點(diǎn)的語(yǔ)言描述，就是如何在和環(huán)境的交互中找到長(zhǎng)期回報(bào)最高的策略。

解決思路上來(lái)說(shuō)，不同的方法都在嘗試于探索和利用之間找到平衡（無(wú)論是對(duì)環(huán)境 / Dynamics 的探索還是對(duì)策略的探索）。從這個(gè)角度出發(fā)，也可以理解為什么沒(méi)有某種探索策略或者學(xué)習(xí)方法總是好的—— 對(duì)于任何的探索策略，總能針對(duì)它設(shè)計(jì) counter example，使得這種探索方法不是最優(yōu)。而隨機(jī)性是應(yīng)對(duì) counter example 設(shè)計(jì)的強(qiáng)有力工具。這也是為什么 MaxEntropy 類方法總是拿一個(gè) random policy 的 KL 保持探索，且這一類方法總是在各種環(huán)境中都不太差的原因。

RL 優(yōu)化 “長(zhǎng)期回報(bào)”，這意味著首先要定義什么是回報(bào) (Reward)，在大多數(shù)任務(wù)中，沒(méi)有這樣的 Reward。所以我們無(wú)法做到從 “和環(huán)境交互中優(yōu)化策略”，而只能讓 LLM 從人類的語(yǔ)言數(shù)據(jù)中學(xué)習(xí)，也就是從行為中學(xué)習(xí)。方法上分為兩大類：(1) 模仿學(xué)習(xí) (Imitation Learning)—— 比如 Behavior Clone，就是直接對(duì)著行為做監(jiān)督學(xué)習(xí)，來(lái)生成與行為數(shù)據(jù)相同的行為模式；(2) 逆強(qiáng)化學(xué)習(xí) (Inverse Reinforcement Learning)—— 先通過(guò)行為數(shù)據(jù)找到這些行為在嘗試優(yōu)化的獎(jiǎng)勵(lì)函數(shù)，然后用這個(gè)獎(jiǎng)勵(lì)函數(shù)做 RL 來(lái)生成與行為數(shù)據(jù)相同的行為模式。

Post-Train 在做什么

(1).[Behavior Clone]先從 Pre-train 說(shuō)起，Pre-train model 的任務(wù)是預(yù)測(cè)下一個(gè) token，也就是非常經(jīng)典的 Behavior Clone，模仿人類的語(yǔ)料庫(kù)。隨著訓(xùn)練規(guī)模的擴(kuò)大，模型各方面的能力不斷提升，開(kāi)始有能力理解比字面意更深層的語(yǔ)義，學(xué)會(huì)更能泛化更加有效的 embedding 模式，并且在新的任務(wù)上有了 few-shot 甚至 zero-shot 的能力。

(2).[Prompt Engineering]Post-train 階段，我們從最簡(jiǎn)單的 prompt-optimization（或者 in-context learning）說(shuō)起。因?yàn)檫@些 Autoregressive LLM 都是 Conditional Generator，隨著輸入的變化，輸出 token 的條件概率和分布也會(huì)隨之變化。因此，通過(guò)控制輸入的樣本，甚至是問(wèn)問(wèn)題的方式，都可以讓模型在特定任務(wù)上達(dá)到更好的表現(xiàn)。這個(gè)方向在 2023 年是比較熱的話題，后來(lái)的趨勢(shì)是隨著模型能力的提升，prompt optimization 的邊際效應(yīng)過(guò)于明顯，并且大家意識(shí)到對(duì)著某一個(gè) LLM 做 prompt engineering 很大概率是在 overfit test set，到下一個(gè)迭代的版本就又要重新找，與此同時(shí) "lazy prompting (Andrew Ng)" 的效果也越來(lái)越好，工程上也需要在成本和性能之間進(jìn)行更好的權(quán)衡。

(3).[Supervised Fine-Tuning]接下來(lái)，如果我們有一些高質(zhì)量的垂類數(shù)據(jù)或?qū)＜覕?shù)據(jù)，在這個(gè)小規(guī)模數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào) Supervised Fine Tuning 效果也可能會(huì)不錯(cuò)，且這個(gè)過(guò)程簡(jiǎn)單穩(wěn)定，非常適合資源有限，數(shù)據(jù)質(zhì)量高，任務(wù)對(duì) LLM 基模來(lái)說(shuō)相對(duì)簡(jiǎn)單，并不追求極致的性能改進(jìn)的場(chǎng)景。

總結(jié)來(lái)看，Post-train 的總體目標(biāo)是通過(guò)少量的高質(zhì)量樣本，來(lái)調(diào)整基座模型生成回答的數(shù)據(jù)分布，使之適應(yīng)新的任務(wù)或特定的某類由樣本特性所定義的任務(wù)。BC 和 SFT 是直接的模仿學(xué)習(xí)手段，而 Prompt-Engineering 很有一種 Prior-hacking 的味道，我們姑且把它也歸為一種對(duì) "成功 prior hacking 經(jīng)驗(yàn)的模仿"。最近一年里有很多工作講了 SFT 和 RL (HF) 分別在做什么，有很多種含義相近的描述，比如 SFT 負(fù)責(zé)記憶，RL 負(fù)責(zé)泛化，SFT 做 mass-covering，RL 做 Mode-Seeking。接下來(lái)，我們通過(guò)三個(gè)例子來(lái)看為什么有了 SFT/Prompt-Engineering 這些簡(jiǎn)單有效的方法，還需要 RL，或者說(shuō)需要Reward Model。

1.2 為什么用 Inverse RL 來(lái)解決 Data-Driven RL？

Inverse-RL 中的重要一步是通過(guò)數(shù)據(jù)建模 Reward Model，從而使不完整的 MDP\R 問(wèn)題轉(zhuǎn)化為完整的 MDP，進(jìn)而能夠調(diào)用 RL 工具去解決。我們把這里從人類行為數(shù)據(jù)出發(fā)，建模獎(jiǎng)勵(lì)函數(shù)的過(guò)程稱為 (Neural) Reward Modeling，這是現(xiàn)階段的主流做法，也是 Silver 和 Sutton 在文章中提到的 Human-Centered AI。我們通過(guò)以下三個(gè)例子來(lái)理解 Reward Model 的作用與優(yōu)勢(shì)

1. Inverse RL (Reward Models) 可以收集更加規(guī)?；臄?shù)據(jù)

這里舉 ChatGPT 的例子 —— 當(dāng)我們使用 GPT 的時(shí)候，會(huì)遇到讓我們提供 preference，幫助 OpenAI 提供未來(lái)模型的選項(xiàng)，這件事能大規(guī)模應(yīng)用的主要原因是 Preference 這個(gè)判別任務(wù)遠(yuǎn)比demonstration 的生成任務(wù)更加容易和可拓展。我們能欣賞頂級(jí)網(wǎng)球選手打球，看谷愛(ài)凌蘇翊鳴飛臺(tái)子看 FWT，不需要我們自身有很高的運(yùn)動(dòng)水平

2. Inverse RL (Reward Models) 可以幫助找到更有泛化能力的解決方案

在 DeepSeek R1 的數(shù)學(xué)任務(wù)中，Rule-based (Data-Driven) reward model 給了 LLM 最大限度的自由度去探索有可能能夠成功的回答問(wèn)題模式，這種自由度允許模型自己去發(fā)現(xiàn) “l(fā)ong chain-of-thought” 這種行為可以有效提升回答正確的可能，進(jìn)而把最能夠泛化的做題能力保持住。這里 (Outcome) RM 是因，找到可泛化的 pattern 是果，具體如何更高效率地 exploration，或者學(xué)這些發(fā)現(xiàn)的 pattern，是因果之間的媒介 —— 它會(huì)影響學(xué)習(xí)效率，但不會(huì)影響 “能不能學(xué)”。

3. Inverse RL (Reward Models) 是 Inference Time Optimization 的基礎(chǔ)

正如文章一開(kāi)始所說(shuō)，在普通的 RL 任務(wù)中，沒(méi)有 “Inference-Time” 和 “Training-Time” 的區(qū)別，大多數(shù) RL 都是在測(cè)試任務(wù)上訓(xùn)練的。所以大多數(shù) RL Policy 解決任務(wù)的方式就是訓(xùn)練完了之后部署在這個(gè)系統(tǒng)上做 Inference，每次生成 action 只需要 Network Forward 一把，也談不上 Inference Time Optimization（比如 Mujoco/Atari 都是這樣的任務(wù)）。然而，在圍棋任務(wù)中，目前還沒(méi)有每一步直接做一次 Neural Network Inference 就能擊敗人類頂級(jí)選手的 RL Policy，需要這些 Policy Network 配合 Value Network 做 MCTS 才能取得較好的效果。在這個(gè)過(guò)程中，value network 扮演的決策就是一個(gè) "dense reward function"，能夠在 inference 過(guò)程中把不好的 action 過(guò)濾掉。

同理，Reward Model 在困難的 LLM 任務(wù)中也可以扮演 Inference-time 過(guò)濾器的角色，它總能和已有的 post-train 方法相結(jié)合，進(jìn)一步提升 LLM 生成的質(zhì)量。

1.3 為什么關(guān)注 Inverse (Reward Model) 部分而不是 Forward (Policy Optimization) 部分

首先，準(zhǔn)確的 evaluation 是一切算法改進(jìn)的根基。Online RL 的工具庫(kù)里有很多工具，但這些工具能用的前提是有一個(gè)靠譜的 Reward Model。找到問(wèn)題出在哪是研究的第一步，如果 Reward Model 沒(méi)有研究清楚，在第二階段各種 RL 算法如此難收斂，超參如此之多又如此敏感，LLM 的訓(xùn)練又如此之慢的前提下，對(duì)著不靠譜的 Reward Model 做優(yōu)化，得到的實(shí)驗(yàn)觀察很難總結(jié)出可信的結(jié)論（更別提有人不到 10 個(gè)數(shù)據(jù)點(diǎn)取完 log 都 fit 不好也起名叫 scaling law 了）。

此外，RL 領(lǐng)域無(wú)數(shù)任務(wù)中的經(jīng)驗(yàn)告訴我們，RL 里沒(méi)有 Silver Bullet，最重要的是理解任務(wù)的特點(diǎn)，并根據(jù)任務(wù)（數(shù)據(jù)，獎(jiǎng)勵(lì)性質(zhì)，系統(tǒng)性質(zhì)，算力約束）去優(yōu)化相應(yīng)的算法。DPO 和 GRPO 的成功不是因?yàn)樗鼈兪?LLM 時(shí)代的策略優(yōu)化萬(wàn)金油，而是因?yàn)樗鼈冋业搅讼惹跋到y(tǒng)中存在的問(wèn)題（冗余），根據(jù)任務(wù)的需求和硬件進(jìn)行了優(yōu)化。

1.4 為什么 Reasoning 是這一層里最重要 (和目前為止最成功) 的任務(wù)

首先是觀察：Reasoning task 確實(shí)可以提升模型 "聰明" 的程度，跟隨用戶指令，完成任務(wù)和解決問(wèn)題的能力，在數(shù)學(xué)上訓(xùn)出來(lái)的模型，整體能力都提升了。

其次是動(dòng)機(jī)：如果能夠真的讓 LLM reasoning 起來(lái)，行為上具有想的越久，正確率越高的能力，那么這個(gè)系統(tǒng)興許真的可以自舉起來(lái)。數(shù)學(xué)家不斷推理就有可能發(fā)現(xiàn)新的定理，提出新的問(wèn)題，或是在解決問(wèn)題的方向上取得進(jìn)展。不過(guò)話說(shuō)回來(lái)，用沒(méi)有這種能力的模型嘗試達(dá)到 “左腳踩右腳原地起飛” 的效果，并且用 “左腳踩右腳原地起飛” 宣傳工作，或許有點(diǎn)不太合適。。

第二層：【Game】Experience from Games and Rule-based Tasks

在第一層，我們知道通過(guò)人類的經(jīng)驗(yàn)，反饋，或是人工生成的題庫(kù)來(lái)建立獎(jiǎng)勵(lì)模型，可以把 LLM Post-Train 這個(gè)缺失了 Reward Function 的 MDP\R 問(wèn)題轉(zhuǎn)化成完整的 MDP 問(wèn)題。這種數(shù)據(jù)驅(qū)動(dòng)的方式廉價(jià)，可規(guī)?；?，在數(shù)學(xué)任務(wù)上優(yōu)化過(guò)后取得了非常好的優(yōu)化泛化性，顯著提升了模型的通用能力。但是但凡是有限樣本擬合的獎(jiǎng)勵(lì)函數(shù)，都會(huì)有過(guò)擬合的風(fēng)險(xiǎn)，只是不同的模型，不同規(guī)模的數(shù)據(jù)，不同的任務(wù)，這種過(guò)擬合的風(fēng)險(xiǎn)不同罷了。Reward Model 的過(guò)擬合帶來(lái)的后果是 Reward Hacking，也就是朝著背離 Reward 設(shè)計(jì)初衷的方向狂奔，比如 helpful 這個(gè)任務(wù)里一個(gè)經(jīng)典的 reward hacking 是 "length bias"—— 模型不管說(shuō)的話有沒(méi)有用，發(fā)現(xiàn)說(shuō)的越多分?jǐn)?shù)越高，就可勁輸出廢話。

短期來(lái)看，我們可以想辦法在有限的范圍內(nèi)緩解 Reward hacking，就像這一路 data-driven 的科研模式中大家通過(guò)各種方式減少 overfit，提升模型的泛化性一樣。但是長(zhǎng)期來(lái)看，這種發(fā)展不符合數(shù)據(jù) x 算力這種更加可預(yù)測(cè)的擴(kuò)張模式 —— 在所有有可能的改進(jìn)中，算法的改進(jìn)可能是最難預(yù)測(cè)的（天不生 Sutton，RL 如長(zhǎng)夜）

那么，除了數(shù)學(xué)，還有什么任務(wù)是或許可以突破數(shù)據(jù)瓶頸，增強(qiáng)模型能力的呢？回想人類幼崽的學(xué)習(xí)過(guò)程，從小時(shí)候?qū)W會(huì)了語(yǔ)言之后，首先接觸的是游戲！技術(shù)上來(lái)講，游戲往往是定義良好的完整 MDP，十幾年前我們用游戲訓(xùn)練了 DeepRL 算法，那如果 DeepRL 算法運(yùn)行在 LLM 上呢？

我們的終極目標(biāo)是通過(guò)在環(huán)境中進(jìn)行無(wú)窮多次的嘗試探索，讓 LLM 不斷提升自己的理解 / 推理 / 規(guī)劃 / 指令跟隨能力。游戲恰好提供了這樣的（廉價(jià)模擬）環(huán)境 —— 想要在游戲中取勝，需要首先理解其規(guī)則，進(jìn)而在規(guī)則限定的范圍內(nèi)對(duì)策略進(jìn)行優(yōu)化。這里的游戲包括文字為基礎(chǔ)的辯論 / 討論類型的游戲，規(guī)則更為明確的棋牌類游戲，以及其他更一般的 3D 類型游戲。其中文字 / 辯論類游戲的勝負(fù)判斷相對(duì)困難，但輸入輸出空間最適用于語(yǔ)言模型。棋牌類游戲雖然可行，但輸入輸出空間的表征適配或許是一個(gè)較大的挑戰(zhàn)。更復(fù)雜一些的游戲雖然可行，但現(xiàn)在 LLM 包括 VLM 的能力可能距離玩好這些游戲太遠(yuǎn)了，找到合適的 curriculum 和任務(wù)是重要的問(wèn)題。從去年下半年開(kāi)始 ^*[3]，我們陸續(xù)看到了這個(gè)方向的嘗試，包括簡(jiǎn)單的 Atari，貪吃蛇類型游戲，3D，Text-based game，未來(lái)可期，但也有諸多亟待解決的問(wèn)題：

什么樣的任務(wù)最適合評(píng)估 LLM 的能力？如何避免 text-based game 中的 cheating？
怎樣找到 LLM 處理輸入輸出，理解游戲的最佳表示？
什么樣的游戲可以最全面地發(fā)展 LLM 個(gè)方面的能力（而不至于讓 LLM “玩物喪志” overfit 到游戲）
游戲中取得的進(jìn)展是否可以像數(shù)學(xué)一樣帶來(lái)全面的能力提升？
如果允許調(diào)用 Tool（比如 AlphaGo 的 value function 或者 GTO 軟件），LLM 還能（需要）在這個(gè)過(guò)程中學(xué)會(huì)推理嗎，學(xué)會(huì)造輪子更重要還是使用輪子更重要
這里是否會(huì)有一個(gè)對(duì)應(yīng)的 game supremacy scaling law 之類的東西存在？游戲提升 LLM 推理能力的上限在哪里

解決了這些問(wèn)題之后，大規(guī)模上 Self-Play，突破目前的數(shù)據(jù)局限，提升 LLM 的推理能力就只剩下算力問(wèn)題。

第三層：【Virtual Experience】“Experience” in the Virtual World

在過(guò)去兩年做 Alignment 研究的過(guò)程中，一直很想做但又沒(méi)有合適機(jī)會(huì)的方向是 Agent——Agent 是一個(gè)非常面向產(chǎn)品 / 用戶 / 落地的課題，工程上的優(yōu)化，用戶的反饋，活躍開(kāi)發(fā)社群的建設(shè)和維護(hù)都十分重要。除此之外，即使可以在研究中盡可能地將基座模型的能力和框架以及學(xué)習(xí)范式二者分離，基座模型的能力提升往往可以直接帶來(lái)質(zhì)變。

至于非技術(shù)上的問(wèn)題，例如早期大家擔(dān)心的適配與權(quán)限問(wèn)題，目前看來(lái)在 MCP 到來(lái)以后都不再是重點(diǎn)。除非數(shù)據(jù)的擁有者能做到壟斷，不然市場(chǎng)的反向選擇一定會(huì)讓數(shù)據(jù)的擁有者對(duì) Agent 更加開(kāi)放。當(dāng)然，一切的前提都是 Agent 背后有足量用戶的支持，Agent 足夠強(qiáng)大和有用。從這個(gè)角度看，Agent 時(shí)代做內(nèi)容和社交，或許能帶來(lái)洗牌的機(jī)會(huì)。Agent 時(shí)代很或許會(huì)有新的微信。

從 RL 的角度，Agent 時(shí)代也有更多的機(jī)遇和挑戰(zhàn)：

首先，Agent 與虛擬世界（互聯(lián)網(wǎng)中的內(nèi)容）進(jìn)行交互，完成 “任務(wù)”。所以其實(shí) Agent 相比 LLM 的變化，重點(diǎn)不在于加了幾個(gè) prompt，引入了工作流，而是增加了很多它們和非語(yǔ)言系統(tǒng)交互的可能性。有交互就會(huì)有反饋，這些反饋信息是一手的，真實(shí)的，on-policy 的，用 Silver 和 Sutton 的話說(shuō)就是它們自己的 Experience。

在這個(gè)交互過(guò)程中，用戶可以定義無(wú)窮多的任務(wù)，并且提供任務(wù)是否成功的反饋。相比在游戲中進(jìn)行 self-play，直接和用戶打交道的 Agent 所參與的場(chǎng)景和用戶的日常需求高度對(duì)齊，不太需要擔(dān)心能力提升的泛化問(wèn)題。通過(guò)用戶眾包形式的反饋，提升 Agent 的能力就像是在培養(yǎng)具有專業(yè)技能的勞動(dòng)者。

更重要的是，Agent 達(dá)成目標(biāo)這個(gè)任務(wù)屬于 RL 中的 Multi-Goal 問(wèn)題，Multi-Goal 最大的特點(diǎn)就是很方便從失敗的經(jīng)驗(yàn)中學(xué)習(xí) (Hindsight Methods)。舉個(gè)例子，LLM 做數(shù)學(xué)題的時(shí)候，一道題做錯(cuò)了，生成的錯(cuò)誤答案只能通過(guò) “反思，糾錯(cuò)”，來(lái)幫助 LLM 以后在類似的題上不犯同樣的錯(cuò)誤 —— 但是它很有可能會(huì)犯別的錯(cuò)誤。這里失敗的經(jīng)驗(yàn)只能被拿來(lái)做排除法，從失敗中學(xué)習(xí)難就難在失敗的可能千千萬(wàn)，成功的路徑相比之下要稀缺很多。所以數(shù)學(xué)就不是一個(gè)很好的 “multi-goal” 的例子 —— 沒(méi)有人會(huì)把 “做錯(cuò)這道題” 當(dāng)成一個(gè)有效的目標(biāo)。

再來(lái)看 Agent 達(dá)成目標(biāo)這個(gè)任務(wù)，如果我讓 Agent 幫我【訂一張從北京到上海的火車票】，結(jié)果 Agent 一通操作，幫我買了一張從北京到深圳的機(jī)票，我們會(huì)認(rèn)為這個(gè)任務(wù)失敗了，但是這個(gè)失敗的經(jīng)驗(yàn)只是對(duì)于原始的目標(biāo)失敗了，如果有一天我想從北京去深圳，這次 Agent 的失敗經(jīng)驗(yàn)是很有用的，只需要更改這次失敗經(jīng)驗(yàn)的目標(biāo)，就可以讓 Agent 的 Experience 中有【訂一張從北京到深圳的機(jī)票】這個(gè)目標(biāo)應(yīng)該如何達(dá)成這一條，對(duì)著成功的案例學(xué)習(xí)，效率自然會(huì)比用排除法高很多。

在這些機(jī)遇背后，很多技術(shù)問(wèn)題的答案也讓人充滿好奇 ——

可以規(guī)模化的持續(xù)學(xué)習(xí)的能力如何注入，范式是什么
RL 會(huì)有 plasticity vanishment 的問(wèn)題，GPT 系列模型做 Supervised Learning 的 scaling law 到了 RL 還是否存在？
大規(guī)模的 Agent Learning 是工程和算力的雙重挑戰(zhàn)。人類社會(huì)是多元的，Agent 更像是人類社會(huì)中承擔(dān)不同工作的員工們，人類的多元化和不同的天賦讓分工更加明確，并且持續(xù)積累經(jīng)驗(yàn)，不斷提升專業(yè)化的程度和業(yè)務(wù)能力。用 Prompt 給 Agent 注入的 Diversity 或許幫助有限，用 Fine-tuning 甚至不同的 pretrain model 又難以支撐。
Agentic Personalization 是必然的趨勢(shì)，但端側(cè)友好的輕量化實(shí)現(xiàn)目前并沒(méi)有好的方案。對(duì)齊和監(jiān)管要求這個(gè)過(guò)程必然是中心化進(jìn)行的，如果要用目前的技術(shù)手段做到這個(gè)規(guī)模的中心化，英偉達(dá)的卡是不是需要普及到人手一塊。

第四層：【Physical Experience】“Experience” in the Physical World

最近兩年機(jī)器人和具身智能再度火熱，早期做 RL 方向的同學(xué)可能大多都對(duì)這個(gè)方向有著比較深的感情，robot control、mujoco 應(yīng)該是當(dāng)年開(kāi)始 RL 的時(shí)候大家最先接觸的任務(wù)。能夠和物理世界做真實(shí)交互的機(jī)器人一定是未來(lái)，但是硬件和倫理是兩大繞不開(kāi)的挑戰(zhàn)。硬件的成本會(huì)隨著技術(shù)的進(jìn)步不斷降低，但風(fēng)險(xiǎn)和倫理問(wèn)題一眼還需要更多思考。

硬件方面，2020 年和朋友一起琢磨過(guò)面向發(fā)燒友的手工出海，做過(guò)一條非常簡(jiǎn)易的 “四足機(jī)器 (狗？)”。元件就是幾個(gè)電機(jī)，樹(shù)莓派，四條腿是一次性筷子做的，拍腦袋寫了個(gè)聲控往前爬往后爬的運(yùn)動(dòng)模式。然而出師未捷，內(nèi)憂外患一起出現(xiàn) —— 貿(mào)易戰(zhàn)升級(jí)，小米也出了一款價(jià)格四位數(shù)的消費(fèi)級(jí)器狗。對(duì)比過(guò)后發(fā)現(xiàn)硬件這個(gè)東西不比服務(wù)或者互聯(lián)網(wǎng)，一分價(jià)格一分貨，且重資產(chǎn)輕技術(shù)，十幾二十塊的電機(jī)就是做不到精準(zhǔn)有力的操控，力度不夠就是沒(méi)辦法后空翻，這個(gè)產(chǎn)品或許只能賣給發(fā)燒友搞著玩，價(jià)格也不便宜，后來(lái)就不了了之了。

更現(xiàn)實(shí)一些，距離我們生活最近的場(chǎng)景是智能 (輔助) 駕駛，在這個(gè)場(chǎng)景里，車是市場(chǎng)上存在的剛醒需求，客戶不會(huì)因?yàn)橹悄艿?“具身” 支付太多額外的硬件成本。車作為智能的載體，能執(zhí)行的動(dòng)作也比較有限，更加可控。即使在這樣的 Embodied AI 系統(tǒng)里 —— 我們多大程度上可以接受自己的車一邊開(kāi)一邊學(xué)，增強(qiáng)推理和理解場(chǎng)景的能力？多大程度上可以接受它犯錯(cuò)？誰(shuí)來(lái)承擔(dān)系統(tǒng)的錯(cuò)誤。

人的分工和相互信任建立在長(zhǎng)時(shí)間的社會(huì)穩(wěn)定和協(xié)作共贏之上，但人和機(jī)器如何做到互信，要花多久？當(dāng)智能能夠通過(guò)具身或者物理世界的載體和人交互，就不可避免會(huì)帶來(lái)倫理問(wèn)題，包括我在內(nèi)的大多數(shù)的技術(shù) / 科研工作者對(duì)此可能都一無(wú)所知，這里也就不多做討論。可以確定的是，AGI 時(shí)代會(huì)有更多的挑戰(zhàn)，關(guān)于 AI Safety 的探討也會(huì)更加迫切，當(dāng) Agent 有有了無(wú)限探索的能力和物理世界做交互的時(shí)候，碳基文明的存亡也有了實(shí)實(shí)在在的威脅。

在 AGI 的前夜，人類更加需要偉大哲學(xué)家的指引

[1] 過(guò)去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數(shù)據(jù)中構(gòu)建更好的獎(jiǎng)勵(lì)模型” 進(jìn)行探索

ICLR'24: RM for Math & Prompting;

ICML'24: Dense RM for RLHF;

RLC workshop'24: RM from Demonstration data;

DMRL'24: When is RM (off-policy-evaluation) useful?;

ICLR'25: foundation of RM from preference data;

Preprint (s)'25: Active RM, Infra for Embedding-based Efficient RM Research, PCA for Diverse/Personalized RM)

[2] 關(guān)于未來(lái)方向的暢想，理解和思路上距離在 Agent 方向深耕的研究難免會(huì)有偏差，煩請(qǐng)大家不吝斧正！

[3] 更早一些在 2023 年底的 NeurIPS 就有一篇工作是講外交類游戲博弈的，希望 LLM+Game 這個(gè)方向的未來(lái)不要步前幾年的 RL + 阿瓦隆 / 狼人殺 /xx 游戲的后塵，而是在選擇任務(wù)上多一些思考，做長(zhǎng)期更有價(jià)值的探索！

作者簡(jiǎn)介

孫浩是劍橋大學(xué) 4 年級(jí)在讀博士生，研究課題為強(qiáng)化學(xué)習(xí)和大語(yǔ)言模型的對(duì)齊（后訓(xùn)練）。他關(guān)于強(qiáng)化學(xué)習(xí)的研究涵蓋了稀疏獎(jiǎng)勵(lì)，獎(jiǎng)勵(lì)塑形，可解釋性等課題，研究發(fā)表于 NeurIPS 會(huì)議；在關(guān)于大語(yǔ)言模型對(duì)齊的工作中，重點(diǎn)關(guān)注如何從數(shù)據(jù)中獲得獎(jiǎng)勵(lì)函數(shù)，提升大模型在對(duì)話和數(shù)學(xué)上的能力，論文發(fā)表于 ICLR 會(huì)議，并參與貢獻(xiàn)了 AAAI2025 和 ACL2025 的系列課程報(bào)告。