
新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】華人學(xué)者參與的一項(xiàng)研究,重新確立了強(qiáng)化學(xué)習(xí)在LLM微調(diào)的價(jià)值,深度解釋了AI訓(xùn)練「兩階段強(qiáng)化學(xué)習(xí)」的原因。某種意義上,他們的論文說(shuō)明RL微調(diào)就是統(tǒng)計(jì)。
最近,英偉達(dá)的高級(jí)研究科學(xué)家、牛津大學(xué)博士yobibyte,推薦了今年3月份公布的arXiv預(yù)印本論文。
來(lái)自卡內(nèi)基梅隆大學(xué)和康奈爾大學(xué)等機(jī)構(gòu)的研究者,在論文中解釋了初看違反直覺的現(xiàn)象:從根本原理上看,微調(diào)基礎(chǔ)模型為什么要采用兩階段訓(xùn)練流程,才能達(dá)到最強(qiáng)的結(jié)果?

具體而言,當(dāng)前主流的兩階段方法需要訓(xùn)練獎(jiǎng)勵(lì)模型(reward model,RM)為下游強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)提供在線反饋;而不是直接通過(guò)離線最大似然估計(jì),對(duì)策略參數(shù)進(jìn)行優(yōu)化。
從信息論角度看,獎(jiǎng)勵(lì)模型的間接處理必然導(dǎo)致信息損失,而在線策略采樣(on-policy sampling)并沒有創(chuàng)造新信息。

論文鏈接:https://arxiv.org/abs/2503.01067
為解釋這一矛盾,研究人員通過(guò)理論與實(shí)證的雙重視角,系統(tǒng)檢驗(yàn)了關(guān)于RL在FT中價(jià)值的若干假說(shuō)。
在所有研究人員考察的假說(shuō)中,最具解釋力的發(fā)現(xiàn)是:當(dāng)任務(wù)存在「生成-驗(yàn)證」差距(generation-verification gap)時(shí),在線微調(diào)表現(xiàn)更好,是因?yàn)榻Y(jié)合了以下兩個(gè)因素:
1.驗(yàn)證器更易學(xué)習(xí):從偏好數(shù)據(jù)中學(xué)習(xí)相對(duì)簡(jiǎn)單的RM(驗(yàn)證器)更為容易
2.策略空間過(guò)濾:下游RL過(guò)程,可以把搜索空間限制在對(duì)驗(yàn)證器來(lái)說(shuō)最優(yōu)的策略(即生成器)上
正是這種機(jī)制帶來(lái)了在線微調(diào)的優(yōu)越性能。

圖1:在線微調(diào)優(yōu)越性能的解釋
LLM微調(diào):強(qiáng)化學(xué)習(xí)重要嗎?
在學(xué)術(shù)界、工業(yè)界和開源社區(qū)的對(duì)比研究中,有一種反復(fù)出現(xiàn)的現(xiàn)象:相對(duì)復(fù)雜的雙階段在線微調(diào)方法,普遍優(yōu)于更簡(jiǎn)單、純離線的方案。
更廣義地說(shuō),交互式監(jiān)督微調(diào)(supervised fine-tuning,SFT),也已經(jīng)被證明優(yōu)于傳統(tǒng)的「next-token prediction」訓(xùn)練方式。
值得注意的是,當(dāng)前最先進(jìn)的復(fù)雜推理模型(如OpenAI的o1和DeepSeek的r1)依然采用在線強(qiáng)化學(xué)習(xí)訓(xùn)練,而非離線最大似然估計(jì)。
這些現(xiàn)象引出了一個(gè)根本性問(wèn)題——
如果只是想最大化似然函數(shù),那么采用雙階段、交互式的微調(diào)流程到底有什么價(jià)值?
后訓(xùn)練的理論難題
之所以難以對(duì)此給出令人滿意的回答,部分原因在于,傳統(tǒng)強(qiáng)化學(xué)習(xí)的在線訓(xùn)練理論,難以直接遷移至基礎(chǔ)模型的后訓(xùn)練場(chǎng)景。
一些反直覺的發(fā)現(xiàn)似乎暗示:當(dāng)前主流的交互式訓(xùn)練范式,可能只是條「鍍金」而非「真金」的技術(shù)路徑。
對(duì)此,研究者從理論和實(shí)證兩個(gè)角度深入分析了強(qiáng)化學(xué)習(xí)在微調(diào)(FT)中的價(jià)值,主要聚焦于偏好微調(diào)(preference fine-tuning)。
同時(shí)也指出類似的分析可以應(yīng)用于監(jiān)督微調(diào)(SFT)和基于驗(yàn)證器的強(qiáng)化學(xué)習(xí)場(chǎng)景。
他們的主要貢獻(xiàn)包括以下三點(diǎn):
1. 等價(jià)性證明
在理想化假設(shè)下,在線和離線的PFT技術(shù)應(yīng)當(dāng)能產(chǎn)生質(zhì)量相當(dāng)?shù)牟呗浴?/strong>
2. 反對(duì)先前假設(shè)的證據(jù)
特別地,他們提出證據(jù)反對(duì)多種已有的解釋。
3. 備擇假設(shè)的證據(jù)
他們提出并驗(yàn)證了一個(gè)新的假設(shè),用于解釋存在「生成-驗(yàn)證」差距的問(wèn)題中,強(qiáng)化學(xué)習(xí)的作用。
兩階段交互式微調(diào)的價(jià)值假設(shè):兩階段交互式微調(diào)將待探索的策略空間,縮減至僅適用于相對(duì)簡(jiǎn)單的驗(yàn)證器最優(yōu)策略集合。
用統(tǒng)計(jì)學(xué)習(xí)的術(shù)語(yǔ)來(lái)說(shuō),這個(gè)假設(shè)意味著,強(qiáng)化學(xué)習(xí)在微調(diào)中的真正價(jià)值在于:它是目前已知的最方便的「適當(dāng)學(xué)習(xí)」(proper learning)方法。
相比之下,離線方法屬于「不當(dāng)學(xué)習(xí)」(improper learning)。
在檢驗(yàn)的所有假設(shè)中,反對(duì)這一假設(shè)的證據(jù)最少。
接下來(lái),我們將一睹在線與離線偏好微調(diào)(PFT)之間的一系列等價(jià)定理,并進(jìn)一步探討,如何將這些理論等價(jià)性與現(xiàn)實(shí)中在線/離線性能差距的問(wèn)題統(tǒng)一起來(lái)。
統(tǒng)一角度下的RL微調(diào)
這部分將從似然函數(shù)的角度,統(tǒng)一不同的偏好微調(diào)方法。
統(tǒng)一的獎(jiǎng)勵(lì)模型
下文用Π表示策略集合,用R表示獎(jiǎng)勵(lì)模型集合,其中每個(gè)獎(jiǎng)勵(lì)模型r∈R都是從完整軌跡集合映射到實(shí)數(shù)的函數(shù)
在實(shí)際應(yīng)用中,通常策略模型和獎(jiǎng)勵(lì)模型使用相同的網(wǎng)絡(luò)架構(gòu),并且往往從相同的初始權(quán)重(checkpoint)和數(shù)據(jù)集出發(fā)進(jìn)行訓(xùn)練。
這種對(duì)整個(gè)軌跡進(jìn)行評(píng)估、依賴完整上下文的獎(jiǎng)勵(lì)模型被稱為「全局獎(jiǎng)勵(lì)模型」(global reward models),即非馬爾可夫型獎(jiǎng)勵(lì)模型。
但策略與獎(jiǎng)勵(lì)模型的聯(lián)系不止于共享模型架構(gòu)。
更進(jìn)一步地,當(dāng)獎(jiǎng)勵(lì)模型的形式為:策略對(duì)每一個(gè)token的對(duì)數(shù)概率之和時(shí),二者之間存在更精確的「結(jié)構(gòu)同構(gòu)」關(guān)系。
形式化地,「局部獎(jiǎng)勵(lì)模型」(local reward models)定義為:
即,每個(gè)局部獎(jiǎng)勵(lì)模型都是某個(gè)策略π生成的軌跡上所有token的對(duì)數(shù)概率之和。
由此可得:
這類獎(jiǎng)勵(lì)模型和策略集合之間存在一一對(duì)應(yīng)關(guān)系。
統(tǒng)一的微調(diào)目標(biāo)函數(shù)
從整體上來(lái)看,可以將各種微調(diào)任務(wù)(例如監(jiān)督微調(diào)SFT、偏好微調(diào)PFT)統(tǒng)一地表述為以下形式的策略優(yōu)化問(wèn)題:
這個(gè)目標(biāo)函數(shù)包含兩個(gè)部分:第一項(xiàng)是正向KL散度,第二項(xiàng)目是反向KL散度。
為簡(jiǎn)化表述,暫時(shí)設(shè)β=1,并將第二項(xiàng)的KL正則項(xiàng)替換為熵正則項(xiàng)(即與「均勻策略」的KL散度):
其中,(π)表示策略π的(因果)熵,其定義為:
也就是說(shuō),熵越大,策略越「分散」或「探索性強(qiáng)」,這在優(yōu)化中起到與KL正則類似的作用。
無(wú)論是在線還是離線的偏好微調(diào)方法(PFT),都可以看作是在優(yōu)化這個(gè)統(tǒng)一的目標(biāo)函數(shù),只不過(guò)使用的手段和路徑截然不同。
統(tǒng)一目標(biāo)函數(shù)的普適性
值得注意的是,這個(gè)目標(biāo)函數(shù)并不局限于偏好微調(diào);
同樣也適用于:監(jiān)督微調(diào)(SFT);使用二分類標(biāo)簽(0/1)訓(xùn)練出的獎(jiǎng)勵(lì)模型所驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)(RL with reward models)。
也就是說(shuō),這是一個(gè)廣義的、適用于多種微調(diào)方式的統(tǒng)一框架。
極大似然=最小化正向KL散度
最大似然估計(jì)(maximum likelihood estimation,MLE)等價(jià)于最小化從經(jīng)驗(yàn)數(shù)據(jù)分布到模型分布的正向KL散度(Forward KL)。
在偏好建模中,這一點(diǎn)同樣成立。
以經(jīng)典的Bradley-Terry模型為例,偏好概率可以表示為:
其中「?」表示「更偏好」(preferred to),σ是sigmoid函數(shù)。
換句話說(shuō),每一個(gè)全局獎(jiǎng)勵(lì)模型對(duì)應(yīng)一個(gè)Bradley-Terry概率模型。
接下來(lái)的目標(biāo)是在訓(xùn)練數(shù)據(jù)上,最大化這種概率模型的似然函數(shù),來(lái)找到最優(yōu)的獎(jiǎng)勵(lì)模型。

可以看到,擬合全局獎(jiǎng)勵(lì)模型,實(shí)際上就是在解決標(biāo)準(zhǔn)的邏輯回歸/分類問(wèn)題。
類似地,如果使用的是局部獎(jiǎng)勵(lì)模型r^π(也就是由策略π生成的對(duì)數(shù)概率之和),那么也可以通過(guò)最大似然估計(jì)(MLE)來(lái)擬合這個(gè)策略。
方法是將r^π表示為對(duì)數(shù)概率的和,代入Bradley-Terry模型中:

在不考慮參考策略π_ref的前提下,像直接偏好優(yōu)化(Direct Preference Optimization,DPO)這樣的離線偏好微調(diào)(offline PFT)方法的本質(zhì):
局部獎(jiǎng)勵(lì)模型,是在軌跡級(jí)別上進(jìn)行的分類問(wèn)題。
換句話說(shuō),DPO的核心就是:讓策略學(xué)會(huì)判別「好」軌跡與「差」軌跡,學(xué)習(xí)目標(biāo)與邏輯回歸極其類似。
最大熵=軟強(qiáng)化學(xué)習(xí)
給定一個(gè)全局獎(jiǎng)勵(lì)模型r,我們通常希望計(jì)算其對(duì)應(yīng)的軟最優(yōu)策略(soft-optimal policy)
也就是說(shuō),大家希望找到一個(gè)策略,在期望獎(jiǎng)勵(lì)最大化的同時(shí),同時(shí)保持一定的熵(探索性)。
如果在所有馬爾可夫策略上對(duì)上式求得閉式解,那么最終得到的策略,其在給定提示詞s_0下生成軌跡的分布為:
其中Z(r,s_0)是歸一化常數(shù),確保所有概率之和為1。
請(qǐng)注意,如果兩個(gè)軌跡ξ1,ξ2具有相同的起始提示詞s_0,則它們之間的偏好概率可以寫成:
換句話說(shuō),BT模型中的偏好概率,其實(shí)可以看作是軟最優(yōu)策略下軌跡概率的對(duì)數(shù)差的sigmoid函數(shù)。
一個(gè)重要但不太為人所知的觀點(diǎn)是:
求解上述軟強(qiáng)化學(xué)習(xí)問(wèn)題,其實(shí)等價(jià)于將Pr?進(jìn)行反向KL投影(Reverse KL Projection)到策略誘導(dǎo)的軌跡分布空間中。
在線與離線策略微調(diào)(PFT)均可視為對(duì)公式(3)的求解。
離線方法直接在策略類Π上,通過(guò)前向KL散度將偏好數(shù)據(jù)集D投影到策略空間。
而在線方法則首先在獎(jiǎng)勵(lì)模型類R下將D進(jìn)行投影,再通過(guò)策略優(yōu)化映射至策略空間。

圖2:在線與離線策略微調(diào)(PFT)均可視為對(duì)公式(3)的求解。

同構(gòu)類別之間的等價(jià)性
前面的討論引出了一個(gè)問(wèn)題:如果最終還是回到策略空間(policy space),那么引入獎(jiǎng)勵(lì)模型(reward model)繞一步遠(yuǎn)路到底有什么意義?
下面將證明,在某些假設(shè)條件下,這么做其實(shí)只是在用一種更曲折的方式實(shí)現(xiàn)似然最大化。
現(xiàn)在給出第一個(gè)等價(jià)性結(jié)論。
在沒有參考策略(reference policy)的情況下,在線和離線的偏好微調(diào)(PFT,Preference Fine-Tuning)會(huì)得到相同的解,如果滿足一些額外的特定假設(shè)。

換一種更傳統(tǒng)的說(shuō)法,這意味著最大似然估計(jì)對(duì)重參數(shù)(reparameterization)是「不變」的。
在假設(shè)函數(shù)可以被實(shí)現(xiàn)的前提下,還可以在引入?yún)⒖疾呗?/strong>的情況下證明一個(gè)類似的結(jié)果:

綜上所述,前述結(jié)果表明:在特定假設(shè)條件下,所有路徑最終都?xì)w結(jié)為似然函數(shù)。
也就是說(shuō),相較于離線極大似然估計(jì),投入計(jì)算資源進(jìn)行策略采樣(on-policy sampling)并不能帶來(lái)顯著優(yōu)勢(shì)。
為了更深入地理解前述理論的局限性,研究者設(shè)計(jì)并開展了一系列受控實(shí)驗(yàn),用以檢驗(yàn)提出的各種假設(shè)。
強(qiáng)化學(xué)習(xí)的5大假設(shè)
這次的論文聚焦于一個(gè)典型任務(wù):通過(guò)偏好反饋學(xué)習(xí)摘要生成。
實(shí)驗(yàn)中,在線DPO與離線DPO之間的唯一區(qū)別是訓(xùn)練數(shù)據(jù)不同
——兩者的超參數(shù)完全一致。
在圖3中可以看到,盡管盡可能控制了干擾因素,但在線DPO的表現(xiàn)依然明顯優(yōu)于離線DPO。

為了消除「操控」評(píng)估器的疑慮,圖4計(jì)算了統(tǒng)一的PFT目標(biāo)函數(shù)即公式(2)。即便把gpt-4o從評(píng)估流程中移除,在線PFT的表現(xiàn)仍然優(yōu)于離線PFT。

簡(jiǎn)而言之,在上述嚴(yán)格控制條件下進(jìn)行的實(shí)驗(yàn)結(jié)果,與此前的多項(xiàng)研究一致:在線偏好微調(diào)(PFT)優(yōu)于離線 PFT。
類似的結(jié)論也出現(xiàn)在其他相關(guān)領(lǐng)域,例如:監(jiān)督微調(diào)(SFT)中的強(qiáng)化學(xué)習(xí)價(jià)值;基于驗(yàn)證器的訓(xùn)練方法中強(qiáng)化學(xué)習(xí)的效果表現(xiàn)也具有類似優(yōu)勢(shì)。
接下來(lái)是對(duì)5種RL微調(diào)假設(shè)的反駁。
假設(shè)H1:在線樣本的內(nèi)在價(jià)值
從直覺上看,相比于使用離線數(shù)據(jù)集,從當(dāng)前策略下更可能出現(xiàn)的樣本中獲取反饋,似乎更有價(jià)值。
但問(wèn)題在于,究竟是什么機(jī)制讓on-policy數(shù)據(jù)在策略優(yōu)化中真正起作用?特別是考慮到這些數(shù)據(jù)的標(biāo)簽,只是由一個(gè)訓(xùn)練自相同離線數(shù)據(jù)集的獎(jiǎng)勵(lì)模型推斷出來(lái)的。
在信息論的角度下,根據(jù)數(shù)據(jù)處理不等式,on-policy數(shù)據(jù)本質(zhì)上是冗余的。
這是因?yàn)閺漠?dāng)前策略中采樣,無(wú)法創(chuàng)造出任何「新的」信息(即真正的人類偏好)來(lái)用于學(xué)習(xí)。
假設(shè)H2:離線PFT對(duì)參考策略正則化無(wú)效
盡管KL正則化在某種程度上導(dǎo)致了在線與離線方法之間的性能差距,但多個(gè)證據(jù)表明,它并不能完全解釋這種差距。
首先,DPO中直接添加反向KL懲罰項(xiàng),無(wú)法徹底彌補(bǔ)與真正在線PFT方法之間的差距,即便有助于改善性能。
其次,一些并不顯式地將策略正則化到參考策略的PFT方法,在多個(gè)基準(zhǔn)測(cè)試中依然表現(xiàn)優(yōu)異。
第三,在某些微調(diào)任務(wù)中,保持與參考策略的接近并不是一個(gè)特別有幫助的策略,但實(shí)驗(yàn)中仍然觀察到在線方法優(yōu)于離線方法。
最后,圖3展示的實(shí)驗(yàn)中,在線與離線算法使用的是相同的正則項(xiàng),但依然觀察到了性能上的差距。
假設(shè)H3:在線PFT相對(duì)更容易
有人可能會(huì)提出這樣的問(wèn)題:離線PFT是否面臨比在線PFT更難的優(yōu)化問(wèn)題,從而更容易陷入額外的局部最優(yōu)解?
然而,在實(shí)驗(yàn)中,在線與離線PFT都使用的是同一個(gè)優(yōu)化器(DPO)。
兩者之間唯一的區(qū)別只是輸入的數(shù)據(jù)不同。
因此,很難解釋為什么在使用相同數(shù)量的樣本、相同的優(yōu)化器的前提下,在線樣本就能讓優(yōu)化變得更容易。
對(duì)這一假設(shè)的進(jìn)一步解釋,涉及「計(jì)算-統(tǒng)計(jì)差距」(computational-statistical gaps)這一現(xiàn)象:
在某些問(wèn)題中,即使從信息論角度看某些數(shù)據(jù)是冗余的,它們?nèi)钥梢?strong>減少找到問(wèn)題解所需的計(jì)算量。
因此,可以把這些(信息冗余的)on-policy樣本看作是對(duì)策略搜索空間施加的額外「約束」,有助于優(yōu)化過(guò)程的收斂。
為了驗(yàn)證這一假設(shè)是否成立,擴(kuò)大用于訓(xùn)練在線DPO策略的偏好數(shù)據(jù)集的規(guī)模,研究人員進(jìn)行了提示增強(qiáng)(prompt augmentation),幾乎將訓(xùn)練集的規(guī)模擴(kuò)大了三倍。
按照直覺,如果這個(gè)細(xì)化后的假設(shè)是正確的,那么這些「冗余」的樣本應(yīng)該能帶來(lái)策略性能的提升。
然而,在圖5中的結(jié)果卻相反:下游任務(wù)的勝率幾乎沒有任何提升。
這種現(xiàn)象與該假設(shè)的預(yù)測(cè)并不一致,從而反駁了該假設(shè)。

圖5:將在線DPO所使用的提示(prompts)擴(kuò)展對(duì)勝率的影響。
假設(shè)H4:全局獎(jiǎng)勵(lì)模型利用更多數(shù)據(jù)訓(xùn)練
目前最好的全局獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù),往往在比離線PFT使用的偏好數(shù)據(jù)集更廣泛。
因此,一個(gè)自然的問(wèn)題是:在本質(zhì)上,是否全局獎(jiǎng)勵(lì)模型就更容易從廣泛分布的數(shù)據(jù)中學(xué)習(xí),而相比之下,局部獎(jiǎng)勵(lì)模型或策略模型則沒有這種能力。
在圖6中,基于SFT策略進(jìn)行的在線DPO,與離線DPO的表現(xiàn)大致相當(dāng)。
但令人意外的是:當(dāng)在離線DPO策略的基礎(chǔ)上,研究人員繼續(xù)進(jìn)行在線DPO訓(xùn)練時(shí),性能仍然有提升,盡管所有模型都是用一個(gè)相對(duì)狹窄、on-policy的數(shù)據(jù)集訓(xùn)練的。這種結(jié)果并不符合該假設(shè)的預(yù)期。

圖6:在離線DPO策略基礎(chǔ)上實(shí)施在線DPO迭代能提升勝率
至少在作者研究的問(wèn)題類型上,并沒有證據(jù)表明:在利用數(shù)據(jù)分布方面,策略模型和獎(jiǎng)勵(lì)模型存在本質(zhì)上的差異。
假設(shè)H5:全局獎(jiǎng)勵(lì)模型泛化能力更強(qiáng)
還有一種假設(shè):獎(jiǎng)勵(lì)模型在分布外(out-of-distribution, OOD)具有比策略更好的泛化能力。
在視覺推理等任務(wù)中找到了類似的實(shí)證,支持這種差異確實(shí)存在。
不過(guò),這一假設(shè)背后還有一些未解之謎。為此,研究者設(shè)計(jì)了一系列實(shí)驗(yàn)。
首先在驗(yàn)證集上,比較了使用相同骨干模型的DPO獎(jiǎng)勵(lì)模型、局部(Local)獎(jiǎng)勵(lì)模型和全局(Global)獎(jiǎng)勵(lì)模型的似然得分(即作為分類器時(shí)的分布內(nèi)泛化能力)。
如圖7所示,研究人員穩(wěn)定地觀察到:當(dāng)強(qiáng)制采用逐token的分解方式(token-wise decomposition)時(shí),模型在分布內(nèi)的表現(xiàn)反而變差。
此外,加入正則化也會(huì)進(jìn)一步削弱獎(jiǎng)勵(lì)模型在留出數(shù)據(jù)上的分類準(zhǔn)確率。

圖7:從全局獎(jiǎng)勵(lì)模型轉(zhuǎn)換到局部獎(jiǎng)勵(lì)模型,或從局部獎(jiǎng)勵(lì)模型轉(zhuǎn)換到DPO獎(jiǎng)勵(lì)模型對(duì)驗(yàn)證準(zhǔn)確性的影響
接下來(lái),他們?cè)u(píng)估這些模型在分布外(OOD)條件下的泛化能力。
具體做法是:在來(lái)自SFT策略和離線DPO策略的樣本上,測(cè)試它們的Best-Of-N(BoN)性能。
正如圖8所示,隨著N的增加,模型在分布內(nèi)的驗(yàn)證似然越高,其BoN性能也越好,兩者呈現(xiàn)出完美的相關(guān)性。

圖8:全局(global)、局部(local)和DPO獎(jiǎng)勵(lì)模型在Best-Of-N(BoN)勝率上的表現(xiàn)
簡(jiǎn)要總結(jié):盡管從信息論角度來(lái)看,在線PFT和離線PFT并沒有本質(zhì)的區(qū)別,但在不同的采樣分布、打分方式和模型規(guī)模下,在線PFT一直優(yōu)于離線PFT
此外,全局獎(jiǎng)勵(lì)模型似乎比局部獎(jiǎng)勵(lì)模型更容易學(xué)習(xí),在驗(yàn)證集上的似然得分也更高。
生成與驗(yàn)證差距:H6假設(shè)
竟然上面的假設(shè)都站不住腳,不禁要問(wèn):是否存在某些理論分析中未考慮到的問(wèn)題特征?
一種可能的解釋是:在很多實(shí)際任務(wù)中,獎(jiǎng)勵(lì)函數(shù)本身比對(duì)應(yīng)的(軟)最優(yōu)策略要簡(jiǎn)單。
這個(gè)觀點(diǎn)正是經(jīng)典逆強(qiáng)化學(xué)習(xí)(inverse RL)理論背后的核心論點(diǎn)——
相比于行為克?。赐ㄟ^(guò)最大似然直接學(xué)習(xí)策略),從示范中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)再用強(qiáng)化學(xué)習(xí)解碼策略,可能是一種更優(yōu)的策略學(xué)習(xí)方式。
將策略視為生成器,獎(jiǎng)勵(lì)模型視為驗(yàn)證器,可以把上述論點(diǎn)理解為計(jì)算機(jī)科學(xué)中廣泛存在的現(xiàn)象:生成通常比驗(yàn)證更困難。
根據(jù)標(biāo)準(zhǔn)的一致收斂理論(uniform convergence),可以推斷出:要想準(zhǔn)確學(xué)習(xí)驗(yàn)證器所需的樣本數(shù)量,應(yīng)當(dāng)少于學(xué)習(xí)生成器所需的樣本。
然而,一系列研究發(fā)現(xiàn):過(guò)參數(shù)化模型(如深度神經(jīng)網(wǎng)絡(luò))在使用隨機(jī)梯度下降(SGD)優(yōu)化時(shí),往往可以無(wú)需更多樣本就學(xué)到較淺的計(jì)算電路。
在實(shí)際中,更大的網(wǎng)絡(luò)通常并不會(huì)帶來(lái)更高的樣本復(fù)雜度。
基于前文的觀察,作者提出了一個(gè)新的假設(shè),用以解釋在滿足以下兩種條件的問(wèn)題中,在線與離線微調(diào)之間性能差距的根本原因:
1. 存在生成與驗(yàn)證之間的難度差距(generation-verification gap);
2. 獎(jiǎng)勵(lì)函數(shù)類中包含的函數(shù)越簡(jiǎn)單,越容易通過(guò)少量樣本學(xué)得。

在統(tǒng)計(jì)學(xué)習(xí)理論中,如果一個(gè)算法需要在比目標(biāo)函數(shù)所在集合更大的假設(shè)空間中進(jìn)行搜索,這被稱為不當(dāng)學(xué)習(xí)(improper learning)。
換句話說(shuō),這一假設(shè)認(rèn)為:
離線微調(diào)是在更難的、不當(dāng)學(xué)習(xí)問(wèn)題上做優(yōu)化;
而在線微調(diào)則通過(guò)構(gòu)建獎(jiǎng)勵(lì)模型、限制搜索空間,有效地將問(wèn)題簡(jiǎn)化成「適當(dāng)學(xué)習(xí)」問(wèn)題,從而降低了問(wèn)題復(fù)雜度,帶來(lái)了更好的最終性能。
這一假設(shè)明確指出:在統(tǒng)計(jì)學(xué)習(xí)難度上,在線與離線微調(diào)方法之間存在本質(zhì)差異,從而為兩者性能差距提供了一種新的理論解釋。
在「可實(shí)現(xiàn)性假設(shè)」(realizability assumption)下,作者進(jìn)一步提出了一個(gè)正式的定理:


通俗地說(shuō),這個(gè)定理說(shuō)明:如果第二步中基于RL的反向KL投影過(guò)程不會(huì)帶來(lái)信息損失,那么RLHF就能從受限策略空間中恢復(fù)出最大似然估計(jì)的解。
然而,問(wèn)題在于:大家都不知道如何在實(shí)踐中真正施加這個(gè)「策略空間約束」,除非像在線微調(diào)那樣,先訓(xùn)練一個(gè)相對(duì)簡(jiǎn)單的獎(jiǎng)勵(lì)模型,再用RL去優(yōu)化它——也就是通過(guò)兩階段的過(guò)程自然實(shí)現(xiàn)這一限制。
從直覺上講,這個(gè)假設(shè)可以理解為:雖然所有方法最終都指向最大似然估計(jì)(likelihood),但如果基于一個(gè)相對(duì)簡(jiǎn)單的獎(jiǎng)勵(lì)模型進(jìn)行強(qiáng)化學(xué)習(xí)(RL),就等于在策略空間中走了一條「捷徑」。
無(wú)法證偽的H6假設(shè)
首先,有一個(gè)自然的問(wèn)題:對(duì)于摘要生成這類具體任務(wù),有什么證據(jù)表明「驗(yàn)證比生成更容易」?
根據(jù)圖9可以發(fā)現(xiàn),即便使用的全局獎(jiǎng)勵(lì)模型比生成策略的模型小得多,其Best-of-N(BoN)性能與使用和策略模型同等規(guī)模的獎(jiǎng)勵(lì)模型幾乎沒有區(qū)別。
反過(guò)來(lái)也成立:即使使用比生成策略更大的全局獎(jiǎng)勵(lì)模型,其BoN表現(xiàn)也沒有顯著提升。
這說(shuō)明,在這一任務(wù)中,「驗(yàn)證器」并不需要像生成器那樣復(fù)雜,也能實(shí)現(xiàn)相似效果——驗(yàn)證確實(shí)更簡(jiǎn)單。

圖9:在不同基礎(chǔ)策略規(guī)模下,全局獎(jiǎng)勵(lì)模型規(guī)模與BoN性能之間的關(guān)聯(lián)性
接下來(lái)觀察到:假設(shè)H6,能準(zhǔn)確解釋之前所有的實(shí)驗(yàn)現(xiàn)象。
比如,在線微調(diào)表現(xiàn)更優(yōu)(圖3/圖4),可以通過(guò)策略搜索空間有效縮減來(lái)解釋;
即便在加入提示增強(qiáng)(圖5)、樣本或標(biāo)簽分布變化(圖6)等條件下,結(jié)果仍成立;
總結(jié)來(lái)說(shuō),這些變量(數(shù)據(jù)量、分布、模型規(guī)模等)都沒有改變「生成vs驗(yàn)證」的相對(duì)難度本質(zhì),所以才可以始終能觀察到在線與離線PFT之間一致的性能差距。
這也就意味著:目前的實(shí)證結(jié)果無(wú)法推翻假設(shè)H6。
在圖10中,研究者發(fā)現(xiàn)一個(gè)關(guān)鍵結(jié)果:
與此前所有實(shí)驗(yàn)不同,「生成難度≈驗(yàn)證難度」的簡(jiǎn)化設(shè)置下,在線DPO沒有顯著提升離線DPO策略的性能。
這與假設(shè)H6的預(yù)測(cè)一致:只有當(dāng)策略比獎(jiǎng)勵(lì)函數(shù)更復(fù)雜時(shí),在線PFT才能通過(guò)「先學(xué)簡(jiǎn)單獎(jiǎng)勵(lì)、再做策略優(yōu)化」來(lái)縮小搜索空間,從而優(yōu)于離線PFT。
而當(dāng)生成過(guò)程本身足夠簡(jiǎn)單時(shí),這種優(yōu)勢(shì)自然也就不復(fù)存在了。

此外研究者使用ROUGE-L指標(biāo)作為獎(jiǎng)勵(lì)函數(shù),進(jìn)行了實(shí)驗(yàn)。
該指標(biāo)本質(zhì)上是計(jì)算生成摘要中有多少單詞(按順序)出現(xiàn)在人工參考摘要中。
對(duì)于此類問(wèn)題,最低復(fù)雜度的驗(yàn)證器只需包含從提示語(yǔ)到參考摘要文本的查找表。
這意味著生成與驗(yàn)證的復(fù)雜度理應(yīng)相當(dāng)。
從直觀上看,這種設(shè)置實(shí)際上增加了獎(jiǎng)勵(lì)函數(shù)的復(fù)雜性。
如圖11所示,與之前所有實(shí)驗(yàn)結(jié)果不同,基于學(xué)習(xí)得到的全局獎(jiǎng)勵(lì)模型進(jìn)行在線DPO迭代,并未提升基礎(chǔ)離線DPO策略的性能。
然而,額外增加一輪離線DPO訓(xùn)練確實(shí)(稍微)提高了ROUGE-L分?jǐn)?shù),這表明尚未達(dá)到ROUGE-L指標(biāo)下的理論性能上限。

量化生成與驗(yàn)證的性能差距
另一個(gè)自然的問(wèn)題是:到底需要多少真正的人類偏好樣本,才能讓H6所描述的「在線與離線PFT的統(tǒng)計(jì)差異」消失?
圖12顯示即使逐步減少訓(xùn)練所用偏好數(shù)據(jù)集的比例,在線和離線PFT在勝率上的差距依然相對(duì)穩(wěn)定。
需要說(shuō)明的是,這一結(jié)果并不與假設(shè)相矛盾——
隨著數(shù)據(jù)量增加,可能在學(xué)習(xí)一系列復(fù)雜度遞增的獎(jiǎng)勵(lì)模型(RM),而每個(gè)RM仍比其對(duì)應(yīng)的軟最優(yōu)策略更簡(jiǎn)單。
不過(guò),H6預(yù)測(cè)在數(shù)據(jù)量趨于無(wú)限時(shí),這個(gè)差距應(yīng)該會(huì)消失。
因?yàn)楫?dāng)樣本足夠多時(shí),我們將獲得足以完全確定狀態(tài)空間中所有位置生成器的數(shù)據(jù)——此時(shí)即使擁有完美驗(yàn)證器也無(wú)法提供新信息。
圖12的結(jié)果表明,對(duì)于摘要生成這一具體任務(wù),要完全確定生成器所需的數(shù)據(jù)量可能顯著超過(guò)現(xiàn)有訓(xùn)練集規(guī)模。

在其他任務(wù)中也有類似的發(fā)現(xiàn),即先學(xué)習(xí)驗(yàn)證器(獎(jiǎng)勵(lì)模型)再學(xué)習(xí)生成器(策略)優(yōu)于直接學(xué)習(xí)生成器。
這類方法在其他的一些場(chǎng)景也取得了顯著效果,進(jìn)一步的支持了H6假設(shè)成立。
同構(gòu)關(guān)系并非雙向?qū)Φ?/strong>
大家心中可能仍有一個(gè)疑問(wèn):如果在軟強(qiáng)化學(xué)習(xí)(soft RL)中,策略與獎(jiǎng)勵(lì)是同構(gòu)的,為什么學(xué)習(xí)其中一個(gè)會(huì)比另一個(gè)更難?
的確,依據(jù)公式(11),可以從獎(jiǎng)勵(lì)函數(shù)推導(dǎo)出軌跡分布,然后通過(guò)軟值迭代(soft value iteration)從中恢復(fù)出對(duì)應(yīng)的策略。
Rafailov等人提出了一個(gè)非常巧妙的觀點(diǎn):
我們其實(shí)可以逆轉(zhuǎn)這種同構(gòu)關(guān)系,即從策略反推出獎(jiǎng)勵(lì)(最多差一個(gè)與prompt相關(guān)的偏移項(xiàng),而該項(xiàng)會(huì)在Bradley-Terry似然中抵消)。
也就是說(shuō),我們可以將一個(gè)局部獎(jiǎng)勵(lì)模型用它隱含的軟最優(yōu)策略來(lái)表示,見公式(9)。

論文鏈接:https://arxiv.org/abs/2305.18290
然而,Rafailov等在論文中指出,將局部獎(jiǎng)勵(lì)模型視為Q函數(shù)而非原始獎(jiǎng)勵(lì)函數(shù),會(huì)更貼近實(shí)際情況。
Q函數(shù)本質(zhì)上是一個(gè)更復(fù)雜且形式上不同的對(duì)象。
雖然這種「形式上的同構(gòu)」存在,但它并不意味著在兩個(gè)方向上的映射是對(duì)等的。
從獎(jiǎng)勵(lì)函數(shù)R映射到策略或Q函數(shù),需要通過(guò)強(qiáng)化學(xué)習(xí)求解,這是一個(gè)困難的問(wèn)題;而在策略與Q函數(shù)之間的轉(zhuǎn)換,只需進(jìn)行簡(jiǎn)單的對(duì)數(shù)/指數(shù)(log/exp)運(yùn)算。
換句話說(shuō):試圖學(xué)習(xí)一個(gè)Q函數(shù),其實(shí)就等價(jià)于直接學(xué)習(xí)對(duì)應(yīng)的策略;
因此,像DPO這類優(yōu)化局部獎(jiǎng)勵(lì)模型(本質(zhì)上是Q函數(shù))的方法,并沒有繞開直接學(xué)習(xí)生成器所面臨的統(tǒng)計(jì)難題。

結(jié)論是:
雖然策略與獎(jiǎng)勵(lì)之間存在同構(gòu)關(guān)系,但這條路不是雙向道。
作者介紹
Wen Sun

從2020年7月起,他是美國(guó)康奈爾大學(xué)計(jì)算機(jī)科學(xué)系助理教授。
他擁有卡內(nèi)基梅隆大學(xué)博士學(xué)位。
2014年,他于北卡羅來(lái)納大學(xué)教堂山分校獲得計(jì)算機(jī)科學(xué)碩士學(xué)位。
2012年,他完成浙江大學(xué)與加拿大西蒙菲莎大學(xué)大學(xué)雙學(xué)位項(xiàng)目,并獲得了計(jì)算機(jī)科學(xué)學(xué)士。
他榮獲2025年斯隆研究獎(jiǎng)、2024年美國(guó)國(guó)家科學(xué)基金會(huì)職業(yè)獎(jiǎng)。
Zhiwei Steven Wu

他現(xiàn)任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院助理教授,主要任職于軟件與社會(huì)系統(tǒng)系(社會(huì)計(jì)算項(xiàng)目),同時(shí)兼任機(jī)器學(xué)習(xí)系和人機(jī)交互研究所教職。此外,還擔(dān)任CyLab安全研究所與理論組成員。
2017年6月,他博士畢業(yè)于賓夕法尼亞大學(xué)。
2012年5月,他從巴德學(xué)院本科畢業(yè),獲得數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
他的研究興趣廣泛涵蓋算法與機(jī)器學(xué)習(xí)領(lǐng)域。
參考資料:
https://x.com/y0b1byte/status/1920035553589740004
熱門跟貼