
廣義優(yōu)勢估計(jì)(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的論文中提出,是近端策略優(yōu)化(PPO)算法的重要基礎(chǔ)理論,也是促使PPO成為高效強(qiáng)化學(xué)習(xí)算法的核心因素之一。
GAE的理論基礎(chǔ)建立在資格跡(eligibility traces)和時(shí)序差分λ(TD-λ)之上,為深入理解GAE的核心價(jià)值,我們需要先分析其解決的根本問題。
強(qiáng)化學(xué)習(xí)中的核心問題
在策略梯度方法及廣義強(qiáng)化學(xué)習(xí)框架中,信用分配問題(credit assignment problem)始終是一個關(guān)鍵挑戰(zhàn):當(dāng)系統(tǒng)中的獎勵延遲出現(xiàn)時(shí),如何準(zhǔn)確地判定哪些歷史動作應(yīng)當(dāng)獲得強(qiáng)化?
這一問題本質(zhì)上是尋求偏差(bias)與方差(variance)之間的最佳平衡點(diǎn)。當(dāng)算法考慮遠(yuǎn)期回報(bào)以強(qiáng)化當(dāng)前動作時(shí),會引入較大方差,因?yàn)闇?zhǔn)確估計(jì)真實(shí)期望回報(bào)需要大量采樣軌跡。當(dāng)算法僅關(guān)注短期回報(bào)時(shí),會導(dǎo)致估計(jì)偏差增大,特別是當(dāng)我們將狀態(tài)價(jià)值估計(jì)為較小步數(shù)(如TD殘差為1時(shí))的n步回報(bào)加權(quán)平均時(shí)。
現(xiàn)有技術(shù)工具
在解決上述問題方面,強(qiáng)化學(xué)習(xí)領(lǐng)域已有資格跡和λ-returns等工具,以及Sutton與Barto在《強(qiáng)化學(xué)習(xí)導(dǎo)論》中詳細(xì)討論的TD-λ算法。而λ-returns方法需要完整的訓(xùn)練回合(episode)才能進(jìn)行計(jì)算,傳統(tǒng)TD-λ作為一個完整算法,直接將資格跡整合到梯度向量中。在PPO等現(xiàn)代算法中,我們期望將優(yōu)勢函數(shù)作為損失函數(shù)的一部分,這與TD-λ的直接應(yīng)用方式不相兼容。
GAE的技術(shù)創(chuàng)新
廣義優(yōu)勢估計(jì)從本質(zhì)上將TD-λ的核心思想引入策略梯度方法,通過系統(tǒng)性地估計(jì)優(yōu)勢函數(shù),使其能夠有效集成到算法損失函數(shù)中?;仡檭?yōu)勢函數(shù)的定義,它計(jì)量特定動作價(jià)值與策略預(yù)期動作價(jià)值之間的差異,即衡量某動作相比于當(dāng)前策略平均表現(xiàn)的優(yōu)劣程度。
GAE的工作原理
從直覺上理解,優(yōu)勢函數(shù)的構(gòu)建需要準(zhǔn)確評估狀態(tài)-動作對的價(jià)值,以便測量其與狀態(tài)價(jià)值函數(shù)或當(dāng)前策略的偏差。由于無法直接獲取真實(shí)值,需要構(gòu)建既低方差又低偏差的估計(jì)器。GAE采用n步優(yōu)勢的指數(shù)加權(quán)平均值方法,其中單個n步優(yōu)勢定義為:
這些不同步長的優(yōu)勢估計(jì)各有特點(diǎn):

上述估計(jì)中,TD(0)具有高偏差但低方差特性,而蒙特卡洛(MC)方法則表現(xiàn)為高方差低偏差。GAE通過對各種不同步長優(yōu)勢估計(jì)的加權(quán)組合,實(shí)現(xiàn)了在t時(shí)刻的優(yōu)勢估計(jì)是狀態(tài)或狀態(tài)-動作價(jià)值的n步估計(jì)的衰減加權(quán)和。這種方法精確地實(shí)現(xiàn)了我們的目標(biāo):通過引入更精確的長期估計(jì)來減小偏差,同時(shí)通過適當(dāng)降低遠(yuǎn)期估計(jì)權(quán)重來控制方差。
GAE與TD-λ的技術(shù)區(qū)別
TD-λ本質(zhì)上是一個完整的算法,它以"反向"方式利用資格跡,使我們能夠在每個時(shí)間步進(jìn)行更新,該算法將資格跡直接整合到梯度更新中:
這一特性使TD-λ成為價(jià)值函數(shù)估計(jì)的有效工具,但在策略梯度方法中,我們需要自定義損失函數(shù)(如PPO中使用的損失函數(shù)),并且優(yōu)化目標(biāo)是策略而非價(jià)值函數(shù)。GAE的創(chuàng)新之處在于找到了將這一思想應(yīng)用于策略梯度方法的有效途徑。

通過這種方式,GAE可以作為損失函數(shù)中需要最小化的關(guān)鍵組件,為策略優(yōu)化提供更穩(wěn)定的梯度信號。
總結(jié)
本文通過系統(tǒng)分析明確了GAE的技術(shù)本質(zhì)、理論來源以及其在當(dāng)前強(qiáng)化學(xué)習(xí)領(lǐng)域最先進(jìn)算法(尤其是PPO)中的核心作用。GAE通過巧妙平衡偏差與方差,為解決強(qiáng)化學(xué)習(xí)中的信用分配問題提供了一種數(shù)學(xué)嚴(yán)謹(jǐn)且實(shí)用高效的方法。
https://avoid.overfit.cn/post/dac142ef48c149d0bf30066535727cb0
BoxingBytes
熱門跟貼