
新智元報道
編輯:LRST
【新智元導讀】Adam優(yōu)化器是深度學習中常用的優(yōu)化算法,但其性能背后的理論解釋一直不完善。近日,來自清華大學的團隊提出了RAD優(yōu)化器,擴展了Adam的理論基礎,提升了訓練穩(wěn)定性。實驗顯示RAD在多種強化學習任務中表現(xiàn)優(yōu)于Adam。
ICLR(國際學習表征會議)是機器學習領域三大頂會之一,以推動深度學習基礎理論和技術創(chuàng)新著稱。每年,ICLR時間檢驗獎都會授予近十年對深度學習領域產(chǎn)生深遠影響的里程碑式論文。
今年這一殊榮花落Adam優(yōu)化器(Adaptive Moment Estimation),該算法于2014年由OpenAI工程師Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
從計算機視覺到自然語言處理,從強化學習到生成模型,Adam以其卓越的自適應能力,成為當代深度學習模型的「標配」優(yōu)化器,堪稱AI領域的「萬金油」。

Diederik Kingma是谷歌的一名研究科學家,曾經(jīng)是OpenAI初創(chuàng)團隊的一員,期間領導了基礎算法研究團隊。2018年,Kingma跳槽到谷歌,加入Google Brain(現(xiàn)為Google DeepMind),專注于生成式模型研究,包括擴散模型和大型語言模型。他是變分自編碼器(VAE)、Adam優(yōu)化器、Glow和變分擴散模型等工作的主要作者。
Jimmy Ba是深度學習教父Geoffrey Hinton的得意門生,于2018年獲得University of Toronto的博士學位。作為Hinton學術家族的核心成員,他在ICLR、NeurIPS等頂級會議發(fā)表多篇開創(chuàng)性論文(其中Adam優(yōu)化器論文引用量已突破21萬次),堪稱AI領域最具影響力的青年科學家之一。
Adam優(yōu)化器雖在工程實踐中表現(xiàn)優(yōu)異,但長期以來缺乏對其優(yōu)異性能的理論解釋。
近期,清華大學李升波教授課題組發(fā)文 《Conformal Symplectic Optimization for Stable Reinforcement Learning》,解析了這一「黑箱」算法的優(yōu)化動力學機理。
該課題組的研究發(fā)現(xiàn)了神經(jīng)網(wǎng)絡優(yōu)化過程與共形哈密頓系統(tǒng)演化存在「完美」的數(shù)學對偶性,揭示了Adam優(yōu)化器暗藏的「相對論動力學」和「保辛離散化」本質,并由此提出了訓練更加穩(wěn)定、性能更加優(yōu)秀的RAD優(yōu)化器(Relativistic Adaptive Gradient Descent),這一研究工作為神經(jīng)網(wǎng)絡優(yōu)化動力學的分析及全新算法的設計開辟了新航道。
Adam優(yōu)化器的歷史與算法特點
神經(jīng)網(wǎng)絡的優(yōu)化主要依賴梯度下降方法。自20世紀50年代隨機梯度下降(SGD)首次提出以來,優(yōu)化算法經(jīng)歷了多次重要演進。從動量方法如SGD-M和NAG,到自適應方法如AdaGrad、RMSprop,優(yōu)化算法的「演變之戰(zhàn)」已持續(xù)超過70年。
2014年,Diederik Kingma與Jimmy Ba聯(lián)合提出了Adam優(yōu)化器(算法1),將神經(jīng)網(wǎng)絡優(yōu)化算法的性能向前推進了一大步。該算法的核心設計思想是融合Momentum和RMSProp兩大優(yōu)化方法的優(yōu)勢:
通過指數(shù)移動平均計算一階動量vk+1和二階動量yk+1,分別估計梯度的一階矩(即梯度期望)和原始二階矩(近似于梯度方差)。針對動量零初始化導致的估計偏差,通過引入偏差修正技術,Adam兼具了快速收斂與穩(wěn)定訓練的雙重特性。

從算法原理看,Adam優(yōu)化器通過動態(tài)維護一階動量(方向修正)和二階動量(步長調節(jié)),實現(xiàn)了參數(shù)更新的雙重自適應:既優(yōu)化了更新方向,又自動調整了有效學習率,顯著加速了網(wǎng)絡收斂。其偏差修正機制有效消除了訓練初期的估計偏差,確保了參數(shù)更新的準確性。
此外,Adam展現(xiàn)出優(yōu)異的超參數(shù)魯棒性,在大多數(shù)場景下無需精細調參即可獲得穩(wěn)定性能。正是這些優(yōu)勢使其成為各類監(jiān)督學習、強化學習任務的首選優(yōu)化器。
Adam優(yōu)化器為何具備如此出色的訓練性能?至今仍缺乏對其優(yōu)化動力學機理的深入解釋,這已成為限制新一代神經(jīng)網(wǎng)絡優(yōu)化算法設計的關鍵障礙。
梯度下降過程與動力學演化的對偶機制
受中國科學院院士馮康先生和美國國家三院院士M. I. Jordan的研究啟發(fā)(前者開創(chuàng)了哈密頓算法與保辛離散化理論,后者成功將保辛理論引入最優(yōu)化領域),清華大學的研究團隊提出了一種神經(jīng)網(wǎng)絡優(yōu)化算法的性能理論解釋框架:
第一步,將神經(jīng)網(wǎng)絡的參數(shù)優(yōu)化過程對偶為共形哈密頓系統(tǒng)的狀態(tài)演化過程,建立參數(shù)梯度下降與系統(tǒng)能量耗散之間的內在聯(lián)系。
第二步,利用保辛機制實現(xiàn)共形哈密頓系統(tǒng)的離散化,將離散系統(tǒng)的優(yōu)勢動態(tài)特性映射到神經(jīng)網(wǎng)絡的優(yōu)化過程,從而完成對算法優(yōu)化動力學的機理解釋。
研究發(fā)現(xiàn),神經(jīng)網(wǎng)絡梯度下降過程與共形哈密頓離散系統(tǒng)的演化呈現(xiàn)高度相似性,通過將網(wǎng)絡參數(shù)θ對偶為系統(tǒng)狀態(tài)q,目標函數(shù)J(θ)對偶為系統(tǒng)勢能U(q),可直接建立二者間的對偶關系。
研究者據(jù)此開發(fā)了一個全新的網(wǎng)絡優(yōu)化算法開發(fā)框架,包含兩個核心步驟:
1)動能建模:通過設計合適的動能項T(p)以嵌入期望的動態(tài)特性;
2)保辛離散:采用保辛離散方法以精確保持系統(tǒng)的動力學性質。

RAD優(yōu)化器的設計思路與性能對比
進一步地,研究者將神經(jīng)網(wǎng)絡參數(shù)的優(yōu)化過程建模為多粒子相對論系統(tǒng)狀態(tài)的演化過程,通過引入狹義相對論的光速最大原理,抑制了網(wǎng)絡參數(shù)的異常更新速率,同時提供了各網(wǎng)絡參數(shù)的獨立自適應調節(jié)能力,從理論上引入了對網(wǎng)絡訓練穩(wěn)定性和收斂性等動態(tài)特性的保障機制。
這一工作使得研究者提出了既具備穩(wěn)定動力學特性又適用于非凸隨機優(yōu)化的神經(jīng)網(wǎng)絡優(yōu)化算法,即RAD優(yōu)化器(算法2)。

研究發(fā)現(xiàn),當速度系數(shù)σ=1且保辛因子ζk取固定小值ε時,RAD優(yōu)化器將退化為Adam優(yōu)化器,揭示了Adam優(yōu)化器的動力學機理,說明了Adam優(yōu)化器是新提出的RAD優(yōu)化器的一個特例。
相比于Adam優(yōu)化器,RAD優(yōu)化器具有更加優(yōu)異的長期訓練穩(wěn)定性,這是因為:
1)優(yōu)化前期:RAD具有類似Adam的快速收斂特性,能夠高效定位到最優(yōu)解的鄰域;
2)優(yōu)化后期:RAD的保辛結構逐漸增強,具備維持共形哈密頓系統(tǒng)動態(tài)特性的能力,確保算法具備更加優(yōu)異的抗干擾能力。
值得注意的是,Adam中的有理因子ε是一個「人為引入」的小常數(shù),用于避免分母為零的數(shù)值錯誤。而RAD的保辛因子ζ與哈密頓系統(tǒng)的「質量×質能」(即m2c2)相關,具有明確的物理根源。
這為之前的經(jīng)驗性發(fā)現(xiàn)(即適度增加ε可提升Adam性能)提供了理論性解釋:增大ε使得優(yōu)化過程更加接近原始的動力學系統(tǒng)。該研究成果不僅深化了Adam與動力學系統(tǒng)的本質聯(lián)系,同時也為分析其他主流自適應優(yōu)化器(如AdaGrad、NAdam、AdamW等)提供了普適性的框架。
為了評估RAD優(yōu)化器的性能,研究者在5種主流深度強化學習(DRL)算法(包括DQN、DDPG、TD3、SAC和ADP)和12個測試環(huán)境(包括1個CartPole任務、6個MuJoCo任務、4個Atari任務和1個自動駕駛任務)中開展了廣泛測試,并與9種主流神經(jīng)網(wǎng)絡優(yōu)化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)進行了比較,結果表明RAD綜合性能均排名第一。
特別在圖像類標準測試環(huán)境Seaquest任務中,RAD性能達到Adam優(yōu)化器的2.5倍,得分提升了155.1%
參考資料:
[1] Lyu Y, Zhang X, Li S E, et al. Conformal Symplectic Optimization for Stable Reinforcement Learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024: 1-15.
[2] Kingma D P, Ba J. Adam: A method for stochastic optimization[C]//3rd International Conference on Learning Representations (ICLR). 2015: 1-11.
[3] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.
熱門跟貼