
內容來自:機器之心
編輯:張倩
ICLR 2025 宣布了今年的時間檢驗獎獲獎論文。這個獎項旨在表彰十年前在 ICLR 2015 上發(fā)表的對該領域產生持久影響的論文。
經久不衰的「Adam 算法」拿到了冠軍,比 Transformer 論文更早引入注意力機制的「Neural Machine Translation by Jointly Learning to Align and Translate」拿到了亞軍。這樣的結果可謂「實至名歸」。
Adam:深度學習領域應用最廣泛的優(yōu)化算法之一
Adam 算法,即 Adaptive Moment Estimation 算法,是一種結合了動量法和 RMSprop 算法思想的自適應學習率優(yōu)化算法。
Adam 革命性地改變了神經網絡訓練,在各種架構和任務中實現了顯著更快的收斂速度和更穩(wěn)定的訓練過程。如今,它已經成為深度學習中最廣泛采用的優(yōu)化算法之一。
Adam 算法的創(chuàng)新之處在于,它結合了 AdaGrad 和 RMSProp 的優(yōu)點,通過維護第一矩估計(均值)和第二矩估計(未中心化的方差)來動態(tài)調整每個參數的學習率,能夠處理稀疏梯度和非平穩(wěn)目標函數。
它的重要性體現在其廣泛的應用場景,無論是計算機視覺、自然語言處理還是強化學習等領域,Adam 算法都為模型的高效訓練提供了有力支持,極大地提高了模型的訓練效率和性能,成為無數最先進模型的默認優(yōu)化器。
根據 Google Scholar 的數據,Adam 論文的被引量已經超過 21 萬。

論文鏈接:https://arxiv.org/abs/1412.6980
該論文總共有兩位作者 ——Diederik P. Kingma 和 Jimmy Lei Ba。
Diederik P. Kingma 是一位計算機科學家和研究員,專注于機器學習和生成式建模的可擴展方法。他的重要貢獻包括變分自編碼器(VAE)、Adam 優(yōu)化器、Glow 和變分擴散模型。其中,VAE 獲得了去年的 ICLR 時間檢驗獎。所以,這次是 Diederik P. Kingma 第二次獲得該獎項。而截至目前,該獎項總共就頒了兩次。
2017 年,他以優(yōu)異成績獲得阿姆斯特丹大學博士學位。2015 年,他作為創(chuàng)始團隊成員參與創(chuàng)建了 OpenAI。在此之前,他共同創(chuàng)立了 Advanza 公司,該公司于 2016 年被收購。
他的職業(yè)生涯包括:
2009 年和 2012 年:在紐約大學 Yann LeCun 實驗室擔任初級研究科學家;
2010-2012 年:Advanza 聯(lián)合創(chuàng)始人兼技術負責人,公司于 2016 年成功退出;
2013-2017 年:在阿姆斯特丹大學攻讀博士學位,導師為 Max Welling,研究領域為深度學習和生成模型;
2015-2018 年:OpenAI 創(chuàng)始團隊成員和研究科學家,領導算法團隊,專注于基礎研究;
2018-2024 年:在 Google Brain/DeepMind 擔任研究科學家,領導多個研究項目,主要是文本、圖像和視頻的生成模型;
2024 年至今:在 Anthropic 研究大規(guī)模機器學習。

另一位作者多倫多大學 Jimmy Lei Ba 現在是多倫多大學的助理教授。他的長期研究目標是解決一個計算問題:如何構建具有人類效率和適應性的通用問題解決機器。他的研究興趣主要集中在開發(fā)高效的深度神經網絡學習算法上。他的研究領域與 NeurIPS、ICLR 和 ICML 等研究社區(qū)有交叉。此外,他對強化學習、自然語言處理和人工智能也有廣泛的興趣。
Jimmy Lei Ba 在 Geoffrey Hinton 的指導下完成了博士學位。他的碩士(2014 年)和本科學位(2011 年)均在多倫多大學獲得,師從 Brendan Frey 和 Ruslan Salakhutdinov。他是 CIFAR AI chair,曾在 2016 年獲得 Facebook 機器學習研究生獎學金。

亞軍論文
比 Transformer 提前三年引入注意力機制
獲得 ICLR 時間檢驗獎亞軍的論文「Neural Machine Translation by Jointly Learning to Align and Translate」同樣來頭不小,圖靈獎得主 Yoshua Bengio 是該論文的作者之一。

論文鏈接:https://arxiv.org/abs/1409.0473
去年 12 月,AI 大牛 Andrej Karpathy 專門發(fā)帖為這篇論文鳴不平,稱它是「真正引入注意力機制的論文」,但受到的關注遠遠不及三年后才出現的 Transformer 論文。


具體來說,這篇論文的創(chuàng)新之處在于,它引入了一種注意力形式,從根本上改變了序列到序列模型處理信息的方式。在此之前,編碼器 - 解碼器架構通常將整個輸入序列壓縮為固定長度的向量,從而為較長的序列造成內存瓶頸。該方法使模型能夠在翻譯過程中動態(tài)地「關注」源句子的不同部分,從而處理相關的上下文信息。這種注意力機制已經成為現代深度學習的基石,遠遠超出了機器翻譯的范疇,形成了 transformer 和大型語言模型的基礎。這篇論文的實際影響是巨大的,使其成為對神經網絡架構最有影響力的貢獻之一。
這篇論文總共有三位作者:Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio
Dzmitry Bahdanau 在加拿大 Mila 研究所完成了博士學位,師從 Yoshua Bengio。他現在是一位在 ServiceNow 旗下(前 Element AI)工作的研究科學家。他同時也是 Mila 的核心產業(yè)成員和麥吉爾大學的兼職教授。
Dzmitry Bahdanau 堅信人類語言技術(HLT,他認為這是比 NLP 更好的稱呼)將改變人類與軟件交互和獲取知識的方式。事實上,這種改變已經開始發(fā)生(比如網絡搜索),但這僅僅是個開始。Bahdanau 對 HLT 技術棧各個層面的研究問題都有濃厚興趣,包括深度學習基礎、基礎模型訓練、特定任務算法(尤其是語義解析)以及用戶與 AI 系統(tǒng)的交互體驗。他近期正在進行的工作主要集中在語義解析和面向任務的對話方法、代碼生成、神經模型的系統(tǒng)性(組合性)泛化和樣本效率上。

在發(fā)給 Karpathy 的郵件中,Dzmitry Bahdanau 曾詳細談過他們當年研究「注意力機制」的往事。

他提到,「 我作為實習生來到 Yoshua 的實驗室…… 我告訴 Yoshua 我愿意做任何工作。Yoshua 安排我參與機器翻譯項目…… 有一天,我突然想到讓解碼器 RNN 學習在源序列中搜索放置游標的位置會很好。這有點受到翻譯練習的啟發(fā),在中學學習英語時會用到這種練習。當你翻譯時,目光在源序列和目標序列之間來回移動。我提出了對 BiRNN 狀態(tài)進行軟搜索作為 softmax 然后進行加權平均的想法。這個方法從一開始就表現出色,令人振奮 。我稱這種架構為 RNNSearch,我們趕緊發(fā)布了一篇 arXiv 論文,因為我們知道 Ilya 和谷歌的同事們在他們強大的 8 個 GPU LSTM 模型(RNN Search 仍在 1 個 GPU 上運行)上領先于我們。事后證明,這個名稱不太好。更好的名稱(attention)是由 Yoshua 在最終定稿中添加的?!?/p>
另一位作者 Kyunghyun Cho 是紐約大學計算機科學和數據科學教授,同時擔任 Genentech Research & Early Development (gRED) Prescient Design 團隊的前沿研究執(zhí)行總監(jiān)。2025 年,他被任命為 Glen de Vries 健康統(tǒng)計學教授。在獲獎論文寫作期間,他曾在蒙特利爾大學擔任博士后研究員,師從 Yoshua Bengio 教授。

在 ICLR 時間檢驗獎頒發(fā)之際,或許我們也可以重讀這些經典論文,從中找到關于未來方向的新啟發(fā)。
https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/
熱門跟貼