
內(nèi)容來(lái)自:機(jī)器之心
編輯:張倩
ICLR 2025 宣布了今年的時(shí)間檢驗(yàn)獎(jiǎng)獲獎(jiǎng)?wù)撐摹_@個(gè)獎(jiǎng)項(xiàng)旨在表彰十年前在 ICLR 2015 上發(fā)表的對(duì)該領(lǐng)域產(chǎn)生持久影響的論文。
經(jīng)久不衰的「Adam 算法」拿到了冠軍,比 Transformer 論文更早引入注意力機(jī)制的「Neural Machine Translation by Jointly Learning to Align and Translate」拿到了亞軍。這樣的結(jié)果可謂「實(shí)至名歸」。
Adam:深度學(xué)習(xí)領(lǐng)域應(yīng)用最廣泛的優(yōu)化算法之一
Adam 算法,即 Adaptive Moment Estimation 算法,是一種結(jié)合了動(dòng)量法和 RMSprop 算法思想的自適應(yīng)學(xué)習(xí)率優(yōu)化算法。
Adam 革命性地改變了神經(jīng)網(wǎng)絡(luò)訓(xùn)練,在各種架構(gòu)和任務(wù)中實(shí)現(xiàn)了顯著更快的收斂速度和更穩(wěn)定的訓(xùn)練過(guò)程。如今,它已經(jīng)成為深度學(xué)習(xí)中最廣泛采用的優(yōu)化算法之一。
Adam 算法的創(chuàng)新之處在于,它結(jié)合了 AdaGrad 和 RMSProp 的優(yōu)點(diǎn),通過(guò)維護(hù)第一矩估計(jì)(均值)和第二矩估計(jì)(未中心化的方差)來(lái)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,能夠處理稀疏梯度和非平穩(wěn)目標(biāo)函數(shù)。
它的重要性體現(xiàn)在其廣泛的應(yīng)用場(chǎng)景,無(wú)論是計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理還是強(qiáng)化學(xué)習(xí)等領(lǐng)域,Adam 算法都為模型的高效訓(xùn)練提供了有力支持,極大地提高了模型的訓(xùn)練效率和性能,成為無(wú)數(shù)最先進(jìn)模型的默認(rèn)優(yōu)化器。
根據(jù) Google Scholar 的數(shù)據(jù),Adam 論文的被引量已經(jīng)超過(guò) 21 萬(wàn)。

論文鏈接:https://arxiv.org/abs/1412.6980
該論文總共有兩位作者 ——Diederik P. Kingma 和 Jimmy Lei Ba。
Diederik P. Kingma 是一位計(jì)算機(jī)科學(xué)家和研究員,專(zhuān)注于機(jī)器學(xué)習(xí)和生成式建模的可擴(kuò)展方法。他的重要貢獻(xiàn)包括變分自編碼器(VAE)、Adam 優(yōu)化器、Glow 和變分?jǐn)U散模型。其中,VAE 獲得了去年的 ICLR 時(shí)間檢驗(yàn)獎(jiǎng)。所以,這次是 Diederik P. Kingma 第二次獲得該獎(jiǎng)項(xiàng)。而截至目前,該獎(jiǎng)項(xiàng)總共就頒了兩次。
2017 年,他以?xún)?yōu)異成績(jī)獲得阿姆斯特丹大學(xué)博士學(xué)位。2015 年,他作為創(chuàng)始團(tuán)隊(duì)成員參與創(chuàng)建了 OpenAI。在此之前,他共同創(chuàng)立了 Advanza 公司,該公司于 2016 年被收購(gòu)。
他的職業(yè)生涯包括:
2009 年和 2012 年:在紐約大學(xué) Yann LeCun 實(shí)驗(yàn)室擔(dān)任初級(jí)研究科學(xué)家;
2010-2012 年:Advanza 聯(lián)合創(chuàng)始人兼技術(shù)負(fù)責(zé)人,公司于 2016 年成功退出;
2013-2017 年:在阿姆斯特丹大學(xué)攻讀博士學(xué)位,導(dǎo)師為 Max Welling,研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí)和生成模型;
2015-2018 年:OpenAI 創(chuàng)始團(tuán)隊(duì)成員和研究科學(xué)家,領(lǐng)導(dǎo)算法團(tuán)隊(duì),專(zhuān)注于基礎(chǔ)研究;
2018-2024 年:在 Google Brain/DeepMind 擔(dān)任研究科學(xué)家,領(lǐng)導(dǎo)多個(gè)研究項(xiàng)目,主要是文本、圖像和視頻的生成模型;
2024 年至今:在 Anthropic 研究大規(guī)模機(jī)器學(xué)習(xí)。

另一位作者多倫多大學(xué) Jimmy Lei Ba 現(xiàn)在是多倫多大學(xué)的助理教授。他的長(zhǎng)期研究目標(biāo)是解決一個(gè)計(jì)算問(wèn)題:如何構(gòu)建具有人類(lèi)效率和適應(yīng)性的通用問(wèn)題解決機(jī)器。他的研究興趣主要集中在開(kāi)發(fā)高效的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法上。他的研究領(lǐng)域與 NeurIPS、ICLR 和 ICML 等研究社區(qū)有交叉。此外,他對(duì)強(qiáng)化學(xué)習(xí)、自然語(yǔ)言處理和人工智能也有廣泛的興趣。
Jimmy Lei Ba 在 Geoffrey Hinton 的指導(dǎo)下完成了博士學(xué)位。他的碩士(2014 年)和本科學(xué)位(2011 年)均在多倫多大學(xué)獲得,師從 Brendan Frey 和 Ruslan Salakhutdinov。他是 CIFAR AI chair,曾在 2016 年獲得 Facebook 機(jī)器學(xué)習(xí)研究生獎(jiǎng)學(xué)金。

亞軍論文
比 Transformer 提前三年引入注意力機(jī)制
獲得 ICLR 時(shí)間檢驗(yàn)獎(jiǎng)亞軍的論文「Neural Machine Translation by Jointly Learning to Align and Translate」同樣來(lái)頭不小,圖靈獎(jiǎng)得主 Yoshua Bengio 是該論文的作者之一。

論文鏈接:https://arxiv.org/abs/1409.0473
去年 12 月,AI 大牛 Andrej Karpathy 專(zhuān)門(mén)發(fā)帖為這篇論文鳴不平,稱(chēng)它是「真正引入注意力機(jī)制的論文」,但受到的關(guān)注遠(yuǎn)遠(yuǎn)不及三年后才出現(xiàn)的 Transformer 論文。


具體來(lái)說(shuō),這篇論文的創(chuàng)新之處在于,它引入了一種注意力形式,從根本上改變了序列到序列模型處理信息的方式。在此之前,編碼器 - 解碼器架構(gòu)通常將整個(gè)輸入序列壓縮為固定長(zhǎng)度的向量,從而為較長(zhǎng)的序列造成內(nèi)存瓶頸。該方法使模型能夠在翻譯過(guò)程中動(dòng)態(tài)地「關(guān)注」源句子的不同部分,從而處理相關(guān)的上下文信息。這種注意力機(jī)制已經(jīng)成為現(xiàn)代深度學(xué)習(xí)的基石,遠(yuǎn)遠(yuǎn)超出了機(jī)器翻譯的范疇,形成了 transformer 和大型語(yǔ)言模型的基礎(chǔ)。這篇論文的實(shí)際影響是巨大的,使其成為對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)最有影響力的貢獻(xiàn)之一。
這篇論文總共有三位作者:Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio
Dzmitry Bahdanau 在加拿大 Mila 研究所完成了博士學(xué)位,師從 Yoshua Bengio。他現(xiàn)在是一位在 ServiceNow 旗下(前 Element AI)工作的研究科學(xué)家。他同時(shí)也是 Mila 的核心產(chǎn)業(yè)成員和麥吉爾大學(xué)的兼職教授。
Dzmitry Bahdanau 堅(jiān)信人類(lèi)語(yǔ)言技術(shù)(HLT,他認(rèn)為這是比 NLP 更好的稱(chēng)呼)將改變?nèi)祟?lèi)與軟件交互和獲取知識(shí)的方式。事實(shí)上,這種改變已經(jīng)開(kāi)始發(fā)生(比如網(wǎng)絡(luò)搜索),但這僅僅是個(gè)開(kāi)始。Bahdanau 對(duì) HLT 技術(shù)棧各個(gè)層面的研究問(wèn)題都有濃厚興趣,包括深度學(xué)習(xí)基礎(chǔ)、基礎(chǔ)模型訓(xùn)練、特定任務(wù)算法(尤其是語(yǔ)義解析)以及用戶(hù)與 AI 系統(tǒng)的交互體驗(yàn)。他近期正在進(jìn)行的工作主要集中在語(yǔ)義解析和面向任務(wù)的對(duì)話(huà)方法、代碼生成、神經(jīng)模型的系統(tǒng)性(組合性)泛化和樣本效率上。

在發(fā)給 Karpathy 的郵件中,Dzmitry Bahdanau 曾詳細(xì)談過(guò)他們當(dāng)年研究「注意力機(jī)制」的往事。

他提到,「 我作為實(shí)習(xí)生來(lái)到 Yoshua 的實(shí)驗(yàn)室…… 我告訴 Yoshua 我愿意做任何工作。Yoshua 安排我參與機(jī)器翻譯項(xiàng)目…… 有一天,我突然想到讓解碼器 RNN 學(xué)習(xí)在源序列中搜索放置游標(biāo)的位置會(huì)很好。這有點(diǎn)受到翻譯練習(xí)的啟發(fā),在中學(xué)學(xué)習(xí)英語(yǔ)時(shí)會(huì)用到這種練習(xí)。當(dāng)你翻譯時(shí),目光在源序列和目標(biāo)序列之間來(lái)回移動(dòng)。我提出了對(duì) BiRNN 狀態(tài)進(jìn)行軟搜索作為 softmax 然后進(jìn)行加權(quán)平均的想法。這個(gè)方法從一開(kāi)始就表現(xiàn)出色,令人振奮 。我稱(chēng)這種架構(gòu)為 RNNSearch,我們趕緊發(fā)布了一篇 arXiv 論文,因?yàn)槲覀冎?Ilya 和谷歌的同事們?cè)谒麄儚?qiáng)大的 8 個(gè) GPU LSTM 模型(RNN Search 仍在 1 個(gè) GPU 上運(yùn)行)上領(lǐng)先于我們。事后證明,這個(gè)名稱(chēng)不太好。更好的名稱(chēng)(attention)是由 Yoshua 在最終定稿中添加的。」
另一位作者 Kyunghyun Cho 是紐約大學(xué)計(jì)算機(jī)科學(xué)和數(shù)據(jù)科學(xué)教授,同時(shí)擔(dān)任 Genentech Research & Early Development (gRED) Prescient Design 團(tuán)隊(duì)的前沿研究執(zhí)行總監(jiān)。2025 年,他被任命為 Glen de Vries 健康統(tǒng)計(jì)學(xué)教授。在獲獎(jiǎng)?wù)撐膶?xiě)作期間,他曾在蒙特利爾大學(xué)擔(dān)任博士后研究員,師從 Yoshua Bengio 教授。

在 ICLR 時(shí)間檢驗(yàn)獎(jiǎng)?lì)C發(fā)之際,或許我們也可以重讀這些經(jīng)典論文,從中找到關(guān)于未來(lái)方向的新啟發(fā)。
https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/
熱門(mén)跟貼