
機(jī)器之心報(bào)道
編輯:張倩
這篇論文包含了當(dāng)前 LLM 的許多要素,十年后的今天或許仍值得一讀。
發(fā)布于 2017 年的 Transformer 論文——「Attention is all you need」被引量已經(jīng)超過(guò) 17 萬(wàn),成為這輪 AI 技術(shù)革命的標(biāo)志性論文。

來(lái)自 Jeff Dean 的演講幻燈片
同時(shí),也有一些論文的光芒被它掩蓋,比如發(fā)布于 2015 年的「End-To-End Memory Networks」。

論文一作、Meta 研究科學(xué)家 Sainbayar Sukhbaatar 在最近的一則推文中說(shuō)道「回顧過(guò)去,這篇論文包含了當(dāng)前大型語(yǔ)言模型的許多要素。我們的模型是首個(gè)完全用注意力機(jī)制替代 RNN 的語(yǔ)言模型;它引入了帶鍵值投影的點(diǎn)積軟注意力機(jī)制,堆疊了多層注意力,使模型能關(guān)注輸入的不同部分;它還引入位置嵌入來(lái)解決注意力機(jī)制中的順序不變性問(wèn)題……」

雖然這篇論文比《Attention is all you need》還早兩年,但它并沒(méi)有受到應(yīng)有的關(guān)注,被引量只有 3000 多。
作者提到,這篇論文是對(duì) Facebook AI 研究院 2014 年的一篇論文——「Memory Networks」的改進(jìn)?!窶emory Networks」引入了多層堆疊的硬注意力機(jī)制(hard attention)——與 Bahdanau 等人在單層上引入軟注意力是同期提出的。


在去年的一個(gè)帖子中,AI 大牛 Andrej Karpathy 曾發(fā)帖感嘆,Bahdanau 等人在單層上引入軟注意力的那項(xiàng)工作——「Neural Machine Translation by Jointly Learning to Align and Translate」才是真正引入注意力機(jī)制的論文(最近拿到了 ICLR 2025 時(shí)間檢驗(yàn)獎(jiǎng)的亞軍),但「Attention is all you need」所受到的關(guān)注卻是它的 100 多倍。不過(guò),他也承認(rèn),「Attention is all you need」這篇論文有其獨(dú)特性。

回到文章開(kāi)頭提到的「End-to-End Memory Networks」,它其實(shí)是將「Memory Networks」和「Neural Machine Translation by Jointly Learning to Align and Translate」的想法結(jié)合到了一起,并展示了多層軟注意力能夠產(chǎn)生復(fù)雜的推理能力——這是當(dāng)今 AI 架構(gòu)最重要的方面之一。
除了核心創(chuàng)新,一作 Sainbayar Sukhbaatar 還分享了這篇論文誕生背后的故事和他們目前正在推進(jìn)的新工作。
一篇被 Transformer 光芒掩蓋的論文

- 論文標(biāo)題:End-To-End Memory Networks
- 論文鏈接:https://arxiv.org/pdf/1503.08895
Sainbayar Sukhbaatar 回憶說(shuō),他們的「End-to-End Memory Networks」研究始于 2014 年春天。當(dāng)時(shí),他博士二年級(jí),還在 FAIR 實(shí)習(xí)。他的導(dǎo)師 Rob Fergus 敦促他進(jìn)行關(guān)于記憶的研究。不過(guò),那會(huì)兒的他還不理解記憶意味著什么,因?yàn)槟鞘且粋€(gè)由循環(huán)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)主導(dǎo)的世界,記憶并不像今天那樣是一個(gè)重要的流行詞。
不過(guò),他的研究并不需要從頭開(kāi)始。因?yàn)楫?dāng)時(shí),F(xiàn)acebook AI 研究院的 Jason Weston 等人已經(jīng)做出了「Memory Networks」。此外,他們還發(fā)布了一套名為 bAbI 的任務(wù),這些任務(wù)讓循環(huán)模型慘敗。因?yàn)檫@些任務(wù)需要以無(wú)序的方式查找多個(gè)事實(shí),而這是 RNN 的致命弱點(diǎn)。
與「記憶」有關(guān)的這個(gè)項(xiàng)目最初吸引了很多人的關(guān)注,但事情進(jìn)展并不順利。
最終,他們開(kāi)始著手于記憶網(wǎng)絡(luò)的進(jìn)一步研究,目標(biāo)是讓它學(xué)會(huì)關(guān)注何處,而不需要給定的標(biāo)簽。他們決定使用強(qiáng)化學(xué)習(xí)訓(xùn)練來(lái)教會(huì)記憶網(wǎng)絡(luò)關(guān)注何處。
時(shí)間快進(jìn)到 2014-2015 年冬天,他們當(dāng)時(shí)已經(jīng)實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)代碼,并準(zhǔn)備在語(yǔ)言模型任務(wù)上與基準(zhǔn)進(jìn)行比較。一個(gè)明顯的選擇是「Neural Machine Translation by Jointly Learning to Align and Translate」中使用的軟注意力機(jī)制——但 Sainbayar Sukhbaatar 等人在研究中將其應(yīng)用于多層結(jié)構(gòu)中,這在之前是沒(méi)有人做過(guò)的。所以他們將其作為基線實(shí)現(xiàn),但做了一些改變,比如使用點(diǎn)積而不是小型多層感知器來(lái)計(jì)算注意力。令人驚喜的是,采用這種軟注意力的記憶網(wǎng)絡(luò)效果出奇地好,他們立即意識(shí)到這就是正確的方向。
在此之后,事情開(kāi)始快速發(fā)展。在 Arthur Szlam(另一位作者)的堅(jiān)持下,團(tuán)隊(duì)開(kāi)始使用 bAbI 任務(wù)作為基準(zhǔn)。他們開(kāi)發(fā)了幾種新技術(shù),如為鍵和值使用不同的投影等。他們還需要解決注意力的順序不變性問(wèn)題,所以他們添加了時(shí)間嵌入(現(xiàn)在稱(chēng)為位置嵌入)。
Jason 建議在這些時(shí)間值中添加隨機(jī)噪聲以減少過(guò)擬合。最后,他們決定做一個(gè)當(dāng)時(shí)不流行的語(yǔ)言建模任務(wù)。令人驚訝的是,他們僅使用注意力而沒(méi)有任何時(shí)間 recurrence 就擊敗了 LSTM(在論文中,他們使用「recurrence」一詞來(lái)描述重復(fù)的層,即像通用 transformer 那樣共享權(quán)重)。

他們?cè)?NeurIPS 提交的最后一天寫(xiě)了大部分論文。有趣的是,它最初被稱(chēng)為「弱監(jiān)督記憶網(wǎng)絡(luò)」,因?yàn)樗枰俚谋O(jiān)督。
無(wú)論如何,那個(gè)時(shí)期是新架構(gòu)的黃金時(shí)代,出現(xiàn)了 Neural GPU、Stack RNN 和 Neural Turing Machine 等新論文。
回顧 10 年后的今天和當(dāng)前大型語(yǔ)言模型的狀態(tài),Sainbayar Sukhbaatar 認(rèn)為他們?cè)谡撐闹姓_預(yù)見(jiàn)了幾點(diǎn)。他們的模型是第一個(gè)不依賴(lài) recurrence 的基于注意力的語(yǔ)言模型。他們成功地堆疊了多層注意力,使模型能夠在輸出下一個(gè) token 之前關(guān)注上下文的不同部分。他們還使用了位置嵌入,甚至是相對(duì)位置嵌入,這現(xiàn)在已成為大型語(yǔ)言模型的標(biāo)準(zhǔn)做法。

雖然這篇論文沒(méi)有像「Attention is all you need」一樣引起轟動(dòng),但也起到了一定作用。有人表示自己多次讀過(guò)這篇論文,試圖理解為什么某種神經(jīng)架構(gòu)有效。

Sainbayar Sukhbaatar 承認(rèn),Transformer 確實(shí)做出了重要的改進(jìn),比如使用前一層的隱藏狀態(tài)作為下一層的記憶。還有前饋層、多頭注意力等等。
他認(rèn)為,即使已經(jīng)過(guò)去十年,架構(gòu)改進(jìn)的工作仍有很多要做。所以,前段時(shí)間,他們發(fā)布了一篇題為「Multi-Token Attention」(MTA)的新論文。
MTA 在多個(gè)查詢(xún)、鍵和頭上調(diào)節(jié)注意力,在許多指標(biāo)上都優(yōu)于標(biāo)準(zhǔn)軟注意力。特別是,它能夠更好地解決長(zhǎng)上下文問(wèn)題,例如「大海撈針」類(lèi)任務(wù)。有趣的是,2015 年「記憶網(wǎng)絡(luò)」論文的結(jié)論中就已經(jīng)提到這一點(diǎn)作為未來(lái)的工作:「平滑查找可能不會(huì)很好地?cái)U(kuò)展到需要更大記憶的情況」,這恰恰是該領(lǐng)域今天仍在研究的問(wèn)題。
如果你對(duì)他們的論文感興趣,歡迎去閱讀論文原文(參見(jiàn)《Multi-Token 突破注意力機(jī)制瓶頸,Meta 發(fā)明了一種很新的 Transformer》)。
參考鏈接:https://x.com/tesatory/status/1911150652556026328
熱門(mén)跟貼