機器之心報道

編輯:Panda

4 月 14 日,谷歌首席科學(xué)家 Jeff Dean 在蘇黎世聯(lián)邦理工學(xué)院舉辦的信息學(xué)研討會上發(fā)表了一場演講,主題為「AI 的重要趨勢:我們是如何走到今天的,我們現(xiàn)在能做什么,以及我們?nèi)绾嗡茉?AI 的未來?」

打開網(wǎng)易新聞 查看精彩圖片

在這場演講中,Jeff Dean 首先以谷歌多年來的重要研究成果為脈絡(luò),展現(xiàn)了 AI 近十五年來的發(fā)展軌跡,之后又分享了 Gemini 系列模型的發(fā)展歷史,最后展望了 AI 將給我們這個世界帶來的積極改變。

機器之心將在本文中對 Jeff Dean 的演講內(nèi)容進行總結(jié)性梳理,其中尤其會關(guān)注演講的第一部分,即谷歌過去這些年對 AI 領(lǐng)域做出的奠基性研究貢獻。我們將看到,Transformer、蒸餾、MoE 等許多在現(xiàn)代大型語言模型(LLM)和多模態(tài)大模型中至關(guān)重要的技術(shù)都來自谷歌。正如 網(wǎng)友 @bruce_x_offi 說的那樣,你將在這里看到 AI 的進化史。

打開網(wǎng)易新聞 查看精彩圖片

下面我們就來具體看看 Jeff Dean 的分享。

源地址:https://video.ethz.ch/speakers/d-infk/2025/spring/251-0100-00L.html

  • 幻燈片:https://drive.google.com/file/d/12RAfy-nYi1ypNMIqbYHjkPXF_jILJYJP/view

打開網(wǎng)易新聞 查看精彩圖片

首先,Jeff Dean 分享了他得到的一些觀察:

  • 近年來,機器學(xué)習(xí)徹底改變了我們對計算機可能性的期望;
  • 增加規(guī)模(計算、數(shù)據(jù)、模型大?。┛蓭砀玫慕Y(jié)果;
  • 算法和模型架構(gòu)的改進也帶來了巨大的提升;
  • 我們想要運行的計算類型以及運行這些計算的硬件正在發(fā)生巨大的變化。

機器學(xué)習(xí)十五年

打開網(wǎng)易新聞 查看精彩圖片

首先,神經(jīng)網(wǎng)絡(luò)!

打開網(wǎng)易新聞 查看精彩圖片

神經(jīng)網(wǎng)絡(luò)的概念是在上個世紀提出的,而現(xiàn)在 AI 的各種能力基本上都是某種基于神經(jīng)網(wǎng)絡(luò)的計算。我們可以粗略地將神經(jīng)網(wǎng)絡(luò)視為真實神經(jīng)元行為的非常不完美的復(fù)制品。它還有很多我們不理解的地方,但它們是 AI 的基本構(gòu)建模塊之一。

反向傳播是另一個關(guān)鍵構(gòu)建模塊,這是一種優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)重的方法。通過反向傳播誤差,可讓模型的輸出逐漸變成你想要的輸出。這種方法能有效地用于更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,以最小化模型在訓(xùn)練數(shù)據(jù)上的誤差。并且由于神經(jīng)網(wǎng)絡(luò)的泛化特性,得到的模型也具有泛化能力。

打開網(wǎng)易新聞 查看精彩圖片

神經(jīng)網(wǎng)絡(luò)和反向傳播是深度學(xué)習(xí)革命的兩大關(guān)鍵。

2012 年時,Jeff Dean 與其他一些研究者開始研究:如果訓(xùn)練真正的大型神經(jīng)網(wǎng)絡(luò),它們會比小型神經(jīng)網(wǎng)絡(luò)表現(xiàn)更好。在這一假設(shè)基礎(chǔ)上,他們決定訓(xùn)練一個非常大的神經(jīng)網(wǎng)絡(luò),并且他們使用了無監(jiān)督學(xué)習(xí)算法

打開網(wǎng)易新聞 查看精彩圖片

這個大型神經(jīng)網(wǎng)絡(luò)比 2012 年已知的最大神經(jīng)網(wǎng)絡(luò)還大 60 倍,使用了 16,000 個 CPU 核心。

Jeff Dean 說:「當時,我們的數(shù)據(jù)中心還沒有 GPU。我們有很多普通的舊 CPU 計算機。我們看到的是,這個無監(jiān)督的訓(xùn)練目標再加上一些監(jiān)督訓(xùn)練,將 AI 在 ImageNet 22K 上的最佳性能提高了 70% 左右。」

這是一個相當大的進步,也證明了我們的假設(shè),即如果投入足夠的訓(xùn)練計算,更大模型的能力會更強。

作為這項工作的一部分,谷歌開發(fā)了他們第一個神經(jīng)網(wǎng)絡(luò)大規(guī)?;A(chǔ)設(shè)施系統(tǒng),稱為DistBelief。這是一個分布式計算系統(tǒng),分散在許多機器上,而且我們許多同事并不認為它能其作用。但實際上,當模型很大時,本就不適合僅使用單臺計算機。

在分攤計算時,有幾種不同的方法。第一種是垂直或水平地切分神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元。這樣一來,每臺計算機上都只有神經(jīng)網(wǎng)絡(luò)的一部分,然后你需要想辦法讓這些不同部分之間互相通信。這叫做模型并行化。

打開網(wǎng)易新聞 查看精彩圖片

另一種方法是數(shù)據(jù)并行化,即在許多不同的機器上都有底層模型的副本,然后將訓(xùn)練數(shù)據(jù)劃分給不同的模型副本。

模型并行化與數(shù)據(jù)并行化可以同時使用。

在 DistBelief 中,實際上還有一個中心系統(tǒng),可以接收來自模型不同副本的梯度更新,并將它們應(yīng)用于參數(shù)。但 Jeff Dean 表示他們的做法實際上在數(shù)學(xué)上并不正確,因為這個過程是完全異步的。不同的模型副本將獲得參數(shù)的新副本,在一些數(shù)據(jù)上進行計算,再將基于這些參數(shù)和該批次訓(xùn)練數(shù)據(jù)的梯度發(fā)送回參數(shù)服務(wù)器。但這時候,參數(shù)已經(jīng)有變化了,因為其他模型副本在此期間應(yīng)用了它們的梯度。因此,根據(jù)梯度下降算法,這在數(shù)學(xué)上顯然是不正確的,但它是有效的。所以這就是個好方法。

這就是使我們能夠真正將模型擴展到非常大的原因 —— 即使只使用 CPU。

在 2013 年,谷歌使用該框架擴展了一個擴大了詞的密集表示的訓(xùn)練,這還用到了一個詞嵌入模型 Word2Vec。

打開網(wǎng)易新聞 查看精彩圖片

基于此,谷歌發(fā)現(xiàn),通過使用高維向量表示詞,如果再用特定的方式訓(xùn)練,就能得到兩個很好的屬性:

一、在訓(xùn)練大量數(shù)據(jù)后,這個高維空間中的近鄰詞往往是相關(guān)的,比如所有與貓、美洲獅和老虎相關(guān)的詞都匯集到了一個高維空間的同一部分。

二、方向在這種高維空間中是有意義的。舉個例子,為了將一個男性版本的詞轉(zhuǎn)化為女性版本,比如 king → queen、man→woman,都要朝著大致相同的方向前進。

2014 年,我的三位同事 Ilya Sutskever、Oriol Vinyals、Quoc V. Le 開發(fā)了一個神經(jīng)網(wǎng)絡(luò),名為序列到序列學(xué)習(xí)模型。這里的想法是,對于一個輸入序列,或許可以根據(jù)它預(yù)測出一個輸出序列。

打開網(wǎng)易新聞 查看精彩圖片

一個非常經(jīng)典的例子是翻譯。比如如果源句子是英語,可以一個詞一個詞地處理輸入的英語句子來構(gòu)建表示,得到一個密集表示,然后你可以將這個表示解碼成法語句子。如果有大量的英語 - 法語對,就可以學(xué)習(xí)得到一個語言翻譯系統(tǒng)。整個過程都是使用這種序列到序列的神經(jīng)網(wǎng)絡(luò)。

Jeff Dean 表示自己在 2013 年左右開始擔(dān)心:由于模型越來越大,語音識別等方面也開始出現(xiàn)一些好用的應(yīng)用,用戶量可能有很多,那么該如何提供所需計算呢?

因此,谷歌開始嘗試改進硬件,并決定為神經(jīng)網(wǎng)絡(luò)推理構(gòu)建更定制的硬件。這就是張量處理單元(TPU)的起源。

打開網(wǎng)易新聞 查看精彩圖片

第一個版本的 TPU 只專門用于推理,所以它使用了非常低的精度 —— 它的乘法器只支持 8 位整數(shù)運算。但他們真正的目標是構(gòu)建一種非常擅長低精度線性代數(shù)的硬件,它將能服務(wù)于許多不同類型的基于神經(jīng)網(wǎng)絡(luò)的模型。這個硬件也不需要現(xiàn)代 CPU 中那些花哨復(fù)雜的功能,例如分支預(yù)測器或各種緩存。相反,他們的做法是盡力以更低的精度構(gòu)建最快和最小的密集線性代數(shù)硬件。

不出所料,最終生產(chǎn)出的 TPU 在這些任務(wù)上比當時的 CPU 和 GPU 快 15 到 30 倍,能源效率高 30 到 80 倍。順便說一下,這是 ISCA 50 年歷史上被引用最多的論文。這很了不起,因為它 2017 年才發(fā)表。

之后,谷歌開始研發(fā)專用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的專用型超級計算機 —— 大量芯片用高速網(wǎng)絡(luò)連接起來?,F(xiàn)在谷歌TPU pod在推理和訓(xùn)練方面都適用,并且連接的 TPU 也越來越多。最早是 256 臺,然后是 1000,之后是 4000,最近已經(jīng)來到了八九千。而且谷歌使用了定制的高速網(wǎng)絡(luò)來連接它們。

打開網(wǎng)易新聞 查看精彩圖片

上周,谷歌宣布了新一代的 TPU,名為Ironwood。Jeff Dean 表示谷歌不會繼續(xù)再用數(shù)字來命名 TPU。Ironwood 的 pod 非常大:它有 9216 塊芯片,每塊芯片可以執(zhí)行 4614 TFLOPS 的運算。

打開網(wǎng)易新聞 查看精彩圖片

TPU 的能源效率也在快速提升。

打開網(wǎng)易新聞 查看精彩圖片

另一個非常重要的趨勢是開源。這能吸引更廣泛的社區(qū)參與并改進這些工具。Jeff Dean 認為,TensorFlow和Jax(都是谷歌開發(fā)的)另外再加上 PyTorch,對推動 AI 領(lǐng)域的發(fā)展做出了巨大的貢獻。

打開網(wǎng)易新聞 查看精彩圖片

然后到 2017 年,Transformer誕生了。當時,他們觀察到:循環(huán)模型有一個非常順序化的過程,即一次吸收一個 token,然后在輸出下一個 token 之前更新模型的內(nèi)部狀態(tài)。這種固有的順序步驟會限制從大量數(shù)據(jù)學(xué)習(xí)的并行性和效率。因此,他們的做法是保存所有內(nèi)部狀態(tài),然后使用一種名為注意力的機制去回顧經(jīng)歷過的所有狀態(tài),然后看它們哪些部分與當前執(zhí)行的任務(wù)(通常是預(yù)測下一 token)最相關(guān)。

打開網(wǎng)易新聞 查看精彩圖片

這是一篇非常有影響力的論文。部分原因是,他們最初在機器翻譯任務(wù)上證明,用少 10 到 100 倍的計算量和小 10 倍的模型,就可以獲得比當時最先進的 LSTM 或其他模型架構(gòu)更好的性能。注意,下圖使用了對數(shù)刻度。所以盡管箭頭看起來很小,但其中差異實際非常大。

打開網(wǎng)易新聞 查看精彩圖片

這篇論文很重要,幾乎所有現(xiàn)代大型語言模型都使用 Transformer 或其某種變體作為底層模型架構(gòu)。

2018 年時,一個新思潮開始流行(當然這個想法之前就有了)。也就是人們意識到大規(guī)模語言建??梢允褂米员O(jiān)督數(shù)據(jù)完成。比如對于一段文本,你可以用其中一部分來預(yù)測文本的其他部分。這樣做能夠得到一些問題的答案。實際情況也證明了這一點。并且人們也發(fā)現(xiàn),使用更多數(shù)據(jù)可以讓模型變得更好。

打開網(wǎng)易新聞 查看精彩圖片

這類模型有多種訓(xùn)練目標。一是自回歸,即查看前面的詞來預(yù)測下一個詞。今天大多數(shù)模型都采用了這種形式。另一種則是填空。上圖中展示了一些例子。

這兩種訓(xùn)練目標都非常有用。自回歸式如今被用得更多,比如你在與聊天機器人對話時,模型就在根據(jù)之前的對話進行自回歸預(yù)測。

2021 年,谷歌開發(fā)了一種方法,可將圖像任務(wù)映射到基于 Transformer 的模型。在此之前,大多數(shù)人都在使用某種形式的卷積神經(jīng)網(wǎng)絡(luò)。本質(zhì)上講,圖像可被分解成像素塊;就像 Word2Vec 將詞嵌入到密集表示中一樣,也可以對像素塊做類似的事情 —— 用一些高維向量來表示這些塊。然后,就可以將它們輸入到 Transformer 模型,使其能夠處理圖像數(shù)據(jù)?,F(xiàn)在我們知道,圖像和文本還可以組合成多模態(tài)數(shù)據(jù)。因此,這項研究在統(tǒng)一文本 Transformer 和圖像 Transformer 方面產(chǎn)生了巨大的影響。

打開網(wǎng)易新聞 查看精彩圖片

另外,在 2017 年,Jeff Dean 還參與開發(fā)了一種創(chuàng)造稀疏模型的方法。本質(zhì)上講,就是對于一個很大的模型,僅激活其中一小部分,而不是針對每個 token 或樣本都激活整個模型。

打開網(wǎng)易新聞 查看精彩圖片

在最初的論文中,實際上有相當多的專家 —— 每層有 2048 名專家。而每次會激活其中 2 個。這很不錯,因為模型現(xiàn)在有了非常大的記憶能力,可以記住很多東西。并且選擇具體激活哪些專家也可以通過反向傳播以端到端的方式學(xué)習(xí)。這樣一來,你可以得到擅長不同任務(wù)的專家,比如有的擅長處理時間和日期,有的擅長地理位置,有的擅長生物學(xué)。

然后,Jeff Dean 列出了更多谷歌在稀疏模型方面的研究成果,感興趣的讀者可以參照閱讀。

打開網(wǎng)易新聞 查看精彩圖片

2018 年,谷歌開始思考,對于這些大型分布式機器學(xué)習(xí)計算,可以有哪些更好的軟件抽象。谷歌構(gòu)建了一套可擴展的軟件Pathways來簡化大規(guī)模計算的部署和運行。

打開網(wǎng)易新聞 查看精彩圖片

如上圖所示,每一個黃點構(gòu)成的框都可被視為一個 TPU Pod。當這些 TPU Pod 在同一棟建筑內(nèi)時,使用該建筑物內(nèi)的數(shù)據(jù)中心網(wǎng)絡(luò)來保證它們互相通信。而當它們位于不同的建筑內(nèi)時,可以使用建筑物之間的網(wǎng)絡(luò)以及相同的數(shù)據(jù)中心設(shè)施。甚至可以將不同區(qū)域的 TPU Pod 連接在一起。

事實上,Pathways 給機器學(xué)習(xí)開發(fā)和研究人員的抽象之一是你只需要一個 Python 過程。Jax 本就有「設(shè)備(device)」的概念。比如如果你只是在一臺機器上運行,里面有 4 塊 TPU 芯片,當使用 Jax 和 Pathways 訓(xùn)練時,整個訓(xùn)練過程中所有芯片都將作為 Jax 的設(shè)備進行處理。依照這個機制,你可以用單一的 Python 進程管理成千上萬個 TPU 設(shè)備。Pathways 負責(zé)將計算映射到實際的物理設(shè)備上。而自上周開始,Pathways 已開始向谷歌云的客戶提供。

2022 年,谷歌一個團隊發(fā)現(xiàn),在推理時思考更長時間是非常有用的?;诖擞^察,他們提出了思維鏈(CoT)。

打開網(wǎng)易新聞 查看精彩圖片

圖中舉了個例子:如果給模型展示一些示例,示例中如果包含得到正確結(jié)論的思考過程,那么 LLM 更有可能得到正確答案。

這個方法看起來很簡單,而實際上卻能極大提升模型的準確度,因為通過鼓勵它們生成思考步驟,可以讓它們以更細粒度的方式解決問題。

可以看到,在 GSM8K(八年級一般數(shù)學(xué)水平問題)上,隨著模型規(guī)模增大,如果只使用標準提示方法,解決準確度會有一些提高,但如果使用思維鏈提示法,解決準確度則會大幅上升。

這正是在推理時使用更多計算的一種方式,因為模型必須在生成更多 token 之后才給出最終答案。

下面來看蒸餾 —— 也是谷歌發(fā)明的。2014 年,Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean 最早開發(fā)出了這種名為蒸餾(Distillation)的技術(shù),可用來蒸餾神經(jīng)網(wǎng)絡(luò)中的知識。這種方法能夠?qū)⒏玫拇竽P椭械闹R放入到一個更小的模型中。

打開網(wǎng)易新聞 查看精彩圖片

在訓(xùn)練小模型時,比如想要其預(yù)測下一 token,典型方法是讓其先根據(jù)前面的句子進行預(yù)測,如果對了,很不錯,如果錯了,就反向傳播誤差。

這種方法還不錯,但蒸餾卻能做到更好。

教師模型不僅會給小模型正確的答案,而且還會給出它認為這個問題的好答案的分布。也就是說,教師模型能提供更豐富的訓(xùn)練信號。這種非常豐富的梯度信號可以用來為較小模型的每個訓(xùn)練樣本注入更多知識,并使模型更快地收斂。

如上圖中表格所示。這是一個基于語音識別的設(shè)置,其中給出了訓(xùn)練幀準確度和測試幀準確度。

可以看到,當使用 100% 的訓(xùn)練集時,測試幀準確度為 58.9%。而如果只使用 3% 的訓(xùn)練集,可以看到其訓(xùn)練幀準確度還提高了,但測試幀準確度下降很明顯,這說明出現(xiàn)了過擬合現(xiàn)象。但是,如果使用蒸餾方法,3% 的訓(xùn)練集也能讓模型有很好的測試幀準確度 —— 幾乎和使用 100% 訓(xùn)練集時一樣準確。這說明可以通過蒸餾將大型神經(jīng)網(wǎng)絡(luò)的知識轉(zhuǎn)移到小型神經(jīng)網(wǎng)絡(luò)中,并使其幾乎與大型神經(jīng)網(wǎng)絡(luò)一樣準確。

有意思的是,這篇論文被 NeurIPS 2014 拒了。于是他們只得在研討會上發(fā)表了這篇論文。而現(xiàn)在,這篇論文的引用量已經(jīng)超過了 2.4 萬。

另外在 2022 年,谷歌一個團隊研究了一種不同的將計算映射到 TPU Pod 以執(zhí)行有效推理的方法。其中,有很多變體需要考慮,比如權(quán)重固定、X 權(quán)重聚集、XY 權(quán)重聚集、XYZ 權(quán)重聚集……

打開網(wǎng)易新聞 查看精彩圖片

谷歌得到的一個見解是:正確的選擇取決于許多不同的因素。正如圖中所示,其中的圓點虛線是最佳表現(xiàn)。可以看到,隨著批量大小的變化,最佳方案也會隨之變化。因此在執(zhí)行推理時,可以根據(jù)實際需求選擇不同的并行化方案。

時間來到 2023 年,谷歌開發(fā)了一種名為推測式解碼(Speculative Decoding)的技術(shù),可讓模型推理速度更快。這里的想法是使用一個比大模型小 10 到 20 倍的 drafter 模型,因為其實很多東西靠小模型就能預(yù)測,而小模型速度又快得多。因此,就可以將兩者結(jié)合起來提升效率:先讓小模型預(yù)測 k 個 token,然后再讓大模型一次性預(yù)測 k 個 token。相比于讓大模型一次預(yù)測一個 token,這種做法的效率明顯更高。

打開網(wǎng)易新聞 查看精彩圖片

Jeff Dean 表示:「所有這些結(jié)合在一起,真正提高了人們今天看到的模型的質(zhì)量?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

從底層的 TPU 發(fā)展到高層的各種軟件和技術(shù)進步,最終造就了現(xiàn)今強大的 Gemini 系列模型。

打開網(wǎng)易新聞 查看精彩圖片

這里我們就不繼續(xù)整理 Jeff Dean 對 Gemini 系列模型發(fā)展歷程的介紹了。最后,他還分享了 AI 將給我們這個社會帶來的一些積極影響。

他說:「我認為隨著更多投資和更多人進入這個領(lǐng)域,進一步的研究和創(chuàng)新還將繼續(xù)。你會看到模型的能力越來越強大。它們將在許多領(lǐng)域產(chǎn)生巨大影響,并有可能讓更多人更容易獲得許多深度的專業(yè)知識。我認為這是最令人興奮的事情之一,但也會讓一些人感到不安。我認為我們有 AI 輔助的未來一片光明?!?/p>

打開網(wǎng)易新聞 查看精彩圖片