
來源:科技世代千高原
OpenAI 的 o1 等大型語言模型引發(fā)了關(guān)于實現(xiàn)通用人工智能(AGI)的爭論,但它們不太可能獨自達到這一里程碑。
?阿尼爾·阿南塔斯瓦米?

插圖:Petra Péterffy
OpenAI 的最新人工智能 (AI) 系統(tǒng)于 9 月發(fā)布,并做出了大膽承諾。聊天機器人 ChatGPT 背后的公司展示了其最新的大型語言模型 (LLM) 套件 o1,稱其具有“全新水平的 AI 能力”。總部位于加利福尼亞州舊金山的 OpenAI 聲稱,與之前的 LLM 相比,o1 的工作方式更接近人類的思維方式。
這份報告為幾十年來一直在醞釀的爭論火上澆油:機器到底還要多久才能完成人類大腦可以處理的所有認知任務(wù),包括從一項任務(wù)推廣到另一項任務(wù)、抽象推理、規(guī)劃以及選擇調(diào)查和學(xué)習(xí)世界的哪些方面?
這種“通用人工智能”(AGI)可以解決棘手的問題,包括氣候變化、流行病以及癌癥、阿爾茨海默氏癥和其他疾病的治療。但如此巨大的力量也會帶來不確定性——并對人類構(gòu)成風(fēng)險。加拿大蒙特利爾大學(xué)的深度學(xué)習(xí)研究員 Yoshua Bengio 表示:“濫用人工智能或我們失去對它的控制,都可能導(dǎo)致糟糕的事情發(fā)生?!?/p>
過去幾年大型語言模型 (大模型,LLM) 的革命引發(fā)了人們的猜測,認為通用人工智能可能已經(jīng)近在眼前。但一些研究人員表示,考慮到大模型的構(gòu)建和訓(xùn)練方式,它們本身不足以實現(xiàn)通用人工智能。“還有一些缺憾,”Bengio 說。
顯而易見的是,有關(guān) AGI 的問題現(xiàn)在比以往任何時候都更加重要?!拔乙簧械拇蟛糠謺r間都認為談?wù)?AGI 的人都是瘋子,”位于坦佩的亞利桑那州立大學(xué)的計算機科學(xué)家 Subbarao Kambhampati 說?!艾F(xiàn)在,當然,每個人都在談?wù)撍D悴荒苷f每個人都是瘋子。”
AGI 辯論為何發(fā)生改變
2007 年左右,人工智能研究人員 Ben Goertzel 和 Cassio Pennachin 編輯的同名書籍中提到了“通用人工智能”一詞,此后該詞進入了時代潮流。它的確切含義仍然難以捉摸,但廣義上是指具有類似人類推理和泛化能力的人工智能系統(tǒng)。
拋開模糊的定義不談,在人工智能的大部分歷史中,很明顯我們還沒有達到通用人工智能。以 AlphaGo 為例,這是谷歌 DeepMind 創(chuàng)建的用于玩棋盤游戲圍棋的人工智能程序。它在圍棋比賽中擊敗了世界上最優(yōu)秀的人類玩家——但它的超人品質(zhì)是狹隘的,因為這就是它所能做的一切。
LLM 的新功能徹底改變了這一格局。與人類大腦一樣,LLM 擁有廣泛的能力,這使得一些研究人員認真考慮某種形式的 AGI 可能即將出現(xiàn)1,甚至已經(jīng)出現(xiàn)。
考慮到研究人員僅部分了解 LLM 的實現(xiàn)方式,這種廣泛的功能尤其令人吃驚。LLM 是一種神經(jīng)網(wǎng)絡(luò),是一種受大腦啟發(fā)的機器學(xué)習(xí)模型;該網(wǎng)絡(luò)由分層排列的人工神經(jīng)元或計算單元組成,具有可調(diào)節(jié)的參數(shù),這些參數(shù)表示神經(jīng)元之間的連接強度。
在訓(xùn)練期間,最強大的 LLM(例如 o1、Claude(由舊金山的 Anthropic 制造)和谷歌的 Gemini)依賴于一種稱為下一個標記預(yù)測的方法,其中反復(fù)向模型輸入已被切成塊(稱為標記)的文本樣本。這些標記可以是整個單詞,也可以只是一組字符。序列中的最后一個標記被隱藏或“屏蔽”,并要求模型對其進行預(yù)測。然后,訓(xùn)練算法將預(yù)測與屏蔽的標記進行比較,并調(diào)整模型的參數(shù),使其下次能夠做出更好的預(yù)測。
該過程持續(xù)進行——通常使用數(shù)十億個語言、科學(xué)文本和編程代碼片段——直到模型能夠可靠地預(yù)測被屏蔽的標記。到這個階段,模型參數(shù)已經(jīng)捕獲了訓(xùn)練數(shù)據(jù)的統(tǒng)計結(jié)構(gòu)及其所包含的知識。然后,這些參數(shù)被固定下來,當給出新的查詢或“提示”(這些查詢或提示不一定存在于其訓(xùn)練數(shù)據(jù)中)時,模型會使用它們來預(yù)測新的標記,這個過程稱為推理。
使用一種稱為轉(zhuǎn)換器的神經(jīng)網(wǎng)絡(luò)架構(gòu),LLM 的成就大大超越了以前的成就。轉(zhuǎn)換器允許模型了解某些 token 對其他 token 具有特別強烈的影響,即使它們在文本樣本中相距甚遠。這使得 LLM 能夠以模仿人類的方式解析語言 - 例如,區(qū)分這句話中“bank”一詞的兩個含義:“當河岸被洪水淹沒時,水損壞了銀行的 ATM,使取款變得不可能?!?/p>
事實證明,這種方法在廣泛的領(lǐng)域中都非常成功,包括生成計算機程序來解決用自然語言描述的問題、總結(jié)學(xué)術(shù)文章和回答數(shù)學(xué)問題。
在此過程中,其他新功能也不斷涌現(xiàn),尤其是隨著 LLM 規(guī)模的擴大,如果 LLM 規(guī)模足夠大,AGI 也有可能出現(xiàn)。其中一個例子就是思路鏈 (CoT) 提示。這包括向 LLM 展示如何將問題分解為更小的步驟來解決它的示例,或者只是要求 LLM 逐步解決問題。CoT 提示可以讓 LLM 正確回答以前讓他們困惑的問題。但這個過程對小型 LLM 來說效果不太好。
大模型的局限性
OpenAI 表示,CoT 提示已融入 o1 的運作中,并成為該模型強大功能的基礎(chǔ)。Francois Chollet 曾是加州山景城谷歌的一名人工智能研究員,去年 11 月離職創(chuàng)辦了一家新公司。他認為,該模型包含一個 CoT 生成器,可以為用戶查詢創(chuàng)建大量 CoT 提示,并有一個從選項中選擇好提示的機制。在訓(xùn)練期間,o1 不僅被教導(dǎo)預(yù)測下一個標記,還要為給定查詢選擇最佳的 CoT 提示。
OpenAI 表示,CoT 推理的加入解釋了為什么例如 o1-preview(o1 的高級版本)在國際數(shù)學(xué)奧林匹克資格考試中正確解答了 83% 的問題,國際數(shù)學(xué)奧林匹克是一項針對高中生的著名數(shù)學(xué)競賽。相比之下,該公司之前最強大的 LLM GPT-4o 的得分僅為 13%。
然而,Kambhampati 和 Chollet 表示,盡管如此復(fù)雜,o1 也有其局限性,并不構(gòu)成 AGI。例如,在需要規(guī)劃的任務(wù)中,Kambhampati 的團隊已經(jīng)證明,盡管 o1 在需要多達 16 個規(guī)劃步驟的任務(wù)上表現(xiàn)出色,但當步驟數(shù)增加到 20 到 402 之間時,其性能會迅速下降。
Chollet設(shè)計了一個抽象推理和概括測試來測試 o1-preview,以衡量 AGI 的進展,當他測試 o1-preview 時,也看到了類似的局限性。該測試采用視覺謎題的形式。解答這些謎題需要查看示例來推導(dǎo)出抽象規(guī)則,并使用該規(guī)則來解決類似謎題的新實例,而人類做到這一點相對容易。
Chollet 表示,無論規(guī)模大小,大模型在解決問題方面的能力都是有限的,因為這些問題需要重新組合他們所學(xué)的知識來解決新任務(wù)?!按竽P蜔o法真正適應(yīng)新事物,因為他們沒有能力從根本上掌握自己的知識,然后對這些知識進行相當復(fù)雜的重組,以適應(yīng)新的環(huán)境。”
LLM 可以產(chǎn)生AGI 嗎?
那么,大模型 (LLM) 真的能實現(xiàn)通用人工智能嗎?有利的一點是,底層的 Transformer 架構(gòu)除了文本之外,還可以處理和查找其他類型信息中的統(tǒng)計模式,例如圖像和音頻,前提是存在適當標記這些數(shù)據(jù)的方法。
在紐約大學(xué)研究機器學(xué)習(xí)的 Andrew Wilson 和他的同事表示,這可能是因為不同類型的數(shù)據(jù)都具有一個共同的特征:此類數(shù)據(jù)集具有較低的“Kolmogorov 復(fù)雜度”,Kolmogorov 復(fù)雜度定義為創(chuàng)建它們所需的最短計算機程序的長度3。研究人員還表明,Transformer 非常適合學(xué)習(xí)具有低 Kolmogorov 復(fù)雜度的數(shù)據(jù)中的模式,并且這種適用性會隨著模型的大小而增長。Transformer 能夠模擬各種可能性,從而增加訓(xùn)練算法發(fā)現(xiàn)問題合適解決方案的機會,并且這種“表現(xiàn)力”會隨著規(guī)模的擴大而增加。Wilson 說,這些是“我們真正需要的通用學(xué)習(xí)的一些要素”。盡管 Wilson 認為 AGI 目前還無法實現(xiàn),但他表示,使用 Transformer 架構(gòu)的 LLM 和其他 AI 系統(tǒng)具有一些類似 AGI 行為的關(guān)鍵特性。
然而,也有跡象表明,基于 Transformer 的 LLM 存在局限性。首先,用于訓(xùn)練模型的數(shù)據(jù)即將耗盡。舊金山研究人工智能趨勢的機構(gòu) Epoch AI 的研究人員估計4,用于訓(xùn)練的現(xiàn)有公開文本數(shù)據(jù)可能會在 2026 年至 2032 年之間耗盡。還有跡象表明,隨著 LLM 規(guī)模的擴大,其收益并不像以前那么大,盡管目前尚不清楚這是否與數(shù)據(jù)中的新穎性減少有關(guān),因為現(xiàn)在已經(jīng)使用了太多數(shù)據(jù),還是其他原因。后者對 LLM 來說是個壞兆頭。
谷歌 DeepMind 倫敦研究副總裁 Raia Hadsell 提出了另一個問題?;?Transformer 的強大 LLM 經(jīng)過訓(xùn)練可以預(yù)測下一個 token,但她認為,這種單一的關(guān)注點太過局限,無法實現(xiàn) AGI。她說,構(gòu)建一次性或大量生成解決方案的模型可以讓我們更接近 AGI。有助于構(gòu)建此類模型的算法已經(jīng)在一些現(xiàn)有的非 LLM 系統(tǒng)中發(fā)揮作用,例如 OpenAI 的 DALL-E,它可以響應(yīng)自然語言的描述生成逼真的、有時甚至令人迷幻的圖像。但它們?nèi)狈?LLM 的廣泛功能。
為我建立一個世界模型
神經(jīng)科學(xué)家對實現(xiàn) AGI 需要哪些突破有著直覺。他們認為,我們的智力是大腦能夠構(gòu)建“世界模型”的結(jié)果,即我們周圍環(huán)境的表征。這可以用來想象不同的行動方案并預(yù)測其后果,從而進行規(guī)劃和推理。它還可以用來通過模擬不同的場景將在一個領(lǐng)域?qū)W到的技能推廣到新任務(wù)中。
已有多項報告聲稱有證據(jù)表明大模型 (LLM) 內(nèi)部出現(xiàn)了基本的世界模型。在一項研究5中,麻省理工學(xué)院的研究人員 Wes Gurnee 和 Max Tegmark 聲稱,一個廣泛使用的開源大模型系列在使用包含這些地方信息的數(shù)據(jù)集進行訓(xùn)練時,形成了對世界、美國和紐約市的內(nèi)部表征。
盡管其他研究人員在 X(以前的 Twitter)上指出,沒有證據(jù)表明大模型 (LLM) 正在使用世界模型進行模擬或?qū)W習(xí)因果關(guān)系。在另一項研究6中,哈佛大學(xué) (Harvard University) 的計算機科學(xué)家 Kenneth Li 和他的同事報告了證據(jù)表明,一個小型大模型 (LLM) 在使用棋盤游戲黑白棋 (Othello) 玩家的走子記錄進行訓(xùn)練后,學(xué)會了在內(nèi)部表征棋盤的狀態(tài),并以此正確預(yù)測下一步合法走子。
然而,其他結(jié)果則表明,當今人工智能系統(tǒng)學(xué)習(xí)的世界模型可能并不可靠。在一項這樣的研究中7,哈佛大學(xué)的計算機科學(xué)家 Keyon Vafa 和他的同事使用了紐約市出租車行駛過程中轉(zhuǎn)彎的大量數(shù)據(jù)集來訓(xùn)練基于 Transformer 的模型,以預(yù)測序列中的下一個轉(zhuǎn)彎,準確率幾乎達到 100%。
通過檢查模型生成的轉(zhuǎn)彎,研究人員能夠證明模型已經(jīng)構(gòu)建了一個內(nèi)部地圖來得出答案。但作者寫道,這張地圖與曼哈頓(參見“人工智能的不可能街道”)幾乎沒有相似之處,“包含不可能的物理方向的街道和高架橋”。瓦法說:“雖然該模型在某些導(dǎo)航任務(wù)中表現(xiàn)良好,但它在無連貫的地圖上表現(xiàn)良好?!碑斞芯咳藛T調(diào)整測試數(shù)據(jù)以包括訓(xùn)練數(shù)據(jù)中不存在的不可預(yù)見的繞行路線時,它無法預(yù)測下一個轉(zhuǎn)彎,這表明它無法適應(yīng)新情況。

來源:參考文獻 7
反饋的重要性
加利福尼亞州山景城谷歌 DeepMind 的 AGI 研究團隊成員 Dileep George 表示,當今的大模型缺乏的一個重要特征是內(nèi)部反饋。人腦充滿了反饋連接,允許信息在神經(jīng)元層之間雙向流動。這使得信息從感覺系統(tǒng)流向大腦的更高層,以創(chuàng)建反映我們環(huán)境的世界模型。這也意味著來自世界模型的信息可以回饋并指導(dǎo)獲取進一步的感官信息。例如,這種雙向過程會導(dǎo)致感知,其中大腦使用世界模型來推斷感官輸入的可能原因。它們還支持規(guī)劃,使用世界模型來模擬不同的行動方案。
但目前的 LLM 只能以附加的方式使用反饋。在 o1 的情況下,似乎正在發(fā)揮作用的內(nèi)部 CoT 提示(其中生成提示以幫助回答查詢并在 LLM 產(chǎn)生最終答案之前反饋給 LLM)是一種反饋連接形式。但是,正如 Chollet 對 o1 的測試所見,這并不能確保萬無一失的抽象推理。
包括 Kambhampati 在內(nèi)的研究人員還嘗試在 LLM 上添加外部模塊(稱為驗證器)。這些模塊會檢查 LLM 在特定環(huán)境中生成的答案(比如創(chuàng)建可行的旅行計劃),如果答案不達標,則要求 LLM 重新運行查詢8。Kambhampati 的團隊表明,在外部驗證器的幫助下,LLM 能夠比普通的 LLM 更好地創(chuàng)建旅行計劃。問題在于研究人員必須為每個任務(wù)設(shè)計定制的驗證器?!皼]有通用的驗證器,”Kambhampati 說。相比之下,使用這種方法的 AGI 系統(tǒng)可能需要構(gòu)建自己的驗證器以適應(yīng)出現(xiàn)的情況,就像人類可以使用抽象規(guī)則來確保它們推理正確一樣,即使對于新任務(wù)也是如此。
利用這些想法幫助產(chǎn)生新的人工智能系統(tǒng)的努力還處于起步階段。例如,Bengio 正在探索如何創(chuàng)建具有與當今基于轉(zhuǎn)換器的 LLM 不同架構(gòu)的人工智能系統(tǒng)。其中一個使用他所謂的生成流網(wǎng)絡(luò)的人工智能系統(tǒng)將允許單個人工智能系統(tǒng)學(xué)習(xí)如何同時構(gòu)建世界模型以及使用它們進行推理和規(guī)劃所需的模塊。
大模型面臨的另一大障礙是數(shù)據(jù)吞噬者。倫敦大學(xué)學(xué)院理論神經(jīng)學(xué)家卡爾·弗里斯頓 (Karl Friston) 認為,未來的系統(tǒng)可以提高效率,方法是讓它們能夠決定需要從環(huán)境中采樣多少數(shù)據(jù)來構(gòu)建世界模型并做出合理的預(yù)測,而不是簡單地吸收它們輸入的所有數(shù)據(jù)。
弗里斯頓說,這代表了一種能動性或自主性,這可能是 AGI 所需要的?!霸诖笮驼Z言模型或生成式人工智能中,你看不到這種真正的能動性,”他說?!叭绻銚碛腥魏我环N可以在某種程度上進行選擇的智能產(chǎn)品,我認為你就向 AGI 邁出了重要的一步,”他補充道。
能夠構(gòu)建有效世界模型和集成反饋回路的人工智能系統(tǒng)也可能更少地依賴外部數(shù)據(jù),因為它們可以通過運行內(nèi)部模擬、假設(shè)反事實并使用這些數(shù)據(jù)來理解、推理和規(guī)劃,從而生成自己的數(shù)據(jù)。事實上,2018 年,當時在東京谷歌大腦工作的研究人員 David Ha 和瑞士盧加諾-維加內(nèi)洛 Dalle Molle 人工智能研究所的 Jürgen Schmidhuber 報告稱,他們構(gòu)建了一個神經(jīng)網(wǎng)絡(luò),可以有效地構(gòu)建人工環(huán)境的世界模型,然后用它來訓(xùn)練人工智能進行虛擬賽車比賽。
如果你認為具有這種自主性水平的人工智能系統(tǒng)聽起來很可怕,那么你并不孤單。除了研究如何構(gòu)建 AGI 之外,Bengio 還提倡將安全性納入人工智能系統(tǒng)的設(shè)計和監(jiān)管中。他認為,研究必須專注于訓(xùn)練能夠保證自身行為安全性的模型——例如,通過建立機制來計算模型違反某些特定安全約束的概率,并在概率過高時拒絕采取行動。此外,政府需要確保安全使用。他說:“我們需要一個民主的程序,確保個人、公司甚至軍隊以對公眾安全的方式使用和開發(fā)人工智能?!?/p>
那么,AGI 有可能實現(xiàn)嗎?計算機科學(xué)家表示,沒有理由不這么認為?!袄碚撋蠜]有障礙,”喬治說。新墨西哥州圣菲研究所的計算機科學(xué)家梅蘭妮·米切爾對此表示贊同?!叭祟惡推渌恍﹦游镒C明了你可以實現(xiàn)這一目標,”她說?!拔艺J為,生物系統(tǒng)與其他材料制成的系統(tǒng)相比,沒有什么特別之處,原則上可以阻止非生物系統(tǒng)變得智能?!?/p>
但即使有可能,人們對于 AGI 的到來時間也幾乎沒有共識:估計從幾年到至少十年不等。喬治說,如果 AGI 系統(tǒng)被創(chuàng)造出來,我們一看到它就會知道。喬萊特懷疑它會悄悄地靠近我們?!爱?AGI 到來時,它不會像你想象的那么引人注目或具有開創(chuàng)性,”他說?!癆GI 需要時間才能充分發(fā)揮其潛力。它會先被發(fā)明出來。然后,你需要擴大規(guī)模并應(yīng)用它,然后它才能真正開始改變世界?!?/p>
自然 636 , 22-25 (2024)
機構(gòu)編號: https://doi.org/10.1038/d41586-024-03905-1
參考
Bubeck, S.等人。arXiv預(yù)印本
https://doi.org/10.48550/arXiv.2303.12712 (2023)。
Valmeekam, K.、Stechly, K. 和 Kambhampati, S. arXiv 預(yù)印本
https://doi.org/10.48550/arXiv.2409.13373 (2024)。
Goldblum, M., Finzi, M., Rowan, K. 和 Wilson, AG 在 arXiv 上預(yù)印
https://doi.org/10.48550/arXiv.2304.05366 (2024)。
Villalobos, P.等人。arXiv預(yù)印本
https://doi.org/10.48550/arXiv.2211.04325 (2024)。
Gurnee, W. & Tegmark, M. arXiv 預(yù)印本
https://doi.org/10.48550/arXiv.2310.02207 (2024)。
Li, K.等人,第 11 屆國際學(xué)習(xí)表征會議(ICLR, 2023)論文集。
谷歌學(xué)術(shù)
Vafa, K.、Chen, JY、Rambachan, A.、Kleinberg, J. 和 Mullainathan, S. 預(yù)印本,網(wǎng)址: https://doi.org/10.48550/arXiv.2406.03689 (2024)
岡達瓦爾,A.等人。預(yù)印本位于
arXiv https://doi.org/10.48550/arXiv.2405.20625 (2024)。
Ha, D. & Schmidhuber, J. arXiv 預(yù)印本
https://doi.org/10.48550/arXiv.1803.10122 (2018)。
閱讀最新前沿科技研究報告,歡迎訪問歐米伽研究所的“未來知識庫”

未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。
截止到11月25日 ”未來知識庫”精選的100部前沿科技趨勢報告
熱門跟貼