作者|沐風
來源|AI先鋒官
近日,Meta首席AI科學家楊立昆在美國2025年聯(lián)合數(shù)學會議上發(fā)表演講,他提到:“僅靠文本訓練,我們無法實現(xiàn)達到人類水平的AI?!?/strong>
他表示,且不說達到人類的水平,即便要模擬數(shù)學家或科學家的能力也相去甚遠,我們目前甚至無法復(fù)現(xiàn)貓所具備的能力。
它的建議是,要想學習世界模型,就得放棄(像素級預(yù)測性的)生成式AI。
物理世界蘊含的信息,特別是來自視覺、觸覺和聽覺的感官輸入,其信息量遠超人類有史以來產(chǎn)生的所有文本。
要實現(xiàn)達到人類水平的AI (Meta 稱之為 AMI,即高級機器智能),他認為需要這樣的系統(tǒng):能夠通過觀察和感官輸入學習世界模型,還需要具備持久性記憶的系統(tǒng),能夠規(guī)劃復(fù)雜行動序列的系統(tǒng),能夠進行推理的系統(tǒng),以及那些天生可控、設(shè)計安全的系統(tǒng),而不僅僅是像當前AI系統(tǒng)那樣通過微調(diào)實現(xiàn)安全可控。
在他看來,要構(gòu)建這樣的系統(tǒng),唯一的途徑就是徹底改變其執(zhí)行推理的方式。
最后,他還建議:“放棄生成式模型,擁抱聯(lián)合嵌入架構(gòu)(比如JEPA)。放棄純粹的概率模型,擁抱基于能量的模型。放棄對比方法,擁抱正則化方法。放棄“無模型的強化學習”,擁抱“基于模型的方法”,比如模型預(yù)測控制和規(guī)劃。”
“如果你真的想實現(xiàn)達到人類水平的AI,別只盯著LLM。”
以下為本次演講實錄:
剛聽Bryna 列舉了過往 Gibbs 講座的各位杰出演講者,我確實深感壓力。我不敢相信自己能夠與那些大師比肩。不過,還是讓我來談?wù)凙I。
顯然,每個人都在談?wù)揂I,尤其是人類級別AI的難題。因此,很多人工智能研究和開發(fā)社區(qū)的人都認為,也許我們有機會在未來十年左右建造人類智能水平的機器架構(gòu)。至于需要多長時間,各種預(yù)測的差異巨大。最樂觀的人說,我們已經(jīng)實現(xiàn)了。一些正在籌集大量資金的人聲稱明年就能實現(xiàn),但我自己并不這么認為。但我認為我們確實有一個很好的機會。所以我想和大家探討一下,我認為的 AI 研究方向、有哪些障礙,以及其中一些確實存在的數(shù)學難題。

好的,那么我們?yōu)槭裁葱枰⒕哂腥祟愔悄芩降娜斯ぶ悄芟到y(tǒng)呢?
這是因為,你知道,在不久的將來,我們都將與AI助理一起工作,讓它們來協(xié)助我們的日常生活。我們將能夠通過各種智能設(shè)備進行交互,包括智能眼鏡等。通過語音和其他各種與它們互動的方式。所以我們將擁有帶有攝像頭和顯示屏的智能設(shè)備等。目前,目前市面上已有不帶顯示屏的智能眼鏡,但帶顯示屏的版本也即將問世。實際上,這種技術(shù)現(xiàn)已存在,但它們成本太高了,無法商業(yè)化。這是我們在Meta的同事建造的Orion演示。

所以未來即將到來,設(shè)想,我們所有人的生活基本上都將與AI助理密切相關(guān)。我們所有人都會像高級首席執(zhí)行官或重要官員一樣,身邊都有一支由聰明的虛擬助手組成的團隊待命,為我們服務(wù),這是一種可能的情況。
但問題是我們還不知道如何實現(xiàn)這些。而且,目前的機器學習狀態(tài)是它很糟糕。我的意思是,就學習能力而言,與人類和動物相比,機器在達到特定性能水平之前需要經(jīng)歷的樣本數(shù)量或試錯次數(shù)極為龐大,學習效率非常低效。
因此,在過去,機器學習的主導范式是監(jiān)督學習。監(jiān)督學習是你向系統(tǒng)提供輸入,等待它產(chǎn)生輸出,然后告訴它正確的、預(yù)期的輸出是什么。如果您想要的輸出與系統(tǒng)生成的輸出不同,系統(tǒng)會調(diào)整內(nèi)部參數(shù)以使輸出更接近正確答案。這本質(zhì)上只是在學習一個輸入輸出的映射關(guān)系。
強化學習則不用將正確的答案告訴系統(tǒng),它只是告訴系統(tǒng)其產(chǎn)生的答案是好還是壞,其主要問題是系統(tǒng)需要反復(fù)嘗試并接收關(guān)于“好壞”或“是否有改進”的反饋,這樣效率更低,所以它基本上只適用于游戲或者可以在電腦上快速模擬的場景。
因此,在過去幾年中徹底改變了AI的一件事叫做自我監(jiān)督學習,它的效果非常好。它真的徹底改變了AI,但它仍然非常有限。因此,自我監(jiān)督運行是大型語言模型、聊天機器人以及類似技術(shù)的基礎(chǔ)。我馬上就會告訴你它是如何工作的。
但實際上,動物和人類學習新任務(wù)的速度地非常快,并且他們可以理解世界是如何運作的。他們能夠推理和計劃,他們有共同的感知,而且行為真正受目標驅(qū)動,不僅僅是預(yù)測文本中的下一個單詞。
那么這些聊天機器人和LLMs是如何工作的?自回歸大型語言模型它們被訓練來預(yù)測序列中的下一個單詞或序列符號中的下一個符號。它們可以是文字,也可以是DNA、音樂、蛋白質(zhì)等,隨便哪個,其具體做法是,取一段符號序列,將其輸入一個大型神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的架構(gòu)設(shè)計旨在讓系統(tǒng)在其輸出端重現(xiàn)其輸入——這被稱為自動編碼器 。用戶輸入一個序列,并要求系統(tǒng)在輸出端復(fù)制這個序列。
但是系統(tǒng)的結(jié)構(gòu)是這樣的,為了產(chǎn)生一個特定的變量,系統(tǒng)只能按順序查看左邊的變量。它無法查看需要預(yù)測的變量。
基本上,你訓練它做什么,通過這樣做,你訓練它預(yù)測序列中的下一個符號。我們在日志序列上并行執(zhí)行此操作。通過測量輸入序列與系統(tǒng)生成序列之間的某種散度進行量化差異,,然后通過梯度最小化散度度量,基本上是基于梯度的優(yōu)化,相對于預(yù)測函數(shù)內(nèi)的所有參數(shù),這是一個巨大的基本網(wǎng)絡(luò),可能有數(shù)百億甚至數(shù)百億個參數(shù),這是一個非常高的維度,
一旦你訓練了這個系統(tǒng),當你取一個序列并運行它時,系統(tǒng)將預(yù)測下一個符號。那么讓我們假設(shè)它在這里查看符號的窗口是3?,F(xiàn)實中,一個LLM可以有幾十萬,但假設(shè)有3個。向系統(tǒng)輸入 3 個詞,它會產(chǎn)生下一個單詞。當然,它無法準確預(yù)測下一個單詞,因此它產(chǎn)生的是覆蓋其詞匯表中所有可能單詞的概率分布。
通常在LLM中,我們實際上不會嘗試生成單詞,而是嘗試生成Tokens,它們就像子詞單元一樣??赡艿?Token 種類數(shù)量通常在 10 萬左右。
好的,現(xiàn)在當你使用這個系統(tǒng)時,你給它輸入一個被稱為提示詞的單詞序列。你讓系統(tǒng)預(yù)測下一個單詞后,再將其輸入到輸入中,隨后,系統(tǒng)基于更新后的序列預(yù)測再下一個 Token,并再次追加,如此循環(huán)往復(fù)。所以這基本上就是自動回歸預(yù)測,一個在信號處理和統(tǒng)計學領(lǐng)域非常古老的概念。
如果這些神經(jīng)網(wǎng)絡(luò)構(gòu)建的非常大,你可以使用非常大的輸入窗口,并利用包含數(shù)萬億乃至數(shù)十萬億 Token 的海量數(shù)據(jù)集進行訓練,其效果便會格外顯著。這些系統(tǒng)似乎能夠?qū)W習到很多關(guān)于語言或你正在訓練的符號序列的底層結(jié)構(gòu),但自回歸預(yù)測存在一個根本性的問題在座的數(shù)學家或許能比我在這個方面更嚴謹?shù)貙⑵湫问交硎觥?/p>
自回歸預(yù)測本質(zhì)上是一種發(fā)散過程,對吧?如果你想象一下,這些符號是離散的。所以每次你產(chǎn)生一個符號時,便存在多種選擇,也許多達 10 萬種,你可以把所有可能的Token序列想象成分支因子為10萬的巨樹。在這棵巨大的樹中,有一個小子樹,它對應(yīng)于所有可以被定義為“正確”的答案或合理的續(xù)寫。
因此,如果提示是一個問題,那么后續(xù)生成的包含答案的文本序列便都位于這棵小子樹之內(nèi)。問題在于,如果你假設(shè)哪一個是錯誤的,那么每次你產(chǎn)生一個符號時,都有一定的錯誤概率,假設(shè)每生成一個符號便有固定的錯誤概率e的,且各步錯誤是獨立的,那么,n個符號序列正確的概率為 (1-E)^N,即使e非常小,但隨著序列長度 N 的增加,該正確概率也會呈指數(shù)級衰減并趨近于零。這個問題是自回歸預(yù)測框架所固有的,在當前框架內(nèi)無法解決。
所以我的預(yù)測是,自回歸LLMs將在幾年后注定失敗,理性的人們可能將不再使用它們,這就是為什么經(jīng)常出現(xiàn) LLM 產(chǎn)生幻覺的現(xiàn)象,有時他們會產(chǎn)生胡言亂語,這基本上就是因為這種自回歸預(yù)測機制。
所以問題是,我們應(yīng)該用什么來代替它,現(xiàn)在有沒有其他類型的限制?因此,我認為我們錯過了一些非常重要的東西,比如如何構(gòu)建人工智能系統(tǒng)的新概念,僅僅通過在更大的數(shù)據(jù)集上訓練大型語言模型來達到人類的人工智能水平,這是絕對不會發(fā)生的。我會在一分鐘內(nèi)給你另一個原因。
且不說達到人類的水平,即使試著復(fù)制數(shù)學家或科學家的能力也相差甚遠,我們甚至不能復(fù)制貓能做的事情。貓對物理世界有著驚人的理解,我拿貓來距離。換成老鼠也同樣適用。我們不知道如何讓一個AI系統(tǒng)在理解物理世界方面像貓一樣。貓能夠規(guī)劃非常復(fù)雜的行動。他們有關(guān)于世界的因果模型(Causal Models),他們知道自己行為所產(chǎn)生的后果。
人類的能力更是驚人的。一個10歲的孩子可以在不真正學習任務(wù)的情況下,清理餐桌并將碗碟放進洗碗機。你要求一個10歲的孩子做這件事,他很可能在首次嘗試時就能完成,這被稱為零碎片學習,因為這個孩子已經(jīng)具備了相當完善的世界心智模型,理解物體在被操控時的反應(yīng)方式以及事物應(yīng)有的狀態(tài)。
一個17歲的人可以在20個小時的練習中學習駕駛汽車,自動駕駛公司擁有數(shù)十萬人駕駛汽車的培訓數(shù)據(jù)。我們?nèi)匀粵]有自動駕駛汽車,至少沒有L5級自動駕駛汽車。我們有AI系統(tǒng),他們可以通過律師考試,他們可以做數(shù)學問題,他們可以證明定理,但是L5級自動駕駛在哪里?我的家用機器人在哪里?我們?nèi)匀粺o法構(gòu)建與現(xiàn)實世界打交道的系統(tǒng)。
物理世界比語言復(fù)雜得多,這被稱為莫拉維克悖論,對吧?對于人類來說很復(fù)雜的任務(wù),比如計算積分、求解微分方程,下棋還是去規(guī)劃城市路徑等。這些對人類來說是一種艱巨的任務(wù)。事實證明,計算機在這方面比我們好得多,就像它們在下棋對弈方面比我們好得多,這真的讓人類望塵莫及。當人們把人類智能稱為通用智能時,那完全是無稽之談。我們根本不具備通用智能。我們是高度專業(yè)化的。
所以,僅僅通過文本訓練是無法達到人類水平的AI。你可以做一個有趣的計算。一個典型的現(xiàn)代LLM大約是在20 萬億個 Token 上進行訓練的。每個 Token 大約是3個字節(jié)。所以那將是60TB。讓我們將這個運行到100TB。我們?nèi)魏稳硕夹枰獛资f年才能讀完這個。這基本上構(gòu)成了互聯(lián)網(wǎng)上公開提供的所有文本的全部。所以,我的意思是,這似乎是一個令人難以置信的訓練數(shù)據(jù)。
但是現(xiàn)在拿一個人類孩子來說,一個四歲的孩子,總共清醒的時間是16000個小時。
我們有200萬個視神經(jīng)纖維,每只眼睛有一百萬個進入視覺皮層。每個視神經(jīng)纖維每秒攜帶約1字節(jié),也許少一些,但誰在乎呢?所以計算一下,四年內(nèi)大約是100TB。這只是物理世界中我們從視覺、觸覺和聽覺中獲得的感官信息,比所有人類產(chǎn)生的文本都要多得多。
再說一遍,除非我們能讓系統(tǒng)通過觀察世界來學習世界的運作方式,否則我們永遠無法達到人類的AI水平。感官輸入所能提供的信息比文本中更多。
心理學家已經(jīng)研究過嬰兒如何學習現(xiàn)實世界。在前幾個月里大多數(shù)都通過觀察來學習,因為嬰兒在頭三四個月里除了活動自己的四肢外,并不能在世界上進行有效互動,因此他們通過觀察學習了大量關(guān)于世界的背景知識。
這是一種自我監(jiān)督學習的形式,我認為如果我們想讓人工智能系統(tǒng)達到動物水平或人類水平的智能,我們絕對必須復(fù)制這種形式。
嬰兒會學習物體恒存性,即一個物體隱藏在另一個物體之后,它仍然一樣存在,還有穩(wěn)定性以及自然物體類別等概念,即使不知道它的名字。然后是直覺物理學,重力,慣性,動量守恒等物理規(guī)律。這個時期的嬰兒大約在九個月左右就能掌握這些。因此,如果您向6個月的嬰兒的展示一個物體似乎漂浮在空中的場景,6個月大的嬰兒不會特別驚訝。但是10個月大的嬰兒會像這里的小女孩一樣用大眼睛看著它,并且真的很驚訝,因為到那時他們已經(jīng)知道沒有支撐的物體應(yīng)該會掉落。這只是通過觀察,通過那個年齡的互動發(fā)生的。
為了達到人類級別的人工智能,我們稱之為AMI,我們不稱之為AGI,因為人類智能不是通用的。所以我們稱之為AMI,即高級機器智能。我們發(fā)音為 “ami”,在法語中意為朋友。因此,我們需要能夠通過觀察和感官輸入來學習的世界模型系統(tǒng),以便它們能夠接觸物理學和常見感知等。我們還需要具備持久性記憶的系統(tǒng),可以規(guī)劃復(fù)雜動作序列的系統(tǒng),可以推理的系統(tǒng),以及通過設(shè)計而非微調(diào)而可控和安全的系統(tǒng)。我唯一能想到的構(gòu)建這樣的系統(tǒng)的方法是徹底改變這些系統(tǒng)執(zhí)行的推理模式。
因此,當前的推理模式是將輸入信號通過固定數(shù)量的網(wǎng)絡(luò)層處理后生成輸出。然后,對于每個 Token,它都會花費固定的計算量。因此,讓LLM花更多時間思考某件事的技巧是欺騙它產(chǎn)生更多的 Token。這就是所謂的思維鏈推理。這在近期被譽為AI的巨大進步。
因此,通過在神經(jīng)網(wǎng)絡(luò)中固定層數(shù)運行信號來計算的函數(shù)類型非常有限,假設(shè)一個合理大小的神經(jīng)網(wǎng)絡(luò)是有限的,因為你想要解決的大多數(shù)任務(wù)需要許多計算步驟。你不能僅僅把它們簡化為幾個步驟。你知道,現(xiàn)在許多計算任務(wù)本質(zhì)上是串行的或順序的,而非純粹的并行結(jié)構(gòu)。因此,您可能需要花更多時間考慮更復(fù)雜的功能,而不是回答簡單的問題。
執(zhí)行推理的更好方式或許是“通過優(yōu)化進行推理”。基本上,你有一個觀測值,你可以通過神經(jīng)網(wǎng)絡(luò)的幾層運行它,然后你有一個成本函數(shù),它本身是一個產(chǎn)生標量輸出的神經(jīng)網(wǎng)絡(luò)。要衡量的是輸入和假設(shè)輸出之間的兼容或不兼容程度。所以現(xiàn)在的推理問題變成了一個優(yōu)化搜索輸出的問題,給定輸入 'x',去尋找能使該目標 (成本) 函數(shù)最小化的那個輸出 'y'。我將這種方法稱為 目標驅(qū)動的 AI,當然,這并非一個全新的概念。
像大多數(shù)概率推理系統(tǒng)一樣,使用優(yōu)化執(zhí)行推理。我知道房間里有相當多的人從事過最優(yōu)控制的工作,因此規(guī)劃和最優(yōu)控制、運動模型、預(yù)測控制等都可以通過優(yōu)化產(chǎn)生輸出。關(guān)于這一點,我稍后會再詳細說明。
所以這個想法并不新鮮,但我們已經(jīng)忘記了。我想我們必須回歸這種方法。我們必須構(gòu)建一個體系結(jié)構(gòu)能夠通過優(yōu)化進行推斷的系統(tǒng)。其中,“輸出”被看作一個潛變量,需要依據(jù)輸入和目標函數(shù) 來進行優(yōu)化確定。這在傳統(tǒng)的AI中是非常經(jīng)典的,在可能的解空間中尋找解決方案的想法,那非常傳統(tǒng)。這只是有點被遺忘了。
可以這樣解決的任務(wù)類型在某種程度上相當于心理學所謂的“系統(tǒng)2”思維模式。因此,在人類認知中,這兩種產(chǎn)生行為的類型,其中一種被稱為系統(tǒng)1,這是你潛意識里做的一種任務(wù)。你可以采取行動,甚至不用考慮它。然后系統(tǒng)2是你必須投入整個意識的時候。如果你想完成任務(wù),必須集中意識、深思熟慮來規(guī)劃一系列行動時,系統(tǒng) 2 就開始工作了。例如,如果你正在建造一件東西,而你不習慣那個任務(wù),你將使用系統(tǒng)2。當你證明一個定理時,你肯定在使用系統(tǒng)2。
那么,什么是最好的方式來正式表示優(yōu)化影響的這個過程,這正好對應(yīng)了能量基模型(Energy-Based Models)的核心思想。因此,一個 EBM 會計算一個稱為“能量”的標量值,該標量數(shù)測量輸入X和候選輸出Y之間的不兼容程度,并通過將此能量相對于y最小化來執(zhí)行推理。我將這個稱為能量函數(shù)F(X,Y)為什么f不像E那樣呢?因為它是F關(guān)聯(lián)到自由能,我們在這里越來越接近吉布斯類型。
所以這就是現(xiàn)在的推理過程,通過這種類型的標量能量函數(shù)來建模兩個變量之間的依賴關(guān)系比僅僅運行從x到y(tǒng)的函數(shù)要通用得多,原因是對于給定的 X,可能存在多個與之兼容的 Y 值。例如,如果你在這里試圖解決的問題是從英語翻譯成法語,那么有很多方法可以將特定的英語句子翻譯成法語,所有這些好的翻譯都應(yīng)該對應(yīng)較低的能量值,以表明這兩個東西對于翻譯任務(wù)是兼容的,但它不像單個輸出是正確的,所以基本上我在這里談?wù)撾[式函數(shù),右側(cè)代表變量之間的依賴關(guān)系或隱式函數(shù),這是一個非常簡單的概念,不是一個明確的概念,令人驚訝的是,對于某種類型的計算機科學家來說對此難以掌握。
那么我們?nèi)绾卧谝粋€可能能夠規(guī)劃行動的智能系統(tǒng)中使用這些基于能量的模型呢?這有點像能量函數(shù)標量能量函數(shù)的內(nèi)部結(jié)構(gòu)的圖,可能是方塊圖。因此,在這個圖表中,圓形表示變量,無論是觀察到的還是潛在的模塊,一端是平的,另一端是圓形的代表確定性函數(shù)。假設(shè)一個產(chǎn)生單個輸出的神經(jīng)網(wǎng)絡(luò)。矩形表示目標函數(shù),基本上是標量輸出。輸出在這里是隱式的,但是標量值函數(shù)在輸入可接受時取較低的值,在輸入不可接受時取較大的值。因此,在這里,您可以有兩種類型的目標,一種是衡量系統(tǒng)完成您想要完成的任務(wù)的程度,另一組目標可能是護欄。所以防止系統(tǒng)做愚蠢的事情、危險的事情、自我毀滅的事情或?qū)χ車娜祟愑泻Φ氖虑椤?/p>
所以過程始于觀察世界的狀態(tài)。該觀察結(jié)果首先被送入感知模塊,該模塊生成世界當前狀態(tài)的表示。由于感知可能是不完整的,所以你可能想把它與記憶的內(nèi)容結(jié)合起來,其中包含你對你記憶中可能存在的其他世界狀態(tài)的想法。將這兩件事結(jié)合起來,并將它們提供給世界模型,世界模型應(yīng)該做的是預(yù)測采取特定行動序列的結(jié)果。所以動作序列在黃色變量框中,世界模型會預(yù)測出一系列后續(xù)的狀態(tài)表示 (S_t+1, S_t+2...)。這些預(yù)測的狀態(tài)表示,隨后被輸入到目標函數(shù)中進行評估。假定所有這些模塊 (感知、世界模型、成本模塊) 都是可微的(例如,可以由神經(jīng)網(wǎng)絡(luò)實現(xiàn)),那么就可以將梯度從成本函數(shù)出發(fā),經(jīng)由世界模型,一路反向傳播到行動序列上。通過使用基于梯度的優(yōu)化方法 (例如梯度下降),就能找到一個可使總體成本 (目標函數(shù)值) 最小化的行動序列。這個過程,本質(zhì)上就是在進行規(guī)劃。
所以這是一個系統(tǒng)能夠通過優(yōu)化進行推理的過程。但它需要一個世界模型,才能預(yù)測其行為的后果。在最優(yōu)控制理論里,這是一個非常經(jīng)典的觀點,即你有一種你想要控制的世界或系統(tǒng)的模型,你給它一系列的動作,他就可以進行預(yù)測結(jié)果,比如你想拍攝空間站。你有一個火箭的動力學模型,你可以假設(shè)一系列控制,然后預(yù)測火箭是否會結(jié)束,你可以有一個成本函數(shù)來衡量火箭離空間站的距離。然后通過優(yōu)化,找出一系列將到達或到達空間站的控制措施,非常經(jīng)典。這叫做“模型預(yù)測控制” (MPC)。自上世紀年代以來,MPC 在最優(yōu)控制、機器人技術(shù),甚至火箭軌道規(guī)劃這些領(lǐng)域,都有非常廣泛的應(yīng)用。
當然,現(xiàn)在世界并不完全是確定性的,所以你的世界模型可能需要潛在變量,即你不知道其值的變量。沒有人告訴你他們采取了什么價值觀。它們可以采用許多不同的值。也許他們可以從分布中撤回,并且可能會產(chǎn)生多個預(yù)測。因此,使用具有潛在變量的世界模型在不確定性下進行規(guī)劃將是一件好事,潛在變量基本上代表了你對世界不了解的一切或允許你進行預(yù)測的一切。
但這并不是一個可以解決的問題。我們實際上想做的是分層規(guī)劃。我們所有人都這樣做。動物可以做到這一點。今天沒有任何AI系統(tǒng)可以學習如何進行分層規(guī)劃。我們可以通過手動構(gòu)建所有內(nèi)容來讓他們進行分層規(guī)劃,但沒有系統(tǒng)真正知道如何進行分層規(guī)劃。
假設(shè)我坐在紐約大學的辦公室里,我決定去巴黎。我不可能只靠規(guī)劃具體到毫秒級的肌肉怎么動,這是最低層級的動作,來計劃好從辦公室到巴黎的整個行程,這做不到。首先因為它的序列太長了。其次,我甚至沒有任何信息。我不完全知道路上的紅綠燈是紅色還是綠色。那么我需要計劃停下來還是過馬路?但是在高層次上,我可以從我的心理模型中獲得一種高層次的預(yù)測心理,即如果我想去巴黎,我需要去機場并趕飛機。
好的,現(xiàn)在我有一個子目標去機場。我怎么去機場?我在紐約,所以我可以到街上去叫輛出租車。我怎么走在街上,我得從辦公桌前站起來,去到電梯,按下按鈕,然后走出大樓。我怎么去電梯?我需要從椅子上站起來,想著我的包,打開門,走到電梯,避開路上的所有障礙物。
在某種程度上,當你往下走的時候,到了某個足夠具體的層級,詳細的行動規(guī)劃,比如剛才說的毫秒級肌肉控制才變得可行,因為這時候,做動作需要的實時信息都有了,比如,站起來、開門這些動作,就可以在當前這個局部環(huán)境下規(guī)劃。
所以,怎么學習世界模型,怎么學習分層世界模型,怎么學習世界的抽象表示,好讓系統(tǒng)能在不同的時間尺度上做預(yù)測,從而有效地規(guī)劃,目前沒有人知道如何精確地做到這一點,如何使其發(fā)揮作用。因此,如果我們對我告訴您的所有部分進行取樣,最終會得到一種稱為AMI認知的架構(gòu)的東西,它可能的“認知架構(gòu)”是什么樣的。這個架構(gòu)里,得有一個世界模型,還得有各種各樣的“目標函數(shù)”,一個“行動者”,它負責優(yōu)化動作來降低成本,還得有“短期記憶”,有點像大腦中的短期記憶是海馬體,即感知模塊。這是整個大腦的后部。
大概兩年半以前,我為此寫了一篇很長的論文,我把它放在公開評論中,而不是在檔案中,我在檔案中解釋如果我們想在這個方向上取得進展,我認為AI研究將走向何方。這是在“大語言模型”熱潮之前,盡管LLMs已經(jīng)存在,但我從來就不信光靠 LLM 就能搞出達到人類水平的 AI。
我們?nèi)绾巫孉I系統(tǒng)從視頻等感官輸入中學習世界的心智模型?我們能不能像訓練 LLM 那樣,用“自回歸預(yù)測”的思路,去訓練一個“生成式架構(gòu)”,讓它能預(yù)測視頻的下一幀畫面呢?答案是否定的,它不起作用。我已經(jīng)嘗試做了20年的工作。完全失敗,它不起作用。它適用于離散的符號,因為處理預(yù)測中的不確定性很簡單。你生成一個概率向量,也就是一串加起來等于 1 的、0 到 1 之間的數(shù)字。
現(xiàn)在的問題是如何在高維連續(xù)空間中預(yù)測視頻幀,我們不知道如何以任何有意義的方式表示概率密度函數(shù)。在這樣的事情中,我們可以將它們表示為一個能量函數(shù),然后將其歸一化。這有點像統(tǒng)計物理里的做法,比如用玻爾茲曼分布 (Boltzmann distribution),就是那個 exp (-能量/kT)。但是,對于高維空間里復(fù)雜的能量函數(shù)來說,要算出那個歸一化常數(shù)(也叫“配分函數(shù)” (partition function)),通常在計算上是搞不定的。
所以,使用生成模型來訓練系統(tǒng)來預(yù)測視頻的想法是行不通的。但目前有很多人正在研究它。但他們感興趣的并不是運行世界模型。它實際上是在生成視頻。如果你的目標只是生成視頻,那這個方法也許還行。但是,如果你想讓你的系統(tǒng)真正理解世界的底層物理學,那就輸了。原因是,如果你訓練一個系統(tǒng)進行單一預(yù)測,這就是生成模型所做的,你得到的是模糊的預(yù)測,基本上,因為系統(tǒng)只能預(yù)測可能發(fā)生的所有可能未來的平均值。
所以我的解決方案叫做JEPA,它代表聯(lián)合嵌入預(yù)測架構(gòu)。
這就是它的樣子,你可能不會立即發(fā)現(xiàn)與生成式架構(gòu)的區(qū)別。讓我把這一點說得更明顯。在左邊,生成式架構(gòu)。你在訓練期間最小化的函數(shù)基本上是一個預(yù)測誤差,對吧?所以預(yù)測y,觀察X,在訓練期間觀察y,然后訓練一個系統(tǒng)來預(yù)測y,這就像自監(jiān)督學習,除了如果y是序列,則y是x的一部分。因此,受監(jiān)督的細胞對離散y起作用,對連續(xù)的高維y不起作用。
右邊這個就是聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)。現(xiàn)在X和Y都通過編碼器運行,編碼器所做的是計算一個抽象的表示,即X和Y的表示,編碼器可能不同,然后預(yù)測是在這個抽象的表示空間里進行的,就是從 X 的表示來預(yù)測 Y 的表示。
現(xiàn)在,從很多方面來看,這是一個更容易解決的問題,因為世界上有許多細節(jié)是完全不可預(yù)測的。JEPA架構(gòu)所做的基本上是找到世界的抽象表示,以便從該表示中消除所有無法預(yù)測的東西。
將編碼器函數(shù)視為某種具有不變性的函數(shù),因此,與您無法預(yù)測的事物相對應(yīng)的輸入y的可變性在表示空間中被消除了,比方說,一個鏡頭在這個房間里掃過。要是我停下鏡頭,讓系統(tǒng)預(yù)測下一幀畫面是啥什么,它可能能預(yù)測出大體的場景(比如座位上有人),但它絕對預(yù)測不了每個人的精確位置和長相,也預(yù)測不了地板、墻壁的精確紋理。有很多事情無法預(yù)測,因為需要的信息根本就不在輸入畫面里。JEPA 就是要學習一種能過濾掉這些不可預(yù)測細節(jié)的表示,把預(yù)測的精力集中在那些能預(yù)測的事情上,而不是在那些壓根兒預(yù)測不了的東西上白費力氣。
因此結(jié)論是,如果我所說的是正確的,用JEPA 架構(gòu)比使用生成式架構(gòu)要好得多,后者應(yīng)該完全放棄生成式架構(gòu)。為了學習世界模型,我們也許真該放棄那種像素級別的生成式預(yù)測了。現(xiàn)在大家都在談?wù)摗吧墒?AI”。而我的建議是,要想學習世界模型,就得放棄生成式 AI。
這些架構(gòu)也有不同的變種,有些可能還會用到潛在變量。但我不會詳細介紹這些細節(jié)。但有一個問題,那就是你如何訓練這些東西。因此,基本上,訓練這樣的系統(tǒng)來學習依賴性包括學習能量函數(shù),使能量函數(shù)在您的訓練樣本中具有較低的值。因此,在你有數(shù)據(jù)的x,y點上,能量應(yīng)該很低,但在其他地方能量應(yīng)該更高。所以想象一下,x,y可以依賴于你想要的能量函數(shù)的某個流形,比如說在流形上為零,然后隨著你遠離流形而逐漸增加。這個問題在于我只知道兩種像這樣的訓練系統(tǒng)。
如果這個能量函數(shù)以一種允許你采取許多不同形狀的方式參數(shù)化,你可能會遇到一個問題,即如果你只是確保訓練樣本周圍的能量很低,而你不做任何其他事情,它可能會崩潰。你最終可能得到一個完全平坦的能量函數(shù)。這就是所謂的崩潰。
所以有兩種方法可以防止崩潰。一個是生成對比樣本,這些點不在正常的數(shù)據(jù)流形上。然后你明確地告訴模型,要給這些反例打高分,同時給那些正常的樣本打低分。你通過設(shè)計一個“損失函數(shù)”來達到這個目的。但對比方法的毛病在于,到了高維空間它就不太好使了,因為要想把能量函數(shù)的樣子給塑造好,你需要特別特別多的反例樣本,這個數(shù)量會隨著維度增加呈指數(shù)爆炸式增長。
所以有一種替代方法,你可以稱之為正則化方法。這些方法所基于的基本上是提出一些正則化函數(shù),如你通過最小化這個正則化項,來間接地限制那些被打低分的輸入空間的“體積”,不讓它變得太大,這聽起來有點神秘,但實際上,在應(yīng)用數(shù)學的背景下,有很多事情都做到了這一點。例如,在稀疏編碼中,這實際上就是稀疏編碼所做的。當您指定一個立子變量時,基本上可以最小化可以占用低能量重建能量的空間體積。
好的,那兩種方法,對比方法和正則化方法。有不同類型的架構(gòu)可能發(fā)生崩潰的傾向性也不一樣。既然這是吉布斯講座 (Gibbs lecture),我必須再提一下Gibbs的名字。怎么把能量函數(shù)轉(zhuǎn)化為概率分布呢?就是用“吉布斯-玻爾茲曼分布” (Gibbs-Boltzmann distribution)。你算一個 exp(-β * F(X,Y)),β 是個常數(shù),類似“逆溫度”,F(xiàn)(X,Y) 就是能量函數(shù)。然后你把這個式子在 Y 的所有可能取值上做個積分,用這個積分結(jié)果去除它本身,進行歸一化。這樣,你就得到了一個規(guī)規(guī)矩矩歸一化了的條件概率分布 P(Y|X)。如果你非要搞“概率建?!保悄阌柧殹澳芰炕A(chǔ)模型”的辦法,就是在訓練數(shù)據(jù)上最小化那個“負對數(shù)似然函數(shù)” (negative log-likelihood, -log P(Y|X))。但問題又來了,那個歸一化常數(shù) Z(X),通常算起來太難了,計算上搞不定。所以你就得用近似的方法,比如“變分方法” (variational methods) 或者“蒙特卡洛方法” (Monte Carlo methods)。機器學習領(lǐng)域的很多人都這樣做了,也從物理、統(tǒng)計這些學科里借鑒了不少想法。我畫了個表,把各種經(jīng)典的方法分成了正則化和對比這兩類。
因此,這些方法,無論是對比還是正則化,都非常成功地基本上預(yù)先訓練了視覺系統(tǒng),以學習圖像的表征,即自我監(jiān)督的方式。這個想法可以追溯到20世紀早期,我的一篇論文和中期與我的一些學生一起。最近有更多來自谷歌的論文,很多人一直在研究對比方法。
你可能聽說過一個名為Clip的模型,它是由OpenAI或使用文本監(jiān)督學習視覺特征生成的。這是一種對比方法,但再次強調(diào),它不能很好地適應(yīng)維度。
所以我更喜歡正規(guī)化的方法。問題是,你如何使這項工作成功?使這起作用的一種方法是你必須防止系統(tǒng)崩潰。那在這種情況下,崩潰到底是什么樣子呢?
崩潰指的就是將在于最小化預(yù)測誤差。只有這樣做,那系統(tǒng)就可以完全忽略X和Y,生成常數(shù)S_X和S_Y,然后你的預(yù)測問題就微不足道了。你的預(yù)測誤差一直是0,但是這樣得到的模型,就是個崩潰了的模型,對你沒有任何幫助。那么我們要怎么防止這種情況發(fā)生呢?
這基本上是一個正則化術(shù)語,試圖最大化來自編碼器的信息內(nèi)容,比如,對信息內(nèi)容進行一些估計,其中 -(S_X) 和 -(S_Y),在前面加上一個減號,并將其最小化。現(xiàn)在,這是一個挑戰(zhàn),因為我們不知道如何最大化信息內(nèi)容。我們知道如何最小化它,因為我們有信息的上限。我們對信息沒有下限。所以,實際操作中,我們是設(shè)計一些“代理”目標,通過優(yōu)化這些代理目標,來間接鼓勵模型產(chǎn)生信息量更高的表示(這可能基于一些假設(shè)或近似),并期望實際的信息量也跟著提高。以便實際的信息內(nèi)容實際跟隨。而且這招效果還挺不錯的,雖然它的理論依據(jù)還在完善中,但可能比其他方法要好。
所以,如果你能提出信息內(nèi)容的下限就好了。但坦率地說,我認為這是不可能的,因為可能存在你不了解其本質(zhì)的復(fù)雜依賴關(guān)系。所以它不起作用。
那么基本的想法是如何將一個數(shù)字放入一種關(guān)于信息含量的可微目標函數(shù)中?基本的想法是讓來自你編碼器的表現(xiàn)填補這個空間。這個想法幾乎是由多個人在不同的背景下同時提出的。
基本上有兩種方法可以做到這一點。因此,對比方法應(yīng)該被稱為非常簡單的對比方法,因此,對于多個樣本,從您的編碼器中取出一個向量矩陣。對比方法試圖使向量從編碼器中出來完全不同,想象一下,它們都在一個球體的表面上,因為你將它們歸一化,你基本上是在推動所有這些向量遠離彼此。所以他們展示了空間,它不能很好地工作。我的意思是,你基本上需要很多行才能工作,做一些有用的事情。
如果您的行數(shù)很少,那么很容易讓隨機向量正交。所以我們需要很多規(guī)則才能做到這一點。所以反過來是維度合約跟蹤方法,你取該矩陣的列,并嘗試使這些列彼此不同,可能相互正交。這只適用于相對于維度的行數(shù)較少的情況,否則就太容易了。
你只有少量的高維向量。這需要正交嗎?我的意思是,隨機抽取它們,它們幾乎是正交的,所以你在這兩者之間有一種二元性。實際上,我們有一篇論文論述了這兩件事是彼此的事實,但我更喜歡第二個,因為它們可以處理高維表示空間,而第一個確實可以。
我們具體在用的一種方法叫做VicReg,這意味著方差-不變性-協(xié)方差正則化。它的想法里包含一個成本項,要求在處理一批樣本時,表示 S_X 的每個維度的方差都要保持在某個閾值以上。還有一個成本項,要求這批樣本表示算出來的“協(xié)方差矩陣”,它的非對角線上的元素都要趨近于零。這樣做的目的是消除表示向量各個維度之間的相關(guān)性,最理想的情況是讓不同的特征維度之間近似“正交”。其他研究者也提出了類似的想法,包括伯克利的馬毅教授,還有我在紐約大學的一些同事。我們有一些理論結(jié)果表明,在某些條件下,如果你先對數(shù)據(jù)做了“非線性變換” ,然后再用這個去相關(guān)的標準,它能有效地促進變量之間“兩兩獨立”,而不僅僅是沒相關(guān)性,這一點很有意思。不過,完整的理論圖像還不清晰。對于嗅覺敏銳的數(shù)學家來說,這里面還有很多挑戰(zhàn)。
現(xiàn)在我要跳過一些內(nèi)容,因為我沒有時間了。
你實際上可以將 VicReg 這個技術(shù)用到“偏微分方程” ,不一定是為了直接解方程,而是比如,通過觀察方程解在不同時空窗口里的樣子,來反推出方程本身的系數(shù)。具體怎么做呢?你拿到 PDE 的時空解,從里面隨機取兩個不同的窗口,然后訓練一個系統(tǒng)用 VicReg 的標準,讓它不管你取哪兩個窗口,都能給它們算出一樣的表示。你想,能讓系統(tǒng)從不同窗口里提取出來的、共同的不變信息是啥呢?那只能是跟背后那個微分方程本身有關(guān)的東西——說白了,就是方程的系數(shù),或者是系數(shù)的某種表示。把這個方法用到各種實際問題上,發(fā)現(xiàn)它確實管用。想了解更多細節(jié)的話,可以找 Randal Balestriero聊聊。他是相關(guān)論文的主要作者之一。最重要的是,用 VicReg 這種方法學出來的 PDE 系數(shù),用它去做后續(xù)的預(yù)測,你會得到一個比監(jiān)督學習訓練更好的預(yù)測效果,這有點有趣。
好的,還有另一組替代VicReg的方法,稱為基于蒸餾的方法,我們使用它們是因為它們效果很好,但我不喜歡它們,因為感覺它們的理論基礎(chǔ)好像還不如 VicReg 或者信息最大化那些方法扎實。我不打算詳細介紹它們是如何工作的,簡單說,你名義上是在最小化某個函數(shù),但實際上你用的那個“梯度下降” 更新步驟,并不能真正讓那個函數(shù)達到最小值;這里面挺復(fù)雜的。
在下面列出了一些關(guān)于這個的理論論文,但它們通常只在很簡化的假設(shè)下才成立,并不是一個令人滿意的方法。但它真的很有效。很多人一直在使用它來自監(jiān)督的學習圖像特征,我沒有時間詳細描述,但它在學習圖像方面做得非常好,然后您可以將其用在后續(xù)任務(wù)中,而無需太多的標簽樣本。
然后有一個叫做視頻V-JEPA的視頻版本。拍攝一個視頻,在時間和空間上隨機“遮掉”一大部分區(qū)域,例如,然后你訓練一個 JEPA架構(gòu),從部分掩蓋的表示來預(yù)測完整視圖的內(nèi)部表示。結(jié)果發(fā)現(xiàn),這樣訓練出來的系統(tǒng)能學到非常好的視頻表示。你可以將該表示用作系統(tǒng)的輸入,該系統(tǒng)可以對視頻中發(fā)生的動作進行分類,它效果很好。
關(guān)于這項技術(shù)的一個非常有趣的事情是,這是我們剛剛完成并正在提交的一篇論文。當你測試這些系統(tǒng)并測量他們在視頻上所做的預(yù)測誤差時,如果你展示一個物理上不可能的視頻,比如一個物體消失或自發(fā)地改變形狀,它告訴你,它告訴你這是不可能發(fā)生的。這說明這個系統(tǒng)已經(jīng)學到了一種非?;镜摹㈥P(guān)于物理世界可能性的“常識”。所以這些,這是學習了一種非?;镜某R姼兄问?,有點像我之前談到的嬰兒。我的意思是,這確實是一個令人驚訝的結(jié)果,因為該系統(tǒng)實際上沒有受過預(yù)測的訓練。它只是被訓練去預(yù)測那些被遮住的部分應(yīng)該是什么樣的表示而已。
我們還一直把自監(jiān)督學習訓出來的編碼器和預(yù)測器用在規(guī)劃任務(wù)上。這就又說回到世界模型了。
所以我來到了這個想法世界模型。所以假設(shè)你有一張顯示世界狀態(tài)的圖片,系統(tǒng)可以控制你想要的機械臂。使最終狀態(tài)跟我們想要的目標狀態(tài)一樣。假設(shè)你桌子上有一堆藍籌股,你想移動一個機器人手臂,最后,藍籌股都在一個漂亮的小方塊內(nèi),就像在圖里畫的一樣。所以我們先訓練一個編碼器。因此,我們使用DINOv2 ,這是一個預(yù)訓練的編碼器,然后訓練一個世界模型,以預(yù)測當你采取特定行動時,會導致什么結(jié)果。它能不能預(yù)測出來,最后那個擺著藍色籌碼的棋盤的狀態(tài),對應(yīng)的表示是什么?一旦你有了那個模型,我們能不能用它來規(guī)劃一連串的動作,最終達到我們想要的目標狀態(tài)呢?
我們將此套方法用在了好幾個問題上,它非常有效。但這是藍色籌碼任務(wù)的結(jié)果。所以你在這里看到的是一個視頻。你看不到實際正在采取行動的機器人手臂的動作。上面顯示的是世界上正在發(fā)生的事情。下面顯示的是系統(tǒng)預(yù)測將在其內(nèi)部世界模型中發(fā)生的事情。
這個預(yù)測結(jié)果是通過一個另外訓練的“解碼器”,以產(chǎn)生系統(tǒng)內(nèi)部思維的圖像。讓我再看一遍。因此,在下面你可以看到機器人在推動事物時的配置進展。然后最終狀態(tài)并不完全是正方形,但非常接近,這是一個非常復(fù)雜的動力學系統(tǒng),因為籌碼之間會相互碰撞、相互影響。
對于這樣的系統(tǒng),你很可能沒法靠手工建立一個足夠精確的模型來做有效的規(guī)劃。我實際上,我們在規(guī)劃現(xiàn)實世界中的導航方面也有類似的工作。
我要跳過這個,因為時間不多了,所以我的建議是,放棄生成式模型,轉(zhuǎn)而使用聯(lián)合嵌入架構(gòu),放棄純粹的概率模型,擁抱基于能量的模型。放棄對比方法,轉(zhuǎn)而使用正則化方法,放棄“無模型的強化學習”,我已經(jīng)說了十年了,擁抱“基于模型的方法”,比如模型預(yù)測控制和規(guī)劃。如果你真的想實現(xiàn)達到人類水平的 AI,別只盯著 LLM。事實上,如果你是一名AI博士,你絕對不應(yīng)該在LLM 上工作,因為你得跟那些有幾萬塊 GPU的大公司工業(yè)團隊競爭,你將無法做出任何貢獻。
怎么構(gòu)建大規(guī)模的世界模型?如何根據(jù)多模態(tài)輸入訓練它們?規(guī)劃算法?最優(yōu)控制和各種優(yōu)化技術(shù)方面的深厚功底,在這里可能會派上大用場。用簡單的基于梯度的方法在這些學到的模型里做規(guī)劃時,會碰到“局部最小值”和可能“不可微分”的問題。像ADMM(交替方向乘子法)這樣的方法也許能幫上忙。其他的關(guān)鍵問題還有:怎么做帶潛在變量的 JEPA?怎么在“不確定的環(huán)境” 里做規(guī)劃?怎么有效地對潛在變量進行正則化?以及,怎么實現(xiàn)真正的分層規(guī)劃?基于能量的學習,它的數(shù)學基礎(chǔ)到底是啥?當我們跳出嚴格的概率學習框架時,我們就進入了一個不那么熟悉的領(lǐng)域,到底什么樣的訓練過程才是最優(yōu)的,還不完全清楚。還有一個我沒怎么談到的問題是,怎么讓系統(tǒng)自己學習成本函數(shù)或者目標模塊。世界模型難免不準確,怎么在這種情況下做有效的規(guī)劃,并且不斷調(diào)整模型,這也非常關(guān)鍵。
也許如果我們在未來十年或五年內(nèi)解決所有這些問題,我們將構(gòu)建真正智能,能夠規(guī)劃和推理的系統(tǒng)的良好道路。我認為唯一的辦法就是讓底層的平臺保持“開源”。我一直是開源AI的大力倡導者。我真的相信這一點。如果我們成功了,也許人工智能將成為人類智能的強大工具,這肯定是一件大好事,非常感謝。
掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
熱門跟貼