www.999视频,а√8天堂中文官网,天堂av在线电影,黄18禁无遮挡网站,久久国产精品ww

作者｜沐風

來源｜AI先鋒官

近日，Meta首席AI科學家楊立昆在美國2025年聯(lián)合數(shù)學會議上發(fā)表演講，他提到：“僅靠文本訓練，我們無法實現(xiàn)達到人類水平的AI?！?/strong>

他表示，且不說達到人類的水平，即便要模擬數(shù)學家或科學家的能力也相去甚遠，我們目前甚至無法復(fù)現(xiàn)貓所具備的能力。

它的建議是，要想學習世界模型，就得放棄（像素級預(yù)測性的）生成式AI。

物理世界蘊含的信息，特別是來自視覺、觸覺和聽覺的感官輸入，其信息量遠超人類有史以來產(chǎn)生的所有文本。

要實現(xiàn)達到人類水平的AI (Meta 稱之為 AMI，即高級機器智能)，他認為需要這樣的系統(tǒng)：能夠通過觀察和感官輸入學習世界模型，還需要具備持久性記憶的系統(tǒng)，能夠規(guī)劃復(fù)雜行動序列的系統(tǒng)，能夠進行推理的系統(tǒng)，以及那些天生可控、設(shè)計安全的系統(tǒng)，而不僅僅是像當前AI系統(tǒng)那樣通過微調(diào)實現(xiàn)安全可控。

在他看來，要構(gòu)建這樣的系統(tǒng)，唯一的途徑就是徹底改變其執(zhí)行推理的方式。

最后，他還建議：“放棄生成式模型，擁抱聯(lián)合嵌入架構(gòu)（比如JEPA）。放棄純粹的概率模型，擁抱基于能量的模型。放棄對比方法，擁抱正則化方法。放棄“無模型的強化學習”，擁抱“基于模型的方法”，比如模型預(yù)測控制和規(guī)劃。”

“如果你真的想實現(xiàn)達到人類水平的AI，別只盯著LLM。”

以下為本次演講實錄：

剛聽Bryna 列舉了過往 Gibbs 講座的各位杰出演講者，我確實深感壓力。我不敢相信自己能夠與那些大師比肩。不過，還是讓我來談?wù)凙I。

顯然，每個人都在談?wù)揂I，尤其是人類級別AI的難題。因此，很多人工智能研究和開發(fā)社區(qū)的人都認為，也許我們有機會在未來十年左右建造人類智能水平的機器架構(gòu)。至于需要多長時間，各種預(yù)測的差異巨大。最樂觀的人說，我們已經(jīng)實現(xiàn)了。一些正在籌集大量資金的人聲稱明年就能實現(xiàn)，但我自己并不這么認為。但我認為我們確實有一個很好的機會。所以我想和大家探討一下，我認為的 AI 研究方向、有哪些障礙，以及其中一些確實存在的數(shù)學難題。

好的，那么我們?yōu)槭裁葱枰⒕哂腥祟愔悄芩降娜斯ぶ悄芟到y(tǒng)呢？

這是因為，你知道，在不久的將來，我們都將與AI助理一起工作，讓它們來協(xié)助我們的日常生活。我們將能夠通過各種智能設(shè)備進行交互，包括智能眼鏡等。通過語音和其他各種與它們互動的方式。所以我們將擁有帶有攝像頭和顯示屏的智能設(shè)備等。目前，目前市面上已有不帶顯示屏的智能眼鏡，但帶顯示屏的版本也即將問世。實際上，這種技術(shù)現(xiàn)已存在，但它們成本太高了，無法商業(yè)化。這是我們在Meta的同事建造的Orion演示。

所以未來即將到來，設(shè)想，我們所有人的生活基本上都將與AI助理密切相關(guān)。我們所有人都會像高級首席執(zhí)行官或重要官員一樣，身邊都有一支由聰明的虛擬助手組成的團隊待命，為我們服務(wù)，這是一種可能的情況。

但問題是我們還不知道如何實現(xiàn)這些。而且，目前的機器學習狀態(tài)是它很糟糕。我的意思是，就學習能力而言，與人類和動物相比，機器在達到特定性能水平之前需要經(jīng)歷的樣本數(shù)量或試錯次數(shù)極為龐大，學習效率非常低效。

因此，在過去，機器學習的主導范式是監(jiān)督學習。監(jiān)督學習是你向系統(tǒng)提供輸入，等待它產(chǎn)生輸出，然后告訴它正確的、預(yù)期的輸出是什么。如果您想要的輸出與系統(tǒng)生成的輸出不同，系統(tǒng)會調(diào)整內(nèi)部參數(shù)以使輸出更接近正確答案。這本質(zhì)上只是在學習一個輸入輸出的映射關(guān)系。

強化學習則不用將正確的答案告訴系統(tǒng)，它只是告訴系統(tǒng)其產(chǎn)生的答案是好還是壞，其主要問題是系統(tǒng)需要反復(fù)嘗試并接收關(guān)于“好壞”或“是否有改進”的反饋，這樣效率更低，所以它基本上只適用于游戲或者可以在電腦上快速模擬的場景。

因此，在過去幾年中徹底改變了AI的一件事叫做自我監(jiān)督學習，它的效果非常好。它真的徹底改變了AI，但它仍然非常有限。因此，自我監(jiān)督運行是大型語言模型、聊天機器人以及類似技術(shù)的基礎(chǔ)。我馬上就會告訴你它是如何工作的。

但實際上，動物和人類學習新任務(wù)的速度地非常快，并且他們可以理解世界是如何運作的。他們能夠推理和計劃，他們有共同的感知，而且行為真正受目標驅(qū)動，不僅僅是預(yù)測文本中的下一個單詞。

那么這些聊天機器人和LLMs是如何工作的？自回歸大型語言模型它們被訓練來預(yù)測序列中的下一個單詞或序列符號中的下一個符號。它們可以是文字，也可以是DNA、音樂、蛋白質(zhì)等，隨便哪個，其具體做法是，取一段符號序列，將其輸入一個大型神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的架構(gòu)設(shè)計旨在讓系統(tǒng)在其輸出端重現(xiàn)其輸入——這被稱為自動編碼器。用戶輸入一個序列，并要求系統(tǒng)在輸出端復(fù)制這個序列。

但是系統(tǒng)的結(jié)構(gòu)是這樣的，為了產(chǎn)生一個特定的變量，系統(tǒng)只能按順序查看左邊的變量。它無法查看需要預(yù)測的變量。

基本上，你訓練它做什么，通過這樣做，你訓練它預(yù)測序列中的下一個符號。我們在日志序列上并行執(zhí)行此操作。通過測量輸入序列與系統(tǒng)生成序列之間的某種散度進行量化差異，，然后通過梯度最小化散度度量，基本上是基于梯度的優(yōu)化，相對于預(yù)測函數(shù)內(nèi)的所有參數(shù)，這是一個巨大的基本網(wǎng)絡(luò)，可能有數(shù)百億甚至數(shù)百億個參數(shù)，這是一個非常高的維度，

一旦你訓練了這個系統(tǒng)，當你取一個序列并運行它時，系統(tǒng)將預(yù)測下一個符號。那么讓我們假設(shè)它在這里查看符號的窗口是3?，F(xiàn)實中，一個LLM可以有幾十萬，但假設(shè)有3個。向系統(tǒng)輸入 3 個詞，它會產(chǎn)生下一個單詞。當然，它無法準確預(yù)測下一個單詞，因此它產(chǎn)生的是覆蓋其詞匯表中所有可能單詞的概率分布。

通常在LLM中，我們實際上不會嘗試生成單詞，而是嘗試生成Tokens，它們就像子詞單元一樣?？赡艿?Token 種類數(shù)量通常在 10 萬左右。

好的，現(xiàn)在當你使用這個系統(tǒng)時，你給它輸入一個被稱為提示詞的單詞序列。你讓系統(tǒng)預(yù)測下一個單詞后，再將其輸入到輸入中，隨后，系統(tǒng)基于更新后的序列預(yù)測再下一個 Token，并再次追加，如此循環(huán)往復(fù)。所以這基本上就是自動回歸預(yù)測，一個在信號處理和統(tǒng)計學領(lǐng)域非常古老的概念。

如果這些神經(jīng)網(wǎng)絡(luò)構(gòu)建的非常大，你可以使用非常大的輸入窗口，并利用包含數(shù)萬億乃至數(shù)十萬億 Token 的海量數(shù)據(jù)集進行訓練，其效果便會格外顯著。這些系統(tǒng)似乎能夠?qū)W習到很多關(guān)于語言或你正在訓練的符號序列的底層結(jié)構(gòu)，但自回歸預(yù)測存在一個根本性的問題在座的數(shù)學家或許能比我在這個方面更嚴謹?shù)貙⑵湫问交硎觥?/p>

自回歸預(yù)測本質(zhì)上是一種發(fā)散過程，對吧？如果你想象一下，這些符號是離散的。所以每次你產(chǎn)生一個符號時，便存在多種選擇，也許多達 10 萬種，你可以把所有可能的Token序列想象成分支因子為10萬的巨樹。在這棵巨大的樹中，有一個小子樹，它對應(yīng)于所有可以被定義為“正確”的答案或合理的續(xù)寫。

因此，如果提示是一個問題，那么后續(xù)生成的包含答案的文本序列便都位于這棵小子樹之內(nèi)。問題在于，如果你假設(shè)哪一個是錯誤的，那么每次你產(chǎn)生一個符號時，都有一定的錯誤概率，假設(shè)每生成一個符號便有固定的錯誤概率e的，且各步錯誤是獨立的，那么，n個符號序列正確的概率為 (1-E)^N，即使e非常小，但隨著序列長度 N 的增加，該正確概率也會呈指數(shù)級衰減并趨近于零。這個問題是自回歸預(yù)測框架所固有的，在當前框架內(nèi)無法解決。

所以我的預(yù)測是，自回歸LLMs將在幾年后注定失敗，理性的人們可能將不再使用它們，這就是為什么經(jīng)常出現(xiàn) LLM 產(chǎn)生幻覺的現(xiàn)象，有時他們會產(chǎn)生胡言亂語，這基本上就是因為這種自回歸預(yù)測機制。

所以問題是，我們應(yīng)該用什么來代替它，現(xiàn)在有沒有其他類型的限制？因此，我認為我們錯過了一些非常重要的東西，比如如何構(gòu)建人工智能系統(tǒng)的新概念，僅僅通過在更大的數(shù)據(jù)集上訓練大型語言模型來達到人類的人工智能水平，這是絕對不會發(fā)生的。我會在一分鐘內(nèi)給你另一個原因。

且不說達到人類的水平，即使試著復(fù)制數(shù)學家或科學家的能力也相差甚遠，我們甚至不能復(fù)制貓能做的事情。貓對物理世界有著驚人的理解，我拿貓來距離。換成老鼠也同樣適用。我們不知道如何讓一個AI系統(tǒng)在理解物理世界方面像貓一樣。貓能夠規(guī)劃非常復(fù)雜的行動。他們有關(guān)于世界的因果模型(Causal Models)，他們知道自己行為所產(chǎn)生的后果。

人類的能力更是驚人的。一個10歲的孩子可以在不真正學習任務(wù)的情況下，清理餐桌并將碗碟放進洗碗機。你要求一個10歲的孩子做這件事，他很可能在首次嘗試時就能完成，這被稱為零碎片學習，因為這個孩子已經(jīng)具備了相當完善的世界心智模型，理解物體在被操控時的反應(yīng)方式以及事物應(yīng)有的狀態(tài)。

一個17歲的人可以在20個小時的練習中學習駕駛汽車，自動駕駛公司擁有數(shù)十萬人駕駛汽車的培訓數(shù)據(jù)。我們?nèi)匀粵]有自動駕駛汽車，至少沒有L5級自動駕駛汽車。我們有AI系統(tǒng)，他們可以通過律師考試，他們可以做數(shù)學問題，他們可以證明定理，但是L5級自動駕駛在哪里？我的家用機器人在哪里？我們?nèi)匀粺o法構(gòu)建與現(xiàn)實世界打交道的系統(tǒng)。

物理世界比語言復(fù)雜得多，這被稱為莫拉維克悖論，對吧？對于人類來說很復(fù)雜的任務(wù)，比如計算積分、求解微分方程，下棋還是去規(guī)劃城市路徑等。這些對人類來說是一種艱巨的任務(wù)。事實證明，計算機在這方面比我們好得多，就像它們在下棋對弈方面比我們好得多，這真的讓人類望塵莫及。當人們把人類智能稱為通用智能時，那完全是無稽之談。我們根本不具備通用智能。我們是高度專業(yè)化的。

所以，僅僅通過文本訓練是無法達到人類水平的AI。你可以做一個有趣的計算。一個典型的現(xiàn)代LLM大約是在20 萬億個 Token 上進行訓練的。每個 Token 大約是3個字節(jié)。所以那將是60TB。讓我們將這個運行到100TB。我們?nèi)魏稳硕夹枰獛资f年才能讀完這個。這基本上構(gòu)成了互聯(lián)網(wǎng)上公開提供的所有文本的全部。所以，我的意思是，這似乎是一個令人難以置信的訓練數(shù)據(jù)。

但是現(xiàn)在拿一個人類孩子來說，一個四歲的孩子，總共清醒的時間是16000個小時。

我們有200萬個視神經(jīng)纖維，每只眼睛有一百萬個進入視覺皮層。每個視神經(jīng)纖維每秒攜帶約1字節(jié)，也許少一些，但誰在乎呢？所以計算一下，四年內(nèi)大約是100TB。這只是物理世界中我們從視覺、觸覺和聽覺中獲得的感官信息，比所有人類產(chǎn)生的文本都要多得多。

再說一遍，除非我們能讓系統(tǒng)通過觀察世界來學習世界的運作方式，否則我們永遠無法達到人類的AI水平。感官輸入所能提供的信息比文本中更多。

心理學家已經(jīng)研究過嬰兒如何學習現(xiàn)實世界。在前幾個月里大多數(shù)都通過觀察來學習，因為嬰兒在頭三四個月里除了活動自己的四肢外，并不能在世界上進行有效互動，因此他們通過觀察學習了大量關(guān)于世界的背景知識。

這是一種自我監(jiān)督學習的形式，我認為如果我們想讓人工智能系統(tǒng)達到動物水平或人類水平的智能，我們絕對必須復(fù)制這種形式。

嬰兒會學習物體恒存性，即一個物體隱藏在另一個物體之后，它仍然一樣存在，還有穩(wěn)定性以及自然物體類別等概念，即使不知道它的名字。然后是直覺物理學，重力，慣性，動量守恒等物理規(guī)律。這個時期的嬰兒大約在九個月左右就能掌握這些。因此，如果您向6個月的嬰兒的展示一個物體似乎漂浮在空中的場景，6個月大的嬰兒不會特別驚訝。但是10個月大的嬰兒會像這里的小女孩一樣用大眼睛看著它，并且真的很驚訝，因為到那時他們已經(jīng)知道沒有支撐的物體應(yīng)該會掉落。這只是通過觀察，通過那個年齡的互動發(fā)生的。

為了達到人類級別的人工智能，我們稱之為AMI，我們不稱之為AGI，因為人類智能不是通用的。所以我們稱之為AMI，即高級機器智能。我們發(fā)音為 “ami”，在法語中意為朋友。因此，我們需要能夠通過觀察和感官輸入來學習的世界模型系統(tǒng)，以便它們能夠接觸物理學和常見感知等。我們還需要具備持久性記憶的系統(tǒng)，可以規(guī)劃復(fù)雜動作序列的系統(tǒng)，可以推理的系統(tǒng)，以及通過設(shè)計而非微調(diào)而可控和安全的系統(tǒng)。我唯一能想到的構(gòu)建這樣的系統(tǒng)的方法是徹底改變這些系統(tǒng)執(zhí)行的推理模式。

因此，當前的推理模式是將輸入信號通過固定數(shù)量的網(wǎng)絡(luò)層處理后生成輸出。然后，對于每個 Token，它都會花費固定的計算量。因此，讓LLM花更多時間思考某件事的技巧是欺騙它產(chǎn)生更多的 Token。這就是所謂的思維鏈推理。這在近期被譽為AI的巨大進步。

因此，通過在神經(jīng)網(wǎng)絡(luò)中固定層數(shù)運行信號來計算的函數(shù)類型非常有限，假設(shè)一個合理大小的神經(jīng)網(wǎng)絡(luò)是有限的，因為你想要解決的大多數(shù)任務(wù)需要許多計算步驟。你不能僅僅把它們簡化為幾個步驟。你知道，現(xiàn)在許多計算任務(wù)本質(zhì)上是串行的或順序的，而非純粹的并行結(jié)構(gòu)。因此，您可能需要花更多時間考慮更復(fù)雜的功能，而不是回答簡單的問題。

執(zhí)行推理的更好方式或許是“通過優(yōu)化進行推理”。基本上，你有一個觀測值，你可以通過神經(jīng)網(wǎng)絡(luò)的幾層運行它，然后你有一個成本函數(shù)，它本身是一個產(chǎn)生標量輸出的神經(jīng)網(wǎng)絡(luò)。要衡量的是輸入和假設(shè)輸出之間的兼容或不兼容程度。所以現(xiàn)在的推理問題變成了一個優(yōu)化搜索輸出的問題，給定輸入 'x'，去尋找能使該目標 (成本) 函數(shù)最小化的那個輸出 'y'。我將這種方法稱為目標驅(qū)動的 AI，當然，這并非一個全新的概念。

像大多數(shù)概率推理系統(tǒng)一樣，使用優(yōu)化執(zhí)行推理。我知道房間里有相當多的人從事過最優(yōu)控制的工作，因此規(guī)劃和最優(yōu)控制、運動模型、預(yù)測控制等都可以通過優(yōu)化產(chǎn)生輸出。關(guān)于這一點，我稍后會再詳細說明。

所以這個想法并不新鮮，但我們已經(jīng)忘記了。我想我們必須回歸這種方法。我們必須構(gòu)建一個體系結(jié)構(gòu)能夠通過優(yōu)化進行推斷的系統(tǒng)。其中，“輸出”被看作一個潛變量，需要依據(jù)輸入和目標函數(shù) 來進行優(yōu)化確定。這在傳統(tǒng)的AI中是非常經(jīng)典的，在可能的解空間中尋找解決方案的想法，那非常傳統(tǒng)。這只是有點被遺忘了。

可以這樣解決的任務(wù)類型在某種程度上相當于心理學所謂的“系統(tǒng)2”思維模式。因此，在人類認知中，這兩種產(chǎn)生行為的類型，其中一種被稱為系統(tǒng)1，這是你潛意識里做的一種任務(wù)。你可以采取行動，甚至不用考慮它。然后系統(tǒng)2是你必須投入整個意識的時候。如果你想完成任務(wù)，必須集中意識、深思熟慮來規(guī)劃一系列行動時，系統(tǒng) 2 就開始工作了。例如，如果你正在建造一件東西，而你不習慣那個任務(wù)，你將使用系統(tǒng)2。當你證明一個定理時，你肯定在使用系統(tǒng)2。

那么，什么是最好的方式來正式表示優(yōu)化影響的這個過程，這正好對應(yīng)了能量基模型(Energy-Based Models)的核心思想。因此，一個 EBM 會計算一個稱為“能量”的標量值，該標量數(shù)測量輸入X和候選輸出Y之間的不兼容程度，并通過將此能量相對于y最小化來執(zhí)行推理。我將這個稱為能量函數(shù)F（X，Y）為什么f不像E那樣呢？因為它是F關(guān)聯(lián)到自由能，我們在這里越來越接近吉布斯類型。

所以這就是現(xiàn)在的推理過程，通過這種類型的標量能量函數(shù)來建模兩個變量之間的依賴關(guān)系比僅僅運行從x到y(tǒng)的函數(shù)要通用得多，原因是對于給定的 X，可能存在多個與之兼容的 Y 值。例如，如果你在這里試圖解決的問題是從英語翻譯成法語，那么有很多方法可以將特定的英語句子翻譯成法語，所有這些好的翻譯都應(yīng)該對應(yīng)較低的能量值，以表明這兩個東西對于翻譯任務(wù)是兼容的，但它不像單個輸出是正確的，所以基本上我在這里談?wù)撾[式函數(shù)，右側(cè)代表變量之間的依賴關(guān)系或隱式函數(shù)，這是一個非常簡單的概念，不是一個明確的概念，令人驚訝的是，對于某種類型的計算機科學家來說對此難以掌握。

那么我們?nèi)绾卧谝粋€可能能夠規(guī)劃行動的智能系統(tǒng)中使用這些基于能量的模型呢？這有點像能量函數(shù)標量能量函數(shù)的內(nèi)部結(jié)構(gòu)的圖，可能是方塊圖。因此，在這個圖表中，圓形表示變量，無論是觀察到的還是潛在的模塊，一端是平的，另一端是圓形的代表確定性函數(shù)。假設(shè)一個產(chǎn)生單個輸出的神經(jīng)網(wǎng)絡(luò)。矩形表示目標函數(shù)，基本上是標量輸出。輸出在這里是隱式的，但是標量值函數(shù)在輸入可接受時取較低的值，在輸入不可接受時取較大的值。因此，在這里，您可以有兩種類型的目標，一種是衡量系統(tǒng)完成您想要完成的任務(wù)的程度，另一組目標可能是護欄。所以防止系統(tǒng)做愚蠢的事情、危險的事情、自我毀滅的事情或?qū)χ車娜祟愑泻Φ氖虑椤?/p>

所以過程始于觀察世界的狀態(tài)。該觀察結(jié)果首先被送入感知模塊，該模塊生成世界當前狀態(tài)的表示。由于感知可能是不完整的，所以你可能想把它與記憶的內(nèi)容結(jié)合起來，其中包含你對你記憶中可能存在的其他世界狀態(tài)的想法。將這兩件事結(jié)合起來，并將它們提供給世界模型，世界模型應(yīng)該做的是預(yù)測采取特定行動序列的結(jié)果。所以動作序列在黃色變量框中，世界模型會預(yù)測出一系列后續(xù)的狀態(tài)表示 (S_t+1, S_t+2...)。這些預(yù)測的狀態(tài)表示，隨后被輸入到目標函數(shù)中進行評估。假定所有這些模塊 (感知、世界模型、成本模塊) 都是可微的(例如，可以由神經(jīng)網(wǎng)絡(luò)實現(xiàn))，那么就可以將梯度從成本函數(shù)出發(fā)，經(jīng)由世界模型，一路反向傳播到行動序列上。通過使用基于梯度的優(yōu)化方法 (例如梯度下降)，就能找到一個可使總體成本 (目標函數(shù)值) 最小化的行動序列。這個過程，本質(zhì)上就是在進行規(guī)劃。

所以這是一個系統(tǒng)能夠通過優(yōu)化進行推理的過程。但它需要一個世界模型，才能預(yù)測其行為的后果。在最優(yōu)控制理論里，這是一個非常經(jīng)典的觀點，即你有一種你想要控制的世界或系統(tǒng)的模型，你給它一系列的動作，他就可以進行預(yù)測結(jié)果，比如你想拍攝空間站。你有一個火箭的動力學模型，你可以假設(shè)一系列控制，然后預(yù)測火箭是否會結(jié)束，你可以有一個成本函數(shù)來衡量火箭離空間站的距離。然后通過優(yōu)化，找出一系列將到達或到達空間站的控制措施，非常經(jīng)典。這叫做“模型預(yù)測控制” (MPC)。自上世紀年代以來，MPC 在最優(yōu)控制、機器人技術(shù)，甚至火箭軌道規(guī)劃這些領(lǐng)域，都有非常廣泛的應(yīng)用。

當然，現(xiàn)在世界并不完全是確定性的，所以你的世界模型可能需要潛在變量，即你不知道其值的變量。沒有人告訴你他們采取了什么價值觀。它們可以采用許多不同的值。也許他們可以從分布中撤回，并且可能會產(chǎn)生多個預(yù)測。因此，使用具有潛在變量的世界模型在不確定性下進行規(guī)劃將是一件好事，潛在變量基本上代表了你對世界不了解的一切或允許你進行預(yù)測的一切。

但這并不是一個可以解決的問題。我們實際上想做的是分層規(guī)劃。我們所有人都這樣做。動物可以做到這一點。今天沒有任何AI系統(tǒng)可以學習如何進行分層規(guī)劃。我們可以通過手動構(gòu)建所有內(nèi)容來讓他們進行分層規(guī)劃，但沒有系統(tǒng)真正知道如何進行分層規(guī)劃。

假設(shè)我坐在紐約大學的辦公室里，我決定去巴黎。我不可能只靠規(guī)劃具體到毫秒級的肌肉怎么動，這是最低層級的動作，來計劃好從辦公室到巴黎的整個行程，這做不到。首先因為它的序列太長了。其次，我甚至沒有任何信息。我不完全知道路上的紅綠燈是紅色還是綠色。那么我需要計劃停下來還是過馬路？但是在高層次上，我可以從我的心理模型中獲得一種高層次的預(yù)測心理，即如果我想去巴黎，我需要去機場并趕飛機。

好的，現(xiàn)在我有一個子目標去機場。我怎么去機場？我在紐約，所以我可以到街上去叫輛出租車。我怎么走在街上，我得從辦公桌前站起來，去到電梯，按下按鈕，然后走出大樓。我怎么去電梯？我需要從椅子上站起來，想著我的包，打開門，走到電梯，避開路上的所有障礙物。

在某種程度上，當你往下走的時候，到了某個足夠具體的層級，詳細的行動規(guī)劃，比如剛才說的毫秒級肌肉控制才變得可行，因為這時候，做動作需要的實時信息都有了，比如，站起來、開門這些動作，就可以在當前這個局部環(huán)境下規(guī)劃。

所以，怎么學習世界模型，怎么學習分層世界模型，怎么學習世界的抽象表示，好讓系統(tǒng)能在不同的時間尺度上做預(yù)測，從而有效地規(guī)劃，目前沒有人知道如何精確地做到這一點，如何使其發(fā)揮作用。因此，如果我們對我告訴您的所有部分進行取樣，最終會得到一種稱為AMI認知的架構(gòu)的東西，它可能的“認知架構(gòu)”是什么樣的。這個架構(gòu)里，得有一個世界模型，還得有各種各樣的“目標函數(shù)”，一個“行動者”，它負責優(yōu)化動作來降低成本，還得有“短期記憶”，有點像大腦中的短期記憶是海馬體，即感知模塊。這是整個大腦的后部。

大概兩年半以前，我為此寫了一篇很長的論文，我把它放在公開評論中，而不是在檔案中，我在檔案中解釋如果我們想在這個方向上取得進展，我認為AI研究將走向何方。這是在“大語言模型”熱潮之前，盡管LLMs已經(jīng)存在，但我從來就不信光靠 LLM 就能搞出達到人類水平的 AI。

我們?nèi)绾巫孉I系統(tǒng)從視頻等感官輸入中學習世界的心智模型？我們能不能像訓練 LLM 那樣，用“自回歸預(yù)測”的思路，去訓練一個“生成式架構(gòu)”，讓它能預(yù)測視頻的下一幀畫面呢？答案是否定的，它不起作用。我已經(jīng)嘗試做了20年的工作。完全失敗，它不起作用。它適用于離散的符號，因為處理預(yù)測中的不確定性很簡單。你生成一個概率向量，也就是一串加起來等于 1 的、0 到 1 之間的數(shù)字。

現(xiàn)在的問題是如何在高維連續(xù)空間中預(yù)測視頻幀，我們不知道如何以任何有意義的方式表示概率密度函數(shù)。在這樣的事情中，我們可以將它們表示為一個能量函數(shù)，然后將其歸一化。這有點像統(tǒng)計物理里的做法，比如用玻爾茲曼分布 (Boltzmann distribution)，就是那個 exp (-能量/kT)。但是，對于高維空間里復(fù)雜的能量函數(shù)來說，要算出那個歸一化常數(shù)（也叫“配分函數(shù)” (partition function)），通常在計算上是搞不定的。

所以，使用生成模型來訓練系統(tǒng)來預(yù)測視頻的想法是行不通的。但目前有很多人正在研究它。但他們感興趣的并不是運行世界模型。它實際上是在生成視頻。如果你的目標只是生成視頻，那這個方法也許還行。但是，如果你想讓你的系統(tǒng)真正理解世界的底層物理學，那就輸了。原因是，如果你訓練一個系統(tǒng)進行單一預(yù)測，這就是生成模型所做的，你得到的是模糊的預(yù)測，基本上，因為系統(tǒng)只能預(yù)測可能發(fā)生的所有可能未來的平均值。

所以我的解決方案叫做JEPA，它代表聯(lián)合嵌入預(yù)測架構(gòu)。

這就是它的樣子，你可能不會立即發(fā)現(xiàn)與生成式架構(gòu)的區(qū)別。讓我把這一點說得更明顯。在左邊，生成式架構(gòu)。你在訓練期間最小化的函數(shù)基本上是一個預(yù)測誤差，對吧？所以預(yù)測y，觀察X，在訓練期間觀察y，然后訓練一個系統(tǒng)來預(yù)測y，這就像自監(jiān)督學習，除了如果y是序列，則y是x的一部分。因此，受監(jiān)督的細胞對離散y起作用，對連續(xù)的高維y不起作用。

右邊這個就是聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)。現(xiàn)在X和Y都通過編碼器運行，編碼器所做的是計算一個抽象的表示，即X和Y的表示，編碼器可能不同，然后預(yù)測是在這個抽象的表示空間里進行的，就是從 X 的表示來預(yù)測 Y 的表示。

現(xiàn)在，從很多方面來看，這是一個更容易解決的問題，因為世界上有許多細節(jié)是完全不可預(yù)測的。JEPA架構(gòu)所做的基本上是找到世界的抽象表示，以便從該表示中消除所有無法預(yù)測的東西。

將編碼器函數(shù)視為某種具有不變性的函數(shù)，因此，與您無法預(yù)測的事物相對應(yīng)的輸入y的可變性在表示空間中被消除了，比方說，一個鏡頭在這個房間里掃過。要是我停下鏡頭，讓系統(tǒng)預(yù)測下一幀畫面是啥什么，它可能能預(yù)測出大體的場景（比如座位上有人），但它絕對預(yù)測不了每個人的精確位置和長相，也預(yù)測不了地板、墻壁的精確紋理。有很多事情無法預(yù)測，因為需要的信息根本就不在輸入畫面里。JEPA 就是要學習一種能過濾掉這些不可預(yù)測細節(jié)的表示，把預(yù)測的精力集中在那些能預(yù)測的事情上，而不是在那些壓根兒預(yù)測不了的東西上白費力氣。

因此結(jié)論是，如果我所說的是正確的，用JEPA 架構(gòu)比使用生成式架構(gòu)要好得多，后者應(yīng)該完全放棄生成式架構(gòu)。為了學習世界模型，我們也許真該放棄那種像素級別的生成式預(yù)測了。現(xiàn)在大家都在談?wù)摗吧墒?AI”。而我的建議是，要想學習世界模型，就得放棄生成式 AI。

這些架構(gòu)也有不同的變種，有些可能還會用到潛在變量。但我不會詳細介紹這些細節(jié)。但有一個問題，那就是你如何訓練這些東西。因此，基本上，訓練這樣的系統(tǒng)來學習依賴性包括學習能量函數(shù)，使能量函數(shù)在您的訓練樣本中具有較低的值。因此，在你有數(shù)據(jù)的x，y點上，能量應(yīng)該很低，但在其他地方能量應(yīng)該更高。所以想象一下，x，y可以依賴于你想要的能量函數(shù)的某個流形，比如說在流形上為零，然后隨著你遠離流形而逐漸增加。這個問題在于我只知道兩種像這樣的訓練系統(tǒng)。

如果這個能量函數(shù)以一種允許你采取許多不同形狀的方式參數(shù)化，你可能會遇到一個問題，即如果你只是確保訓練樣本周圍的能量很低，而你不做任何其他事情，它可能會崩潰。你最終可能得到一個完全平坦的能量函數(shù)。這就是所謂的崩潰。

所以有兩種方法可以防止崩潰。一個是生成對比樣本，這些點不在正常的數(shù)據(jù)流形上。然后你明確地告訴模型，要給這些反例打高分，同時給那些正常的樣本打低分。你通過設(shè)計一個“損失函數(shù)”來達到這個目的。但對比方法的毛病在于，到了高維空間它就不太好使了，因為要想把能量函數(shù)的樣子給塑造好，你需要特別特別多的反例樣本，這個數(shù)量會隨著維度增加呈指數(shù)爆炸式增長。

所以有一種替代方法，你可以稱之為正則化方法。這些方法所基于的基本上是提出一些正則化函數(shù)，如你通過最小化這個正則化項，來間接地限制那些被打低分的輸入空間的“體積”，不讓它變得太大，這聽起來有點神秘，但實際上，在應(yīng)用數(shù)學的背景下，有很多事情都做到了這一點。例如，在稀疏編碼中，這實際上就是稀疏編碼所做的。當您指定一個立子變量時，基本上可以最小化可以占用低能量重建能量的空間體積。

好的，那兩種方法，對比方法和正則化方法。有不同類型的架構(gòu)可能發(fā)生崩潰的傾向性也不一樣。既然這是吉布斯講座 (Gibbs lecture)，我必須再提一下Gibbs的名字。怎么把能量函數(shù)轉(zhuǎn)化為概率分布呢？就是用“吉布斯-玻爾茲曼分布” (Gibbs-Boltzmann distribution)。你算一個 exp(-β * F(X,Y))，β 是個常數(shù)，類似“逆溫度”，F(xiàn)(X,Y) 就是能量函數(shù)。然后你把這個式子在 Y 的所有可能取值上做個積分，用這個積分結(jié)果去除它本身，進行歸一化。這樣，你就得到了一個規(guī)規(guī)矩矩歸一化了的條件概率分布 P(Y|X)。如果你非要搞“概率建?！保悄阌柧殹澳芰炕A(chǔ)模型”的辦法，就是在訓練數(shù)據(jù)上最小化那個“負對數(shù)似然函數(shù)” (negative log-likelihood, -log P(Y|X))。但問題又來了，那個歸一化常數(shù) Z(X)，通常算起來太難了，計算上搞不定。所以你就得用近似的方法，比如“變分方法” (variational methods) 或者“蒙特卡洛方法” (Monte Carlo methods)。機器學習領(lǐng)域的很多人都這樣做了，也從物理、統(tǒng)計這些學科里借鑒了不少想法。我畫了個表，把各種經(jīng)典的方法分成了正則化和對比這兩類。

因此，這些方法，無論是對比還是正則化，都非常成功地基本上預(yù)先訓練了視覺系統(tǒng)，以學習圖像的表征，即自我監(jiān)督的方式。這個想法可以追溯到20世紀早期，我的一篇論文和中期與我的一些學生一起。最近有更多來自谷歌的論文，很多人一直在研究對比方法。

你可能聽說過一個名為Clip的模型，它是由OpenAI或使用文本監(jiān)督學習視覺特征生成的。這是一種對比方法，但再次強調(diào)，它不能很好地適應(yīng)維度。

所以我更喜歡正規(guī)化的方法。問題是，你如何使這項工作成功？使這起作用的一種方法是你必須防止系統(tǒng)崩潰。那在這種情況下，崩潰到底是什么樣子呢？

崩潰指的就是將在于最小化預(yù)測誤差。只有這樣做，那系統(tǒng)就可以完全忽略X和Y，生成常數(shù)S_X和S_Y，然后你的預(yù)測問題就微不足道了。你的預(yù)測誤差一直是0，但是這樣得到的模型，就是個崩潰了的模型，對你沒有任何幫助。那么我們要怎么防止這種情況發(fā)生呢？

這基本上是一個正則化術(shù)語，試圖最大化來自編碼器的信息內(nèi)容，比如，對信息內(nèi)容進行一些估計，其中 -(S_X) 和 -(S_Y)，在前面加上一個減號，并將其最小化。現(xiàn)在，這是一個挑戰(zhàn)，因為我們不知道如何最大化信息內(nèi)容。我們知道如何最小化它，因為我們有信息的上限。我們對信息沒有下限。所以，實際操作中，我們是設(shè)計一些“代理”目標，通過優(yōu)化這些代理目標，來間接鼓勵模型產(chǎn)生信息量更高的表示（這可能基于一些假設(shè)或近似），并期望實際的信息量也跟著提高。以便實際的信息內(nèi)容實際跟隨。而且這招效果還挺不錯的，雖然它的理論依據(jù)還在完善中，但可能比其他方法要好。

所以，如果你能提出信息內(nèi)容的下限就好了。但坦率地說，我認為這是不可能的，因為可能存在你不了解其本質(zhì)的復(fù)雜依賴關(guān)系。所以它不起作用。

那么基本的想法是如何將一個數(shù)字放入一種關(guān)于信息含量的可微目標函數(shù)中？基本的想法是讓來自你編碼器的表現(xiàn)填補這個空間。這個想法幾乎是由多個人在不同的背景下同時提出的。

基本上有兩種方法可以做到這一點。因此，對比方法應(yīng)該被稱為非常簡單的對比方法，因此，對于多個樣本，從您的編碼器中取出一個向量矩陣。對比方法試圖使向量從編碼器中出來完全不同，想象一下，它們都在一個球體的表面上，因為你將它們歸一化，你基本上是在推動所有這些向量遠離彼此。所以他們展示了空間，它不能很好地工作。我的意思是，你基本上需要很多行才能工作，做一些有用的事情。

如果您的行數(shù)很少，那么很容易讓隨機向量正交。所以我們需要很多規(guī)則才能做到這一點。所以反過來是維度合約跟蹤方法，你取該矩陣的列，并嘗試使這些列彼此不同，可能相互正交。這只適用于相對于維度的行數(shù)較少的情況，否則就太容易了。

你只有少量的高維向量。這需要正交嗎？我的意思是，隨機抽取它們，它們幾乎是正交的，所以你在這兩者之間有一種二元性。實際上，我們有一篇論文論述了這兩件事是彼此的事實，但我更喜歡第二個，因為它們可以處理高維表示空間，而第一個確實可以。

我們具體在用的一種方法叫做VicReg，這意味著方差-不變性-協(xié)方差正則化。它的想法里包含一個成本項，要求在處理一批樣本時，表示 S_X 的每個維度的方差都要保持在某個閾值以上。還有一個成本項，要求這批樣本表示算出來的“協(xié)方差矩陣”，它的非對角線上的元素都要趨近于零。這樣做的目的是消除表示向量各個維度之間的相關(guān)性，最理想的情況是讓不同的特征維度之間近似“正交”。其他研究者也提出了類似的想法，包括伯克利的馬毅教授，還有我在紐約大學的一些同事。我們有一些理論結(jié)果表明，在某些條件下，如果你先對數(shù)據(jù)做了“非線性變換” ，然后再用這個去相關(guān)的標準，它能有效地促進變量之間“兩兩獨立”，而不僅僅是沒相關(guān)性，這一點很有意思。不過，完整的理論圖像還不清晰。對于嗅覺敏銳的數(shù)學家來說，這里面還有很多挑戰(zhàn)。

現(xiàn)在我要跳過一些內(nèi)容，因為我沒有時間了。

你實際上可以將 VicReg 這個技術(shù)用到“偏微分方程” ，不一定是為了直接解方程，而是比如，通過觀察方程解在不同時空窗口里的樣子，來反推出方程本身的系數(shù)。具體怎么做呢？你拿到 PDE 的時空解，從里面隨機取兩個不同的窗口，然后訓練一個系統(tǒng)用 VicReg 的標準，讓它不管你取哪兩個窗口，都能給它們算出一樣的表示。你想，能讓系統(tǒng)從不同窗口里提取出來的、共同的不變信息是啥呢？那只能是跟背后那個微分方程本身有關(guān)的東西——說白了，就是方程的系數(shù)，或者是系數(shù)的某種表示。把這個方法用到各種實際問題上，發(fā)現(xiàn)它確實管用。想了解更多細節(jié)的話，可以找 Randal Balestriero聊聊。他是相關(guān)論文的主要作者之一。最重要的是，用 VicReg 這種方法學出來的 PDE 系數(shù)，用它去做后續(xù)的預(yù)測，你會得到一個比監(jiān)督學習訓練更好的預(yù)測效果，這有點有趣。

好的，還有另一組替代VicReg的方法，稱為基于蒸餾的方法，我們使用它們是因為它們效果很好，但我不喜歡它們，因為感覺它們的理論基礎(chǔ)好像還不如 VicReg 或者信息最大化那些方法扎實。我不打算詳細介紹它們是如何工作的，簡單說，你名義上是在最小化某個函數(shù)，但實際上你用的那個“梯度下降” 更新步驟，并不能真正讓那個函數(shù)達到最小值；這里面挺復(fù)雜的。

在下面列出了一些關(guān)于這個的理論論文，但它們通常只在很簡化的假設(shè)下才成立，并不是一個令人滿意的方法。但它真的很有效。很多人一直在使用它來自監(jiān)督的學習圖像特征，我沒有時間詳細描述，但它在學習圖像方面做得非常好，然后您可以將其用在后續(xù)任務(wù)中，而無需太多的標簽樣本。

然后有一個叫做視頻V-JEPA的視頻版本。拍攝一個視頻，在時間和空間上隨機“遮掉”一大部分區(qū)域，例如，然后你訓練一個 JEPA架構(gòu)，從部分掩蓋的表示來預(yù)測完整視圖的內(nèi)部表示。結(jié)果發(fā)現(xiàn)，這樣訓練出來的系統(tǒng)能學到非常好的視頻表示。你可以將該表示用作系統(tǒng)的輸入，該系統(tǒng)可以對視頻中發(fā)生的動作進行分類，它效果很好。

關(guān)于這項技術(shù)的一個非常有趣的事情是，這是我們剛剛完成并正在提交的一篇論文。當你測試這些系統(tǒng)并測量他們在視頻上所做的預(yù)測誤差時，如果你展示一個物理上不可能的視頻，比如一個物體消失或自發(fā)地改變形狀，它告訴你，它告訴你這是不可能發(fā)生的。這說明這個系統(tǒng)已經(jīng)學到了一種非?；镜摹㈥P(guān)于物理世界可能性的“常識”。所以這些，這是學習了一種非?；镜某Ｒ姼兄问?，有點像我之前談到的嬰兒。我的意思是，這確實是一個令人驚訝的結(jié)果，因為該系統(tǒng)實際上沒有受過預(yù)測的訓練。它只是被訓練去預(yù)測那些被遮住的部分應(yīng)該是什么樣的表示而已。

我們還一直把自監(jiān)督學習訓出來的編碼器和預(yù)測器用在規(guī)劃任務(wù)上。這就又說回到世界模型了。

所以我來到了這個想法世界模型。所以假設(shè)你有一張顯示世界狀態(tài)的圖片，系統(tǒng)可以控制你想要的機械臂。使最終狀態(tài)跟我們想要的目標狀態(tài)一樣。假設(shè)你桌子上有一堆藍籌股，你想移動一個機器人手臂，最后，藍籌股都在一個漂亮的小方塊內(nèi)，就像在圖里畫的一樣。所以我們先訓練一個編碼器。因此，我們使用DINOv2 ，這是一個預(yù)訓練的編碼器，然后訓練一個世界模型，以預(yù)測當你采取特定行動時，會導致什么結(jié)果。它能不能預(yù)測出來，最后那個擺著藍色籌碼的棋盤的狀態(tài)，對應(yīng)的表示是什么？一旦你有了那個模型，我們能不能用它來規(guī)劃一連串的動作，最終達到我們想要的目標狀態(tài)呢？

我們將此套方法用在了好幾個問題上，它非常有效。但這是藍色籌碼任務(wù)的結(jié)果。所以你在這里看到的是一個視頻。你看不到實際正在采取行動的機器人手臂的動作。上面顯示的是世界上正在發(fā)生的事情。下面顯示的是系統(tǒng)預(yù)測將在其內(nèi)部世界模型中發(fā)生的事情。

這個預(yù)測結(jié)果是通過一個另外訓練的“解碼器”，以產(chǎn)生系統(tǒng)內(nèi)部思維的圖像。讓我再看一遍。因此，在下面你可以看到機器人在推動事物時的配置進展。然后最終狀態(tài)并不完全是正方形，但非常接近，這是一個非常復(fù)雜的動力學系統(tǒng)，因為籌碼之間會相互碰撞、相互影響。

對于這樣的系統(tǒng)，你很可能沒法靠手工建立一個足夠精確的模型來做有效的規(guī)劃。我實際上，我們在規(guī)劃現(xiàn)實世界中的導航方面也有類似的工作。

我要跳過這個，因為時間不多了，所以我的建議是，放棄生成式模型，轉(zhuǎn)而使用聯(lián)合嵌入架構(gòu)，放棄純粹的概率模型，擁抱基于能量的模型。放棄對比方法，轉(zhuǎn)而使用正則化方法，放棄“無模型的強化學習”，我已經(jīng)說了十年了，擁抱“基于模型的方法”，比如模型預(yù)測控制和規(guī)劃。如果你真的想實現(xiàn)達到人類水平的 AI，別只盯著 LLM。事實上，如果你是一名AI博士，你絕對不應(yīng)該在LLM 上工作，因為你得跟那些有幾萬塊 GPU的大公司工業(yè)團隊競爭，你將無法做出任何貢獻。

怎么構(gòu)建大規(guī)模的世界模型？如何根據(jù)多模態(tài)輸入訓練它們？規(guī)劃算法？最優(yōu)控制和各種優(yōu)化技術(shù)方面的深厚功底，在這里可能會派上大用場。用簡單的基于梯度的方法在這些學到的模型里做規(guī)劃時，會碰到“局部最小值”和可能“不可微分”的問題。像ADMM（交替方向乘子法）這樣的方法也許能幫上忙。其他的關(guān)鍵問題還有：怎么做帶潛在變量的 JEPA？怎么在“不確定的環(huán)境” 里做規(guī)劃？怎么有效地對潛在變量進行正則化？以及，怎么實現(xiàn)真正的分層規(guī)劃？基于能量的學習，它的數(shù)學基礎(chǔ)到底是啥？當我們跳出嚴格的概率學習框架時，我們就進入了一個不那么熟悉的領(lǐng)域，到底什么樣的訓練過程才是最優(yōu)的，還不完全清楚。還有一個我沒怎么談到的問題是，怎么讓系統(tǒng)自己學習成本函數(shù)或者目標模塊。世界模型難免不準確，怎么在這種情況下做有效的規(guī)劃，并且不斷調(diào)整模型，這也非常關(guān)鍵。

也許如果我們在未來十年或五年內(nèi)解決所有這些問題，我們將構(gòu)建真正智能，能夠規(guī)劃和推理的系統(tǒng)的良好道路。我認為唯一的辦法就是讓底層的平臺保持“開源”。我一直是開源AI的大力倡導者。我真的相信這一點。如果我們成功了，也許人工智能將成為人類智能的強大工具，這肯定是一件大好事，非常感謝。

掃碼邀請進群，我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧