,上篇文章提到了Google DeepMind和OpenAI 的 LLM 人工智能發(fā)展路徑截然不同。這不免引起了很多讀者和小編一樣的思考,Google DeepMind在AI 邁向通用人工智能 (AGI) 的路線圖到底是什么樣的?DeepMind作為引領(lǐng)RL強化學(xué)習領(lǐng)域的先鋒,下一個RL范式的突破點在哪兒?為了解鎖真正的人工智能!有必要了解下這篇同樣是強化學(xué)習之父攜手Deepmind發(fā)布的阿爾伯塔計劃,這篇論文介紹了如何運用強化學(xué)習和實際經(jīng)驗,以下是論文《The Alberta Plan for AI Research》完整的譯文,Enjoy。

歷史表明,達成堅定的研究共識的道路格外艱巨。— 托馬斯·庫恩,《科學(xué)革命的結(jié)構(gòu)》
在本文中,我們描述了我們的人工智能 (AI) 研究方法,我們稱之為阿爾伯塔計劃 。阿爾伯塔計劃是在我們在阿爾伯塔省的研究小組和世界各地志同道合的其他人中推行的。我們歡迎所有愿意加入我們的人。
阿爾伯塔計劃是一項面向未來5-10年的長期規(guī)劃,旨在加深對計算智能的基礎(chǔ)理解。它并非著眼于我們現(xiàn)有知識的直接應(yīng)用,而是致力于填補我們現(xiàn)有理解的空白。隨著計算智能逐漸被人們理解,它無疑將對我們的經(jīng)濟、社會和個人生活產(chǎn)生深遠的影響。盡管所有后果都難以預(yù)見,而且每一項強大的技術(shù)都可能被濫用,但我們堅信,更具遠見和更復(fù)雜智能的存在,將對世界產(chǎn)生整體益處。
遵循阿爾伯塔計劃,我們致力于理解和創(chuàng)建能夠長期生存的計算智能體,它們能夠與極其復(fù)雜的世界互動,并預(yù)測和控制其感知輸入信號。這些智能體之所以復(fù)雜,是因為它們需要長期與復(fù)雜的世界互動;它們的初始設(shè)計盡可能簡單、通用且可擴展。為了控制輸入信號,智能體必須采取行動。為了適應(yīng)變化和世界的復(fù)雜性,它們必須不斷學(xué)習。為了快速適應(yīng),它們必須利用學(xué)習到的世界模型進行規(guī)劃。
本文檔的目的有兩個。一是描述我們對 AI 研究的愿景及其潛在的知識承諾和優(yōu)先事項。第二部分是描述這一愿景可能展開的道路,以及我們將追求的研究問題和項目。我們在這里描述我們對第一個目標所說的話,是為了清楚地記錄我們來自哪里;我們研究策略的這一部分預(yù)計會相對穩(wěn)定。我們對第二個目標所說的要現(xiàn)代得多。航行是不確定的;我們的道路有差距和不確定性。盡管如此,我們還是試圖盡可能具體地規(guī)劃前方的道路,以便我們知道我們要去哪里,即使最終我們走了另一條路或到達了一個有點不同的目的地。
研究愿景:智能作為隨時間變化的信號處理

圖 1: 在阿爾伯塔計劃的研究愿景中,智能Agent從其環(huán)境中接收觀察和獎勵信號,并尋求通過其行動控制這些信號。這是高級強化學(xué)習的標準視角。
我們致力于理解并創(chuàng)建能夠與極其復(fù)雜的世界交互的長周期計算智能體,并預(yù)測和控制其感知輸入信號,尤其是一種名為“獎勵”的特殊標量信號。我們考慮的整體場景與強化學(xué)習領(lǐng)域相似(圖1)。智能體和環(huán)境在精細的時間尺度上交換信號。智能體向環(huán)境發(fā)送動作,并從環(huán)境接收感知信號。較大的感知信號,即觀察信號,顯然不會提供關(guān)于環(huán)境狀態(tài)的完整信息。第二個感知信號,即獎勵信號,是一個標量信號,它定義了智能體的最終目標——最大化隨時間變化的總獎勵。這三個時間序列——觀察信號、動作信號和獎勵信號——構(gòu)成了智能體的體驗。我們期望所有學(xué)習都基于這三個信號,而不是環(huán)境內(nèi)部的變量。智能體只能獲得體驗,而環(huán)境僅僅是這些信號的來源和接收器。
如上所述,艾伯塔計劃研究愿景的第一個顯著特點是它強調(diào)普通體驗,而不是特殊的訓(xùn)練集、人類援助或進入世界的內(nèi)部結(jié)構(gòu)。盡管有很多方法可以使用人類輸入和領(lǐng)域知識來提高 AI 的性能,但這些方法通常無法與計算資源一起擴展,因此不是我們的研究重點。
阿爾伯塔計劃研究愿景的第二個顯著特點可以概括為“時間一致性”。時間一致性意味著,對于Agent上運行的算法而言,所有時間都是相同的。不存在特殊的訓(xùn)練周期,即訓(xùn)練信息可用或獎勵計數(shù)多于或少于其他周期。如果提供訓(xùn)練信息(例如通過獎勵信號提供),則該信息在每個時間步長上都會提供。如果Agent進行學(xué)習或計劃,則它會在每個時間步長上進行學(xué)習或計劃。如果Agent構(gòu)建自己的表示或子任務(wù),則用于構(gòu)建它們的元算法會在每個時間步長上運行。如果Agent可以在環(huán)境部分看似穩(wěn)定時降低其學(xué)習速度,那么當環(huán)境部分開始發(fā)生變化時,它也可以提高其學(xué)習速度。我們對時間一致性問題和算法的關(guān)注,使我們對非平穩(wěn)、持續(xù)的環(huán)境以及持續(xù)學(xué)習和元學(xué)習算法產(chǎn)生了興趣。
時間的統(tǒng)一性部分是我們研究內(nèi)容的限制,部分是我們強加給自己的學(xué)科。保持所有內(nèi)容在時間上統(tǒng)一會降低自由度并縮小Agent設(shè)計空間。為什么不讓一切都在時間上保持一致呢?在提出了這個反問之后,我們承認在某些情況下,偏離絕對的時間統(tǒng)一性是可取的。但是當我們這樣做時,我們意識到我們正在超越這個學(xué)科。
阿爾伯塔計劃研究愿景的第三個顯著特點是它對計算考慮的認識。摩爾定律及其推廣帶來了計算機能力的穩(wěn)定指數(shù)增長,我們必須優(yōu)先考慮與計算機能力成比例擴展的方法。計算機能力雖然呈指數(shù)級增長,但從來都不是無限的。我們擁有的越多,有效利用它就越重要,因為它是我們Agent性能的越來越大的決定因素。我們必須吸取人工智能過去的慘痛教訓(xùn),優(yōu)先考慮學(xué)習和搜索等方法,這些方法可以隨著計算機能力的廣泛擴展而擴展,同時淡化那些不重要的方法,例如人類對問題領(lǐng)域的洞察和人類標記的訓(xùn)練集。
除了這些大規(guī)模的影響之外,計算考慮因素還涉及智能Agent設(shè)計的各個方面。例如,對于智能Agent來說,能夠?qū)ζ溆^察的變化做出快速反應(yīng)通常很重要。但是,考慮到計算限制,反應(yīng)時間和決策質(zhì)量之間總是需要權(quán)衡。時間步長應(yīng)為統(tǒng)一長度。如果我們希望Agent快速響應(yīng),則時間步長必須較小(小于確定最佳作所需的時間步長)。規(guī)劃可能會有更好的行動,但規(guī)劃甚至學(xué)習都需要時間;有時,快速行動(Fast Action)比行動良好(Action Well)要好。
以這種方式優(yōu)先考慮被動行動并不妨礙Planning規(guī)劃的重要作用。被動Policy策略可能會建議采取暫時的Action行動,直到Planning規(guī)劃改進了Policy策略,然后再采取更具決心的Action行動,就像棋手可能會等到確定自己的走法后再采取行動一樣。Planning規(guī)劃是智能的重要組成部分,也是我們研究愿景的重要組成部分。
阿爾伯塔計劃研究愿景的第四個顯著特點是,它關(guān)注環(huán)境中包含其他智能代理的特殊情況。在這種情況下,主要智能代理可以學(xué)習與環(huán)境溝通、合作和競爭,并且應(yīng)該意識到環(huán)境可能會根據(jù)其行為做出不同的反應(yīng)。人工智能在游戲方面的研究通常必須處理這些問題。兩個或多個智能代理合作的情況也包括認知助手和人身體上的假肢。這種情況被研究為智能放大 (Intelligence Amplification),這是人機交互的一個子領(lǐng)域。有一些通用的原則,一個智能Agent可以利用其所學(xué)知識來放大和增強另一個智能Agent的行為、感知和認知,而這種放大是充分發(fā)揮人工智能潛力的重要組成部分。
阿爾伯塔計劃將人工智能問題描述為通過持續(xù)的感知和行動實現(xiàn)獎勵的在線最大化,計算量有限,并且可能在其他Agent存在的情況下。這種描述可能看起來很自然,甚至很明顯,但它也與當前的做法相反,當前的做法通常側(cè)重于離線學(xué)習、準備好的訓(xùn)練集、人工協(xié)助和無限計算。阿爾伯塔計劃的研究愿景既經(jīng)典又逆向,在追根溯源的意義上是激進的。
研究計劃
所有研究計劃都是可疑性的和臨時性的。然而,我們必須做出這些任務(wù),以便我們之間進行溝通和有效協(xié)作。艾伯塔計劃并不是要限制我們團隊成員的個人工作,而是試圖就我們共同做的事情達成共識。
圍繞基礎(chǔ)Agent進行設(shè)計

圖 2: 阿爾伯塔計劃的基礎(chǔ)Agent由四個組件組成,這些組件由感知組件構(gòu)建的狀態(tài)信號相互連接。所有組件都可以學(xué)習。
我們對智能體設(shè)計的研究從圖2所示的標準或基本智能體開始,它本身基于“通用模型的智能Agent”,該模型已被提議用于人工智能、心理學(xué)、控制理論、神經(jīng)科學(xué)和經(jīng)濟學(xué)(Sutton 2022)。我們的基礎(chǔ)Agent有四個主要的內(nèi)部組件。Perception感知組件負責更新Agent對其過去經(jīng)驗或狀態(tài)的總結(jié),這些總結(jié)隨后會被所有組件使用。Reactive policies反應(yīng)策略組件包含主要策略,它負責選擇將發(fā)送到環(huán)境的操作,并根據(jù)最大化獎勵的目標進行更新。感知和主要策略共同將觀察結(jié)果映射到操作,因此可以充當一個最小Agent。我們的基礎(chǔ)Agent允許其他反應(yīng)策略,例如最大化獎勵以外的其他數(shù)量。每個策略都有一個對應(yīng)的價值函數(shù),用于學(xué)習它。所有價值函數(shù)的集合構(gòu)成了Value functions價值函數(shù)組件。允許多個策略和價值函數(shù)是我們的基礎(chǔ)Agent與通用模型智能Agent的主要區(qū)別。
基礎(chǔ)智能體的第四個組件是Transition model組件轉(zhuǎn)換模型組件,它代表了智能體對世界動態(tài)的認知。轉(zhuǎn)換模型是從觀察到的動作、獎勵和狀態(tài)中學(xué)習而來的,無需參考觀察結(jié)果。一旦學(xué)習完成,轉(zhuǎn)換模型就可以采用一個狀態(tài)和一個動作,并預(yù)測下一個狀態(tài)和下一個獎勵。通常,該模型在時間上可能是抽象的,這意味著它采用的不是一個動作,而是一個選項(一個策略加上一個終止條件),并預(yù)測選項終止時的狀態(tài)以及沿途的累積獎勵。轉(zhuǎn)換模型用于設(shè)想采取該動作/選項的可能結(jié)果,然后由價值函數(shù)評估這些結(jié)果,從而改變策略和價值函數(shù)本身。這個過程稱為規(guī)劃。與架構(gòu)中的其他所有內(nèi)容一樣,規(guī)劃應(yīng)該是連續(xù)的和時間上一致的。每一步都會有一定程度的規(guī)劃,可能是一系列小的規(guī)劃步驟,但規(guī)劃通常不會在一個時間步內(nèi)完成,因此和Agent與環(huán)境交互的速度相比會比較慢。
規(guī)劃是一個持續(xù)進行的過程,只要不干擾前三個組件,它就會在后臺異步運行。前三個組件必須在每個時間步(Time Step)運行,被稱為前臺運行。每一步,新的觀察結(jié)果都必須經(jīng)過感知處理,產(chǎn)生一個狀態(tài),然后由主策略處理,產(chǎn)生該時間步的操作。價值函數(shù)也必須在前臺運行,以評估每個時間步的新狀態(tài)以及采取先前操作的決策。我們強烈傾向于在事件發(fā)生時對其進行全面處理。具體而言,所有四個組件都由前臺運行的學(xué)習過程使用最新事件以及短期信用分配記憶(例如eligibility traces資格追蹤)進行更新。
我們的基礎(chǔ)Agent是我們經(jīng)常偏離或延伸的起點。感知成分可能是最不被理解的。盡管我們有靜態(tài)的、設(shè)計的感知過程的例子(例如在 Atari 中更新或記住四個框架),但應(yīng)該如何學(xué)習或元學(xué)習感知以最大限度地支持其他組成部分仍然是一個懸而未決的研究問題。規(guī)劃同樣也很好地理解了實例化,但如何有效和普遍地進行規(guī)劃——使用近似、時間抽象和隨機性——仍然懸而未決?;?strong>Agent也不包括子任務(wù),即使這些可能是發(fā)現(xiàn)有用選項的關(guān)鍵。 基本Agent中也沒有提到指導(dǎo)規(guī)劃過程的算法,例如優(yōu)先掃描,有時通常稱為搜索控制 。也許基本Agent最容易理解的部分是價值函數(shù)和反應(yīng)策略的學(xué)習算法,但即使在這里,它們的高級形式也有改進的空間,例如涉及平均獎勵、非策略學(xué)習和持續(xù)非線性學(xué)習的那些。最后,給定選項,世界模型的學(xué)習在概念上是明確的,但仍然具有挑戰(zhàn)性且未得到充分探索。更好地了解所有這些算法的高級形式是進一步研究的重要領(lǐng)域。其中一些將在下一節(jié)中進一步討論。
AI 原型路線圖
“路線圖”一詞指的是繪制一條線性路徑,即一系列應(yīng)按順序執(zhí)行和完成的步驟。這并非完全錯誤,但它未能認識到研究中的不確定性和機遇。我們下面概述的步驟除了從頭到尾的順序之外,還具有多重相互依賴性。路線圖建議的順序雖然自然,但在實踐中往往會被偏離。有用的研究可以通過進入或附加到任何步驟來完成。例如,我們中的許多人最近在集成架構(gòu)方面取得了有趣的進展,盡管這些進展僅出現(xiàn)在順序的最后幾步。

首先,讓我們嘗試對路線圖及其基本原理有一個整體的了解。共有 12 個步驟,標題如下:
1. 表征 I:基于給定特征的持續(xù)監(jiān)督學(xué)習。
2. 表征 II:監(jiān)督特征查找。
3. 預(yù)測 I:持續(xù)廣義值函數(shù) (GVF) 預(yù)測學(xué)習。
4. 控制 I:持續(xù)行動-評論控制。
5. 預(yù)測 II:平均獎勵 GVF 學(xué)習。
6. 控制 II:持續(xù)控制問題。
7. 規(guī)劃 I:基于平均獎勵的規(guī)劃。
8. 原型人工智能 I:基于模型的單步強化學(xué)習,采用持續(xù)函數(shù)逼近。
9. 規(guī)劃 II:搜索控制與探索。
10. 原型人工智能 II:STOMP 進展。
11. 原型人工智能 III:Oak。
12. 原型人工智能 I:智能放大。
這些步驟從開發(fā)核心能力(用于表示、預(yù)測、規(guī)劃和控制)的新型算法發(fā)展到將這些算法組合起來,為基于模型的連續(xù) AI 生成完整的原型系統(tǒng)。
AI 中一個永恒的困境是 “部分與整體” 的困境。在核心能力的有效算法存在之前,無法構(gòu)建完整的 AI 系統(tǒng),但在組裝完整的系統(tǒng)之前,無法知道究竟需要哪些核心能力。為了解決這個先有雞還是先有蛋的問題,我們必須同時研究先有雞還是先有蛋、系統(tǒng)和組件算法、部分和整體。結(jié)果是不完美的,浪費了精力,但可能是不可避免的。
步驟 1.表示 I:具有給定特征的持續(xù)監(jiān)督學(xué)習。第 1 步是艾伯塔計劃主要策略的示例:通過考慮它出現(xiàn)的最簡單環(huán)境并嘗試在那里充分處理它,然后再推廣到更復(fù)雜的環(huán)境,從而專注于特定問題。第 1 步中關(guān)注的問題是持續(xù)學(xué)習和表征的元學(xué)習。如何在長時間持續(xù)的同時快速、穩(wěn)健和高效地學(xué)習?如何利用長時間的學(xué)習來元學(xué)習更好的表示,從而最有效地學(xué)習?
步驟 1 中采用的簡單設(shè)置是監(jiān)督學(xué)習和隨機梯度下降,使用具有靜態(tài)給定特征的線性函數(shù)近似器。在這種情況下,傳統(tǒng)的隨機梯度下降方法(例如最小均方學(xué)習規(guī)則)即使問題是非平穩(wěn)的,也可以很好地工作。然而,這些方法的效率和穩(wěn)定性可以顯著提高,這就是步驟 1 的目的。首先,這些方法通常涉及一個全局步長參數(shù),該參數(shù)必須由專家用戶設(shè)置,并借助目標輸出、特征、特征數(shù)量和啟發(fā)式方法的知識。所有這些用戶專業(yè)知識都應(yīng)該被用于設(shè)置 step-size 參數(shù)的元算法所取代,以便相同的方法可以用于任何問題或大型問題的任何部分。其次,每個特征應(yīng)該有不同的步長參數(shù),而不是全局步長參數(shù),具體取決于該特征應(yīng)進行多少泛化。如果這樣做了,那么將有許多 step-size 參數(shù)需要設(shè)置,通過算法設(shè)置它們將更加重要。
在這種設(shè)定下,表征就是特征,它們是給定且固定的,因此,將這種設(shè)定作為探索表征學(xué)習的一種方式似乎有些令人驚訝。誠然,這種設(shè)定不能用于發(fā)現(xiàn)特征或搜索新特征,但它可以用來評估給定特征的效用——這是全面表征發(fā)現(xiàn)的重要前提。即使不改變特征,也能學(xué)習哪些特征相關(guān),哪些特征不相關(guān)。相關(guān)特征可以賦予較大的步長參數(shù),而無關(guān)特征則賦予較小的步長參數(shù);這本身就是一種表征學(xué)習,即使不改變特征本身,也能影響學(xué)習效率。
最后,特征的歸一化(縮放和偏移量)可以極大地影響學(xué)習效率,而不會改變線性函數(shù)近似器的表示能力,我們在第 1 步中包括這些。
特別是,我們考慮了期望行為的無限序列,每個樣本都由一個實值輸入向量和一個實值期望輸出組成。設(shè)第 t 個示例是一對表示 (t,yt?) 為 的 。學(xué)習器尋求從每個輸入向量 t 到 yt 與所需輸出 yt? 非常接近的輸出的仿射映射。該仿射映射表示為權(quán)重向量 t 和標量偏差或偏移項 bt 。也就是說,輸出為 yt?tt?+bt 。目標是通過學(xué)習 t 和 bt 來最小化平方誤差 (yt??yt)2 。每個示例都是獨立的,但生成該示例的分布會隨時間而變化,從而使問題變得不穩(wěn)定。特別是,我們可以將所需的輸出視為在輸入向量中是仿射的,并且是一個隨時間緩慢變化的未知目標權(quán)重向量 t? ,再加上一個額外的、獨立的均值零噪聲信號: yt??t?t?+bt?+ηt 。如果 t? 或bt?隨時間變化,或者如果bt?的 分布 t 隨時間變化,則問題是非平穩(wěn)的。
在這個簡單的環(huán)境中,仍有一些基本問題尚未得到明確回答。我們對歸一化和步長適應(yīng)問題特別感興趣。在不改變線性學(xué)習單元的表達能力或其計算復(fù)雜度的順序的情況下,我們可以轉(zhuǎn)換各個輸入 xti 以產(chǎn)生歸一化信號 x~ti?xti?μtiσti ,其中 μti 和 σti 是 i 第 個信號的平均值和標準差的非平穩(wěn)(跟蹤)估計值。令人驚訝的是,這種在線正?;男Ч形丛谖墨I中明確確定。我們考慮以下形式的學(xué)習規(guī)則:
其中 each αti 是元學(xué)習的、每權(quán)重的步長參數(shù),并且
其中 αtb 是另一個可能元學(xué)習的 step-size 參數(shù)。我們對第 1 步的初步研究將側(cè)重于在現(xiàn)有算法的基礎(chǔ)上對步長參數(shù)進行元學(xué)習的算法, 11 以及展示它們改進的穩(wěn)健性。
第 1 步的總體思路是在給定固定特征表示的情況下設(shè)計出盡可能強大的算法。它應(yīng)該包括問題中所有最重要的非平穩(wěn)性問題(對于一組固定的線性特征),包括對特征相關(guān)性變化的跟蹤。它應(yīng)該包括特征相關(guān)性的元學(xué)習,這是表征學(xué)習中一個具有挑戰(zhàn)性的問題——可以說是最具挑戰(zhàn)性的問題——但它不包括實際改變正在考慮的特征集;這將在第 2 步中探討。
步驟 2。表示 II:監(jiān)督特征查找。此步驟的重點是在持續(xù)監(jiān)督學(xué)習的上下文中創(chuàng)建和引入新功能(通過組合現(xiàn)有特征制成),如步驟 1 中所示,不同之處在于現(xiàn)在目標將是 t? 近似于 output vectors t 的向量。獲取 t 要匹配的 t? 每個組件稱為單獨的任務(wù)。如何在現(xiàn)有功能的基礎(chǔ)上構(gòu)建新功能,以在不犧牲臨時性能的情況下,最大限度地發(fā)揮新功能的潛在效用和實現(xiàn)該效用的速度?之前構(gòu)建和提供各種任務(wù)的經(jīng)驗如何幫助功能構(gòu)建?
我們現(xiàn)在有一個非平穩(wěn)的多層和多任務(wù)系統(tǒng)。如何為所有功能分配效用,同時考慮到所有功能的效果和將來可能的效用?系統(tǒng)的性能將取決于資源預(yù)算(即,可以并行考慮多少個新的非線性特征)。一個好的解決方案將包括一種方法,即評估現(xiàn)有特征并丟棄不太有前途的特征,以便為新特征騰出空間。從廣義上講,解決方案方法可能是某種形式的智能生成有前途的功能,然后智能測試以對它們進行排名和替換。
此步驟的重點是探索在管理用于表示和學(xué)習特征的有限資源時具有挑戰(zhàn)性的問題。您可以表示和收集有限數(shù)量的要素的數(shù)據(jù)。何時應(yīng)丟棄舊特征,以便可以收集有關(guān)新特征的數(shù)據(jù)?新功能是如何構(gòu)建的?如何選擇丟棄的特征?
步驟 3。預(yù)測 I:持續(xù)的 GVF 預(yù)測學(xué)習。對順序的實時設(shè)置重復(fù)上述兩個步驟,其中數(shù)據(jù)不是 i.i.d.,而是來自具有狀態(tài)的過程,任務(wù)是廣義價值函數(shù) (GVF) 預(yù)測。 首先使用給定的線性特征,然后進行特征查找。新功能不僅包括非線性組合,還包括舊信號和跡線的合并。像經(jīng)典的條件測試臺,對非平穩(wěn)性進行了適當?shù)臄U展,可能適用于此目的。理想情況下,這將一直帶到非策略學(xué)習。理想情況下,這將是在實時設(shè)置中,具有循環(huán)網(wǎng)絡(luò),每個觀測執(zhí)行的處理量有限。在這里,我們明確解決了構(gòu)建狀態(tài)的問題,這是標準Agent模型的感知部分。
步驟 4。控制 I:持續(xù)行動-評論控制。重復(fù)上述三個步驟進行控制。首先在傳統(tǒng)的k-arm bandit設(shè)置中,然后在具有離散 softmax 動作的上下文bandit設(shè)置中,然后在具有給定特征的順序設(shè)置中,最后在具有特征查找的順序設(shè)置中。在最后兩個子步驟中,我們正在尋找一種 actor-critic 算法。評論者可能是步驟 1-3 的結(jié)果。Action會很相似,但仍然不同,Action和評論者(以及他們的配角)之間的互動仍然必須得到解決,這樣才能持續(xù)和穩(wěn)健地學(xué)習。
步驟 5。預(yù)測 II:平均回報 GVF 學(xué)習。這里的一般思路是將 GVF 的一般預(yù)測學(xué)習算法擴展到平均獎勵情況。我們將累積量與終端值分開,累積量始終是獎勵。然后似乎有兩個相關(guān)的案例。一個是學(xué)習的值應(yīng)該接近差分值。在這種情況下,我們還學(xué)習了平均獎勵率,從觀察到的獎勵中減去它,終止永遠不會發(fā)生。另一種方法是,學(xué)習約定價值(不減去平均回報率)加上期權(quán)的預(yù)期期限。。也許這些可以結(jié)合起來。但這兩者似乎就足夠了。
我們在前四個步驟中學(xué)到的應(yīng)該延續(xù)到平均獎勵 GVF 的學(xué)習算法中,用于預(yù)測和控制,變化最小。
步驟 6??刂?II:持續(xù)的控制問題。我們需要一些持續(xù)的問題來測試用于學(xué)習和規(guī)劃的平均獎勵算法。目前我們有 River Swim、Access-control Queuing、像Jellybean World 這樣的覓食問題和 GARNET。OpenAI Gym 有很多偶發(fā)問題,應(yīng)該轉(zhuǎn)換為持續(xù)版本。
前六個步驟(以上)旨在設(shè)計更連續(xù)的無模型學(xué)習方法。它們構(gòu)成了對所有標準無模型方法的徹底修改。這些方法為后續(xù)步驟(涉及環(huán)境模型和規(guī)劃)提供了基礎(chǔ)。
就像 agent 所做的所有工作一樣,模型的學(xué)習和模型的使用應(yīng)該以時間上統(tǒng)一的方式完成,就像在 Dyna 和 asynchronous dynamic programming 中一樣。早期步驟是在持續(xù)環(huán)境中以平均獎勵目標制定計劃。
步驟 7。規(guī)劃 I:具有平均獎勵的計劃。為平均獎勵標準開發(fā)基于異步動態(tài)規(guī)劃的增量規(guī)劃方法。這里的初始工作是針對表格情況的,但具有函數(shù)近似的情況應(yīng)該緊隨其后。后一種方法應(yīng)該包含我們在步驟 1-3 和 5 中學(xué)到的關(guān)于持續(xù)學(xué)習、元學(xué)習和特征查找的所有知識。
步驟 8。Prototype-AI I:具有連續(xù)函數(shù)近似的基于模型的一步式 RL。我們的第一個原型 AI 將基于平均獎勵 RL、模型、規(guī)劃和連續(xù)非線性函數(shù)近似。這將通過合并一般連續(xù)函數(shù)近似來超越過去在 Dyna 上的工作,但仍將僅限于一步模型。換句話說,Prototype-AI 1 將是一個集成架構(gòu),除了時間抽象(選項)之外,其他所有內(nèi)容都包含。如果沒有時間抽象,Prototype-AI 1 在許多方面都會很弱和有限(也許不是那么令人印象深刻),但它無疑會帶來自己的挑戰(zhàn)。或者,也許它會很容易且不令人印象深刻,在這種情況下,我們可以完成它并繼續(xù)進行 Prototype-AI II。
原型 AI 1 將包括a) 遞歸狀態(tài)更新(感知)過程,b) 一步環(huán)境模型,大概是期望模型或樣本模型或介于兩者之間的東西,c) 像步驟 2 中一樣尋找特征,利用來自模型的重要性反饋,d) 用于特征查找和確定環(huán)境模型中包含哪些特征的特征排名, e) 模型學(xué)習和規(guī)劃對特征排名的影響(一個周期),以及 f) 某種形式的搜索控制,可能包括 MCTS 或優(yōu)先掃描之類的東西。子步驟 b、e 和 f 將涉及挑戰(zhàn)以前沒有遇到的新問題,并且在時間抽象之前可能無法以完全令人滿意的方式解決。
此步驟和以下步驟將需要開發(fā)目標域,以開發(fā)和說明這些原型 AI 的功能。
步驟 9。規(guī)劃 II:搜索控制和探索。在第二個規(guī)劃步驟中,我們開發(fā)了對規(guī)劃的控制。規(guī)劃被視為具有函數(shù)近似的異步值迭代。異步值迭代允許按任意順序更新狀態(tài),但選擇的順序會極大地影響規(guī)劃效率。使用函數(shù)近似時,效果甚至更大??刂埔?guī)劃過程的早期工作包括優(yōu)先掃描和小備份,并且已經(jīng)進行了一些嘗試將這些表格概念推廣到線性函數(shù)近似,并考慮模型各個部分的不確定性。從最普遍的角度來看,搜索控制(改變狀態(tài)更新的順序)使規(guī)劃能夠發(fā)生根本性的變化 — 例如,從蒙特卡洛樹搜索到經(jīng)典的啟發(fā)式搜索。
步驟 10。原型 AI II:STOMP 進展。現(xiàn)在我們介紹子任務(wù)和時間抽象。排名最高的特征被分別放入一個單獨的獎勵相關(guān)子任務(wù)中,并設(shè)置一個終值,當該特征排名較高時,該終值鼓勵任務(wù)結(jié)束。每個 subtask 都被解決以產(chǎn)生一個選項。對于每個此類選項,都會學(xué)習其模型并將其添加到用于規(guī)劃的轉(zhuǎn)換模型中。這種進展——子任務(wù)、選項、模型和規(guī)劃(SubTask, Option, Model, and Planning)——被稱為時間抽象認知結(jié)構(gòu)發(fā)展的 STOMP 進展(見圖 3)。 學(xué)習過程以選項為條件,因此需要脫離策略進行。他們還需要在早期的步驟中整合我們學(xué)到的關(guān)于持續(xù)學(xué)習、元學(xué)習和規(guī)劃的所有知識。

圖 3:STOMP 級數(shù)和 Oak 架構(gòu)中抽象的發(fā)展。選定的狀態(tài)特征定義了要實現(xiàn)這些任務(wù)的子任務(wù)(右),而子任務(wù)又定義了學(xué)習策略和終止條件(選項)的標準及其相應(yīng)的值函數(shù)(左下角)。這些選項反過來定義學(xué)習其過渡模型(左上)的標準,規(guī)劃流程(紫色箭頭)使用這些標準來改進策略和價值功能。從經(jīng)驗中學(xué)習(紅色箭頭)利用當前可用的特征(綠色箭頭)作為函數(shù)逼近器的輸入。從基于特征的 SubTask 到 Options 再到 Models 的進程構(gòu)成了 STOMP 進程。完整的 Oak 架構(gòu)添加了反饋流程,這些流程會持續(xù)評估所有元素的效用,并確定應(yīng)刪除哪些元素(功能、子任務(wù)、選項和選項模型)并將其替換為新元素(請參閱步驟 11 的文本)。特別是,選擇作為 subtasks 基礎(chǔ)的狀態(tài)功能會發(fā)生變化,這將更改所有下游元素。在 Oak 架構(gòu)中,狀態(tài)抽象和時間抽象都會不斷更改和改進。
步驟 11.原型 AI III:ARK。Oak 架構(gòu)通過添加反饋流程來修改 Prototype-AI II,這些反饋流程會持續(xù)評估所有元素(功能、子任務(wù)、選項和選項模型)的效用,并確定應(yīng)刪除哪些元素并將其替換為新元素。例如,如果一個選項模型在規(guī)劃中從來沒有用處,那么它和相應(yīng)的選項和子任務(wù)最終應(yīng)該被刪除,并替換為尚未成為子任務(wù)基礎(chǔ)的新功能的那些。這些功能本身也在不斷評估它們在學(xué)習和規(guī)劃過程中的有用性。這應(yīng)該會導(dǎo)致功能的重要性重新排序,偶爾會導(dǎo)致不太有用的子任務(wù)被刪除并被新的子任務(wù)替換。以這些方式和其他方式,狀態(tài)和時間抽象不斷變化和改進。
此外,在此步驟中,我們引入了一個選項鍵盤 。 鍵盤的比喻是選項可以由實值向量引用,每個 subtask 都有一個分量。即鍵盤的每個鍵都引用了基于 subtask 的選項,以實現(xiàn)相應(yīng)的功能。具有多個非零組件的鍵盤向量(就像在和弦中一樣同時彈奏多個鍵)引用基于組件選項組合的選項。
在一個設(shè)計中,選項以正常的非策略方式學(xué)習,每個選項都以最大化其單獨的功能,而和弦選項是組件選項的固定混合,同時考慮到和弦中每個組件音符/選項/功能/子任務(wù)的強度。在此設(shè)計中,環(huán)境模型不會學(xué)習組件選項(就像在 Prototype-AI 2 中一樣),而是學(xué)習鍵盤上彈奏的任何和弦選項。
在另一種設(shè)計中,鍵盤向量首先被解釋為一個問題 — 因為使用通常獎勵的 subtask 在終止時接收到與鍵盤向量的所有非零分量成比例的終端值。如果和弦是用兩個全 1 的音符彈奏的,那么當選項終止時,子任務(wù)是最大化相應(yīng)特征值的總和。該模型與第一個設(shè)計中的學(xué)習完全相同(它忽略了鍵盤向量的含義,將其視為選項的非解釋名稱或描述符),但現(xiàn)在選項是針對多組件子任務(wù)學(xué)習的,而不是針對單獨實現(xiàn)特征的(除非播放的鍵盤向量恰好是 one-hot)。
步驟 12.原型 IA:智能放大。智能應(yīng)用 (IA) 的演示,其中原型人工智能 II 型智能體被證明能夠以非凡的方式提升第二個智能體的速度和整體決策能力。我們認為該 IA 智能體的第一個版本或許可以被描述為一個計算外小腦(一個主要基于 Oak 的預(yù)測和持續(xù)特征構(gòu)建元素以及上述步驟構(gòu)建的系統(tǒng))。然后,我們看到了第二個版本,它或許可以被理解為一個計算外皮層,充分體現(xiàn)了智能體制定策略的能力,并利用規(guī)劃來乘法式地增強另一個伙伴智能體或單個智能體的一部分的智能。我們看到這兩個版本正在人機交互和智能體與智能體之間的交互環(huán)境中進行研究。
如前所述,該計劃是臨時的,是草案,是工作計劃。我們應(yīng)該期望繼續(xù)編輯它們。特別是最后的步驟不太具體,隨著我們的接近,可能會發(fā)生很大變化。我們歡迎提供我們可能忽略的相關(guān)工作或相關(guān)計劃的指針。
我們的研究愿景中有一些重要的部分可能最好被認為是與這些步驟一起運行。在這里,我們正在考慮關(guān)于智能放大(在最后的步驟 12 中提到)和機器人技術(shù)的研究。這些工作將與前 11 個步驟相互作用并為其提供信息,但可能應(yīng)該按照它們自己的平行步驟序列進行開發(fā),這些步驟尚未列出和排序。
看完這篇論文你對DeepMind未來可能推動的范式融合有什么觀點?小編認為:一個具備世界模型的多模態(tài)Agent,使用Transformer統(tǒng)一感知、語言與控制,具備自我探索能力、內(nèi)在動機、因果推理能力,并能在開放任務(wù)中持續(xù)適應(yīng)與學(xué)習。這基本就是 DeepMind 在向通用智能體(AGI)方向邁進的技術(shù)路線。
原文鏈接:https://arxiv.org/pdf/2208.11173
熱門跟貼