Modular, Hierarchical Machine Learningfor Sequential Goal Completion

模塊化、分層的機(jī)器學(xué)習(xí)用于順序目標(biāo)完成

https://arxiv.org/pdf/2404.19060

打開網(wǎng)易新聞 查看精彩圖片

摘要

假設(shè)在一個(gè)布滿不同物體的迷宮中,可以給機(jī)器人分配一個(gè)順序目標(biāo)完成任務(wù),例如:1)拿起一把鑰匙,然后2)打開門,然后3)打開寶箱。典型的機(jī)器學(xué)習(xí)(ML)解決方案會(huì)涉及一個(gè)整體訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)(ANN)。然而,如果目標(biāo)的順序或目標(biāo)本身發(fā)生變化,那么ANN必須進(jìn)行顯著的(或者最壞的情況下,是完全的)重新訓(xùn)練。與整體ANN不同,一個(gè)模塊化的ML組件應(yīng)該是1)獨(dú)立可優(yōu)化的(與任務(wù)無(wú)關(guān)),并且2)可以任意與其他ML模塊重新配置。本文介紹了一個(gè)模塊化、分層的ML框架,通過(guò)整合兩種新興的ML技術(shù):1)認(rèn)知地圖學(xué)習(xí)者(CML)和2)高維計(jì)算(HDC)。CML是由三個(gè)單層ANN(矩陣)組成的集合,它們協(xié)作訓(xùn)練以學(xué)習(xí)抽象圖的拓?fù)浣Y(jié)構(gòu)。在這里,構(gòu)建了兩個(gè)CML,一個(gè)描述二維物理空間中的位置,另一個(gè)描述在這個(gè)空間中發(fā)現(xiàn)的物體的相對(duì)分布。每個(gè)CML節(jié)點(diǎn)狀態(tài)被編碼為高維向量,以利用HDC(一種ML代數(shù))來(lái)進(jìn)行這些高維“符號(hào)”向量的符號(hào)推理。通過(guò)這種方式,上述每個(gè)子目標(biāo)都由CML節(jié)點(diǎn)狀態(tài)的代數(shù)方程來(lái)描述。多個(gè)獨(dú)立訓(xùn)練的CML隨后被組裝在一起,以在迷宮中導(dǎo)航并解決順序目標(biāo)任務(wù)。至關(guān)重要的是,對(duì)這些目標(biāo)的更改只需要在CML-HDC架構(gòu)中進(jìn)行局部更改,而不是整體ANN重新訓(xùn)練方案。因此,這個(gè)框架使得ML更接近傳統(tǒng)工程方法,類似于數(shù)字邏輯設(shè)計(jì)。

關(guān)鍵詞:高維計(jì)算、向量符號(hào)架構(gòu)、認(rèn)知地圖學(xué)習(xí)者、人工神經(jīng)網(wǎng)絡(luò)、神經(jīng)工程學(xué)、路徑規(guī)劃、模塊化機(jī)器學(xué)習(xí)

1. 引言

由于深度神經(jīng)網(wǎng)絡(luò)(DNN)通常是整體地、端到端地訓(xùn)練以解決一個(gè)明確定義的任務(wù);順序目標(biāo)完成任務(wù)是困難的,對(duì)于迷宮謎題來(lái)說(shuō),DNN在從最少的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)、知識(shí)遷移、泛化到新環(huán)境中以及生成人類可解釋的模型方面存在困難[1]。從經(jīng)典數(shù)學(xué)的角度來(lái)看,許多規(guī)劃任務(wù)可以被表述為在抽象圖上找到最短路徑[2]。然而,標(biāo)準(zhǔn)的Dijkstra和A*最短路徑算法必須在決定第一步之前計(jì)算整個(gè)路線。如果在算法完成之前目標(biāo)位置發(fā)生了變化,那么整個(gè)算法必須從頭開始重新運(yùn)行。這樣的路徑規(guī)劃器對(duì)于必須迅速響應(yīng)動(dòng)態(tài)環(huán)境的自主探險(xiǎn)機(jī)器人來(lái)說(shuō)并不理想。

相反,模塊化機(jī)器學(xué)習(xí)(ML)方法可以將知識(shí)分割到模塊中,例如運(yùn)動(dòng)、空間關(guān)系和位置。通過(guò)將這些信息和決策空間編碼到一致的信息表示中,多個(gè)神經(jīng)網(wǎng)絡(luò)模塊可以獨(dú)立地進(jìn)行準(zhǔn)備(學(xué)習(xí)或計(jì)算),然后像數(shù)字邏輯一樣整合到一個(gè)更大的組件中。本工作展示了根據(jù)兩種新興的ML技術(shù)實(shí)現(xiàn)的模塊化、分層ML框架:1)認(rèn)知地圖學(xué)習(xí)者和2)高維計(jì)算。

認(rèn)知地圖學(xué)習(xí)者(CML)是人工神經(jīng)網(wǎng)絡(luò)(ANN)的一種新方法,它們被訓(xùn)練以學(xué)習(xí)抽象圖的拓?fù)浣Y(jié)構(gòu)[3]。CML的三個(gè)獨(dú)立但協(xié)作訓(xùn)練的單層ANN(矩陣)分別學(xué)習(xí)圖的不同方面的內(nèi)部表示:1)節(jié)點(diǎn)狀態(tài),2)邊的動(dòng)作,以及3)邊的動(dòng)作可用性。由于這種不尋常的信息分割,CML雖然從未明確地被訓(xùn)練用于路徑規(guī)劃,但可以迭代地計(jì)算出任何初始和目標(biāo)節(jié)點(diǎn)狀態(tài)之間的近似最優(yōu)路徑(最少的邊)[3]。

然而,CML沒有機(jī)制自行選擇目標(biāo)節(jié)點(diǎn)狀態(tài);相反,必須由外部源指定目標(biāo)狀態(tài)以開始CML計(jì)算。CML中信息的分割允許在訓(xùn)練后進(jìn)行“大腦手術(shù)”以提取這些內(nèi)部狀態(tài)表示。高維計(jì)算(HDC),或向量符號(hào)架構(gòu)(VSA)[4, 5],是一種非常適合整合和協(xié)調(diào)多個(gè)CML的數(shù)學(xué)代數(shù)。與學(xué)習(xí)突觸權(quán)重值不同,HDC通過(guò)操縱一組高維向量之間的相似性來(lái)進(jìn)行編碼學(xué)習(xí)[6, 7, 8]。作為一種代數(shù),這種學(xué)習(xí)明確地以方程的形式表達(dá),既允許人類解釋,也允許人類干預(yù)[9]?;贖DC的CML可以接收外部輸入,并計(jì)算出對(duì)其他基于HDC的模塊在語(yǔ)義上有意義的輸出響應(yīng)。

本工作考慮了一個(gè)通過(guò)迷宮沿著任意順序的物體進(jìn)行路徑規(guī)劃的任務(wù)(圖1a)。雖然八個(gè)物體的數(shù)量和相對(duì)位置是一致的,但它們的精確位置在每次試驗(yàn)中都會(huì)改變。一個(gè)CML學(xué)習(xí)了一個(gè)描述這些物體相對(duì)位置的抽象圖(圖1b),而第二個(gè)CML學(xué)習(xí)了如何在二維笛卡爾網(wǎng)格中導(dǎo)航(圖4a)。通過(guò)將物體CML、網(wǎng)格CML和機(jī)器人觸覺傳感器數(shù)據(jù)通過(guò)HDC整合在一起,一個(gè)模擬機(jī)器人在所有試驗(yàn)中都成功地沿著近似最優(yōu)路徑在迷宮中沿著任意順序的物體進(jìn)行導(dǎo)航。這項(xiàng)工作提出了一個(gè)構(gòu)建生物合理認(rèn)知抽象和協(xié)調(diào)層次結(jié)構(gòu)的模板。

打開網(wǎng)易新聞 查看精彩圖片

本研究的貢獻(xiàn)如下:

1. 將變量迷宮問題模板化地分解為幾個(gè)較小的子任務(wù),即相對(duì)物體定位、二維空間導(dǎo)航以及特定試驗(yàn)中的物體位置。

2. 通過(guò)HDC代數(shù)將上述每個(gè)模塊化的機(jī)器學(xué)習(xí)解決方案整合為一個(gè)分層的機(jī)器學(xué)習(xí)解決方案。

3. 展示了基于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)路徑規(guī)劃和順序目標(biāo)完成。

關(guān)于數(shù)學(xué)符號(hào),矩陣用大寫字母表示,向量用小寫字母表示。重要的是,小寫字母表示的向量來(lái)源于相同大寫字母的矩陣,例如,表示矩陣 S 的第 i 行/列向量。關(guān)鍵符號(hào)在附錄的表I中進(jìn)行了匯總和定義。

2 背景

2.1 認(rèn)知地圖學(xué)習(xí)者(Cognitive Map Learner, CML)

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

2.2 超高維計(jì)算(Hyperdimensional Computing, HDC)

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

3.1 迷宮

模擬機(jī)器人始終從家的位置 h開始,并被分配任務(wù):1)移動(dòng)到鑰匙 k ,然后 2)移動(dòng)到寶藏 t,最后 3)返回到家 h 。排列算子將需要完成的目標(biāo)序列編碼為行為策略。

這一策略作為輸入提供給機(jī)器人,機(jī)器人執(zhí)行這些指令。隨著機(jī)器人完成每個(gè)子目標(biāo),策略超向量通過(guò)排列算子反向操作 1 次,從而揭示下一個(gè)目標(biāo)。

3.2 CML 作為模塊化機(jī)器學(xué)習(xí)單元

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

3.3 對(duì)象和網(wǎng)格位置 CML

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

3.4 二維網(wǎng)格中的對(duì)象地圖

僅擁有對(duì)象和網(wǎng)格位置 CML 是不足以解決迷宮任務(wù)的。需要一個(gè)地圖來(lái)確定在特定試驗(yàn)中八個(gè)對(duì)象在二維網(wǎng)格上的位置。為了創(chuàng)建地圖,每個(gè)對(duì)象節(jié)點(diǎn)狀態(tài)與網(wǎng)格位置節(jié)點(diǎn)狀態(tài)相乘,然后將它們相加。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

在這一點(diǎn)上,還可以更新對(duì)象 CML 的門控矩陣 G ,以編碼額外的信息,例如每個(gè)迷宮中物體位置之間的歐幾里得距離,從而使 CML 傾向于網(wǎng)格上更短的物理路徑。然而,在實(shí)際操作中,處理加權(quán)圖通常需要移除先前遍歷過(guò)的邊,以防止節(jié)點(diǎn)之間出現(xiàn)抖動(dòng)(dithering);因此,在這些實(shí)驗(yàn)中僅考慮了無(wú)權(quán)邊。

3.5 模塊化、分層的機(jī)器學(xué)習(xí)框架用于順序目標(biāo)完成

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

4. 結(jié)果

4.1 網(wǎng)格位置 CML 分析

對(duì)于抽象圖 CML,需要一個(gè)單獨(dú)的動(dòng)作矩陣 A 的偽逆 ,以計(jì)算每條邊動(dòng)作的效用(公式 5,圖 3b)。相比之下,網(wǎng)格節(jié)點(diǎn)狀態(tài)超向量 P 的規(guī)律性允許簡(jiǎn)單地使用 A 的轉(zhuǎn)置代替。

打開網(wǎng)易新聞 查看精彩圖片

網(wǎng)格位置 CML 并未針對(duì)任何障礙物進(jìn)行訓(xùn)練,因此為了使其能夠與迷宮的墻壁交互,提供了觸覺傳感器。在計(jì)算狀態(tài)更新(公式 6)時(shí),Winner Take All(WTA)函數(shù)選擇了具有最大效用值的動(dòng)作;然而,在某些情況下,可用的動(dòng)作會(huì)將機(jī)器人移離目標(biāo)位置,從而導(dǎo)致動(dòng)作效用值為負(fù)。由于無(wú)效動(dòng)作的門控效用值為 0,WTA 在這些情況下會(huì)選擇非法動(dòng)作。因此需要額外的計(jì)算步驟來(lái)選擇最大的非零分?jǐn)?shù),即使它是負(fù)值。

毫不意外,當(dāng)機(jī)器人僅使用網(wǎng)格位置 CML 和觸覺傳感器被要求從鑰匙處移動(dòng)到寶藏處時(shí),機(jī)器人僅在部分時(shí)間內(nèi)成功,100 次試驗(yàn)中的成功率為 ,通常是因?yàn)樵趦蓚€(gè)網(wǎng)格位置之間反復(fù)抖動(dòng)。例如,在圖 7 中,機(jī)器人無(wú)法發(fā)現(xiàn)更南邊有一扇門。要緩解這一失敗情況,需要增加一個(gè)路徑跟蹤器以抑制對(duì)網(wǎng)格點(diǎn)的重復(fù)遍歷。因此,對(duì)象 CML 中的對(duì)象充當(dāng)了迷宮中的錨點(diǎn)或已知路徑點(diǎn)。通過(guò)地圖將兩個(gè) CML 整合在一起后,機(jī)器人能夠訪問不同的位置分辨率(實(shí)際位置與相對(duì)位置),從而改進(jìn)路徑規(guī)劃。

打開網(wǎng)易新聞 查看精彩圖片

4.2 順序目標(biāo)完成

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

5. 討論

本文描述的模塊化、分層機(jī)器學(xué)習(xí)框架用于順序目標(biāo)完成,提供了一種神經(jīng)可解釋的方法來(lái)編碼本能和局部環(huán)境細(xì)節(jié)。某些活動(dòng)(如行走)是基礎(chǔ)性的,一旦學(xué)會(huì)就不應(yīng)輕易被修改。在這里,網(wǎng)格 CML 學(xué)習(xí)了一個(gè)二維物理空間,并且從未進(jìn)行過(guò)進(jìn)一步修改,盡管除了物理存儲(chǔ)限制外,對(duì)編碼網(wǎng)格空間的大小沒有固有限制。相反,創(chuàng)建了一個(gè)對(duì)象 CML 來(lái)跟蹤遇到的對(duì)象??臻g或語(yǔ)義關(guān)系可以動(dòng)態(tài)地編碼為邊權(quán)重。此外,超向量地圖的使用使兩個(gè)獨(dú)立創(chuàng)建的 CML 能夠交互,作為錨點(diǎn)的短期記憶存儲(chǔ)庫(kù)。因此,網(wǎng)格 CML 和觸覺傳感器陣列提供了通過(guò)迷宮的細(xì)粒度導(dǎo)航,而對(duì)象 CML 提供了機(jī)器人有意導(dǎo)航的錨點(diǎn)。改變目標(biāo)集或可用對(duì)象集的操作僅限于 CML-HDC 框架中的精確位置,無(wú)需全局重新訓(xùn)練。要改變目標(biāo)序列,只需更改策略超向量;要更改對(duì)象相對(duì)于二維網(wǎng)格的位置,只需更新地圖超向量中的對(duì)應(yīng)條目;要向?qū)ο?CML 添加新對(duì)象,則需要更新所有三個(gè)神經(jīng)網(wǎng)絡(luò):節(jié)點(diǎn)狀態(tài) O 、邊動(dòng)作 A 和門控矩陣 G 。但除了門控矩陣中可能的索引變化外,新的狀態(tài)和動(dòng)作向量不會(huì)改變這些矩陣中先前創(chuàng)建的任何向量。

一篇描述基于 HDC 解決迷宮問題的類似機(jī)器人論文將問題表述為行為優(yōu)先級(jí)選擇,其中機(jī)器人可能需要決定遠(yuǎn)離隨機(jī)分布的障礙物/墻壁(基于觸覺傳感器),最終接近目標(biāo)位置(基于目標(biāo)位置傳感器)[12]。該機(jī)器人有 7 個(gè)傳感器,包括 4 個(gè)觸覺傳感器、2 個(gè)目標(biāo)位移傳感器和 1 個(gè)動(dòng)量(先前運(yùn)動(dòng))傳感器;論文評(píng)估了幾種布線圖,使用 2 個(gè)加法和 1 個(gè)乘法運(yùn)算符將不同傳感器信息組合起來(lái),使機(jī)器人能夠解決任意迷宮以到達(dá)單一目標(biāo)。最終的 HDC 行為策略解決方案實(shí)際上變成了所有可能傳感器-動(dòng)作組合的窮盡枚舉之和,成功解決了近 90% 的隨機(jī)生成迷宮。盡管其行為策略比圖 6 顯著更簡(jiǎn)單,但模擬機(jī)器人完全是反應(yīng)性的,并且沒有地圖,因此失敗案例與之前提到的僅使用網(wǎng)格位置 CML 時(shí)的抖動(dòng)一致(圖 7),并需要單獨(dú)的位置跟蹤器以防止回溯。

本研究中使用的結(jié)構(gòu)化迷宮靈感來(lái)源于強(qiáng)化學(xué)習(xí)程序 Minigrid [13] 和 MetaArcade [14] 中的迷宮和順序任務(wù)。雖然本研究未實(shí)現(xiàn)強(qiáng)化學(xué)習(xí),但它得到了 CML 學(xué)習(xí)規(guī)則的支持;因此未來(lái)的工作將尋求解決這些環(huán)境套件中的全部迷宮和游戲。此外,可以考慮使用有向圖來(lái)編碼因果關(guān)系(例如,鑰匙解鎖鎖住的門)和相關(guān)性(例如,紅鑰匙僅解鎖紅門)的概念。

本研究聚焦于雙極向量用于 HDC 計(jì)算以及實(shí)值向量用于 CML。然而,復(fù)值高維向量也可以同時(shí)用于兩者。特別是,相量(或相位向量)是一個(gè)復(fù)數(shù),對(duì)應(yīng)于相對(duì)于本地振蕩器的尖峰時(shí)間 ,其中 t 是相對(duì)于周期分辨率 r 的整數(shù)時(shí)間步長(zhǎng)。最近有幾篇論文展示了基于共振和放電神經(jīng)元的脈沖神經(jīng)網(wǎng)絡(luò)(SNN)[15] 以及在該 SNN 框架中直接實(shí)現(xiàn) HDC 操作的方法 [16, 17]。雖然本研究重點(diǎn)在于路徑規(guī)劃而非直接的同步定位與建圖(SLAM)算法,但 [18] 確實(shí)實(shí)現(xiàn)了一個(gè)使用復(fù)值 HDC 的 SNN SLAM 模型,稱為空間語(yǔ)義指針(SSP)。因此,他們學(xué)到的超向量可以直接(或稍作修改后)用于構(gòu)建本文描述的 CML,以便后續(xù)路徑規(guī)劃。

最后,本研究隨機(jī)生成了對(duì)象超向量,但理想情況下,應(yīng)該有一個(gè)基于神經(jīng)網(wǎng)絡(luò)的機(jī)制從真實(shí)世界傳感器數(shù)據(jù)中一致地生成超向量符號(hào)。通過(guò)使用與任務(wù)無(wú)關(guān)的特征提取器(例如 CLIP [19] 或 DINO [20]),可以將原始數(shù)據(jù)轉(zhuǎn)換為語(yǔ)義上有意義的超向量。深度神經(jīng)網(wǎng)絡(luò)(DNN)不再是單一的整體解決方案,而是另一個(gè) ML 模塊:一種 ML“模擬到數(shù)字轉(zhuǎn)換器”(A2D)。例如,約束少樣本類增量學(xué)習(xí)(C-FSCIL)框架使用預(yù)訓(xùn)練(并凍結(jié))的 ResNet-12 特征提取器填充了一個(gè)超向量字典 [21]。最后,顯式知識(shí)字典的使用預(yù)示了協(xié)作學(xué)習(xí)的可能性,多個(gè) ML 代理可以學(xué)習(xí)不同的事物,但由于它們共享相似的語(yǔ)義字典,它們可以協(xié)作構(gòu)建和共享知識(shí)圖 [22]。

6. 結(jié)論

通過(guò)深度神經(jīng)網(wǎng)絡(luò)(DNN)解決順序目標(biāo)任務(wù)是一項(xiàng)具有挑戰(zhàn)性的工作,特別是當(dāng)解決方案必須考慮多個(gè)相互競(jìng)爭(zhēng)的子目標(biāo)時(shí)。本文描述了一種模塊化、分層的機(jī)器學(xué)習(xí)(ML)框架,整合了兩種新興的 ML 技術(shù):1)認(rèn)知地圖學(xué)習(xí)器(CML)和 2)高維計(jì)算(HDC),以按順序?qū)Ш接脩糁付ǖ膶?duì)象序列,這些對(duì)象分布在一個(gè)可變迷宮中。CML 用于抽象圖中的路徑規(guī)劃,而 HDC 是一種基于高維向量的 ML 代數(shù)。通過(guò)將每個(gè) CML 節(jié)點(diǎn)狀態(tài)編碼為高維向量,多個(gè)獨(dú)立訓(xùn)練的 CML 被通過(guò) HDC 組裝在一起,以導(dǎo)航迷宮并完成順序目標(biāo)任務(wù)。關(guān)鍵的是,對(duì)目標(biāo)或目標(biāo)序列的更改僅在 CML-HDC 框架中引發(fā)了局部變化,而非全局 DNN 重新訓(xùn)練方案。因此,該框架實(shí)現(xiàn)了一種更傳統(tǒng)的工程化方法來(lái)構(gòu)建 ML 解決方案,其組件可以獨(dú)立優(yōu)化并任意配置。

原文鏈接: https://arxiv.org/pdf/2404.19060