Probing learning through the lens of changes in circuit dynamics

通過電路動態(tài)變化的視角探究學習

https://www.biorxiv.org/content/10.1101/2023.09.13.557585v1.full.pdf

打開網(wǎng)易新聞 查看精彩圖片

摘要

盡管動態(tài)系統(tǒng)在解釋電路計算和觀察到的行為方面取得了成功,但我們對動態(tài)系統(tǒng)在學習過程中如何演變的理解仍然非常有限。在此,我們開發(fā)了一個計算框架,用于提取循環(huán)電路在學習過程中核心的動態(tài)系統(tǒng)特征,并分析這些元動態(tài)在幾種與大腦相關的任務模型中的特性。在不同的學習算法和任務中,我們發(fā)現(xiàn)了一條通往任務掌握的典型路徑,該路徑涉及動態(tài)系統(tǒng)特征的創(chuàng)建及其向穩(wěn)定解的精煉。這種學習的普遍性揭示了循環(huán)神經(jīng)網(wǎng)絡在服務功能時的共同組織原則,并突顯了從神經(jīng)活動的慢性群體記錄中反向工程學習原則的一些挑戰(zhàn)。

關鍵詞:學習 | 循環(huán)神經(jīng)網(wǎng)絡 | 動態(tài) | 吸引子

引言

普遍認為,突觸可塑性是學習的主要生理驅(qū)動因素。然而,將突觸強度的變化與行為的變化直接聯(lián)系起來是困難的,因為它們發(fā)生在截然不同的空間和時間尺度上。神經(jīng)環(huán)路動態(tài)可以作為突觸水平和行為水平之間的橋梁:突觸可塑性驅(qū)動神經(jīng)環(huán)路動態(tài)的變化,而神經(jīng)環(huán)路動態(tài)的變化又驅(qū)動行為的變化(1)。此外,近年來方法學的進步,例如大規(guī)模慢性群體記錄(2)以及用于分析這些記錄的統(tǒng)計工具(3),使得我們能夠以前所未有的方式接觸到這一層面。然而,我們目前還缺乏一個關于行為水平上的學習是如何表現(xiàn)為神經(jīng)環(huán)路動態(tài)變化的系統(tǒng)性解釋。

過去幾十年的研究在將神經(jīng)環(huán)路動態(tài)與功能聯(lián)系起來方面取得了顯著進展。實驗和理論工作相結(jié)合,識別出一系列動態(tài)系統(tǒng)特征,這些特征能夠以緊湊的計算方式表征行為(4,5)。特別是,低維吸引子動態(tài)在大腦中普遍存在,跨越不同的神經(jīng)環(huán)路和物種(6)。它們有多種形式,包括單個離散狀態(tài)(固定點)或多個狀態(tài),這些狀態(tài)在行為上表現(xiàn)得像一個連續(xù)體(吸引子流形),它們支持大腦的基本功能,從短期記憶(7)和聯(lián)想記憶(8),到去噪(6)、認知地圖形成(9)、整合(10)和決策制定(11)。吸引子動態(tài)還為解釋循環(huán)神經(jīng)網(wǎng)絡(RNNs)如何解決復雜任務提供了有力的手段(12)。

盡管將突觸可塑性的現(xiàn)象學模型以自下而上的方式與行為相關功能聯(lián)系起來可能相當困難,但自上而下的可塑性模型可以直接將全局行為目標映射到學習規(guī)則上。特別是,循環(huán)神經(jīng)網(wǎng)絡可以通過優(yōu)化特定任務的目標函數(shù)來訓練,這可以通過機器學習算法(13,14)或其生物學動機的近似方法(15)來實現(xiàn)。經(jīng)過這種訓練的循環(huán)神經(jīng)網(wǎng)絡為理解大腦計算提供了一個有用的工具(16,17),同時也是研究生物學習的一個富有成果的試驗場(18,19)。

在此,我們開發(fā)了一個通過群體活動變化來評估學習的理論框架。我們的前提是,動態(tài)系統(tǒng)特征(如固定點或流形吸引子)在行為水平上具有解釋力,并且在神經(jīng)群體記錄(7,20-22)或循環(huán)神經(jīng)網(wǎng)絡活動(12,23)中具有可測量的特征。因此,追蹤這些特征在學習過程中的演變,即網(wǎng)絡的“元動態(tài)”,為我們提供了一個間接的視角來觀察學習過程——這一過程最終是由突觸連接的變化驅(qū)動的,并且明確地與觀察到的行為變化聯(lián)系在一起。這種表述的主要實際優(yōu)勢是,與突觸相比,神經(jīng)活動可以在體內(nèi)以更高的精度進行實驗觀察和操控。

以循環(huán)神經(jīng)網(wǎng)絡作為測試我們想法的模型系統(tǒng),我們開發(fā)了用于識別任何時刻存在的動態(tài)系統(tǒng)特征的工具,以及用于量化學習過程中動態(tài)系統(tǒng)結(jié)構(gòu)變化的指標。我們將這種方法應用于幾個捕捉大腦關鍵計算任務的任務,如項目工作記憶、證據(jù)整合和決策制定。除了不同任務和算法的特異性之外,我們的分析揭示了學習過程中元動態(tài)的共同模式,其中動態(tài)系統(tǒng)結(jié)構(gòu)的定性變化伴隨著任務表現(xiàn)的突破。這些結(jié)果表明,我們應該將關于生物學習的問題重新聚焦于網(wǎng)絡動態(tài),盡管突觸變化在學習規(guī)則的表述中具有名義上的重要性。

結(jié)果

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

階段III對于行為改善的重要性相對較小——因為行為表現(xiàn)已經(jīng)趨于穩(wěn)定,幾乎接近完美——但其在機制微調(diào)方面更為關鍵。研究表明,不同架構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(RNN)最終會收斂到相同的解決方案,盡管目標函數(shù)僅基于任務表現(xiàn),并未考慮解決方案的“如何實現(xiàn)”。然而,由行為誤差驅(qū)動的學習實際上促使網(wǎng)絡不僅找到任何可行的動態(tài),而且找到一個特別優(yōu)雅(且穩(wěn)?。┑慕鉀Q方案。階段III正是這種通用解決方案逐漸成型的階段,網(wǎng)絡在此階段通過相對較小的權(quán)重更新(與相對較小的誤差規(guī)模成比例)來調(diào)整,直到在階段IV達到穩(wěn)定。

學習階段的通用性。我們知道這個任務有一個通用解決方案,但通往這一解決方案的路徑在多大程度上是通用的呢?鑒于階段II中快速的波動,我們不期望這些學習軌跡的細節(jié)會在不同網(wǎng)絡之間復制。但在宏觀層面,元動態(tài)的粗略模式——緩慢的開始,隨后是快速的變化和行為的迅速改善,最終通過微調(diào)達到穩(wěn)定的解決方案——是否是一種普遍現(xiàn)象?

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

但這種現(xiàn)象是否適用于所有學習過程呢?我們研究了在不同學習規(guī)則下,網(wǎng)絡如何穿越多重圖結(jié)構(gòu)的空間以達到通用解決方案。許多不同的學習規(guī)則用于更新突觸強度,它們基于完全不同的原理。我們使用三種學習規(guī)則來訓練網(wǎng)絡完成這項任務,并分析它們在學習過程中多重圖軌跡的交叉相似性。

在其中一端,通過時間的反向傳播(BPTT)提供了優(yōu)化任務表現(xiàn)的理想解決方案。然而,BPTT需要計算復雜且高維的學習信號,這在生物學上是不現(xiàn)實的。對BPTT的有效近似是解耦神經(jīng)接口方法(DNI),它涉及學習計算與BPTT部分對齊的學習信號;從理論上講,它可以在生物學約束下實現(xiàn),特別是突觸可塑性規(guī)則的局部性。而我們的第三種學習規(guī)則是之前介紹的隨機反饋局部在線學習(RFLO),它本質(zhì)上是局部的。網(wǎng)絡在所有三種學習規(guī)則下都能充分學會任務,但我們可以看到學習動態(tài)存在明顯差異。圖3b的底部兩條軌跡顯示,與通過RFLO訓練的網(wǎng)絡相比,這些網(wǎng)絡的行為改善和元動態(tài)發(fā)生在更慢的時間尺度上。此外,圖3d和3e清晰地顯示了在相同學習時間內(nèi),通過不同學習規(guī)則訓練的網(wǎng)絡之間存在明顯不同的演變模式。圖3g包含了一個矩陣,顯示了所有網(wǎng)絡之間、不同時間點上的動態(tài)差異,其中較大的塊矩陣對應于不同的學習規(guī)則(三種),較小的塊矩陣(每種算法八個)對應于單個網(wǎng)絡,而每個矩陣條目對應于訓練中的特定時間點。盡管細節(jié)難以用眼睛分辨,但圖3d和3e中隔離的跨算法差異也存在于較大矩陣的塊結(jié)構(gòu)中。

在這些表面差異之下,三種學習規(guī)則的元動態(tài)是否存在潛在的相似性呢?我們重復了圖3f的分析,將時間點分階段分組,并在每對階段內(nèi)平均計算 ,但這次我們對圖3g中展示的每對網(wǎng)絡(總共24對)都進行了這樣的操作。然后,我們在每種學習規(guī)則塊內(nèi)對結(jié)果進行平均,生成了通過任何一對學習規(guī)則訓練的網(wǎng)絡在各階段之間的平均差異(圖3h)。在這個描述層次上,所有比較都顯示了與圖3f中單個網(wǎng)絡示例中闡述的相同學習動態(tài)。因此,F(xiàn)lip-Flop任務的學習過程本身在這種意義上也是“通用的”。

這種通用性并非事先給定的,也不是我們對學習階段形式化的微妙循環(huán)性所繼承的。階段轉(zhuǎn)換時間嚴格由網(wǎng)絡內(nèi)部的元動態(tài)和行為定義,但圖3h中的矩陣代表了更豐富的跨網(wǎng)絡、跨時間的比較綜合。我們對階段的形式化有效地對元動態(tài)進行了粗略的時間扭曲,以糾正不同的學習速率。至關重要的是,它依賴于我們的階段轉(zhuǎn)換時間有意義地識別每個網(wǎng)絡學習過程的不同階段。如果我們選擇均勻隨機的階段轉(zhuǎn)換時間,結(jié)構(gòu)就會分散(圖3i)。

除了時間尺度外(圖4a),元動態(tài)的定性元素在學習規(guī)則之間也存在區(qū)別。在階段II和階段III期間生成的多重圖類型對于RFLO與其他學習規(guī)則來說是系統(tǒng)性不同的。特別是,RFLO網(wǎng)絡比其他學習規(guī)則更快地建立起通用解決方案所需的8個穩(wěn)定節(jié)點,甚至在修剪多重圖結(jié)構(gòu)之前就超出了目標(圖4b)。由于RFLO是三種方法中學習速度最快的,這可能是快速高效學習的一般表現(xiàn):快速發(fā)展的過于復雜的動態(tài),可以被修剪以滿足任務需求。

打開網(wǎng)易新聞 查看精彩圖片

總結(jié)來說,通過不同學習規(guī)則訓練的網(wǎng)絡在Flip-Flop任務上展現(xiàn)出了共同的學習軌跡,可以概括為四個學習階段。盡管網(wǎng)絡在構(gòu)建中間步驟的特定多重圖時存在個體差異,以及這些學習規(guī)則取得成功的速度不同,但導致學習的元動態(tài)模式存在潛在的相似性。這一模式的一個關鍵特征是多重圖重組與表現(xiàn)最快速改善的時期相吻合,發(fā)生在階段II。我們現(xiàn)在轉(zhuǎn)向其他任務,看看這一原則是否更廣泛地成立,即元動態(tài)是推動行為學習的根本因素。

情境依賴的證據(jù)整合。Flip-Flop任務的關鍵動態(tài)特征是固定點,但這些特征本身并不能解釋許多經(jīng)典實驗范式背后的神經(jīng)機制。例如,線性吸引子參與了參數(shù)化工作記憶和證據(jù)整合(6)。這種特征的出現(xiàn)使得區(qū)分動態(tài)中的拓撲變化與幾何變化變得更加復雜。線性吸引子是一種定性特征,它通常是有用的,并且與固定點不同,但它也有空間范圍和方向,這些可以持續(xù)地增長和旋轉(zhuǎn)。

為了研究線性吸引子形成的元動態(tài),我們訓練網(wǎng)絡完成一個情境依賴的證據(jù)整合任務(CDI)。受(10)中情境依賴決策制定范式的啟發(fā),網(wǎng)絡被訓練根據(jù)試驗中提示的輸入,整合兩個獨立的、有噪聲的輸入流中的一個(圖5a,CDI)。我們使用BPTT和RFLO來訓練網(wǎng)絡完成這項任務;DNI在某種程度上也能成功完成這項任務,但往往會生成退化的解決方案(未展示)。在這個任務中,網(wǎng)絡為每種情境發(fā)展出一個線性吸引子,用于整合證據(jù),這在不同輸入相干性水平的無噪聲探測試驗中可以看到(圖5b)。

打開網(wǎng)易新聞 查看精彩圖片

這些線性吸引子是如何在學習過程中出現(xiàn)的呢?為了評估元動態(tài),我們使用線性吸引子的長度作為衡量這一任務中機制發(fā)展的適當指標。也就是說,我們通過動能(KE)最小化找到的固定點集合,并在通過DBSCAN(詳見方法部分)確定的簇內(nèi),通過測量每對點之間的最大距離來衡量每個簇的空間范圍。這些簇中最長的長度給出了動態(tài)指標 。我們將其以與Flip-Flop任務中的相同的顏色繪制,因為它在測量關鍵動態(tài)相關信息方面具有類似的作用——盡管這些指標在本質(zhì)上是不同的,一個用于測量動態(tài)的幾何方面,另一個用于測量拓撲方面。當 的值較小時,所有節(jié)點本質(zhì)上都是固定點,非零的是由于動能最小化過程中的不完美導致的。

圖5c展示了一個示例網(wǎng)絡的學習軌跡,測試損失和 都以對數(shù)尺度繪制。損失在學習過程中逐漸減少,而在某個時刻,線性吸引子的長度以一種暗示相變的突然方式呈指數(shù)增長。相對顯著的 變化與行為的逐漸改善形成了對比——動態(tài)變化是否與行為表現(xiàn)相關,就像我們在圖2b中看到的那樣?

通過比較 50 個示例網(wǎng)絡的相同曲線,這些網(wǎng)絡均以相同的方式進行訓練,但用于網(wǎng)絡初始化和訓練數(shù)據(jù)生成的噪聲具有不同的實現(xiàn)方式,我們觀察到了學習速度的分布(圖 5d)。我們將這些網(wǎng)絡按照它們達到一個損失閾值的時間進行排序,另一方面,按照其動態(tài)系統(tǒng)結(jié)構(gòu)的非平凡特征出現(xiàn)的時間(即 Ldyn 超過一個閾值的時間)進行排序。這些事件時間具有高度顯著的斯皮爾曼秩相關性(ρ = 0.59,p < 10??),且成對分布在接近恒等線附近(圖 5d)。我們對通過 RFLO 訓練的網(wǎng)絡也觀察到了類似的結(jié)果(未展示)。這一觀察表明,網(wǎng)絡動態(tài)的發(fā)展和行為的改善是緊密耦合的,這在與翻轉(zhuǎn)任務的元動態(tài)中得到的關鍵見解在本質(zhì)上不同的背景下得到了重現(xiàn)。

依賴于上下文的證據(jù)整合與決策提示。我們對第三個任務——依賴于上下文的決策制定(CDDM)的元動態(tài)進行了分析,以將翻轉(zhuǎn)任務和 CDI 任務中動態(tài)系統(tǒng)發(fā)展的拓撲和幾何元素聯(lián)系起來。該任務本質(zhì)上與 CDI 任務相同,但增加了一個額外的輸入,用于提示對(上下文提示的)輸入是向下還是向上(即凈負或正)的二元報告。這種報告提示在試驗的中途到試驗結(jié)束之間的隨機時間出現(xiàn)。

盡管輸出被簡化為二元化,但該任務比整合任務更具挑戰(zhàn)性,因為在試驗結(jié)束時的報告階段之前,沒有任何有用的學習信號。網(wǎng)絡必須學會在正確報告和試驗早期出現(xiàn)的眾多證據(jù)脈沖之間的長程時間依賴關系。此外,輸入和輸出本身只是通過整合隱含地相互關聯(lián),因此網(wǎng)絡必須自行弄清楚線性吸引子表示證據(jù)的效用,而在 CDI 中,任務需求直接“喂養(yǎng)”了這種計算。

圖 5e 展示了通過 BPPT 訓練的用于 CDDM 任務的網(wǎng)絡的學習動態(tài)。每條測試損失對數(shù)曲線最初都有一個急劇下降,我們認為這對應于邊緣輸出統(tǒng)計的校準。然后每個網(wǎng)絡在不同的時間段內(nèi)趨于平穩(wěn),最終突破并以指數(shù)速率繼續(xù)提高性能。同樣,我們將這些網(wǎng)絡按照它們跨越這個共同測試損失閾值的時間,以及線性吸引子增長的時間進行排序。在這種情況下,我們看到了更強且更穩(wěn)健的斯皮爾曼秩相關性(ρ = 0.84,p < 10?13),這些事件與恒等線的分布更加緊密。

我們的解釋是,網(wǎng)絡必須通過 BPPT 解決長程時間信用分配,以學習證據(jù)整合的有用動態(tài),即使任務在任何時刻都沒有明確要求報告凈證據(jù)。網(wǎng)絡發(fā)現(xiàn)這種策略的確切時間是隨機的,但一旦構(gòu)建了線性吸引子,網(wǎng)絡就能夠快速加速其學習。通過 RFLO 的無效案例(圖 5f)驗證了這一解釋,RFLO 未能完全學會該任務,可能是因為時間依賴性超出了其可行的學習范圍。通過 RFLO 訓練的網(wǎng)絡無法跨越圖 5e 中相同的損失閾值,且最大的吸引子特征幾乎完全是固定點,沒有空間范圍。盡管在過程中偶然會偶然產(chǎn)生一些線性吸引子,但與通過 BPPT 訓練的網(wǎng)絡群體相比,通過 RFLO 訓練的網(wǎng)絡群體中產(chǎn)生的線性吸引子數(shù)量要少得多,且網(wǎng)絡無法將它們用于與任務相關的證據(jù)整合。

總體而言,CDI 和 CDDM 的元動態(tài)與翻轉(zhuǎn)任務中的元動態(tài)講述了類似的故事,盡管表面上存在差異。在所有情況下,解決任務所需的動態(tài)系統(tǒng)結(jié)構(gòu)的初始發(fā)展都存在延遲,這與損失的初始停滯相呼應。網(wǎng)絡性能的突破與網(wǎng)絡動態(tài)的有意義變化在時間上是一致的,無論是翻轉(zhuǎn)任務中輸入驅(qū)動的節(jié)點轉(zhuǎn)換模式,還是 CDI 和 CDDM 中線性吸引子的延長。這表明這些元動態(tài)是行為水平學習的原因,因此是可測量的學習神經(jīng)相關性的自然目標。

盡管在建立突觸可塑性與行為學習測量之間的因果聯(lián)系方面有令人興奮的實驗努力,但彌合這兩者之間的差距仍然是一個挑戰(zhàn)(30, 31)。與此同時,學習算法的理論層出不窮(32–34),但幾乎沒有實驗性證據(jù)來區(qū)分它們。我們迫切需要新的思路,以更易于實驗操作的方式探討學習及其神經(jīng)相關性。在這里,我們主張將元動態(tài)作為一種有用的視角來觀察與行為相關的學習。我們的方法揭示了吸引子動態(tài)及其在學習過程中的演變對任務表現(xiàn)具有相當大的解釋能力,尤其是在行為改善的時機與底層動態(tài)變化之間的關系上。成功的學習規(guī)則傾向于驅(qū)動類似的元動態(tài),而學習失敗則表現(xiàn)為無法發(fā)展出所需的動態(tài)系統(tǒng)結(jié)構(gòu)。

我們的框架強調(diào)了攜帶行為所需底層計算的核心動態(tài)系統(tǒng)特征,希望這種表征能夠跨越人工網(wǎng)絡和生物網(wǎng)絡之間的差異。這種思維方式深受(25)的影響,并在方法論上取得了幾項關鍵進展。首先,我們的方法超越了對自主網(wǎng)絡動態(tài)的表征,通過描述穩(wěn)定不動點之間的輸入驅(qū)動轉(zhuǎn)換來實現(xiàn)。正是這些輸入驅(qū)動的轉(zhuǎn)換因果地決定了翻轉(zhuǎn)任務中的行為,因此它們成為元動態(tài)分析的自然目標。其次,幾何漂移和相變使得量化學習過程中吸引子結(jié)構(gòu)的變化尤其困難。我們不得不開發(fā)新的方法,以合理地對齊學習階段之間的多重圖節(jié)點。最后,由于多重圖通過抽象化網(wǎng)絡的個體特征來總結(jié)其計算本質(zhì),我們的不動點對齊程序也可以用于比較可能具有截然不同物理實現(xiàn)的不同網(wǎng)絡。

如果被要求從一組預先指定的選項中逆向工程一種學習算法,并且完全了解系統(tǒng)的特性,那么訓練有素的模型中的網(wǎng)絡活動足以識別真正的底層學習規(guī)則(35–37)。然而,這可以說對系統(tǒng)神經(jīng)科學而言并不是一個具有實際相關性的場景:由于存在許多未知因素,我們只能尋找定性而非定量的差異。我們已經(jīng)表明,在吸引子元動態(tài)的層面上,相似性超過了學習算法之間的大多數(shù)獨特差異,正如在(36)中關于最終解決方案所展示的那樣。然而,我們并不聲稱這總是正確的:學習過程的性質(zhì)可能還存在其他差異,這些差異可以有意義地影響元動態(tài)。任務的性質(zhì)是其中之一;有些任務具有普遍的解決方案,而其他任務則在計算策略上表現(xiàn)出顯著的個體間變異性(23)。不同的學習算法可能在這些解決方案之間產(chǎn)生不同的偏好,從而為實驗驗證提供更豐富的機會。僅從學習的終點來看,通過利用腦機接口,實驗者可以控制神經(jīng)動態(tài)與任務結(jié)果之間的映射(38),從而區(qū)分基于梯度的規(guī)則和基于強化的規(guī)則。憑借這種對學習目標的額外訪問權(quán)限,人們可以開發(fā)出可檢驗的預測,以了解在一種規(guī)則與另一種規(guī)則下神經(jīng)動態(tài)應該如何變化。如果沒有這種訪問權(quán)限,區(qū)分學習算法可能需要更豐富的學習范式,或許涉及中間訓練步驟或其他形式的任務塑造(39)。在這一領域中,我們的元動態(tài)框架為設計更豐富、更具信息量的范式以檢驗突觸學習理論提供了一個試驗平臺。

我們對元動態(tài)進行理論洞察的能力依賴于對系統(tǒng)的不切實際的訪問水平;實驗者無法窮盡地搜索神經(jīng)狀態(tài)空間以揭示其緩慢變化的點。然而,用于識別吸引子等潛在動態(tài)特征的統(tǒng)計工具正在穩(wěn)步改進,這些工具利用行為動物的大規(guī)模群體記錄(40–42)。因果干預,例如通過光遺傳學刺激,可以對已識別的動態(tài)系統(tǒng)特征的穩(wěn)定性進行直接驗證(11, 20)。更復雜的實驗工具,例如全息刺激,有望提供更豐富且可能更數(shù)據(jù)高效的電路動態(tài)表征,使得這些變化能夠在慢性神經(jīng)記錄中被觀察到(43)。因此,我們工作的可檢驗預測之一是,任務表現(xiàn)的突破將與相關腦區(qū)電路動態(tài)的定性變化相關聯(lián)。更廣泛地說,慢性記錄和干擾神經(jīng)活動的持續(xù)創(chuàng)新使得在實驗中實現(xiàn)基于我們元動態(tài)分析的類似方法成為可能。

方法

循環(huán)神經(jīng)網(wǎng)絡(RNN)動態(tài)。我們使用標準循環(huán)神經(jīng)網(wǎng)絡(RNN),其定義方程為:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

任務 我們使用了三個任務來評估元動態(tài):翻轉(zhuǎn)任務(Flip-Flop)、依賴于上下文的整合任務(Context-Dependent Integration, CDI)和依賴于上下文的決策制定任務(Context-Dependent Decision-Making, CDDM)。

打開網(wǎng)易新聞 查看精彩圖片

學習設置 我們在論文中使用了3種不同的學習規(guī)則:通過時間的反向傳播(Backpropagation through Time, BPTT 13)、解耦神經(jīng)接口(Decoupled Neural Interfaces, DNI, 29, 44)和隨機反饋局部在線學習(Random-Feedback Local Online Learning, RFLO, 28)。關于算法的描述,請參考原始論文;在這里,我們具體說明細節(jié)。

打開網(wǎng)易新聞 查看精彩圖片

在翻轉(zhuǎn)任務中,我們使用了在線學習(批量大小為1),在每個訓練活動的時間步都會通過優(yōu)化器進行學習步驟。對于圖3中的網(wǎng)絡,我們每個網(wǎng)絡訓練了50k個訓練時間步。在CDI和CDDM中,我們使用了批量學習,每個學習步驟包含200個試驗。學習步驟僅在完成整個試驗后發(fā)生。對于CDI,我們總共使用了2k個訓練步驟(使用較低的學習率),而對于CDDM,我們總共使用了1k個訓練步驟。

不動點計算我們通過尋找動能函數(shù)的極小值來計算網(wǎng)絡動態(tài)中的不動點:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

然后,我們重新排列我們網(wǎng)絡的轉(zhuǎn)移矩陣 的行和列,以符合計算出的節(jié)點對齊。接著,這兩個網(wǎng)絡之間的不相似性僅僅是基于這些轉(zhuǎn)移概率矩陣的歸一化內(nèi)積:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片