Sequential predictive learning is a unifying theory for hippocampal representationand replay
序列預(yù)測(cè)學(xué)習(xí)是海馬體表征和重放的統(tǒng)一理論
https://www.biorxiv.org/content/10.1101/2024.04.28.591528.abstract
https://www.biorxiv.org/content/biorxiv/early/2024/06/04/2024.04.28.591528.full.pdf


摘要
哺乳動(dòng)物的海馬體包含一個(gè)認(rèn)知地圖,用于表示動(dòng)物在環(huán)境中的位置,并生成離線“回放”,以實(shí)現(xiàn)回憶、規(guī)劃和形成長(zhǎng)期記憶的目的。最近的研究發(fā)現(xiàn),經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)感官輸入的人工神經(jīng)網(wǎng)絡(luò)會(huì)發(fā)展出空間調(diào)諧細(xì)胞,這與海馬體功能的預(yù)測(cè)理論一致。然而,預(yù)測(cè)性學(xué)習(xí)是否也能解釋生成離線回放的能力尚不清楚。在這里,我們發(fā)現(xiàn),通過(guò)各種形式的預(yù)測(cè)性學(xué)習(xí)穩(wěn)健出現(xiàn)的空間調(diào)諧細(xì)胞,并不能保證具有生成回放能力的認(rèn)知地圖的存在。離線模擬僅出現(xiàn)在使用遞歸連接和頭部方向信息來(lái)預(yù)測(cè)多步觀察序列的網(wǎng)絡(luò)中,這種方式促進(jìn)了反映環(huán)境幾何結(jié)構(gòu)的連續(xù)吸引子的形成。這些離線軌跡能夠展示出類似于清醒狀態(tài)的統(tǒng)計(jì)特性,自主回放最近經(jīng)歷的位置,并可以由虛擬頭部方向信號(hào)引導(dǎo)。此外,我們發(fā)現(xiàn),經(jīng)過(guò)訓(xùn)練以循環(huán)預(yù)測(cè)未來(lái)觀察序列的網(wǎng)絡(luò)能夠快速學(xué)習(xí)認(rèn)知地圖,并生成類似于海馬體θ波掃描的未來(lái)位置表征。這些結(jié)果表明,類似海馬體的表征和回放可以在參與預(yù)測(cè)性學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)中出現(xiàn),并提示海馬體θ序列反映了實(shí)現(xiàn)高效數(shù)據(jù)算法的電路,用于順序預(yù)測(cè)性學(xué)習(xí)。總之,這一框架為海馬體功能以及受海馬體啟發(fā)的人工智能方法提供了一個(gè)統(tǒng)一的理論。
主要的
哺乳動(dòng)物的海馬體被認(rèn)為參與了多種看似不同的認(rèn)知過(guò)程,包括導(dǎo)航、記憶、規(guī)劃和想象。這種功能多樣性似乎依賴于兩種不同操作模式之間的相互作用。第一種是輸入驅(qū)動(dòng)的“在線”模式,在環(huán)境中的主動(dòng)行為期間發(fā)生。在在線模式中,神經(jīng)活動(dòng)顯示出顯著的θ節(jié)律,空間調(diào)諧細(xì)胞表示動(dòng)物的位置,群體活動(dòng)位于一個(gè)低維流形上,反映了環(huán)境和任務(wù)結(jié)構(gòu)。第二種是“離線”模式,在行為靜止和睡眠期間發(fā)生。在離線模式中,不規(guī)則的神經(jīng)活動(dòng)顯示出顯著的尖波漣漪,并“回放”通過(guò)環(huán)境的真實(shí)軌跡,包括先前經(jīng)歷的位置序列和未走路徑的生成軌跡。重要的是,回放被認(rèn)為是海馬體內(nèi)部生成的,但可能受到其輸入的影響,特別是頭部方向系統(tǒng),它在睡眠期間傳遞連貫但隨機(jī)漂移的信號(hào)。然而,對(duì)于這些操作模式的統(tǒng)一解釋仍然缺乏。特別是,我們?nèi)鄙僖粋€(gè)模型來(lái)說(shuō)明像海馬體這樣的遞歸神經(jīng)網(wǎng)絡(luò)如何在在線模式中從感官信息中學(xué)習(xí)空間表征,并生成滿足三個(gè)關(guān)鍵需求的離線活動(dòng):(1) 內(nèi)部生成的連貫空間位置表征;(2) 生成通過(guò)環(huán)境的合理軌跡的位置序列;(3) 在那些位置輸出與學(xué)習(xí)關(guān)聯(lián)相關(guān)的感官輸入。
一個(gè)經(jīng)典的理論用來(lái)解釋海馬體表征和回放的是,海馬體實(shí)現(xiàn)了一個(gè)連續(xù)吸引子神經(jīng)網(wǎng)絡(luò)(CANN)。CANN使用吸引性神經(jīng)流形來(lái)表示空間,即使在沒有輸入的情況下也能維持局部化的活動(dòng)隆起。事實(shí)上,CANN模型可以解釋在線和離線活動(dòng)期間的許多實(shí)驗(yàn)觀察結(jié)果。這些包括:(1) 空間調(diào)諧細(xì)胞的存在;(2) 位于低維流形上的群體活動(dòng);(3) 內(nèi)部生成的離線軌跡,范圍從擴(kuò)散運(yùn)動(dòng)到記憶軌跡。然而,傳統(tǒng)的CANN模型依賴于將神經(jīng)元預(yù)先分配到空間位置或手工調(diào)整遞歸連接,并且學(xué)習(xí)CANN的模型依賴于具有預(yù)先存在的對(duì)外部空間調(diào)諧信號(hào)。此外,CANN無(wú)法解釋海馬體功能的另外兩個(gè)方面。第一個(gè)是視角依賴的感官信息與視角獨(dú)立的空間表征的關(guān)聯(lián);第二個(gè)是弱調(diào)諧細(xì)胞的優(yōu)勢(shì),這對(duì)群體活動(dòng)的低維結(jié)構(gòu)和空間的分布式海馬體表征至關(guān)重要。因此,目前尚不清楚一個(gè)網(wǎng)絡(luò)如何僅從自我中心的感官輸入(如圖像)中學(xué)習(xí)類似海馬體的表征和回放。
一個(gè)有前景的候選理論是預(yù)測(cè)性學(xué)習(xí)。計(jì)算模型已經(jīng)表明,學(xué)習(xí)預(yù)測(cè)即將到來(lái)的感官輸入會(huì)導(dǎo)致人工神經(jīng)網(wǎng)絡(luò)中空間調(diào)諧單元的出現(xiàn),并且海馬體的位置場(chǎng)類似于強(qiáng)化學(xué)習(xí)中使用的預(yù)測(cè)表征。此外,海馬體編碼了對(duì)即將到來(lái)的刺激的預(yù)期以及預(yù)測(cè)誤差。事實(shí)上,關(guān)于海馬體功能的其他理論提出,海馬體是一個(gè)序列預(yù)測(cè)網(wǎng)絡(luò),這一觀點(diǎn)基于其解剖結(jié)構(gòu)以及神經(jīng)元活動(dòng)不僅僅編碼動(dòng)物當(dāng)前的位置,而是以一種“掃描”的方式表示可能的未來(lái)位置軌跡的觀察結(jié)果。
為了確定預(yù)測(cè)性學(xué)習(xí)在統(tǒng)一海馬體功能不同方面上的潛力,我們訓(xùn)練了遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 來(lái)預(yù)測(cè)一個(gè)代理在模擬環(huán)境中移動(dòng)時(shí)的自我中心感官輸入(圖2a,方法)。這使我們能夠在代理接收到空間模糊的感官輸入的情況下,比較不同預(yù)測(cè)模型的分布式表征(圖S1)。同時(shí),這也讓我們能夠研究這些模型在沒有感官輸入情況下的離線生成能力。我們發(fā)現(xiàn),一種基于吸引子的認(rèn)知地圖能夠從預(yù)測(cè)性學(xué)習(xí)中出現(xiàn),并具備生成離線回放的能力,但只有在網(wǎng)絡(luò)使用遞歸連接并通過(guò)定向信號(hào)(頭部方向)預(yù)測(cè)多步感官輸入序列時(shí)才可能實(shí)現(xiàn)。總之,序列預(yù)測(cè)性學(xué)習(xí)可以解釋海馬體中的在線表征和離線回放。因此,序列預(yù)測(cè)性學(xué)習(xí)是一個(gè)能夠統(tǒng)一對(duì)海馬體三種觀點(diǎn)的候選理論:1)海馬體是一張預(yù)測(cè)性地圖;2)海馬體是一個(gè)連續(xù)吸引子神經(jīng)網(wǎng)絡(luò) (CANN);3)海馬體是一個(gè)序列生成器。


下一步預(yù)測(cè)性學(xué)習(xí)產(chǎn)生空間調(diào)諧細(xì)胞,但不產(chǎn)生回放
我們?cè)谝粋€(gè)“網(wǎng)格世界”環(huán)境中模擬了一個(gè)代理,該環(huán)境中的視覺線索由不同顏色和圖案的地板磚組成(圖2a)。在“清醒”階段,代理采取隨機(jī)行動(dòng),以實(shí)現(xiàn)對(duì)環(huán)境的充分探索(方法)。在每個(gè)位置,代理接收一張7×7的顏色圖像,對(duì)應(yīng)于其前方地板和墻壁的自我中心視角(圖2b,補(bǔ)充視頻)。關(guān)鍵的是,該網(wǎng)絡(luò)的輸入既具有空間模糊性,也具有冗余性(圖2c,S2)——單個(gè)感官單元幾乎沒有空間調(diào)諧性,環(huán)境中的多個(gè)位置可能具有相同的感官輸入,而同一位置可能因代理的頭部方向不同而具有不同的感官輸入。每個(gè)階段的動(dòng)作序列和視覺輸入被用來(lái)訓(xùn)練一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN),通過(guò)時(shí)間反向傳播預(yù)測(cè)每個(gè)時(shí)間步的下一個(gè)視覺輸入(圖2a、b,圖S3a,方法)。
訓(xùn)練完成后,網(wǎng)絡(luò)中形成了一個(gè)對(duì)外部空間的表征(圖2c、d)。代理的位置可以通過(guò)線性解碼器從預(yù)測(cè)性RNN單元中準(zhǔn)確解碼(圖2b、d,方法),許多RNN單元活動(dòng)的很大一部分方差可以由代理的位置解釋(600個(gè)單元中有141±15個(gè)單元的空間位置解釋了超過(guò)50%的方差),并且它們發(fā)展出了攜帶顯著更多空間信息的空間調(diào)諧曲線,相比于視覺輸入或未訓(xùn)練網(wǎng)絡(luò)中觀察到的信息(圖2c,方法)。與海馬體中的細(xì)胞類似,網(wǎng)絡(luò)中的單元表現(xiàn)出空間信息分布的偏態(tài)(圖S3b),其中大量單元為弱調(diào)諧細(xì)胞,少數(shù)單元具有強(qiáng)/可靠的空間調(diào)諧性。
空間調(diào)諧單元的出現(xiàn)是遞歸網(wǎng)絡(luò)中預(yù)測(cè)性學(xué)習(xí)的一個(gè)穩(wěn)健特性。訓(xùn)練后的RNN包含比隨機(jī)(未訓(xùn)練)RNN或相同訓(xùn)練的前饋網(wǎng)絡(luò)具有更多空間信息的單元(圖2c、d,圖S4),并且空間調(diào)諧細(xì)胞的出現(xiàn)并不依賴于環(huán)境的幾何形狀(圖S5),也不依賴于離散環(huán)境和動(dòng)作空間的使用(圖S6)。由于神經(jīng)網(wǎng)絡(luò)模型的涌現(xiàn)特性可能對(duì)特定超參數(shù)選擇敏感,我們訓(xùn)練了一個(gè)由250個(gè)預(yù)測(cè)網(wǎng)絡(luò)組成的群體,每個(gè)網(wǎng)絡(luò)具有不同的超參數(shù)設(shè)置(種子、學(xué)習(xí)率、序列持續(xù)時(shí)間、反向傳播時(shí)間窗口、神經(jīng)元數(shù)量和神經(jīng)時(shí)間尺度;圖S7)。我們發(fā)現(xiàn),空間表征的出現(xiàn)與這些RNN群體的預(yù)測(cè)性能高度相關(guān)(圖2e),并且至關(guān)重要的是,沒有任何一個(gè)網(wǎng)絡(luò)能夠在不發(fā)展出空間調(diào)諧細(xì)胞的情況下很好地進(jìn)行預(yù)測(cè)。這些結(jié)果表明,對(duì)外部空間的調(diào)諧是遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)自我中心感官信息時(shí)自然且穩(wěn)健的結(jié)果。
接下來(lái),我們測(cè)試了預(yù)測(cè)性RNN是否能夠在類似睡眠的狀態(tài)下生成合理的模擬。具體來(lái)說(shuō),我們移除了感官和動(dòng)作輸入,并增加了高于訓(xùn)練期間使用的噪聲量(不相關(guān)的高斯噪聲,見方法),使得網(wǎng)絡(luò)動(dòng)態(tài)主要由遞歸連接主導(dǎo)(圖S8)。為了識(shí)別網(wǎng)絡(luò)在睡眠期間所表征的位置,我們使用了在清醒狀態(tài)下從RNN活動(dòng)解碼位置的解碼器(圖2f)。我們發(fā)現(xiàn),網(wǎng)絡(luò)并未表征一個(gè)空間局部化的位置(圖2g),離線活動(dòng)產(chǎn)生的感官“預(yù)測(cè)”與解碼視點(diǎn)(即位置和頭部方向,圖2h)的感官輸入不對(duì)應(yīng),并且表征位置的軌跡不符合環(huán)境統(tǒng)計(jì)特性(圖2i)。相反,軌跡頻繁地在空間中跳躍,僅訪問(wèn)環(huán)境中少量孤立的位置,這些位置在不同試驗(yàn)中保持一致(圖S8)。這與清醒狀態(tài)下的軌跡形成鮮明對(duì)比,后者僅限于通過(guò)環(huán)境的平滑過(guò)渡。無(wú)法生成回放并非特定超參數(shù)選擇的結(jié)果,因?yàn)闊o(wú)論網(wǎng)絡(luò)超參數(shù)或噪聲水平如何,這些網(wǎng)絡(luò)都無(wú)法生成合理的模擬(圖S8)。因此,學(xué)習(xí)預(yù)測(cè)下一幅圖像能夠穩(wěn)健地產(chǎn)生空間調(diào)諧,但并未賦予內(nèi)在生成回放的能力。
連續(xù)吸引子表征從序列預(yù)測(cè)性學(xué)習(xí)中涌現(xiàn)
在檢查預(yù)測(cè)性RNN的群體活動(dòng)時(shí),我們觀察到,盡管存在空間調(diào)諧單元,RNN中的活動(dòng)并不類似于連續(xù)吸引子神經(jīng)網(wǎng)絡(luò)(CANN)(圖3a、b)。也就是說(shuō),清醒狀態(tài)下的群體活動(dòng)并未位于反映環(huán)境空間布局的流形上,而睡眠期間的活動(dòng)則收斂到一個(gè)單一的偏離流形的固定點(diǎn)。為了量化這些觀察結(jié)果,我們開發(fā)了兩個(gè)指標(biāo):第一,空間表征相似性分析(sRSA),用于測(cè)量神經(jīng)空間距離與環(huán)境距離之間的相關(guān)性(方法);第二,睡眠-清醒距離(S-W Dist),用于測(cè)量睡眠期間活動(dòng)與清醒流形在神經(jīng)空間中的距離(方法)。我們觀察到,預(yù)測(cè)性RNN的sRSA得分顯著低于CANN(圖3a、b),而其S-W Dist顯著更高,表明群體活動(dòng)位于清醒流形之外。

因此,我們想知道其他形式的預(yù)測(cè)性學(xué)習(xí)是否可能生成基于吸引子的認(rèn)知地圖。最近的研究表明,遞歸自編碼器也可以包含空間調(diào)諧單元,并且掩碼預(yù)測(cè)性學(xué)習(xí)(一種在保留時(shí)間步中訓(xùn)練自編碼器預(yù)測(cè)輸入的方法)已被發(fā)現(xiàn)在視覺和語(yǔ)言任務(wù)中生成良好的內(nèi)部模型。在掩碼預(yù)測(cè)范式下,視覺輸入可以在多個(gè)時(shí)間步被掩碼(圖3c,S1),我們假設(shè)這將鼓勵(lì)遞歸連接維持代理當(dāng)前狀態(tài)的一致表征并捕捉通過(guò)空間的轉(zhuǎn)換。確實(shí),我們發(fā)現(xiàn)多步或序列預(yù)測(cè)性學(xué)習(xí)導(dǎo)致了一個(gè)反映環(huán)境布局并在睡眠期間約束神經(jīng)活動(dòng)的神經(jīng)流形的涌現(xiàn)(圖3d)。
有趣的是,盡管所有掩碼網(wǎng)絡(luò)都能解決預(yù)測(cè)任務(wù)并發(fā)展出空間調(diào)諧單元,但只有使用速度和頭部方向(HD)信息訓(xùn)練的序列網(wǎng)絡(luò)形成了認(rèn)知地圖(圖3e、f)。具體來(lái)說(shuō),吸引子流形(低S-W Dist)僅出現(xiàn)在被訓(xùn)練預(yù)測(cè)至少兩個(gè)時(shí)間步掩碼觀測(cè)的網(wǎng)絡(luò)中(圖3e),而映射到空間的能力(高sRSA)并未出現(xiàn)在單步掩碼網(wǎng)絡(luò)或接收動(dòng)作身份、速度和角速度的序列網(wǎng)絡(luò)中(圖3e,圖S9)。此外,使用速度和HD信息訓(xùn)練的序列預(yù)測(cè)網(wǎng)絡(luò)是唯一一類其空間表征更接近歐幾里得距離而非位置間步數(shù)的網(wǎng)絡(luò)(圖3f)。這些結(jié)果在具有不同超參數(shù)的網(wǎng)絡(luò)中表現(xiàn)穩(wěn)?。▓D3g,S10),在具有不同幾何形狀的環(huán)境中一致(圖3h),并且在一個(gè)具有真實(shí)行為軌跡的連續(xù)環(huán)境中也成立(圖3i,圖S11)。
雖然層歸一化、丟棄法(dropout)和噪聲注入(見方法)提高了訓(xùn)練和離線活動(dòng)的穩(wěn)定性,并改善了下一步RNN中的空間調(diào)諧(圖S12),但它們并未促進(jìn)下一步網(wǎng)絡(luò)中連續(xù)吸引子的形成,其存在也并非序列RNN中吸引子涌現(xiàn)的必要條件(圖S12)。
為什么下一步預(yù)測(cè)性RNN具有空間調(diào)諧表征,卻沒有能夠映射環(huán)境空間布局的吸引子神經(jīng)流形?
這種表面上的矛盾是由于網(wǎng)絡(luò)對(duì)空間的表征被動(dòng)作身份和視覺輸入的強(qiáng)大表征所取代(圖S13),而在序列預(yù)測(cè)性網(wǎng)絡(luò)中,這些表征僅被弱表達(dá)(圖S13)。有趣的是,增加環(huán)境中視覺模糊性的程度降低了下一步、單步和動(dòng)作身份編碼網(wǎng)絡(luò)中的空間表征,但并未降低使用速度+頭部方向動(dòng)作編碼的序列網(wǎng)絡(luò)中的空間表征(圖S14),這進(jìn)一步支持了這樣的觀點(diǎn):結(jié)合速度和頭部方向信息的序列預(yù)測(cè)性學(xué)習(xí)促進(jìn)了認(rèn)知地圖的形成。認(rèn)知地圖流形的出現(xiàn)可以歸因于更多細(xì)胞的方差由空間位置解釋的現(xiàn)象。盡管調(diào)諧曲線包含相同數(shù)量的空間信息,序列預(yù)測(cè)網(wǎng)絡(luò)中的單元有更多活動(dòng)方差由空間位置解釋(圖S15),并且更多這些空間調(diào)諧單元對(duì)單一空間位置表現(xiàn)出單峰調(diào)諧曲線(圖S15)。在超參數(shù)群體中,sRSA與調(diào)諧單元的比例相關(guān),而非平均空間信息量(SI,圖S15)。
序列預(yù)測(cè)性RNN生成離線模擬,能夠自主回放最近的位置或遵循頭部方向查詢
與下一步預(yù)測(cè)性網(wǎng)絡(luò)(圖2)不同,序列預(yù)測(cè)性RNN中的離線活動(dòng)在沒有感官輸入的情況下維持了位置的一致表征。當(dāng)網(wǎng)絡(luò)僅由內(nèi)部噪聲驅(qū)動(dòng)時(shí),每個(gè)時(shí)間步解碼出的位置在空間上高度集中(圖4a、b),并在每個(gè)睡眠周期中圍繞一個(gè)不同的單一位置進(jìn)行局部轉(zhuǎn)換(圖4c,圖S16)。

然而,海馬體中的離線活動(dòng)并不僅限于單一位置,而是展示出延伸的路徑,這些路徑穿過(guò)環(huán)境,并經(jīng)常重現(xiàn)最近探索中顯著或獎(jiǎng)勵(lì)相關(guān)的位置。在連續(xù)吸引子神經(jīng)網(wǎng)絡(luò)(CANN)和其他海馬體模型中,生成軌跡的一種常見方法是引入適應(yīng)機(jī)制(圖4a),即對(duì)每個(gè)神經(jīng)元活動(dòng)的緩慢負(fù)反饋,這被認(rèn)為在生成海馬體離線活動(dòng)的動(dòng)力學(xué)中起到了關(guān)鍵作用。我們發(fā)現(xiàn),在RNN單元中添加一個(gè)適應(yīng)變量會(huì)產(chǎn)生延伸的睡眠軌跡(圖4c、S16、S17),其統(tǒng)計(jì)特性與清醒狀態(tài)下的軌跡相似(圖4d)。值得注意的是,除了相鄰空間位置之間的轉(zhuǎn)換外,離線軌跡經(jīng)常進(jìn)行對(duì)角線和兩步轉(zhuǎn)換(圖S16),而這些轉(zhuǎn)換在訓(xùn)練數(shù)據(jù)中均不可能出現(xiàn)。因此,該網(wǎng)絡(luò)能夠自主生成反映環(huán)境結(jié)構(gòu)的生成性模擬,但并不嚴(yán)格局限于清醒狀態(tài)下觀察到的狀態(tài)轉(zhuǎn)換。在清醒試驗(yàn)中增加學(xué)習(xí)率會(huì)導(dǎo)致網(wǎng)絡(luò)從生成合理但隨機(jī)的軌跡,轉(zhuǎn)變?yōu)樵陔S后的睡眠周期中重現(xiàn)試驗(yàn)中訪問(wèn)過(guò)的位置(圖S18)。
除了回放最近的位置,離線海馬體活動(dòng)還可以用于定向規(guī)劃和想象。受表征頭部方向的神經(jīng)回路在大腦離線活動(dòng)中自發(fā)活躍這一現(xiàn)象的啟發(fā),我們假設(shè)在清醒狀態(tài)下指示代理動(dòng)作的相同輸入可以引導(dǎo)睡眠期間的軌跡(圖4a)。確實(shí),與適應(yīng)機(jī)制類似,添加一個(gè)動(dòng)作“查詢”信號(hào)會(huì)通過(guò)影響回放轉(zhuǎn)換的方向產(chǎn)生類似清醒狀態(tài)的轉(zhuǎn)換統(tǒng)計(jì)特性(圖4c、d,S17)。這種行為僅出現(xiàn)在使用速度和頭部方向信息訓(xùn)練的序列預(yù)測(cè)網(wǎng)絡(luò)中(圖4e),并與它們形成認(rèn)知地圖的能力相關(guān),這一點(diǎn)可以通過(guò)sRSA和睡眠-清醒距離來(lái)衡量(圖4f)。有趣的是,生成類似清醒狀態(tài)軌跡的能力僅依賴于動(dòng)作信號(hào)中的頭部方向分量,而虛構(gòu)的速度或適應(yīng)機(jī)制則可以調(diào)節(jié)這一運(yùn)動(dòng)的速度(圖S16)。此外,頭部方向查詢提高了視覺模擬的合理性,生成的輸出模仿了睡眠期間回放位置的相關(guān)感官輸入(圖4g、h,S17)??傊@些結(jié)果表明,序列預(yù)測(cè)性學(xué)習(xí)生成的網(wǎng)絡(luò)包含一個(gè)認(rèn)知地圖,滿足離線活動(dòng)的三個(gè)關(guān)鍵需求(圖1c),即:(1)在沒有輸入的情況下維持一致的表征;(2)生成延伸的軌跡,可以回放最近的經(jīng)歷或通過(guò)頭部方向查詢進(jìn)行定向;(3)能夠在表征的位置上重現(xiàn)學(xué)習(xí)到的感官關(guān)聯(lián)。
基于展開(rollout)的序列預(yù)測(cè)性學(xué)習(xí)生成θ波掃描表征動(dòng)態(tài)并實(shí)現(xiàn)快速學(xué)習(xí)
盡管上述學(xué)習(xí)過(guò)程重現(xiàn)了若干實(shí)驗(yàn)觀察結(jié)果,但它需要大量的感官“數(shù)據(jù)”——更準(zhǔn)確地說(shuō),只有在完成約2000次試驗(yàn)(每次試驗(yàn)500步)后才能學(xué)習(xí)到地圖(圖S20)。相比之下,海馬體在暴露于新環(huán)境后的幾天內(nèi)就能形成神經(jīng)流形,并且能夠快速在位置和新穎感官信息之間建立關(guān)聯(lián)。此外,與海馬體不同,掩碼網(wǎng)絡(luò)預(yù)測(cè)的是當(dāng)前而非未來(lái)的感官觀測(cè)。在自監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)中,序列預(yù)測(cè)通常通過(guò)“展開”來(lái)學(xué)習(xí):即預(yù)測(cè)多個(gè)未來(lái)時(shí)間步,這提高了數(shù)據(jù)效率。因此,我們修改了學(xué)習(xí)過(guò)程,采用基于展開的方法,其中RNN在接收到下一個(gè)時(shí)間步的感官輸入之前,每一步都預(yù)測(cè)未來(lái)觀測(cè)的多步序列(圖5a,S1)。

與使用掩碼方法的序列預(yù)測(cè)網(wǎng)絡(luò)類似,這種基于展開的預(yù)測(cè)性RNN也學(xué)習(xí)到了一個(gè)連續(xù)吸引子地圖(圖5b),該地圖在睡眠期間維持了一致的空間表征,并生成了具有合理感官關(guān)聯(lián)的、類似于清醒狀態(tài)的軌跡(圖5c)。有趣的是,當(dāng)解碼器被應(yīng)用于展開的不同階段時(shí),網(wǎng)絡(luò)所表征的位置會(huì)從代理當(dāng)前位置的后方“掃描”到前方幾步的位置(圖5a、d)。這種循環(huán)表征與海馬體的θ波掃描極為相似:每約120毫秒出現(xiàn)一次代表動(dòng)物前方位置的尖峰序列,由8Hz的θ振蕩協(xié)調(diào)。為了學(xué)習(xí)吸引子地圖,網(wǎng)絡(luò)必須接收未來(lái)速度和頭部方向的預(yù)期序列(圖S19),這類似于提前規(guī)劃其動(dòng)作。然而,一旦地圖被學(xué)習(xí)到,網(wǎng)絡(luò)便能夠在展開過(guò)程中模擬可能但未實(shí)際發(fā)生的未來(lái)軌跡,前提是提供一個(gè)假設(shè)的動(dòng)作序列(圖S19)。
展開學(xué)習(xí)顯著提升了學(xué)習(xí)性能和認(rèn)知地圖的形成。 展開網(wǎng)絡(luò)擁有更多空間調(diào)諧單元(圖5e、f),相較于掩碼網(wǎng)絡(luò)形成了更高sRSA值的空間表征(圖5f,圖S20),并且在感官預(yù)測(cè)方面表現(xiàn)更優(yōu)(圖S20)。此外,當(dāng)環(huán)境中引入新物體時(shí),這種方法能夠快速形成新的感官關(guān)聯(lián),即使物體被移除后,這種關(guān)聯(lián)仍然保留在網(wǎng)絡(luò)的輸出中(圖S21)。這種改進(jìn)的原因在于網(wǎng)絡(luò)的數(shù)據(jù)效率更高——它能夠以更少的試驗(yàn)次數(shù)和更短的序列長(zhǎng)度形成連續(xù)吸引子地圖(圖5g,圖S20)。
總體而言,我們發(fā)現(xiàn)基于展開的序列預(yù)測(cè)性學(xué)習(xí)提高了學(xué)習(xí)連續(xù)吸引子地圖的速度和魯棒性,并重現(xiàn)了實(shí)驗(yàn)觀察到的θ波掃描“前瞻”模式。因此,我們的研究結(jié)果表明,θ序列是海馬體中序列預(yù)測(cè)性學(xué)習(xí)的一個(gè)標(biāo)志性特征。
在這項(xiàng)研究中,我們使用了一個(gè)RNN模型來(lái)證明序列預(yù)測(cè)性學(xué)習(xí)為海馬體表征和回放提供了一個(gè)統(tǒng)一的理論。與之前的研究結(jié)果一致,我們發(fā)現(xiàn)學(xué)習(xí)預(yù)測(cè)感官輸入能夠穩(wěn)健地促使遞歸神經(jīng)網(wǎng)絡(luò)中空間調(diào)諧細(xì)胞的發(fā)展。然而,我們發(fā)現(xiàn)空間調(diào)諧細(xì)胞的存在并不足以保證具備生成離線回放能力的認(rèn)知地圖。盡管如此,在使用速度和頭部方向信息預(yù)測(cè)多步感官輸入序列的訓(xùn)練網(wǎng)絡(luò)中,一個(gè)連續(xù)吸引子流形始終出現(xiàn),這使得網(wǎng)絡(luò)能夠在線下模擬合理的軌跡。這種離線“回放”活動(dòng)可以重現(xiàn)試驗(yàn)中的位置、生成新的軌跡,或由頭部方向查詢引導(dǎo)。我們發(fā)現(xiàn),通過(guò)循環(huán)預(yù)測(cè)未來(lái)的感官輸入,認(rèn)知地圖形成的效率得到了提高,并且生成了類似于海馬體中觀察到的θ波掃描的表征。這些結(jié)果表明,多步序列預(yù)測(cè)是解釋海馬體操作的一個(gè)有前景的統(tǒng)一理論。
我們的工作建立在先前探索預(yù)測(cè)模型與海馬體-內(nèi)嗅系統(tǒng)中空間表征關(guān)系的研究基礎(chǔ)之上。過(guò)去的研究已經(jīng)表明:(1) 海馬體中空間調(diào)諧的某些方面可以通過(guò)預(yù)測(cè)性表征很好地解釋,這些表征可以通過(guò)具有空間調(diào)諧輸入的預(yù)測(cè)性赫布學(xué)習(xí)、時(shí)序差分學(xué)習(xí)(TD learning)或脈沖時(shí)間依賴可塑性(STDP)學(xué)習(xí);(2) 學(xué)習(xí)從動(dòng)作中預(yù)測(cè)記憶嵌入可以連接外部空間和自我中心表征;(3) 預(yù)測(cè)可以將空間調(diào)諧輸入與關(guān)系結(jié)構(gòu)聯(lián)系起來(lái);(4) 使用離散狀態(tài)從動(dòng)作中預(yù)測(cè)觀測(cè)值的克隆隱馬爾可夫模型可以重現(xiàn)海馬體的許多特征并支持離線評(píng)估;(5) 參與路徑整合(即從動(dòng)作序列中預(yù)測(cè)空間位置)會(huì)導(dǎo)致網(wǎng)格細(xì)胞和連續(xù)吸引子動(dòng)力學(xué)的出現(xiàn);(6) 訓(xùn)練遞歸網(wǎng)絡(luò)預(yù)測(cè)海馬體尖峰數(shù)據(jù)或線性位置細(xì)胞序列可以重現(xiàn)海馬體活動(dòng)的多種特征,包括尖峰交叉相關(guān)性和序列回放。我們的工作表明,這些發(fā)現(xiàn)可以在RNN中通過(guò)感官數(shù)據(jù)的序列預(yù)測(cè)性學(xué)習(xí)統(tǒng)一起來(lái),并應(yīng)用于自我中心、高維、連續(xù)的感官輸入。
更廣泛地說(shuō),序列預(yù)測(cè)性學(xué)習(xí)統(tǒng)一了海馬體操作的三種不同觀點(diǎn)。除了將海馬體視為預(yù)測(cè)性地圖的觀點(diǎn)與海馬體實(shí)現(xiàn)連續(xù)吸引子神經(jīng)網(wǎng)絡(luò)(CANN)的觀點(diǎn)聯(lián)系起來(lái),序列預(yù)測(cè)性學(xué)習(xí)還與海馬體作為序列生成器的觀點(diǎn)一致。這些觀點(diǎn)基于對(duì)θ序列的廣泛生理學(xué)觀察,這些序列與諸如觸須擺動(dòng)、腳步、嗅聞或眼跳等行為步驟相關(guān),并且對(duì)隨后的回放至關(guān)重要。它們還得到了最近模型的支持,這些模型表明將觀測(cè)值與離散狀態(tài)序列關(guān)聯(lián)可以重現(xiàn)許多與海馬體相關(guān)的生理現(xiàn)象,以及經(jīng)典模型表明神經(jīng)網(wǎng)絡(luò)中的序列學(xué)習(xí)可以重現(xiàn)其許多心理功能。
我們研究中最令人驚訝的結(jié)果之一是,空間調(diào)諧細(xì)胞并不能保證一個(gè)具有拓?fù)鋵?duì)應(yīng)環(huán)境的低維神經(jīng)流形或認(rèn)知地圖的存在。支持空間調(diào)諧與認(rèn)知地圖之間的這一區(qū)分,實(shí)驗(yàn)研究表明,雖然位置細(xì)胞在新環(huán)境中幾乎會(huì)立即出現(xiàn),但認(rèn)知地圖僅在多天的暴露后才會(huì)出現(xiàn),并且依賴于弱調(diào)諧細(xì)胞。此外,我們觀察到,預(yù)測(cè)感官輸入序列對(duì)于地圖形成和回放是必要的,但對(duì)于空間調(diào)諧卻不是必需的,這與生理學(xué)結(jié)果相呼應(yīng):在發(fā)育過(guò)程中,位置細(xì)胞在海馬體中先于序列活動(dòng)出現(xiàn),而破壞其序列結(jié)構(gòu)會(huì)干擾其產(chǎn)生回放的能力,但不會(huì)干擾其對(duì)空間的關(guān)聯(lián)編碼。
除了預(yù)測(cè)感官輸入序列外,我們的研究結(jié)果表明,頭部方向信號(hào)對(duì)于從視角依賴的觀測(cè)中學(xué)習(xí)認(rèn)知地圖至關(guān)重要。雖然承認(rèn)引入頭部方向信號(hào)是對(duì)外部空間的(即非自我中心的),但它與將動(dòng)物的頭部方向和前進(jìn)速度傳遞到海馬體系統(tǒng)的輸入信號(hào)有著驚人的相似性。此外,頭部方向系統(tǒng)在睡眠期間傳遞一個(gè)連貫的信號(hào),該信號(hào)與動(dòng)物的實(shí)際頭部方向無(wú)關(guān),并且在海馬體回放之前顯示出活動(dòng)增強(qiáng)。在我們的模型中,僅靠適應(yīng)機(jī)制就足以生成回放軌跡,但虛擬頭部方向輸入對(duì)于在回放位置輸出相關(guān)的感官信息是必要的,并且能夠影響回放軌跡的方向??偟膩?lái)說(shuō),這些結(jié)果預(yù)測(cè),頭部方向?qū)τ谛纬晌恢眉?xì)胞并非必要,但在認(rèn)知地圖的形成、重現(xiàn)下游處理所需的學(xué)習(xí)關(guān)聯(lián)的回放過(guò)程中起著關(guān)鍵作用,并且可以支持利用回放進(jìn)行定向規(guī)劃和想象。頭部方向系統(tǒng)的這一關(guān)鍵作用是一個(gè)實(shí)驗(yàn)性的預(yù)測(cè),可以在未來(lái)的研究中加以驗(yàn)證。
本研究存在一些局限性需要考慮。首先,我們從隨機(jī)初始狀態(tài)開始訓(xùn)練網(wǎng)絡(luò),這并不能準(zhǔn)確反映海馬體中的學(xué)習(xí)過(guò)程。有大量證據(jù)表明,海馬體具有預(yù)先存在的連接結(jié)構(gòu),學(xué)習(xí)是在這些結(jié)構(gòu)上進(jìn)行的。一個(gè)突出的假設(shè)是,這些結(jié)構(gòu)賦予海馬體一個(gè)“庫(kù)”式的儲(chǔ)備,其中包含現(xiàn)有的序列,這些序列可以與任意的感官輸入序列相關(guān)聯(lián)。我們假設(shè)這種初始化將促進(jìn)快速甚至單次學(xué)習(xí)的序列預(yù)測(cè)性學(xué)習(xí)。此外,任何成年動(dòng)物都會(huì)有豐富的環(huán)境經(jīng)驗(yàn),這些先前的知識(shí)會(huì)對(duì)學(xué)習(xí)“新”環(huán)境產(chǎn)生影響。未來(lái)的研究可以探索在具有結(jié)構(gòu)化初始化和/或在多個(gè)連續(xù)學(xué)習(xí)環(huán)境中訓(xùn)練的網(wǎng)絡(luò)中,序列預(yù)測(cè)的表現(xiàn)如何。
其次,盡管我們的序列學(xué)習(xí)算法受到θ波動(dòng)態(tài)的啟發(fā),但我們并未關(guān)注突觸可塑性機(jī)制的生物學(xué)真實(shí)性。然而,基于展開的預(yù)測(cè)網(wǎng)絡(luò)可能通過(guò)生物學(xué)上合理的可塑性機(jī)制來(lái)實(shí)現(xiàn)。在一個(gè)生物學(xué)上真實(shí)的網(wǎng)絡(luò)中,由平臺(tái)電位驅(qū)動(dòng)的行為時(shí)間尺度可塑性可以提供維持過(guò)去預(yù)測(cè)記錄所需的資格痕跡,并在具有時(shí)空分離輸入的樹突隔室中將其與當(dāng)前觀測(cè)值進(jìn)行比較。盡管這些機(jī)制通常在研究CA3到CA1的前饋輸入時(shí)被探討,它們也可以增強(qiáng)CA3中序列預(yù)測(cè)所需的遞歸突觸。
另一個(gè)限制是,與我們的模型不同,海馬體并不直接接收視覺輸入,而是通過(guò)內(nèi)嗅皮層接收經(jīng)過(guò)多個(gè)皮層結(jié)構(gòu)處理的信號(hào)。
具體來(lái)說(shuō),內(nèi)側(cè)內(nèi)嗅皮層中的專門神經(jīng)元群體(如網(wǎng)格細(xì)胞和地標(biāo)細(xì)胞)為海馬體提供了高度組織化且低維的輸入。這使得快速編碼新環(huán)境成為可能,并可能對(duì)學(xué)習(xí)更復(fù)雜的環(huán)境(例如多感官的真實(shí)世界)至關(guān)重要。此外,新皮層本身也可能參與預(yù)測(cè)性學(xué)習(xí),而高級(jí)預(yù)測(cè)性學(xué)習(xí)可以導(dǎo)致在低級(jí)回路中出現(xiàn)具有類似皮層反應(yīng)特性的細(xì)胞。由于海馬體的功能只能通過(guò)其與皮層和皮層下區(qū)域的相互作用來(lái)理解,在后續(xù)研究中深入探討層級(jí)更深的回路中的序列預(yù)測(cè)性學(xué)習(xí)將非常重要。
總之,我們的研究展示了序列預(yù)測(cè)性學(xué)習(xí)在解釋主動(dòng)探索期間的海馬體表征以及行為靜止期間的回放方面的能力。這表明,海馬體或許可以最好地被理解為一個(gè)未來(lái)序列預(yù)測(cè)回路。
方法
環(huán)境
網(wǎng)格世界
網(wǎng)格世界環(huán)境是使用Minigrid包開發(fā)的( Minigrid Documentation ,Chevalier-Boisvert等人,2023)。我們生成了一個(gè)18×18的L形房間(圖1A),房間由墻壁和彩色地板瓷磚組成,每種瓷磚對(duì)應(yīng)一個(gè)唯一的RGB顏色值。墻壁的顏色為[0.6, 0.6, 0.6],是不可通過(guò)的。地板的顏色為[0.3, 0.3, 0.3],彩色地板瓷磚的顏色分別為[0.45, 0.45, 0]、[0, 0, 0.45]和[0.45, 0, 0],這些瓷磚是可以通過(guò)的,并且以不同的形狀排列在地板上,作為視覺提示。






訓(xùn)練超參數(shù)可以在表1中找到,其中包括示例網(wǎng)絡(luò)使用的超參數(shù)以及隨機(jī)超參數(shù)掃描的范圍。




解碼誤差通過(guò)運(yùn)行一個(gè)額外的測(cè)試試驗(yàn)計(jì)算,測(cè)試時(shí)長(zhǎng)為 個(gè)時(shí)間步,并計(jì)算代理實(shí)際位置與解碼位置之間的城市街區(qū)距離(Cityblock Distance)。



為了計(jì)算每個(gè)單元的空間解釋方差(%EVS),代理程序又運(yùn)行了另一個(gè)持續(xù)時(shí)間為 個(gè)時(shí)間步的試驗(yàn)。%EVS 被定義為在移除由空間調(diào)諧曲線給出的預(yù)期率后,單元活動(dòng)方差的減少量。

























https://www.biorxiv.org/content/biorxiv/early/2024/06/04/2024.04.28.591528.full.pdf
熱門跟貼