

論文:https://iclr.cc/virtual/2025/poster/30544
項(xiàng)目主頁(yè) :https://mind-animator-design.github.io/
代碼:https://github.com/ReedOnePeck/MindAnimator
從腦活動(dòng)中重建人類動(dòng)態(tài)視覺是一項(xiàng)極具科學(xué)意義的挑戰(zhàn)性任務(wù)。盡管現(xiàn)有的視頻重建方法已取得顯著進(jìn)展,但仍存在一些局限性,包括:(1)難以同時(shí)協(xié)調(diào)語(yǔ)義信息(如類別描述)、結(jié)構(gòu)信息(如大小和顏色)以及一致的運(yùn)動(dòng)信息(如幀順序);(2)功能性磁共振成像(fMRI)的時(shí)間分辨率較低,難以從單幀fMRI數(shù)據(jù)中解碼多幀視頻動(dòng)態(tài);(3)依賴視頻生成模型,導(dǎo)致難以確定重建視頻中的動(dòng)態(tài)信息是真正源于fMRI數(shù)據(jù),還是生成模型的幻覺。
為克服這些局限性,本研究提出了一種名為 Mind-Animator 的兩階段模型。在 fMRI到特征 階段,從fMRI數(shù)據(jù)中解耦語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)特征。具體而言,采用fMRI-視覺-語(yǔ)言三模態(tài)對(duì)比學(xué)習(xí)解碼語(yǔ)義特征,并設(shè)計(jì)了一種稀疏因果注意力機(jī)制,通過(guò)下一幀預(yù)測(cè)任務(wù)解碼多幀視頻運(yùn)動(dòng)特征。在特征到視頻 階段,這些特征通過(guò)膨脹的StableDiffusion模型整合為視頻,有效消除了外部視頻數(shù)據(jù)的干擾。在多個(gè)視頻-fMRI數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,模型實(shí)現(xiàn)了最先進(jìn)的性能。全面的可視化分析進(jìn)一步從神經(jīng)生物學(xué)角度闡明了模型的可解釋性。
本研究的貢獻(xiàn)如下:
(1)方法創(chuàng)新:提出了Mind-Animator,首次通過(guò)從fMRI數(shù)據(jù)中解耦語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)信息實(shí)現(xiàn)視頻重建。針對(duì)fMRI與視頻數(shù)據(jù)時(shí)間尺度不匹配的問(wèn)題,設(shè)計(jì)了基于稀疏因果注意力的一致性運(yùn)動(dòng)生成器,通過(guò)下一幀預(yù)測(cè)任務(wù)解碼細(xì)微但顯著的運(yùn)動(dòng)模式。
(2)可解釋性:采用逐體素和逐ROI可視化技術(shù),從神經(jīng)生物學(xué)角度闡明了模型各個(gè)組件的可解釋性。
(3)全面評(píng)估:引入了八項(xiàng)評(píng)估指標(biāo),在三個(gè)公開的視頻-fMRI數(shù)據(jù)集上,從語(yǔ)義、結(jié)構(gòu)和時(shí)空一致性三個(gè)維度全面評(píng)估了本研究提出的模型及所有先前模型的重建效果,為后續(xù)研究建立了首個(gè)統(tǒng)一基準(zhǔn)。團(tuán)隊(duì)已經(jīng)公開所有重建結(jié)果和代碼,以促進(jìn)未來(lái)研究。
01
研究背景與論文簡(jiǎn)介
認(rèn)知神經(jīng)科學(xué)的進(jìn)展為大腦功能研究提供了新視角,并可能推動(dòng)人工智能的發(fā)展。其中,神經(jīng)解碼是研究的關(guān)鍵方向之一,它將視覺刺激與功能性磁共振成像(fMRI)腦記錄聯(lián)系起來(lái)。神經(jīng)解碼方法包括分類、識(shí)別和重建,而本研究聚焦于最具挑戰(zhàn)性的方向:重建。

圖1:人腦解耦分析靜態(tài)刺激和動(dòng)態(tài)刺激
以往的方法在靜態(tài)刺激圖像的分類和識(shí)別方面取得了顯著進(jìn)展。一些研究甚至能夠從腦信號(hào)中重建出與原始刺激圖像高度相似的圖像。然而,現(xiàn)實(shí)生活中的視覺刺激大多是連續(xù)且動(dòng)態(tài)的,因此從腦信號(hào)中重建視頻逐漸成為研究熱點(diǎn)?;诖饲皬膄MRI中解耦語(yǔ)義和結(jié)構(gòu)信息以重建圖像的研究,本研究認(rèn)為,當(dāng)視覺刺激從靜態(tài)圖像轉(zhuǎn)向動(dòng)態(tài)視頻時(shí),必須考慮三個(gè)維度:語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng),以反映大腦對(duì)動(dòng)態(tài)視覺信息的處理。
由于fMRI依賴于緩慢的血氧水平依賴(BOLD)信號(hào),神經(jīng)活動(dòng)在超過(guò)10秒(約300視頻幀)的時(shí)間窗口內(nèi)被整合,這給捕捉快速運(yùn)動(dòng)動(dòng)態(tài)帶來(lái)了根本性挑戰(zhàn),使得從fMRI信號(hào)重建視頻的任務(wù)變得異常困難。

圖2:本工作和以往工作的范式區(qū)別
為應(yīng)對(duì)這一挑戰(zhàn),Nishimoto等人將視頻重建任務(wù)轉(zhuǎn)化為識(shí)別任務(wù),通過(guò)預(yù)定義視頻庫(kù)檢索視頻。隨后,Han等人、Wen等人和Wang等人將大腦響應(yīng)映射到深度神經(jīng)網(wǎng)絡(luò)(DNN)的特征空間以重建視頻刺激。為緩解視頻-fMRI數(shù)據(jù)的稀缺性,Kupershmidt等人利用自監(jiān)督學(xué)習(xí)引入大量未配對(duì)視頻數(shù)據(jù)。盡管這些研究證實(shí)了從fMRI重建視頻的可行性,但其結(jié)果在顯式語(yǔ)義信息方面存在明顯不足。最近,Chen等人通過(guò)對(duì)比學(xué)習(xí)將fMRI映射到CLIP表示空間,并結(jié)合視頻生成模型,首次成功重建了具有清晰語(yǔ)義信息的連貫視頻。然而,這些研究未考慮顏色和位置等結(jié)構(gòu)信息,且無(wú)法確定重建視頻中的運(yùn)動(dòng)信息是否真正源于fMRI數(shù)據(jù),還是來(lái)自視頻生成模型的外部數(shù)據(jù)??偨Y(jié)來(lái)說(shuō),當(dāng)前視頻重建模型面臨兩大挑戰(zhàn):
(1)無(wú)法同時(shí)捕捉重建視頻中的語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)信息。
(2)對(duì)外部視頻數(shù)據(jù)集和視頻生成模型的依賴,導(dǎo)致無(wú)法確定重建視頻中的動(dòng)態(tài)信息是源于fMRI數(shù)據(jù),還是視頻生成模型的幻覺。
為解決這些問(wèn)題,本研究提出了Mind-Animator,一種從fMRI中解耦語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)信息的視頻重建模型。具體而言,將fMRI映射到CLIP表示空間和VQ-VAE潛在空間以捕捉語(yǔ)義和結(jié)構(gòu)信息,并設(shè)計(jì)了一個(gè)基于Transformer的運(yùn)動(dòng)解碼器,通過(guò)下一幀預(yù)測(cè)任務(wù)逐幀提取運(yùn)動(dòng)信息。最后,解碼的語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)信息被輸入到未經(jīng)過(guò)視頻數(shù)據(jù)微調(diào)的膨脹StableDiffusion模型中,生成視頻的每一幀。
02
研究方法

圖3:Mind-Animator模型總覽
如圖所示,方法分為兩個(gè)階段:fMRI-to-feature(從fMRI到特征)和feature-to-video(從特征到視頻)。在fMRI-to-feature階段,從fMRI數(shù)據(jù)中解耦出語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)特征。首先,通過(guò)fMRI-視覺-語(yǔ)言三模態(tài)對(duì)比學(xué)習(xí),將fMRI映射到CLIP表示空間,以提取語(yǔ)義信息;同時(shí),利用VQ-VAE潛在空間捕捉結(jié)構(gòu)信息,如顏色和位置。此外,本研究設(shè)計(jì)了一種基于Transformer的稀疏因果注意力機(jī)制,通過(guò)下一幀預(yù)測(cè)任務(wù)逐幀解碼運(yùn)動(dòng)特征,以應(yīng)對(duì)fMRI時(shí)間分辨率低帶來(lái)的挑戰(zhàn)。
在feature-to-video階段,將解耦出的語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)特征整合為視頻。具體而言,這些特征被輸入到一個(gè)未經(jīng)過(guò)視頻數(shù)據(jù)微調(diào)的膨脹StableDiffusion模型中,生成每一幀視頻。通過(guò)這種方式,避免了對(duì)外部視頻數(shù)據(jù)的依賴,確保重建視頻的動(dòng)態(tài)信息完全源于fMRI數(shù)據(jù),而非生成模型的幻覺。
03
實(shí)驗(yàn)結(jié)果

圖4:CC2017數(shù)據(jù)集重建結(jié)果
重建視頻demo演示

表1:CC2017數(shù)據(jù)集重建結(jié)果定量分析,不同顏色代表假設(shè)檢驗(yàn)的不同P值,p<0.0001(紫色),p<0.01(粉色),p<0.05(黃色),p>0.05(綠色)

表2:HCP數(shù)據(jù)集(左)和Algonauts2021數(shù)據(jù)集(右)重建結(jié)果定量分析,完整版表格見論文附錄。

圖5:CC2017數(shù)據(jù)集上的檢索任務(wù)實(shí)驗(yàn)定性結(jié)果。

表3:CC2017數(shù)據(jù)集上的檢索任務(wù)實(shí)驗(yàn)定量結(jié)果。
本研究在多個(gè)數(shù)據(jù)集上對(duì)比了本研究的模型與所有先前的視頻重建模型。定量結(jié)果顯示,本研究提出的模型在八項(xiàng)指標(biāo)中的六項(xiàng)上達(dá)到了最先進(jìn)(SOTA)性能,尤其在SSIM和EPE指標(biāo)上分別比之前的SOTA模型提升了83%和13%。此外,模型在HCP和Algonauts2021數(shù)據(jù)集上也表現(xiàn)優(yōu)異,顯著優(yōu)于Mind-Video。
在CC2017數(shù)據(jù)集上,本項(xiàng)目還評(píng)估了檢索任務(wù),使用top-10和top-100準(zhǔn)確率作為指標(biāo)。為測(cè)試泛化能力,在包含1,200個(gè)樣本的測(cè)試集(“小型”)和擴(kuò)展至4,240個(gè)樣本的“大型”刺激集上進(jìn)行了測(cè)試。結(jié)果表明,本研究提出的模型在所有受試者上均表現(xiàn)優(yōu)異,且在“大型”刺激集上性能下降較小,展示了更強(qiáng)的泛化能力。
04
可解釋性分析
(1)模型是否真的能從fMRI中解碼出運(yùn)動(dòng)信息?
圖6:幀順序打亂測(cè)試實(shí)驗(yàn)結(jié)果
本研究參考Wang等人的工作,在CC2017數(shù)據(jù)集的三個(gè)受試者上進(jìn)行了幀順序打亂測(cè)試,以評(píng)估一致性運(yùn)動(dòng)生成器(CMG)是否準(zhǔn)確從fMRI中解碼了運(yùn)動(dòng)信息。具體而言,對(duì)于每個(gè)受試者生成的8幀重建視頻(注意,若是對(duì)視頻的語(yǔ)義解碼就出現(xiàn)了錯(cuò)誤,比如把人解碼成了動(dòng)物或者場(chǎng)景,那么就沒(méi)必要驗(yàn)證該視頻的運(yùn)動(dòng)信息是否解碼正確了,因此僅對(duì)那些語(yǔ)義解碼正確的視頻進(jìn)行了測(cè)試),隨機(jī)打亂幀順序100次,并計(jì)算原始幀與打亂幀的時(shí)空級(jí)指標(biāo)。隨后,通過(guò)公式P=∑δi/100估計(jì)P值,其中δi=1表示第i次打亂的結(jié)果優(yōu)于原始順序的重建結(jié)果,否則δi=0。P值越低,表明重建視頻的幀順序與真實(shí)順序越接近。團(tuán)隊(duì)在使用和不使用CMG的條件下各重復(fù)了5次測(cè)試,結(jié)果如圖6所示。
實(shí)驗(yàn)顯示,當(dāng)使用CMG時(shí),EPE指標(biāo)的P值顯著低于0.05。然而,盡管使用CMG時(shí)CLIP-pcc的P值顯著低于未使用CMG的情況,但其P值仍顯著高于0.05。為解釋這一現(xiàn)象,本研究進(jìn)一步在噪聲上限(直接使用測(cè)試集特征生成的視頻)上重復(fù)了打亂測(cè)試。結(jié)果表明,即使對(duì)于噪聲上限,CLIP-pcc的P值仍顯著高于0.05。這說(shuō)明:(1)模型確實(shí)從fMRI中解碼了運(yùn)動(dòng)信息;(2)在評(píng)估模型解碼運(yùn)動(dòng)信息的能力時(shí),EPE是比CLIP-pcc更有效的指標(biāo)。

圖7:對(duì)于 fMRI guidance的消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證解碼的運(yùn)動(dòng)信息是源于fMRI的指導(dǎo)還是CMG的自回歸訓(xùn)練,本研究在CMG模塊訓(xùn)練中移除了fMRI指導(dǎo)(w/ofMRI guidance),將空間模塊中的交叉注意力替換為自注意力,同時(shí)保持其他結(jié)構(gòu)和超參數(shù)不變。如圖7所示,移除fMRI指導(dǎo)導(dǎo)致EPE明顯下降,證實(shí)了CMG確實(shí)從fMRI中有效解碼了運(yùn)動(dòng)信息。此外,對(duì)比移除整個(gè)CMG模塊(w/oMotion)和僅移除fMRI指導(dǎo)(w/ofMRI guidance)的情況,本研究發(fā)現(xiàn)后者對(duì)EPE的影響占主導(dǎo)(即EPE下降的90%可歸因于fMRI指導(dǎo)的缺失)。這進(jìn)一步強(qiáng)調(diào)了fMRI指導(dǎo)在從腦信號(hào)中準(zhǔn)確解碼運(yùn)動(dòng)信息中的關(guān)鍵作用。
(2)模型解耦的三種特征分別由哪些腦區(qū)解釋?

圖8:逐體素可視化結(jié)果

圖9:逐ROI可視化結(jié)果
為了研究在fMRI-to-feature階段哪些腦區(qū)負(fù)責(zé)解碼不同特征(語(yǔ)義、結(jié)構(gòu)、運(yùn)動(dòng)),本研究計(jì)算了視覺皮層中的體素級(jí)重要性圖。具體而言,對(duì)于訓(xùn)練好的解碼器,乘上線性層的權(quán)重矩陣,沿特征維度取平均并歸一化,以估計(jì)每個(gè)體素的重要性權(quán)重。權(quán)重越高,表明該體素在特征解碼中的作用越顯著。本研究將CC2017數(shù)據(jù)集中受試者1的體素重要性圖投射到視覺皮層上,如圖8所示。為獲得ROI級(jí)重要性圖,本研究計(jì)算了每個(gè)感興趣區(qū)域(ROI)內(nèi)體素重要性權(quán)重的平均值,結(jié)果如圖9所示。
圖9(a)表明,高級(jí)視覺皮層區(qū)域(如MT)在語(yǔ)義特征解碼中貢獻(xiàn)更大,占總體的60.5%,9。圖8(c)和9(c)表明,低級(jí)和高級(jí)視覺皮層均參與運(yùn)動(dòng)信息解碼,其中MT和TPOJ區(qū)域權(quán)重顯著。這一發(fā)現(xiàn)與先前研究一致,驗(yàn)證了MT和TPOJ在視覺運(yùn)動(dòng)感知和處理中的作用。
從圖9中還發(fā)現(xiàn):(1) MT在語(yǔ)義解碼中顯著激活,這與動(dòng)態(tài)視覺輸入處理中背側(cè)和腹側(cè)通路的功能分離與交互一致,特別是腹側(cè)-背側(cè)通路與動(dòng)作理解和識(shí)別相關(guān);(2) V1在解碼運(yùn)動(dòng)特征時(shí)主要激活,反映了視覺系統(tǒng)的并行處理能力,運(yùn)動(dòng)信息在背側(cè)通路中并不嚴(yán)格遵循層級(jí)處理,V1直接將方向、速度等信息投射到MT進(jìn)行進(jìn)一步處理。更多神經(jīng)生物學(xué)解釋詳見附錄。
05
總結(jié)
本研究提出了一種視頻重建模型(Mind-Animator),能夠從fMRI中解耦語(yǔ)義、結(jié)構(gòu)和運(yùn)動(dòng)信息,并在3個(gè)公開數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。通過(guò)合理的實(shí)驗(yàn)設(shè)計(jì),本研究減少了外部視頻數(shù)據(jù)對(duì)運(yùn)動(dòng)信息解碼的干擾。打亂測(cè)試的結(jié)果表明,解碼的運(yùn)動(dòng)信息確實(shí)源于fMRI,而非生成模型的自發(fā)行為。此外,體素級(jí)和ROI級(jí)重要性圖的可視化進(jìn)一步證實(shí)了模型在神經(jīng)生物學(xué)上的可解釋性。
06
主要作者介紹
第一作者

盧一卓,中國(guó)科學(xué)院自動(dòng)化研究所二年級(jí)直博生,以第一作者在ICLR,ACM MM等會(huì)議發(fā)表論文。
個(gè)人主頁(yè):https://reedonepeck.github.io/Luyizhuo.github.io
共同第一作者

杜長(zhǎng)德,中科院自動(dòng)化所副研究員,從事腦認(rèn)知與人工智能方面的研究,在視覺神經(jīng)信息編解碼、多模態(tài)神經(jīng)計(jì)算等方面發(fā)表論文 40 余篇,包括TPAMI,iScience,ICLR,AAAI,KDD,ACMMM等。曾獲得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 華人新星百?gòu)?qiáng)。先后承擔(dān)科技部、基金委、中科院的多項(xiàng)科研任務(wù),研究成果被 MIT Technology Review 頭條報(bào)道。
個(gè)人主頁(yè):https://changdedu.github.io/
通訊作者

何暉光,中國(guó)科學(xué)院自動(dòng)化研究所研究員,博士生導(dǎo)師,國(guó)家高層次人才,中國(guó)科學(xué)院大學(xué)崗位教授,上海科技大學(xué)特聘教授。先后主持多項(xiàng)國(guó)家自然科學(xué)基金、863項(xiàng)目、國(guó)家重點(diǎn)研發(fā)計(jì)劃課題等多個(gè)重要項(xiàng)目。獲得國(guó)家科技進(jìn)步二等獎(jiǎng)兩項(xiàng)(排二、排三),北京市科技進(jìn)步獎(jiǎng)兩項(xiàng),教育部科技進(jìn)步一等獎(jiǎng)等獎(jiǎng)項(xiàng)。入選北京市科技新星,中科院“盧嘉錫青年人才獎(jiǎng)”,中科院青年創(chuàng)新促進(jìn)會(huì)優(yōu)秀會(huì)員等。其研究領(lǐng)域?yàn)槟X-機(jī)接口、類腦智能、醫(yī)學(xué)影像分析等,在CNS子刊, IEEE TPAMI/TNNLS/TCYB/TMI,ICML,ICLR,MICCAI等發(fā)表文章200余篇。自動(dòng)化學(xué)報(bào)編委,CCF/CSIG杰出會(huì)員。建國(guó)七十周年紀(jì)念章獲得者。
研究工作得到了中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、國(guó)家自然科學(xué)基金以及北京市自然科學(xué)基金的資助。
僅用于學(xué)術(shù)分享,若侵權(quán)請(qǐng)留言,即時(shí)刪侵!

歡迎加入腦機(jī)接口社區(qū)交流群,
探討腦機(jī)接口領(lǐng)域話題,實(shí)時(shí)跟蹤腦機(jī)接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業(yè)/專業(yè)】。
歡迎來(lái)稿
1.歡迎來(lái)稿。投稿咨詢,請(qǐng)聯(lián)系微信:RoseBCI
點(diǎn)擊投稿:
2.加入社區(qū)成為兼職創(chuàng)作者,請(qǐng)聯(lián)系微信:RoseBCI
一鍵三連「分享」、「點(diǎn)贊」和「在看」
不錯(cuò)過(guò)每一條腦機(jī)前沿進(jìn)展
熱門跟貼