

論文:Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior (Accepted by CVPR 2025)
Arxiv:https://arxiv.org/pdf/2503.04207
GitHub:https://github.com/HaitaoWuTJU/Uncertainty-aware-Blur-Prior
為了理解人類視覺刺激與大腦活動(dòng)之間的機(jī)制,近年來(lái),眾多研究利用腦電圖(EEG)、磁腦電圖(MEG)和功能性磁共振成像(fMRI)等多種腦成像技術(shù),測(cè)量大腦對(duì)視覺刺激的反應(yīng),并結(jié)合對(duì)比學(xué)習(xí)等深度學(xué)習(xí)方法,實(shí)現(xiàn)腦信號(hào)到視覺刺激的跨模態(tài)對(duì)齊、檢索與重建。這些研究不僅有助于揭示大腦如何處理視覺信息的復(fù)雜過(guò)程,還為神經(jīng)科學(xué)、認(rèn)知科學(xué)和人工智能領(lǐng)域提供了寶貴的洞察。通過(guò)深入理解大腦與外界視覺刺激的關(guān)系,研究人員能夠設(shè)計(jì)更精確的神經(jīng)解碼模型,推動(dòng)腦機(jī)接口(BCI)技術(shù)的發(fā)展,并為相關(guān)疾病的早期診斷與治療提供潛在的應(yīng)用方案。
盡管人類具備強(qiáng)大的感知與認(rèn)知能力,但受限于注意力資源、視覺記憶容量等因素,當(dāng)外部視覺刺激轉(zhuǎn)化為腦信號(hào)時(shí),部分信息不可避免地丟失,特別是那些高頻細(xì)節(jié)。我們將這種由系統(tǒng)性加工處理造成的信息差距,稱為System GAP。與此同時(shí),認(rèn)知和感知的動(dòng)態(tài)性,以及技術(shù)采集噪聲等因素,進(jìn)一步加劇了信號(hào)與原始視覺刺激之間的差距,我們稱之為Random GAP。這些因素共同導(dǎo)致了腦信號(hào)和視覺刺激的信息量不一致和模態(tài)差異,從而增加了圖像與腦信號(hào)對(duì)齊的難度,影響模型泛化性能。

如上圖所示,快速序列視覺呈現(xiàn)范式(Rapid Serial Visual Presentation,RSVP)是一種典型的視覺-腦信號(hào)樣本對(duì)采集范式。在實(shí)驗(yàn)過(guò)程中,呈現(xiàn)在被試者視野中的并非完整、清晰的原始圖像。由于人類視覺系統(tǒng)的焦距特性,被試者通常只能聚焦于視覺場(chǎng)景中的某一局部區(qū)域,形成一個(gè)清晰的中心焦點(diǎn),而其他區(qū)域則呈現(xiàn)出不同程度的模糊。
這一現(xiàn)象引發(fā)了我們的思考:能否利用模擬人類視覺聚焦機(jī)制的圖像(即焦點(diǎn)清晰、邊緣模糊的圖像)來(lái)替代原始圖像,以實(shí)現(xiàn)與腦信號(hào)的更精準(zhǔn)對(duì)齊?
此外,在實(shí)驗(yàn)過(guò)程中,盡管被試者主要集中注意力于視覺中心,但由于注意力焦點(diǎn)存在一定的隨機(jī)波動(dòng),以及不可避免地引發(fā)高階認(rèn)知聯(lián)想,以及疊加技術(shù)采集噪聲。這些因素進(jìn)一步加劇了腦信號(hào)與原始視覺刺激之間的差異,如下圖所示,圖a展示了對(duì)于同一視覺刺激80個(gè)不同trial下的腦信號(hào),圖b展示了兩個(gè)刺激各自80個(gè)trial下的腦信號(hào),圖c展示了不同受試者trial的變異性分布,圖d展示了10個(gè)受試者的腦信號(hào)聚類結(jié)果,這些展示了EEG在實(shí)驗(yàn)過(guò)程中的動(dòng)態(tài)性。

那么我們能否通過(guò)動(dòng)態(tài)建模這種隨機(jī)性,避免直接的模態(tài)對(duì)齊,而是通過(guò)感知模態(tài)差距,以實(shí)現(xiàn)動(dòng)態(tài)的腦-視覺對(duì)齊?一個(gè)直觀的例子是實(shí)驗(yàn)時(shí)走神的樣本對(duì),若直接進(jìn)行語(yǔ)義對(duì)齊,將會(huì)影響模型的泛化性能。
01
方法
為了解決以上兩個(gè)GAPs,即System GAP和Random GAP,我們提出了一種基于不確定性感知的模糊先驗(yàn)(Uncertainty-aware Blur Prior, UBP)策略。該策略通過(guò)感知成對(duì)樣本之間的匹配程度,動(dòng)態(tài)調(diào)整圖像刺激的模糊程度,有選擇性地去除圖像中的高頻細(xì)節(jié),從而降低圖像的模態(tài)信息量。通過(guò)這種方式,緩解了腦信號(hào)與視覺刺激之間的信息量不一致問(wèn)題,提升了模態(tài)對(duì)齊的魯棒性。
不確定性感知:由于缺乏明確的監(jiān)督標(biāo)簽,隨機(jī)差距建模面臨較大挑戰(zhàn)。為了解決這一問(wèn)題,我們采用了計(jì)算 置信區(qū)間 的方式。在每一次inter中,我們通過(guò)計(jì)算每個(gè)圖像-腦信號(hào)樣本對(duì)的語(yǔ)義相似度,并根據(jù)其在整體訓(xùn)練集中樣本對(duì)分布中的位置,從而實(shí)現(xiàn)樣本語(yǔ)義匹配程度的感知。

模糊先驗(yàn):基于不確定性感知的結(jié)果,即估計(jì)的圖像-腦信號(hào)樣本對(duì)的語(yǔ)義相關(guān)性,從而施加動(dòng)態(tài)的高斯模糊,緩解不同模態(tài)的信息差距,以更好的實(shí)現(xiàn)視覺-腦信號(hào)信息的對(duì)齊。
其中,r是模糊半徑,代表了模糊的程度,s代表圖像-腦信號(hào)樣本對(duì)的余弦相似度。UBP的整體算法流程如下所示,其中 表示經(jīng)過(guò)模糊處理后的圖像,第九行描述了迭代過(guò)程中樣本模糊程度 的動(dòng)態(tài)更新:

02
實(shí)驗(yàn)
我們?cè)?THING-EEG 和 THINGS-MEG 數(shù)據(jù)集上進(jìn)行了腦信號(hào)到圖像的檢索實(shí)驗(yàn),通過(guò)為圖像刺激引入模糊先驗(yàn),在 intra-subject 設(shè)置下,我們的方法取得了 50.9% 的 Top-1 準(zhǔn)確率和 79.7% 的 Top-5 準(zhǔn)確率,顯著超越了現(xiàn)有同類方法,證明了UBP方法的有效性。下圖展示了 THING-EEG 200-way 檢索結(jié)果:

此外,我們還進(jìn)行了消融實(shí)驗(yàn),證明了多種corrupt方法(高斯噪聲,低分辯率,均勻模糊,焦距模糊)對(duì)于腦信號(hào)-圖像的跨模態(tài)檢索任務(wù)的有效性:


03
總結(jié)
在本研究中,我們提出了 不確定性感知模糊先驗(yàn)(UBP) 方法,旨在減緩視覺神經(jīng)解碼中 System GAP 和 Random GAP 導(dǎo)致的信息損失。實(shí)驗(yàn)結(jié)果表明,UBP在多個(gè)數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有最先進(jìn)方法。在 THING-EEG 數(shù)據(jù)集上,UBP實(shí)現(xiàn)了 Top-1 準(zhǔn)確率提升 13.7% 和 Top-5 準(zhǔn)確率提升 9.8%。本方法通過(guò)將不確定性感知和生物學(xué)先驗(yàn)引入視覺神經(jīng)解碼,為腦-機(jī)接口領(lǐng)域提供了新的研究視角。同時(shí),UBP還為其他多模態(tài)任務(wù)提供了重要啟示,尤其是在面對(duì)模態(tài)差距和信息不平衡的任務(wù)時(shí)。 盡管本研究提出了一種簡(jiǎn)單而有效的建模方式,能夠緩解腦信號(hào)和視覺刺激信息量不一致,實(shí)現(xiàn)更魯棒性的vision-brain對(duì)齊,但依然不能完全彌補(bǔ)這些差距。未來(lái),我們期望通過(guò)更復(fù)雜且合理的建模方法,進(jìn)一步提升 vision-brain 跨模態(tài)對(duì)齊的效果。此外,現(xiàn)有的數(shù)據(jù)采集范式仍有優(yōu)化空間,通過(guò)減少視覺刺激與實(shí)際感知之間的差距,可以進(jìn)一步提升解碼精度。例如,Apple Vision等先進(jìn)視覺顯示設(shè)備可能成為相較傳統(tǒng)顯示器更優(yōu)的刺激呈現(xiàn)方式。
僅用于學(xué)術(shù)分享,若侵權(quán)請(qǐng)留言,即時(shí)刪侵!

歡迎加入腦機(jī)接口社區(qū)交流群,
探討腦機(jī)接口領(lǐng)域話題,實(shí)時(shí)跟蹤腦機(jī)接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業(yè)/專業(yè)】。
歡迎來(lái)稿
1.歡迎來(lái)稿。投稿咨詢,請(qǐng)聯(lián)系微信:RoseBCI
點(diǎn)擊投稿:
2.加入社區(qū)成為兼職創(chuàng)作者,請(qǐng)聯(lián)系微信:RoseBCI
一鍵三連「分享」、「點(diǎn)贊」和「在看」
不錯(cuò)過(guò)每一條腦機(jī)前沿進(jìn)展
熱門跟貼