
想象一下,如果你因?yàn)閲?yán)重的疾病或者事故,失去了說話的能力,但你腦袋里依然有著想要表達(dá)的內(nèi)容。我們都知道,交流是人與人之間非常重要的方式之一,它不僅僅是傳遞信息,更是維持情感聯(lián)系的紐帶。如果因?yàn)榘c瘓或其他神經(jīng)系統(tǒng)疾病失去了說話能力,很多人會(huì)覺得非常孤獨(dú)和沮喪?,F(xiàn)在,腦機(jī)接口技術(shù)(BCI)給這些人帶來了一線希望。
不過,目前的腦機(jī)接口技術(shù)主要依賴于“語音合成”,即通過大腦的信號(hào)生成可聽見的聲音。但這些技術(shù)往往面臨著一些問題:比如語音的生成速度較慢,發(fā)出的聲音聽起來不自然,或者無法實(shí)時(shí)同步。更嚴(yán)重的是,一些患者根本無法發(fā)出正常的聲音信號(hào),因?yàn)樗麄兊难哉Z器官已經(jīng)完全失能。那么,能不能讓這些患者通過大腦信號(hào)直接控制計(jì)算機(jī),從而生成流暢的、自然的語音?這個(gè)問題一直困擾著科學(xué)家們。
為了實(shí)現(xiàn)這一目標(biāo),這篇文章介紹了一項(xiàng)創(chuàng)新的研究成果:一種“流式腦-語音神經(jīng)假體系統(tǒng)”。簡單來說,這項(xiàng)技術(shù)可以讀取患者的大腦信號(hào),并即時(shí)將其轉(zhuǎn)化為語音。更令人興奮的是,這項(xiàng)技術(shù)不需要患者發(fā)出任何聲音,只要他們通過“大腦控制”來“想象”發(fā)聲,系統(tǒng)就能夠?qū)⑦@些意圖轉(zhuǎn)化為聲音。這樣一來,患者就能用更加自然的方式與他人進(jìn)行交流,而不是依賴于傳統(tǒng)的拼字板或眼動(dòng)儀等輔助設(shè)備。

01
研究方法分析
1.1 數(shù)據(jù)采集
那么,這項(xiàng)技術(shù)是如何實(shí)現(xiàn)的呢?首先,它需要通過在患者的大腦中植入一種名為“ECoG”的電極陣列。ECoG是“腦皮層電圖”的縮寫,它能在大腦皮層表面捕捉到大腦活動(dòng)的電信號(hào)。每個(gè)電極就像一個(gè)“小耳朵”,用來聆聽大腦不同區(qū)域發(fā)出的信號(hào)。對(duì)于失語癥患者來說,他們的腦電信號(hào)可能會(huì)比正常人更加復(fù)雜,尤其是在他們沒有說話的情況下,仍然會(huì)有大腦活動(dòng),這些活動(dòng)正是他們“想要說話”的信號(hào)。
研究人員選擇了一個(gè)47歲的女性患者,她因?yàn)?a class="keyword-search" >腦干中風(fēng)導(dǎo)致全身癱瘓,無法說話。患者的腦電圖通過ECoG陣列采集,記錄下她在“嘗試發(fā)音”時(shí)的大腦信號(hào)。值得注意的是,這些信號(hào)并不是通過口腔發(fā)音來產(chǎn)生的,而是通過“模仿”說話,即用大腦控制嘴巴和舌頭的動(dòng)作來“想象”說話。通過這種方式,雖然患者沒有發(fā)出任何聲音,但大腦的控制信號(hào)依然能夠被記錄下來。
接下來,研究人員使用了一個(gè)非常強(qiáng)大的深度學(xué)習(xí)模型——遞歸神經(jīng)網(wǎng)絡(luò)(RNN-T),這種模型擅長處理時(shí)間序列數(shù)據(jù),并能夠從大腦信號(hào)中“解碼”出意圖的文本或語音。通過實(shí)時(shí)地解析這些大腦信號(hào),系統(tǒng)能夠在短短的80毫秒內(nèi)生成相應(yīng)的語音或文字,而不需要等待患者完成整個(gè)句子的“發(fā)音”。這個(gè)系統(tǒng)的關(guān)鍵是能夠做到“流式解碼”,也就是說,當(dāng)患者腦中產(chǎn)生說話意圖時(shí),系統(tǒng)就可以立刻開始生成語音,而不是等待到發(fā)音完成后再生成聲音。

一種自然流動(dòng)的無聲語言神經(jīng)假體概述
02
研究結(jié)果分析
2.1 流暢的語音合成
經(jīng)過多次實(shí)驗(yàn)和優(yōu)化,這個(gè)系統(tǒng)成功地實(shí)現(xiàn)了流暢的語音合成?;颊咴谶M(jìn)行無聲發(fā)音的同時(shí),系統(tǒng)就能夠同步生成相應(yīng)的語音,并通過揚(yáng)聲器播放出來。通過這種技術(shù),患者可以在和他人對(duì)話時(shí),像正常人一樣流暢地表達(dá)自己的想法。研究人員發(fā)現(xiàn),系統(tǒng)能夠以每分鐘47.5個(gè)詞的速度生成語音,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)腦機(jī)接口系統(tǒng)的30個(gè)詞/分鐘。而且,這個(gè)系統(tǒng)的延遲非常低,從患者想要說話到語音輸出的時(shí)間只需要1.12秒,這意味著對(duì)話的流暢度得到了大幅提升。

在線連續(xù)流式同步語音合成和文本解碼來自神經(jīng)活動(dòng)
2.2 更高的交流速度
相比于過去的腦機(jī)接口技術(shù),這個(gè)新系統(tǒng)在語音合成的速度和流暢度上有了顯著提升。傳統(tǒng)的腦機(jī)接口需要等待患者完成一整個(gè)句子的發(fā)音后,才開始合成語音,而這個(gè)系統(tǒng)能夠在患者發(fā)音的過程中實(shí)時(shí)生成語音。這種技術(shù)的突破,使得患者能夠更快、更自然地參與到對(duì)話中,而不需要等待很長時(shí)間,避免了以往因語音延遲導(dǎo)致的尷尬和誤解。

1024個(gè)單詞的通用集的示例流媒體語音合成轉(zhuǎn)錄
2.3 語音和文本同步
值得一提的是,這個(gè)系統(tǒng)不僅能夠合成語音,還能實(shí)時(shí)解碼文本。每當(dāng)系統(tǒng)解碼出一個(gè)新的詞或短語時(shí),它不僅會(huì)通過揚(yáng)聲器播放出來,還會(huì)將相應(yīng)的文本顯示在屏幕上。這使得患者可以在交流時(shí)同時(shí)看到自己說的內(nèi)容,進(jìn)一步提高了溝通的準(zhǔn)確性和清晰度。

離線長時(shí)連續(xù)語音解碼,帶有隱式語音檢測
2.4 系統(tǒng)的普遍適應(yīng)性
此外,這個(gè)系統(tǒng)還表現(xiàn)出了極強(qiáng)的普適性。研究人員嘗試將該系統(tǒng)應(yīng)用到其他的腦-語音接口中,例如通過記錄大腦其他區(qū)域的信號(hào)或通過表面肌電圖(EMG)來捕捉發(fā)音信號(hào)。無論是哪種記錄方式,系統(tǒng)都能成功解碼大腦信號(hào),并生成相應(yīng)的語音或文本輸出。這一結(jié)果表明,這項(xiàng)技術(shù)不僅適用于ECoG陣列,還可以推廣到其他類型的腦-語音接口系統(tǒng),具有廣泛的應(yīng)用前景。

語音合成在無聲語音接口上的泛化
2.5 高度個(gè)性化的語音
對(duì)于失語癥患者來說,恢復(fù)個(gè)性化的聲音尤為重要。研究人員使用了患者失去語音能力之前的錄音數(shù)據(jù),通過語音轉(zhuǎn)換技術(shù)(Voice Conversion)將系統(tǒng)生成的語音“個(gè)性化”,讓其聽起來像患者自己原本的聲音,而不是機(jī)器合成的冷冰冰的聲音。這種個(gè)性化的語音恢復(fù)大大提高了患者的自我認(rèn)同感和生活質(zhì)量。

模型生成的聽覺反饋不會(huì)干擾發(fā)音驅(qū)動(dòng)的語音解碼
03
結(jié)論
這項(xiàng)研究展示了一種全新的技術(shù):流式腦-語音神經(jīng)假體。通過實(shí)時(shí)解碼大腦活動(dòng)并合成自然流暢的語音,這項(xiàng)技術(shù)成功地恢復(fù)了失語癥患者的交流能力。與現(xiàn)有的腦機(jī)接口技術(shù)相比,這個(gè)系統(tǒng)不僅在語音合成的速度和流暢度上有了顯著提升,還能夠在沒有發(fā)聲的情況下,通過“大腦控制”生成語音,極大地提高了患者的交流體驗(yàn)。
這項(xiàng)技術(shù)為那些因神經(jīng)損傷或疾病而失去言語能力的患者帶來了希望,它使得患者能夠更加自然、快速地與他人交流,恢復(fù)自我表達(dá)的能力。未來,隨著技術(shù)的進(jìn)一步優(yōu)化和應(yīng)用,這種腦-語音神經(jīng)假體有可能成為一種常規(guī)的臨床治療工具,幫助更多的失語癥患者恢復(fù)他們的語言能力。
04
未來展望
盡管該技術(shù)已經(jīng)取得了顯著的成果,但仍然存在一些挑戰(zhàn)。首先,目前的系統(tǒng)仍然依賴于較為復(fù)雜的設(shè)備和訓(xùn)練過程,如何降低成本、簡化操作,讓更多患者能夠使用這項(xiàng)技術(shù),是未來需要解決的問題。其次,雖然該系統(tǒng)已能應(yīng)對(duì)已知句子的生成,但如何提高對(duì)未知詞匯或自由表達(dá)的理解和生成能力,也是一個(gè)研究方向。
總的來說,這項(xiàng)技術(shù)為腦機(jī)接口領(lǐng)域帶來了巨大的進(jìn)步,它不僅僅局限于恢復(fù)語言交流,還為未來更多類型的神經(jīng)假體系統(tǒng)的研發(fā)提供了寶貴的經(jīng)驗(yàn)和思路。在未來的日子里,我們有理由相信,腦-語音神經(jīng)假體將成為改變失語癥患者生活的關(guān)鍵技術(shù)之一。
僅用于學(xué)術(shù)分享,若侵權(quán)請(qǐng)留言,即時(shí)刪侵!

歡迎加入腦機(jī)接口社區(qū)交流群,
探討腦機(jī)接口領(lǐng)域話題,實(shí)時(shí)跟蹤腦機(jī)接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業(yè)/專業(yè)】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請(qǐng)聯(lián)系微信:RoseBCI
點(diǎn)擊投稿:
2.加入社區(qū)成為兼職創(chuàng)作者,請(qǐng)聯(lián)系微信:RoseBCI
一鍵三連「分享」、「點(diǎn)贊」和「在看」
不錯(cuò)過每一條腦機(jī)前沿進(jìn)展
熱門跟貼