圖片中的女子是一名患有失語癥的癱瘓人士,她最近作為受試者參與了一項基于新技術(shù)的實驗,在不依賴任何發(fā)聲的前提下,該技術(shù)能夠直接與她的發(fā)聲意圖同步合成語音。

在深度學習模型的幫助之下,本次技術(shù)能在 80 毫秒內(nèi)合成語音,并能同時進行文本解碼,語音解碼能力媲美和 Siri 和 Alexa。利用受試者在無聲嘗試“模仿”或“張嘴”時的神經(jīng)活動,無需任何發(fā)聲即可合成來自于 1024 個單詞詞匯表的句子。即便在離線狀態(tài)之下,解碼器也能連續(xù)運行數(shù)分鐘之久。相關(guān)論文于近日發(fā)表在Nature Neuroscience


語音解碼能力媲美和 Siri 和 Alexa
這名女子所參與的實驗,由來自美國加州大學伯克利分校和加州大學舊金山分校的一組研究人員完成。實驗中,研究人員借助腦-聲神經(jīng)假體技術(shù)以及基于 AI 的模型,開發(fā)了一種流式處理方法。
這種流式處理方法能為神經(jīng)假體帶來了與 Alexa 和 Siri 等語音助手相同的快速語音解碼能力,故能將腦信號接近實時地合成為能被人耳聽到的語音,從而能夠從人腦中實時傳輸可理解的語音,借此讓這名嚴重癱瘓的患者恢復(fù)了自然語言交流能力。
通過使用類似類型的算法,研究人員發(fā)現(xiàn)它還可以解碼神經(jīng)數(shù)據(jù),并能首次實現(xiàn)近乎同步的語音流傳輸,與此同時其還具備更自然、更流暢的特點。
本次方法還可以與各種其他腦機接口技術(shù)進行良好適配,比如微電極陣列技術(shù)或非侵入性記錄技術(shù)等。
在其他無聲語音數(shù)據(jù)集上,本次技術(shù)也能實現(xiàn)準確的大腦到語音合成,這說明這項技術(shù)并不局限于某一特定類型的設(shè)備。只要有良好的信號,同樣的算法就能用于不同的模式。
這種腦-聲神經(jīng)假體的工作原理是:從大腦中控制言語產(chǎn)生的區(qū)域、即從運動皮層之中采集神經(jīng)數(shù)據(jù),然后利用 AI 將大腦功能解碼為言語。
本質(zhì)上,研究人員是在攔截信號。這些信號位于將思維轉(zhuǎn)化為語言表達的過程中,以及在此過程中的運動控制階段。因此,研究人員所解碼的是在思維發(fā)生后、在決定說什么之后、在決定使用哪些詞匯以及如何移動聲道肌肉之后的信號。

為了收集訓(xùn)練算法所需的數(shù)據(jù),研究人員與上述受試者開展合作。此前,這名患者由于腦干中風而導(dǎo)致嚴重癱瘓,自此以后她再也無法說話,并被診斷為失語癥。
實驗中,研究人員讓受試者看著類似于“嘿,你好嗎?”這樣的屏幕提示詞,然后讓受試者嘗試默念這句話。
這樣一來,研究人員就能在受試者產(chǎn)生的神經(jīng)活動窗口塊和受試者試圖表達的目標句子之間建立映射。
由于受試者無法發(fā)出聲音,因此研究人員無法擁有目標音頻或目標輸出來映射神經(jīng)數(shù)據(jù)。但是,他們使用 AI 填補了所缺失的細節(jié),從而解決了這一難題。
具體來說,他們使用一個預(yù)訓(xùn)練的文本到語音模型來生成音頻和模擬目標聲音。同時,他們還使用了受試者患病之前的聲音,這樣一來解碼輸出的聲音在音色上也就更加接近受試者患病之前的聲音。
此前,在解碼聲音時往往存在較長的延遲,單句解碼的延遲約為 8 秒。而本次研究采用新的流式處理方法,因此當受試者嘗試說話時,可以近乎實時地生成可聽見的輸出。
為了測量延遲市場,研究人員采用了語音檢測方法,以便識別出表明受試者開始嘗試說話的大腦信號。
在意圖信號出現(xiàn)后的 1 秒之內(nèi),系統(tǒng)就能發(fā)出首個聲音。與此同時,本次技術(shù)能夠持續(xù)解碼語音,因此受試者可以持續(xù)地輸出內(nèi)容。
就參與本次研究的這名受試者來說,她在 2023 年就曾作為受試者參與過該團隊的課題。那時,她參與的是文本到語音解碼方法的實驗。
相比之下,她在本次研究中嘗試的新型流式合成方法,能夠近乎實時地聽到自己的聲音,這增加了她的代入感。她表示,流式合成是一種更加能夠受到意志控制的模式。
盡管實現(xiàn)了更高的速度,但卻并沒有以犧牲精度為代價。與之前的非流式處理方式相比,這種速度更快的腦機接口能夠提供同樣高水平的解碼精度。
研究人員表示,以前人們并不清楚能否從大腦中實時地提取出可被理解的語音信號。同時,此前人們也并不清楚 AI 到底是在學習和適應(yīng),還是僅僅在進行模式匹配并重復(fù)訓(xùn)練數(shù)據(jù)中的部分內(nèi)容。
為了厘清這一問題,研究人員測試了模型在訓(xùn)練數(shù)據(jù)集詞匯之外的單詞合成能力。具體來說:他們測試了 26 個來自北約音標字母表的生僻詞,例如 Alpha、Bravo、Charlie 等。
這樣做的目的是想看看模型能否針對未見過的單詞進行泛化,以及是否能夠真正地解碼受試者的說話模式。結(jié)果發(fā)現(xiàn):實時模型做得非常好,這表明它確實是在學習聲音或?qū)W習語調(diào)的基本要素。


自然流式無聲語音解碼系統(tǒng)
研究中,研究人員設(shè)計了一款語音合成神經(jīng)假體系統(tǒng):通過植入受試者言語感覺運動皮層及部分顳葉表面的 253 通道皮層電圖陣列采集神經(jīng)信號,進而合成目標語音,使受試者能夠?qū)崿F(xiàn)自然流暢的語言表達。
為了針對系統(tǒng)進行訓(xùn)練,研究人員記錄了受試者在嘗試默念單個句子時的神經(jīng)數(shù)據(jù)。
受試者會在屏幕上看到一個文本提示,并被要求在看到綠色的“開始”視覺提示后,立即嘗試默念說話。
合成的語音會通過附近的模擬揚聲器進行播放,解碼后的文本則會顯示在監(jiān)視器上。
研究人員所使用的神經(jīng)解碼器采用雙模態(tài)設(shè)計,其在接受聯(lián)合訓(xùn)練之后,不僅可以合成語音,還能同步解碼文本內(nèi)容。
實驗中,研究人員將高伽馬活動和低頻信號傳輸?shù)阶远x雙峰解碼模型,該模型在每次實驗中從 GO 提示音的前 500 毫秒時,開始以 80 毫秒的增量處理神經(jīng)特征,針對可聽語音與文本進行同步解碼。

在流式自動語音識別(ASR,automatic speech recognition)方法的啟發(fā)之下,研究人員采用了循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)導(dǎo)器(RNN-T,recurrent neural network transducer)框架,這是一種靈活的通用神經(jīng)網(wǎng)絡(luò)架構(gòu),其特點在于無需依賴未來輸入上下文。
同時,研究人員針對這一框架加以調(diào)整,以便能夠從神經(jīng)特征中實現(xiàn)流式語音合成和文本解碼。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)能夠?qū)崟r處理神經(jīng)特征,從而生成與語音內(nèi)容相對應(yīng)的編碼向量。
在語音合成環(huán)節(jié),這些編碼通過自回歸方式與流式聲學語音單元語言模型相結(jié)合,從 100 個候選單元中生成下一聲學語音單元的概率分布。
在文本解碼環(huán)節(jié),這些編碼同樣能以自回歸方式與流式子詞文本編碼語言模型結(jié)合,進而能從 4096 個候選單元中生成下一子詞文本編碼的概率分布。
對于聲學語音單元和文本編碼,研究人員在推理過程中使用基于 RNN-T 的集束搜索算法來確定最有可能的標記。
所預(yù)測得到的聲學語音單元,將被輸入個性化語音合成器之中,進而生成與受試者發(fā)音嘗試同步播放的波形片段。
為了克服因受試者無法產(chǎn)生可理解語音、而導(dǎo)致的神經(jīng)數(shù)據(jù)與言語行為對齊難題,研究人員在訓(xùn)練過程中采用了 RNN-T 損失函數(shù)。
RNN-T 損失函數(shù)不僅能夠建模輸出聲學語音單元/文本編碼的概率分布,還能夠建模二者之間的相互依賴關(guān)系。
在離線狀態(tài)之下,研究人員針對架構(gòu)中的流式語言模型加以訓(xùn)練,以便將其用于語音識別任務(wù)。在凍結(jié)該模塊參數(shù)之后,再對系統(tǒng)的其余部分進行端到端訓(xùn)練。
研究中所使用的目標聲學-語音單元,是使用 HuBERT 提取的。HuBERT 是一種自監(jiān)督語音表示學習模型,它能將語音波形編碼為一系列時間序列單元,這些單元能夠捕捉語音波形潛在的語音和發(fā)音特征。
由于受試者無法說話,因此研究人員使用文本轉(zhuǎn)語音模型生成了初始參考波形。
與此同時,研究人員訓(xùn)練了一款自回歸聲學-語音單元合成器,這個合成器能夠針對聲學-語音單元的持續(xù)時間進行建模,從而能夠更好地匹配受試者的語速。
所合成的語音,基于受試者失去語言能力之前錄制的一段簡短語音片段。
為了評估系統(tǒng)性能,研究人員使用了小詞匯量句子集“50-phrase-AAC”和大詞匯量句子集“1,024-word-General”。
“50-phrase-AAC”專為表達基礎(chǔ)護理需求而設(shè)計,包含預(yù)定義的標準化短語組合?!?,024-word-General”則是一個大詞匯量復(fù)合句庫,包含從 X 平臺和從電影臺詞采樣的 1,024 個獨特單詞所組成的 12,379 條獨立語句。
在訓(xùn)練過程中,受試者幾乎完整地針對語料庫進行了兩次遍歷,期間共嘗試了 23,378 次無聲語音。
在訓(xùn)練過程中,每個句子至少被查看兩次,并且部分句子還得到了多次收集,因此模型在訓(xùn)練期間平均會查看每個測試句子 6.94 次。
為測試神經(jīng)解碼器的泛化能力,研究人員額外評估了兩類場景。第一種場景是評估詞匯內(nèi)新句式,即評估由已知詞匯構(gòu)成、但受試者從未接觸過的句子。第二種場景是評估詞匯外新詞,即評估超出 1,024 詞庫范圍的陌生單詞。
與此同時,研究人員使用同一模型的文本解碼部分來預(yù)測下一個文本片段,然后將其用于調(diào)整為該片段合成語音的文本轉(zhuǎn)語音模型。
這種方案以犧牲語音自然度為代價換取了更高的可懂度。并且,只要所使用的語言模型與解碼器,能夠滿足流式處理與因果性約束,那么在理論上就能夠適配任何文本解碼算法。

助力開發(fā)適合失語者日常使用的語音神經(jīng)假體
總的來說,研究人員展示了一種語音解碼方法,該方法能夠?qū)崿F(xiàn)低延遲的自然口語交流,同時能夠輸出語音和文本。對于利用腦機接口設(shè)備實現(xiàn)自然語音來說,這項工作解決了語音神經(jīng)假體中長期存在的延遲問題,即受試者嘗試說話與發(fā)出聲音之間的時間差,對于讓無法說話的人實現(xiàn)交流來說,本次成果邁出了關(guān)鍵一步。
在自然狀態(tài)之下,人類的口語交流是即時進行的。哪怕只是超過幾秒鐘的言語延遲,就可能會打斷對話的自然流暢性。這使得那些失語的癱瘓患者難以參與有意義的對話,從而可能會產(chǎn)生孤立感和挫敗感。因此,對于改善嚴重癱瘓且言語受影響患者的生活質(zhì)量來說,本次技術(shù)具有巨大潛力。
不過,這是一項仍在繼續(xù)開展的研究,旨在探索究竟能在多大程度上從大腦活動中解碼副語言特征。即便是在傳統(tǒng)音頻合成領(lǐng)域,這也是一個長期存在的問題,而解決這一問題將能彌合通往完全自然表達的差距。
未來,研究人員將繼續(xù)優(yōu)化算法,探索如何更好、更快地生成語音。具體來說,其將致力于為輸出語音構(gòu)建表現(xiàn)力,以便反映說話時語調(diào)、音高或音量的變化,例如反映說話者情緒激動時的聲調(diào)特征,希望最終為開發(fā)適合失語者日常使用的語音神經(jīng)假體奠定基礎(chǔ)。
參考資料:
https://newatlas.com/medical-tech/brain-waves-spoken-words-ai-paralysis/
https://www.nature.com/articles/s41593-025-01905-6
運營/排版:何晨龍
熱門跟貼