
機(jī)器之心報(bào)道
機(jī)器之心編輯部
無法說話的人,現(xiàn)在可以通過大腦掃描的方式實(shí)時(shí)地用自己的聲音說話了。整個(gè)過程沒有延遲,也不需要打字,不用發(fā)出任何聲音。
本周,腦機(jī)接口的最新研究在社交網(wǎng)絡(luò)上引發(fā)了人們的熱烈討論,一位推特博主的帖子瀏覽量突破了 150 萬。

先來看效果。視頻中的受試者嚴(yán)重癱瘓,不能講話。她的大腦活動(dòng)被解碼為目標(biāo)句子,然后使用文本到語音模型一次合成一個(gè)單詞。
我們可以看到連接受試者頭部的設(shè)備(connector)。屏幕上出現(xiàn)了目標(biāo)句子(target sentence),然后從大腦活動(dòng)解碼文本,并應(yīng)用「單詞級(jí)文本到語音合成」。
接下來是更多的示例:
論文一作 Kaylo T. Littlejohn 發(fā)推宣傳團(tuán)隊(duì)的成果,他表示,這種流式「腦轉(zhuǎn)語音」(brain-to-voice)神經(jīng)假體可以讓癱瘓患者恢復(fù)自然、流利和清晰的語言能力。
同時(shí)他強(qiáng)調(diào),泛化能力至關(guān)重要,隨著快速改進(jìn)設(shè)備,現(xiàn)在構(gòu)建的解碼方法應(yīng)能跨用例轉(zhuǎn)換(比如非侵入式與侵入式的權(quán)衡),并為未來的臨床語音神經(jīng)假體打好基礎(chǔ)。

這項(xiàng)技術(shù)成果「?!乖谀睦??
要知道在此之前,最好的腦機(jī)接口系統(tǒng)也只能讓患者以每分鐘 8-14 個(gè)字的速度「打字」。而這個(gè)新系統(tǒng)輸出語音的速度可以達(dá)到每分鐘 90+ 個(gè)英文單詞,而且它不使用任何可聽見的訓(xùn)練數(shù)據(jù),用戶甚至不需要嘗試發(fā)出聲音。
該研究來自加州大學(xué)伯克利分校(UC Berkeley),已經(jīng)登上了最新一期《自然》子刊 Nature Neuroscience。

- 論文:A streaming brain-to-voice neuroprosthesis to restore naturalistic communication
- 論文鏈接:https://www.nature.com/articles/s41593-025-01905-6
該系統(tǒng)轉(zhuǎn)錄的目標(biāo)是患者大腦的言語運(yùn)動(dòng)皮層,采用 253 通道 ECoG 陣列,深度學(xué)習(xí)神經(jīng)解碼器經(jīng)過 2.3 萬次轉(zhuǎn)語音訓(xùn)練,構(gòu)建了延遲僅 80ms 的 RNN-T 架構(gòu),既可以合成語音也可以進(jìn)行實(shí)時(shí)轉(zhuǎn)錄,音色模仿自患者受傷之前的錄音。
大多數(shù)腦機(jī)接口的系統(tǒng)在輸出任何內(nèi)容之前都需要等待人想出完整句子,但在新的系統(tǒng)上,人類正在思考中的內(nèi)容就可以被轉(zhuǎn)為語音,延遲大約為 1 秒。因此該系統(tǒng)可以稱得上是實(shí)時(shí)的意念轉(zhuǎn)語音了。
在實(shí)際測試中可以看到,語音轉(zhuǎn)錄的效果快速、流暢且準(zhǔn)確:在 50 個(gè)短語集(護(hù)理需要)的測試中,新方法達(dá)到了 91 WPM 、12% 字錯(cuò)率 (WER)、 11% 字符錯(cuò)誤率。在 1024 字集的自然句子測試中,該方法也達(dá)到了 47 WPM、59% WER 和 45% 字符錯(cuò)誤率。雖然還不是很準(zhǔn)確,但已經(jīng)證明了該系統(tǒng)的有效性。

此外,該系統(tǒng)成功地合成了在訓(xùn)練過程中未曾見過的新詞匯。當(dāng)給定 24 個(gè)新的詞匯,例如 Zulu、Romeo,它正確識(shí)別出這些詞匯的概率為 46%,而僅憑偶然猜測的概率為 3.8%。這一切僅通過神經(jīng)活動(dòng)就得以實(shí)現(xiàn)。

此外,該系統(tǒng)采用了統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠跨多種技術(shù)平臺(tái)解碼語音信號(hào),具體包括:
- ECoG(皮層腦電圖),通過植入大腦表面的電極陣列讀取神經(jīng)信號(hào),無需穿透腦組織,創(chuàng)傷性較低;
- MEA(皮層內(nèi)微電極),通過植入大腦皮層的微型電極記錄單個(gè)神經(jīng)元活動(dòng);
- EMG(面部表面電極,無需手術(shù))。

一直以來,很多研究僅僅局限于試驗(yàn)階段,相比之下,該系統(tǒng)能夠持續(xù)工作,不需要預(yù)先編程就能夠通過大腦活動(dòng)檢測到受試者何時(shí)開始和停止說話。研究者用時(shí)長 6 分鐘的連續(xù)無聲語音塊對其進(jìn)行了測試。結(jié)果顯示,系統(tǒng)能夠準(zhǔn)確解碼,幾乎沒有任何誤報(bào)。

這項(xiàng)研究的解碼速度達(dá)到了新的標(biāo)桿,此前最佳解碼速度為 28 詞 / 分鐘(WPM),該系統(tǒng)的表現(xiàn)達(dá)到 90 詞 / 分鐘(WPM),且延遲更低。
更重要的是,受試者無需發(fā)聲,借助該系統(tǒng),受試者用意念就能「說話」。
從臨床角度看,這項(xiàng)研究能讓失去語言能力的人重新獲得說話的權(quán)力。從技術(shù)角度看,它解決了實(shí)時(shí)、流暢的神經(jīng)語音解碼問題。大家期待已久的無聲交流正在實(shí)現(xiàn),這也表明了語言可以完全基于神經(jīng)信號(hào)來傳達(dá)。
如果這項(xiàng)技術(shù)普及開來,我們可以想象 20 年后的世界,那將是不再需要手機(jī)、不再需要鍵盤、不再需要語音指令等等,你要做的只是思考,你的話語便能被實(shí)時(shí)感知。
參考鏈接:https://x.com/IterIntellectus/status/1906995681253822519
熱門跟貼