4月22日消息,神經(jīng)科學(xué)家正通過快速發(fā)展的技術(shù)探索,致力于利用腦電波恢復(fù)或增強身體機能,為失語者重建發(fā)聲通道,將無聲思維轉(zhuǎn)化為可聞?wù)Z音。

美國加州多所高校以及紐約Precision Neuroscience等公司,正將腦機接口技術(shù)與人工智能結(jié)合起來,在生成自然語音方面取得技術(shù)突破。

長期以來,科學(xué)研究和相關(guān)投資與關(guān)注長期聚焦于幫助重度殘障人士操控計算機鍵盤、控制機械臂或恢復(fù)癱瘓肌體功能的植入式設(shè)備?,F(xiàn)如今,部分實驗室另辟蹊徑,專注于研發(fā)能將思維模式直接轉(zhuǎn)化為語音的技術(shù),并已取得顯著進展。

“我們已經(jīng)取得長足的進步,這項研究的主要目標(biāo)是讓腦信號轉(zhuǎn)譯的合成語音達到常人對話的流暢度,”加州大學(xué)舊金山分校(UCSF)神經(jīng)外科醫(yī)生張復(fù)倫(Edward Chang)表示,“我們所用的人工智能算法不斷優(yōu)化,每有新的受試者加入,都能帶來更多寶貴經(jīng)驗?!?/p>

上月,張復(fù)倫團隊聯(lián)合加州大學(xué)伯克利分校在《自然·神經(jīng)科學(xué)》發(fā)表論文,詳細介紹他們對一位四肢及軀干癱瘓達18年、因中風(fēng)喪失言語能力的女性患者所開展的研究。這名患者通過默念由1024個詞匯組成的句子來訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。研究人員將她的神經(jīng)活動數(shù)據(jù)實時傳輸至一個集語音合成與文本解碼于一體的模型,重建她的發(fā)聲。

這種技術(shù)已經(jīng)將腦電波信號與輸出語音之間的延遲時間從之前的8秒縮短至1秒,更接近正常對話100-200毫秒的時間差。系統(tǒng)平均解碼速度達到每分鐘47.5個單詞,大約是常人語速的三分之一。

每年有數(shù)以萬計的患者可從這種“語音假體”技術(shù)中受益:他們認知功能基本完好,卻因中風(fēng)、漸凍癥等神經(jīng)退行性疾病或其他腦部病變喪失發(fā)聲功能。研究人員期待,若技術(shù)持續(xù)突破,還可助力腦癱或自閉癥等導(dǎo)致語言障礙的人群。

企業(yè)界也開始關(guān)注語音神經(jīng)假體的潛力。Precision Neuroscience宣稱,憑借更為密集的植入電極,公司采集到的腦電波信號分辨率比學(xué)術(shù)機構(gòu)更高。

Precision Neuroscience已經(jīng)與31名患者合作,計劃很快擴大數(shù)據(jù)采集規(guī)模,為產(chǎn)品商業(yè)化鋪路。今年4月17日,Precision Neuroscience獲得監(jiān)管部門批準(zhǔn),傳感器單次植入受試者體內(nèi)時間最長可達30天。公司首席執(zhí)行官邁克爾·馬杰(Michael Mager)表示:“這將使我們的科學(xué)家能夠在一年內(nèi)構(gòu)建起’地球上最大規(guī)模高分辨率神經(jīng)數(shù)據(jù)庫’?!?/p>

馬杰透露,Precision Neuroscience下一步計劃“將組件小型化并置于生物相容性密封封裝中,以實現(xiàn)永久植入。”

相比之下,埃隆·馬斯克(Elon Musk)麾下的腦機接口公司Neuralink則側(cè)重開發(fā)癱瘓患者的計算機操控功能,而非語音合成領(lǐng)域。

要讓腦電波順暢直譯為語音,最大技術(shù)瓶頸在于目前患者需要花費大量時間學(xué)習(xí)如何使用系統(tǒng)。荷蘭烏得勒支大學(xué)醫(yī)學(xué)中心腦機接口專家尼克·拉姆齊(Nick Ramsey)表示,關(guān)鍵是語言運動皮層(控制自主行動的大腦區(qū)域)的神經(jīng)響應(yīng)模式是否存在個體差異:如果人與人之間的模式趨同,那么用先前受試者數(shù)據(jù)訓(xùn)練的機器學(xué)習(xí)模型就可以快速適配新患者。

拉姆齊說,“目前我們還需要讓受試者看著文字默念數(shù)十甚至數(shù)百小時,才能生成足夠的數(shù)據(jù)。若能快速適配,就可以大幅縮短數(shù)據(jù)訓(xùn)練周期?!?/p>

他還強調(diào),現(xiàn)有研究均聚焦于運動皮層對發(fā)聲肌肉的調(diào)控機制,尚無證據(jù)顯示其他大腦區(qū)域或思維活動可被解碼為語音。“即便可行,人們未必愿意坦露內(nèi)心獨白,”拉姆齊補充道,“畢竟許多想法真說出口或許傷人傷己?!?/p>

加州大學(xué)戴維斯分校神經(jīng)假體實驗室聯(lián)合主任謝爾蓋·斯塔維斯基(Sergey Stavisky)坦言,實現(xiàn)媲美自然語言的合成技術(shù)“道阻且長”??赡苋孕柘喈?dāng)長的時間。他所在的團隊雖實現(xiàn)98%的想要表達內(nèi)容的解碼準(zhǔn)確率,但語音輸出存在延遲且缺乏音調(diào)等關(guān)鍵特征。斯塔維斯基說,現(xiàn)有電極硬件能否支持合成與人聲無異的語音仍是未知數(shù)。

他強調(diào),科學(xué)家們還需深入研究大腦的語音編碼機制,開發(fā)更精準(zhǔn)的神經(jīng)信號轉(zhuǎn)譯算法。

斯塔維斯基補充,“理想中的語音神經(jīng)假體應(yīng)當(dāng)完整復(fù)現(xiàn)人類聲音的表現(xiàn)力,讓使用者精準(zhǔn)控制音高、節(jié)奏,甚至實現(xiàn)歌唱功能?!保ǔ匠剑?/p>