韩国成人黄色视频,日本a v视频免费观看,久久亚洲天堂,国产电影床久久,国产主播一区二区在线

機(jī)器之心報(bào)道

機(jī)器之心編輯部

無法說話的人，現(xiàn)在可以通過大腦掃描的方式實(shí)時(shí)地用自己的聲音說話了。整個(gè)過程沒有延遲，也不需要打字，不用發(fā)出任何聲音。

本周，腦機(jī)接口的最新研究在社交網(wǎng)絡(luò)上引發(fā)了人們的熱烈討論，一位推特博主的帖子瀏覽量突破了 150 萬。

先來看效果。視頻中的受試者嚴(yán)重癱瘓，不能講話。她的大腦活動(dòng)被解碼為目標(biāo)句子，然后使用文本到語音模型一次合成一個(gè)單詞。

我們可以看到連接受試者頭部的設(shè)備（connector）。屏幕上出現(xiàn)了目標(biāo)句子（target sentence），然后從大腦活動(dòng)解碼文本，并應(yīng)用「單詞級(jí)文本到語音合成」。

接下來是更多的示例：

論文一作 Kaylo T. Littlejohn 發(fā)推宣傳團(tuán)隊(duì)的成果，他表示，這種流式「腦轉(zhuǎn)語音」（brain-to-voice）神經(jīng)假體可以讓癱瘓患者恢復(fù)自然、流利和清晰的語言能力。

同時(shí)他強(qiáng)調(diào)，泛化能力至關(guān)重要，隨著快速改進(jìn)設(shè)備，現(xiàn)在構(gòu)建的解碼方法應(yīng)能跨用例轉(zhuǎn)換（比如非侵入式與侵入式的權(quán)衡），并為未來的臨床語音神經(jīng)假體打好基礎(chǔ)。

這項(xiàng)技術(shù)成果「?！乖谀睦?？

要知道在此之前，最好的腦機(jī)接口系統(tǒng)也只能讓患者以每分鐘 8-14 個(gè)字的速度「打字」。而這個(gè)新系統(tǒng)輸出語音的速度可以達(dá)到每分鐘 90+ 個(gè)英文單詞，而且它不使用任何可聽見的訓(xùn)練數(shù)據(jù)，用戶甚至不需要嘗試發(fā)出聲音。

該研究來自加州大學(xué)伯克利分校（UC Berkeley），已經(jīng)登上了最新一期《自然》子刊 Nature Neuroscience。

論文：A streaming brain-to-voice neuroprosthesis to restore naturalistic communication
論文鏈接：https://www.nature.com/articles/s41593-025-01905-6

該系統(tǒng)轉(zhuǎn)錄的目標(biāo)是患者大腦的言語運(yùn)動(dòng)皮層，采用 253 通道 ECoG 陣列，深度學(xué)習(xí)神經(jīng)解碼器經(jīng)過 2.3 萬次轉(zhuǎn)語音訓(xùn)練，構(gòu)建了延遲僅 80ms 的 RNN-T 架構(gòu)，既可以合成語音也可以進(jìn)行實(shí)時(shí)轉(zhuǎn)錄，音色模仿自患者受傷之前的錄音。

大多數(shù)腦機(jī)接口的系統(tǒng)在輸出任何內(nèi)容之前都需要等待人想出完整句子，但在新的系統(tǒng)上，人類正在思考中的內(nèi)容就可以被轉(zhuǎn)為語音，延遲大約為 1 秒。因此該系統(tǒng)可以稱得上是實(shí)時(shí)的意念轉(zhuǎn)語音了。

在實(shí)際測試中可以看到，語音轉(zhuǎn)錄的效果快速、流暢且準(zhǔn)確：在 50 個(gè)短語集（護(hù)理需要）的測試中，新方法達(dá)到了 91 WPM 、12% 字錯(cuò)率 (WER)、 11% 字符錯(cuò)誤率。在 1024 字集的自然句子測試中，該方法也達(dá)到了 47 WPM、59% WER 和 45% 字符錯(cuò)誤率。雖然還不是很準(zhǔn)確，但已經(jīng)證明了該系統(tǒng)的有效性。

此外，該系統(tǒng)成功地合成了在訓(xùn)練過程中未曾見過的新詞匯。當(dāng)給定 24 個(gè)新的詞匯，例如 Zulu、Romeo，它正確識(shí)別出這些詞匯的概率為 46%，而僅憑偶然猜測的概率為 3.8%。這一切僅通過神經(jīng)活動(dòng)就得以實(shí)現(xiàn)。

此外，該系統(tǒng)采用了統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)，能夠跨多種技術(shù)平臺(tái)解碼語音信號(hào)，具體包括：

ECoG（皮層腦電圖），通過植入大腦表面的電極陣列讀取神經(jīng)信號(hào)，無需穿透腦組織，創(chuàng)傷性較低；
MEA（皮層內(nèi)微電極），通過植入大腦皮層的微型電極記錄單個(gè)神經(jīng)元活動(dòng)；
EMG（面部表面電極，無需手術(shù)）。

一直以來，很多研究僅僅局限于試驗(yàn)階段，相比之下，該系統(tǒng)能夠持續(xù)工作，不需要預(yù)先編程就能夠通過大腦活動(dòng)檢測到受試者何時(shí)開始和停止說話。研究者用時(shí)長 6 分鐘的連續(xù)無聲語音塊對其進(jìn)行了測試。結(jié)果顯示，系統(tǒng)能夠準(zhǔn)確解碼，幾乎沒有任何誤報(bào)。

這項(xiàng)研究的解碼速度達(dá)到了新的標(biāo)桿，此前最佳解碼速度為 28 詞 / 分鐘（WPM），該系統(tǒng)的表現(xiàn)達(dá)到 90 詞 / 分鐘（WPM），且延遲更低。

更重要的是，受試者無需發(fā)聲，借助該系統(tǒng)，受試者用意念就能「說話」。

從臨床角度看，這項(xiàng)研究能讓失去語言能力的人重新獲得說話的權(quán)力。從技術(shù)角度看，它解決了實(shí)時(shí)、流暢的神經(jīng)語音解碼問題。大家期待已久的無聲交流正在實(shí)現(xiàn)，這也表明了語言可以完全基于神經(jīng)信號(hào)來傳達(dá)。

如果這項(xiàng)技術(shù)普及開來，我們可以想象 20 年后的世界，那將是不再需要手機(jī)、不再需要鍵盤、不再需要語音指令等等，你要做的只是思考，你的話語便能被實(shí)時(shí)感知。

參考鏈接：https://x.com/IterIntellectus/status/1906995681253822519