(來(lái)源:MIT Technology Review)
打開網(wǎng)易新聞 查看精彩圖片
(來(lái)源:MIT Technology Review)

無(wú)論是描述故障汽車發(fā)動(dòng)機(jī)的聲音,還是模仿鄰居家貓咪的叫聲,當(dāng)語(yǔ)言難以準(zhǔn)確傳達(dá)時(shí),聲音模仿反而是一種更為生動(dòng)有效的表達(dá)方式。

聲音模仿就像是用隨手涂鴉來(lái)表達(dá)你眼中的景象,不同之處在于,它依靠聲道來(lái)模擬聲音,而非用鉛筆繪圖。雖然這種方式看似復(fù)雜,但其實(shí)每個(gè)人都會(huì)自然而然地這樣做。不妨親自嘗試一下,試著用你的聲音模仿救護(hù)車的警笛聲、烏鴉的叫聲或鐘聲。

受到人類交流方式和認(rèn)知科學(xué)的啟發(fā),MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員開發(fā)出一種 AI 系統(tǒng),無(wú)需額外訓(xùn)練,即便從未“聽過”人類的聲音模仿,也能生成類似人類的聲音模仿。

為實(shí)現(xiàn)這一目標(biāo),研究人員設(shè)計(jì)了一個(gè)模擬人類聲道的系統(tǒng),能夠再現(xiàn)聲帶振動(dòng)如何通過喉嚨、舌頭和嘴唇的形狀變化發(fā)出聲音。隨后,他們采用一種受認(rèn)知啟發(fā)的 AI 算法來(lái)控制該聲道模型,使其能夠根據(jù)人類在不同情境下選擇的表達(dá)方式,生成相應(yīng)的聲音模仿。

該模型能夠高效地將各種真實(shí)世界的聲音轉(zhuǎn)化為類似人類的模仿聲,包括樹葉沙沙作響、蛇的嘶嘶聲以及救護(hù)車接近時(shí)的警笛聲。此外,這一模型還可以“反向”工作,通過人類的聲音模仿推測(cè)真實(shí)世界中的聲音。這種方式類似于某些計(jì)算機(jī)視覺系統(tǒng)能夠根據(jù)草圖還原高清圖像。例如,該模型可以準(zhǔn)確地區(qū)分人類模仿貓發(fā)出的“喵喵叫”和“嘶嘶聲”。

未來(lái),這一模型有望催生更直觀的“基于模仿”的聲音設(shè)計(jì)界面、更具擬人化特點(diǎn)的虛擬現(xiàn)實(shí) AI 角色,甚至應(yīng)用于幫助學(xué)生學(xué)習(xí)新語(yǔ)言的方法。

該研究的共同第一作者包括 MIT 博士生 Kartik Chandra、博士生 Karima Ma 以及本科研究員 Matthew Caren。他們指出,計(jì)算機(jī)圖形學(xué)領(lǐng)域的研究人員早已認(rèn)識(shí)到,真實(shí)感并不是視覺表達(dá)的終極目標(biāo)。例如,一幅抽象畫或孩子用蠟筆隨手涂鴉的作品,往往能與照片一樣富有表現(xiàn)力。

Chandra 表示:“過去幾十年,素描算法的進(jìn)步不僅帶來(lái)了新的藝術(shù)工具,還推動(dòng)了 AI 和計(jì)算機(jī)視覺的突破,甚至深化了我們對(duì)人類認(rèn)知的理解。正如素描是對(duì)圖像的抽象和非真實(shí)寫實(shí)的表現(xiàn)形式,我們的方法同樣捕捉了人類在表達(dá)所聽聲音時(shí)的抽象、通過擬聲詞等語(yǔ)言來(lái)形容的方式。這讓我們得以更深入地理解聽覺抽象的過程?!?/p>

Matthew Caren 對(duì)此補(bǔ)充道:“這個(gè)項(xiàng)目旨在理解聲音模仿的本質(zhì),并通過計(jì)算機(jī)模型對(duì)其進(jìn)行模擬。我們將聲音模仿視為聽覺領(lǐng)域中類似于‘視覺領(lǐng)域素描’的一種表達(dá)方式?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

模仿藝術(shù)三步走

研究團(tuán)隊(duì)開發(fā)了三個(gè)層次逐步遞進(jìn)的模型版本,以便將其與人類的聲音模仿進(jìn)行比較。首先,他們構(gòu)建了一個(gè)基線模型,旨在盡可能生成與真實(shí)世界聲音相似的模仿聲音。然而,這個(gè)模型與人類的模仿方式存在較大差距。

接著,研究人員設(shè)計(jì)了一個(gè)溝通型模型。根據(jù) Caren 的解釋,這個(gè)模型會(huì)考慮聽眾對(duì)某種聲音的獨(dú)特感知特征。例如,你可能會(huì)通過模仿引擎的轟鳴聲來(lái)表現(xiàn)摩托艇的聲音,因?yàn)檫@種聲音最具辨識(shí)度,盡管它可能不是最響亮的部分,如水花四濺的聲音。這個(gè)改進(jìn)后的模型生成的聲音模仿比基線模型更貼近人類的表達(dá)方式,但研究團(tuán)隊(duì)仍希望進(jìn)一步優(yōu)化。

為此,研究人員在模型中引入了推理層。Chandra 表示:“聲音模仿的效果會(huì)受到投入的努力程度影響。要生成完全準(zhǔn)確的聲音,需要付出時(shí)間和精力?!币虼耍?jí)后的模型會(huì)避免產(chǎn)生過于快速、響亮或音調(diào)極高或極低的聲音,因?yàn)槿藗冊(cè)谌粘?duì)話中通常不會(huì)這樣表達(dá)。最終,這一改進(jìn)模型生成的聲音模仿更加符合人類特點(diǎn),更真實(shí)地反映了人們?cè)谀7峦宦曇魰r(shí)所做出的選擇。

在模型構(gòu)建完成后,研究團(tuán)隊(duì)開展了一項(xiàng)行為實(shí)驗(yàn),測(cè)試人類評(píng)審如何看待 AI 生成與人類生成的聲音模仿,并評(píng)估哪種更受歡迎。值得注意的是,實(shí)驗(yàn)結(jié)果顯示,參與者在25%的情況下更偏好 AI 模型生成的聲音。尤其是在模仿摩托艇聲音時(shí),AI 模型的偏好率高達(dá) 75%,而在模仿槍聲時(shí),這一偏好率達(dá)到 50%。

打開網(wǎng)易新聞 查看精彩圖片

邁向更具表現(xiàn)力的聲音技術(shù)

Caren 對(duì)音樂和藝術(shù)領(lǐng)域的技術(shù)充滿熱情,他設(shè)想這一模型可以幫助藝術(shù)家更高效地與計(jì)算系統(tǒng)溝通聲音,并為電影制作人和其他內(nèi)容創(chuàng)作者提供更貼合特定情境的細(xì)膩AI聲音。這項(xiàng)技術(shù)還可能使音樂家通過模仿那些難以用文字描述的聲音,快速檢索聲音數(shù)據(jù)庫(kù),提升創(chuàng)作效率。

與此同時(shí),Caren、Chandra和 Ma 正積極探索該模型在其他領(lǐng)域的潛在應(yīng)用,例如語(yǔ)言的發(fā)展過程、嬰兒如何學(xué)習(xí)說(shuō)話,甚至是鸚鵡和鳴禽等鳥類的模仿行為。

不過,該模型的當(dāng)前版本仍有改進(jìn)空間。例如,它在處理某些如“z”的輔音時(shí)存在困難,導(dǎo)致對(duì)蜜蜂嗡嗡聲等聲音的模仿不夠準(zhǔn)確。此外,該模型尚無(wú)法復(fù)現(xiàn)人類對(duì)語(yǔ)音、音樂,或在不同語(yǔ)言中對(duì)某些聲音,比如心跳聲,進(jìn)行不同方式模仿的能力。

斯坦福大學(xué)語(yǔ)言學(xué)教授 Robert Hawkins 指出,語(yǔ)言中充滿了擬聲詞和模仿但并不完全復(fù)制所描述事物的詞匯,比如 “meow” 這個(gè)詞與貓咪真實(shí)的叫聲就不完全一致。Hawkins 表示:“從真實(shí)的貓叫聲到 ‘meow’ 這個(gè)詞的形成過程,揭示了在語(yǔ)言進(jìn)化中生理機(jī)制、社會(huì)推理和交流之間復(fù)雜的相互作用?!?Hawkins 并未參與這項(xiàng)研究,但他認(rèn)為:“這個(gè)模型是將這些過程的理論形式化并加以驗(yàn)證的重要一步,展示了人類聲道的物理限制和社交交流的壓力共同作用,解釋了聲音模仿的分布現(xiàn)象。”

Caren、Chandra 和 Ma 與另外兩位 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的成員共同撰寫了這篇論文,他們是 MIT 電氣工程與計(jì)算機(jī)科學(xué)系副教授 Jonathan Ragan-Kelley,以及MIT 大腦與認(rèn)知科學(xué)系教授、Brains, Minds, and Machines 中心成員 Joshua Tenenbaum。該研究得到了赫茲基金會(huì)和美國(guó)國(guó)家科學(xué)基金會(huì)的部分資助,并在 12 月初發(fā)表在 SIGGRAPH Asia 會(huì)議上。

https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109