雖然已經(jīng)有人工智能系統(tǒng)可以生成與城市街道(和其他地方)的無聲圖像相匹配的聲音效果,但一項實驗性的新技術(shù)卻恰恰相反。 它生成的圖像與街道上的錄音相匹配,準(zhǔn)確度高得驚人。聲音到圖像擴(kuò)散模型"由德克薩斯大學(xué)奧斯汀分校的康宇豪副教授及其同事開發(fā),并在一個包含 10 秒鐘視聽片段的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。

這些片段由靜態(tài)圖像和環(huán)境聲音組成,取自 YouTube 上的北美、亞洲和歐洲的城市和鄉(xiāng)村街道視頻。 利用深度學(xué)習(xí)算法,該系統(tǒng)不僅學(xué)會了哪些聲音與圖像中的哪些項目相對應(yīng),還學(xué)會了哪些聲音質(zhì)量與哪些視覺環(huán)境相對應(yīng)。

訓(xùn)練完成后,該系統(tǒng)的任務(wù)是僅根據(jù) 100 個其他街景視頻錄制的環(huán)境聲音生成圖像,每個視頻生成一張圖像。

打開網(wǎng)易新聞 查看精彩圖片

人工智能生成的部分街道圖像與實際街道視頻劇照的對比示例 圖/德克薩斯大學(xué)奧斯汀分校

隨后,一個人類評委小組在聆聽圖像所依據(jù)的視頻背景音樂的同時,向他們展示了每張圖像以及兩張生成的其他街道圖像。 當(dāng)他們被要求識別三幅圖像中哪一幅與配樂相對應(yīng)時,他們的平均準(zhǔn)確率達(dá)到了 80%。

更重要的是,在對生成的圖像進(jìn)行計算機(jī)分析時,發(fā)現(xiàn)它們與原始視頻中開闊天空、綠色植物和建筑物的相對比例"密切相關(guān)"。

事實上,在許多情況下,生成的圖像還反映了原始視頻的光照條件,如晴天、陰天或夜晚。 這可能是由于夜間交通噪音減少或夜間昆蟲的叫聲等因素造成的。

雖然這項技術(shù)可以應(yīng)用于法醫(yī)領(lǐng)域,比如大致了解錄音的地點,但這項研究的目的更多的是探索聲音是如何影響我們的場所感的。

科學(xué)家們在最近發(fā)表于《自然》(Nature) 期刊上的一篇論文中指出:"研究結(jié)果可能會增強(qiáng)我們對

了解更多:德克薩斯大學(xué)奧斯汀分校