允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
市面上很多的語音模型已經(jīng)能保證足夠自然的合成表現(xiàn),但在音質(zhì)、韻律、情感,以及多角色演繹上還有探索空間。特別是在小說演播場景下,想要媲美一流主播細膩的演播效果,要做好旁白和角色的區(qū)分演繹、角色情感的精確表達、不同角色的區(qū)分度等。
傳統(tǒng)的小說TTS生成方式,需要提前給對話旁白、情感、角色打標簽,而豆包語音模型則可以做到端到端合成,無需額外標簽標注。

△傳統(tǒng)語音模型和豆包語音模型合成鏈路的區(qū)別
改進Seed-TTS技術(shù),合成語音效果媲美真人
原始Seed-TTS(技術(shù)報告:https://arxiv.org/pdf/2406.02430)是一種自回歸文本到語音模型,主要分為4個主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。
其中Speech Tokenizer解析了參考音頻信息,決定了合成音頻的音色和全局風格;Autoregressive Transformer接收傳入的目標文本和Speech Tokenizer的輸出,進而生成出包含語義信息的Semantic Token;Diffusion Model會基于Semantic Token建模出包含語音信息的Acoustic Token;Acoustic Vocoder負責將Acoustic Token重建還原出最終的音頻。

△原始Seed-TTS架構(gòu)
為進一步提升小說演播下的語音表現(xiàn)力和長文本的理解,豆包技術(shù)團隊對Seed-TTS進行了改進
- 在數(shù)據(jù)上,小說音頻做章節(jié)級別處理,保證了長文下的語音一致性和連貫性。
- 在特征上,融合TTS前端提取的音素、音調(diào)、韻律信息和原始文本,提升發(fā)音和韻律的同時,保留小說語義。
- 在結(jié)構(gòu)上,將speech tokenizer改為speaker embedding,解除reference audio對于語音風格的限制,因而同一個發(fā)音人能在不同角色上作出更貼合人設(shè)的演繹。
- 最后在目標合成文本之外,額外加入了上下文的信息,從而使得模型能夠感知更大范圍的語義信息,旁白和角色音表現(xiàn)更精準到位。
經(jīng)過專業(yè)評測,優(yōu)化后的豆包語音模型在小說演播場景,CMOS(Comparative Mean Opinion Score,與真人打?qū)Ρ确值囊环N主觀評分方式)已達一流主播的90%+效果。

△優(yōu)化后的豆包語音模型結(jié)構(gòu)
技術(shù)落地番茄小說,惠及聽書用戶
豆包語音大模型團隊以王明軍、李滿超兩位演播圈大咖的聲音為基礎(chǔ),采用新技術(shù)合成的千部有聲書,已上線番茄小說,題材覆蓋了歷史、懸疑、靈異、都市、腦洞、科幻等熱門書目類型。


據(jù)了解,未來豆包語音模型會繼續(xù)探索前沿科技與業(yè)務(wù)場景的結(jié)合,追求更極致的“聽”體驗。
熱門跟貼