
與基于文本的大語言模型(LLM)相比,語音語言模型(SpeechLM)接受語音輸入并生成語音輸出,能夠?qū)崿F(xiàn)更自然的人機(jī)交互。然而,傳統(tǒng)的 SpeechLM 因缺乏無監(jiān)督語音數(shù)據(jù)和并行語音-文本數(shù)據(jù),很難像 LLM 一樣進(jìn)行大規(guī)模擴(kuò)展。
為解決這一問題,來自清華大學(xué)和智譜的研究團(tuán)隊(duì)提出了一種新方法,利用從文本語料庫中提取的大規(guī)模合成交錯(cuò)數(shù)據(jù)來擴(kuò)展語音-文本預(yù)訓(xùn)練,從而消除了對并行語音-文本數(shù)據(jù)集的需求。這一方法從現(xiàn)有文本庫中抽取文本片段,并使用 text-to-token 模型合成相應(yīng)的語音片段,從而高效地構(gòu)建語音-文本交錯(cuò)數(shù)據(jù),而無需生成實(shí)際語音。
此外,通過在編碼器中加入向量量化的瓶頸層,他們還采用了從自動(dòng)語音識(shí)別(ASR)模型中提取的監(jiān)督語音 tokenizer。即使在較低的采樣率(如 12.5Hz)下,這種有監(jiān)督的訓(xùn)練方法也能生成語義保存較好的離散語音 token,同時(shí)保持語音重構(gòu)質(zhì)量。

論文鏈接:https://arxiv.org/abs/2411.17607
研究團(tuán)隊(duì)表示,從預(yù)訓(xùn)練的語言模型開始,并將預(yù)訓(xùn)練擴(kuò)展到 1 萬億個(gè) token(其中包括 6000 億合成交錯(cuò)語音文本數(shù)據(jù)),他們在語音語言建模和口語問題解答方面取得了 SOTA,將語音問答任務(wù)方面的性能從之前的 13%(Moshi)提高到 31%。

圖|隨著合成交錯(cuò)數(shù)據(jù)量的增加,Spoken QA 的性能不斷提高,大大超過了之前的 SOTA 模型 Moshi(左圖)。 合成交錯(cuò)語音文本數(shù)據(jù)的 pipeline(右圖)。
他們進(jìn)一步證明,通過使用語音對話數(shù)據(jù)對預(yù)訓(xùn)練的模型進(jìn)行微調(diào),他們開發(fā)出的一種端到端語音聊天機(jī)器人,在對話能力和語音質(zhì)量方面都達(dá)到了與現(xiàn)有基線相當(dāng)?shù)男阅?,展現(xiàn)了在純語音領(lǐng)域中應(yīng)用的巨大潛力。
研究方法
研究團(tuán)隊(duì)提出了一種通過從文本語料庫合成高質(zhì)量交錯(cuò)語音-文本數(shù)據(jù)來擴(kuò)展語音-文本預(yù)訓(xùn)練的新方法,使得大規(guī)模預(yù)訓(xùn)練無需依賴大量的語音數(shù)據(jù)集成為可能。完整方法框框架結(jié)合了語音 token 化、語音-文本交替數(shù)據(jù)生成以及兩階段訓(xùn)練。

圖|研究方法概述。
在語音 token 化的設(shè)計(jì)上,他們采用了一種基于自動(dòng)語音識(shí)別(ASR)的監(jiān)督語音 tokenizer,通過在編碼器中加入向量量化的瓶頸層和平均池化層來有效生成離散語音 token。
同時(shí),為提高實(shí)時(shí)語音處理能力,tokenizer 還優(yōu)化為支持流式推理從而降低在線應(yīng)用中的延遲。

圖|語音重構(gòu)結(jié)果。 使用了詞錯(cuò)誤率(WER)評估語義保留情況,并使用 VisQOL 和 MOSNet 評估不同語音tokenizer 在不同采樣率下的重建質(zhì)量。
語音-文本交錯(cuò)數(shù)據(jù)是 SpeechLM 預(yù)訓(xùn)練的關(guān)鍵。他們先是基于現(xiàn)有的文本到語音(TTS)數(shù)據(jù)集訓(xùn)練了一個(gè) text-to-token 模型,能直接將文本片段轉(zhuǎn)換為對應(yīng)的語音 token,較傳統(tǒng)多步生成方法效率更高且潛在錯(cuò)誤的累積更少。
接著,他們使用訓(xùn)練好的 text-to-token 模型從大規(guī)模文本語料庫中采樣文本片段,并將其轉(zhuǎn)換為語音 token。這些語音 token 與原始文本片段交錯(cuò)組合,從而生成高質(zhì)量語音-文本交錯(cuò)數(shù)據(jù)。最終,他們基于 FineWeb 語料庫為模型預(yù)訓(xùn)練生成了 6000 億 token 的語音-文本交錯(cuò)數(shù)據(jù)。

圖|文本到 token 模型的 WER。
之后,他們開展了一個(gè)兩階段訓(xùn)練,在第一階段,使用合成語音-文本交錯(cuò)數(shù)據(jù)對模型進(jìn)行預(yù)訓(xùn)練,在第二階段,使用語音對話數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練模型。
在語音-文本預(yù)訓(xùn)練階段,他們通過使用不同用途的 4 類數(shù)據(jù):語音-文本交錯(cuò)數(shù)據(jù)、無監(jiān)督文本數(shù)據(jù)、無監(jiān)督語音數(shù)據(jù)和有監(jiān)督語音-文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使模型學(xué)習(xí)語音和文本之間的對齊關(guān)系。
到了監(jiān)督微調(diào)階段,他們利用語音對話數(shù)據(jù)進(jìn)行微調(diào),使模型能夠支持端到端語音輸入與輸出。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)通過一系列實(shí)驗(yàn)驗(yàn)證了提出方法的有效性,包括語音語言建模、語音問答、語音聊天機(jī)器人等任務(wù),展現(xiàn)了在多個(gè)語音應(yīng)用場景中的突破性進(jìn)展。
他們在語音語言建模任務(wù)中首次測試了大規(guī)模合成語音-文本交錯(cuò)數(shù)據(jù)的效果。結(jié)果表明,由他們的方法預(yù)訓(xùn)練的模型在所用任務(wù)上均優(yōu)于現(xiàn)有方法。模型不僅能更精準(zhǔn)地預(yù)測語音序列,還表現(xiàn)出更強(qiáng)的泛化能力,能夠適應(yīng)多樣化的語音輸入模式。

圖|模型預(yù)訓(xùn)練結(jié)果。
在語音問答任務(wù)中,他們評估了模型處理自然語音問答的能力,特別是其在跨模態(tài)輸入輸出場景中的表現(xiàn)。相比之前 SOTA 模型 Moshi 的 13% 準(zhǔn)確率,新模型將問答任務(wù)的準(zhǔn)確率大幅提升至 31%,實(shí)現(xiàn)了近 3 倍的性能增長。
他們進(jìn)一步微調(diào)預(yù)訓(xùn)練模型,開發(fā)出一個(gè)完全基于語音的端到端語音聊天機(jī)器人。評估結(jié)果顯示,具有文本引導(dǎo)的 9B 模型在一般問答和基于知識(shí)的任務(wù)中優(yōu)于所有基線模型,在語音質(zhì)量評估方面也比其他模型取得了更好的結(jié)果。
值得注意的是,即使沒有文本引導(dǎo),9B 模型仍然與文本引導(dǎo)的基線模型表現(xiàn)相當(dāng),突出了該方法在文本和語音模態(tài)對齊方面的有效性。

圖|端到端語音聊天機(jī)器人的評估結(jié)果。
此外,研究團(tuán)隊(duì)進(jìn)一步開展了消融實(shí)驗(yàn)探究數(shù)據(jù)規(guī)模與組成、tokenizer 采樣率和跨模態(tài)數(shù)據(jù)生成方法對模型性能的影響,為優(yōu)化語音-文本預(yù)訓(xùn)練提供了實(shí)證依據(jù)。
首先,數(shù)據(jù)規(guī)模與組成部分的實(shí)驗(yàn)結(jié)果顯示,移除交錯(cuò)數(shù)據(jù)時(shí)模型性能顯著下降,表明這種數(shù)據(jù)在對齊語音和文本模態(tài)中發(fā)揮了核心作用。進(jìn)一步增加交錯(cuò)數(shù)據(jù)的規(guī)模(從 1000 億擴(kuò)展至 6000 億 token)后,語音問答和語音語言建模的表現(xiàn)均有明顯提升,特別是在語音到文本(S→T)和語音到語音(S→S)模式下,任務(wù)性能顯著優(yōu)化。
此外,盡管未標(biāo)注語音數(shù)據(jù)的移除對小模型影響不大,但在大規(guī)模模型(9B 參數(shù))中,保留所有數(shù)據(jù)類型能夠大幅提升整體性能。

圖|關(guān)于交錯(cuò)數(shù)據(jù)尺度和預(yù)訓(xùn)練數(shù)據(jù)組成的消融研究。
之后,他們評估了 tokenizer 的采樣率對模型表現(xiàn)的影響。研究發(fā)現(xiàn),較低采樣率(如 12.5Hz)在平衡語義保留與計(jì)算效率方面表現(xiàn)最佳,這為模型在實(shí)際應(yīng)用中的優(yōu)化提供了有力支持。
最后,跨度損壞率(即交錯(cuò)樣本中文本和語音 token 的比例)對模型性能有顯著影響。當(dāng)損壞比率接近 0 或 1 時(shí),交錯(cuò)樣本主要由文本或語音 token 主導(dǎo),導(dǎo)致性能下降。實(shí)驗(yàn)通過調(diào)整不同的損壞比率訓(xùn)練了多個(gè) 1.5B 模型,得出 0.2 到 0.4 之間的跨度損壞率效果最佳,進(jìn)而選取了 0.3 作為最佳的跨度損壞率用于主要模型的訓(xùn)練。

圖|采樣率與平均準(zhǔn)確率(a);跨度損壞率與平均準(zhǔn)確率(b);監(jiān)督微調(diào)后的交錯(cuò)數(shù)據(jù) token 與平均性能對比(c)。
研究團(tuán)隊(duì)表示,他們將繼續(xù)探索更高效的訓(xùn)練方法,進(jìn)一步擴(kuò)展模型規(guī)模與多語言能力,促進(jìn)語音 AI 實(shí)現(xiàn)更高效的應(yīng)用。
作者:阮文韻
如需轉(zhuǎn)載或投稿,請直接在公眾號(hào)內(nèi)留言
熱門跟貼