
作者 | 程茜
編輯 | 漠影
語音交互又被玩出新花樣?!
智東西4月2日報道,本周一,百度發(fā)布業(yè)界首個基于全新互相關(guān)注意力(Cross-Attention)的端到端語音語言大模型,已首發(fā)上線文小言,可免費體驗。

用幾個關(guān)鍵詞概括新升級的文小言就是:語音交互超逼真、超低時延、超低成本
超逼真指的是,搭載語音語言大模型的文小言,既能聽得懂重慶、廣西、河南、廣東、山東等特色方言,還能實現(xiàn)情感飽滿對話;超低時延是其對話中可將用戶等待時長從行業(yè)常見的3-5秒降低至1秒左右,幾乎與真人對話無異;超低成本指在電話語音頻道的語音問答場景中,調(diào)用成本較行業(yè)均值下降約50%-90%。
百度語音首席架構(gòu)師賈磊透露,該模型可以部署到L20卡上,在滿足語音交互延遲要求的情況下,雙L20卡的并發(fā)可以做到幾百以上。目前,語音語言大模型的訓(xùn)練流程便捷,基本上基于文心大模型幾百片卡優(yōu)化一周就可以實現(xiàn),且本身的優(yōu)化工作也并不復(fù)雜。
相比于大模型在語音交互場景的應(yīng)用,這一語音語言大模型的獨特之處是什么?又是如何做到最高降低達到90%的調(diào)用成本?其背后的創(chuàng)新點該如何解讀?智東西與百度語音首席架構(gòu)師賈磊進行了深入交流,試圖找到這些問題的答案。
一、真人對話體驗,升級版文小言語音交互更絲滑
大模型在語音交互場景的發(fā)展,正朝著更自然、低延遲、高擬真的語音交互體驗演進。而這一更為擬人化的交互體驗,我們在新升級的文小言上窺到了雛形,搭載了端到端語音語言大模型的文小言,已經(jīng)化身情感陪伴、全能助手。
首先,文小言已經(jīng)集成了包含天氣查詢、日歷查詢、單位換算、股票股價等信息查詢的38個垂類助手,可以看出這些特殊場景下,語音交互的效率要遠高于文本交互。
其次,文小言對于時效性和非時效性問題均能應(yīng)對,百科查詢、時政知識類時效性問答內(nèi)容,文小言可以進行實時檢索,并做到精準的指令跟隨,降低幻覺;常識問答等非時效性問題也不在話下。
最后,也是語音交互與文本最大的區(qū)別所在,文小言可以與用戶進行情感自然充沛的交流,并能做到快速響應(yīng)反饋,實現(xiàn)逼真擬人的交互效果。
話不多說,來看看文小言的實際效果。
語音識別的一大難點莫過于方言識別。方言的發(fā)音特點豐富多樣,同一方言在不同地區(qū)可能存在發(fā)音差異,甚至同一個字在不同語境下發(fā)音也有所不同。這使得語音識別系統(tǒng)難以準確捕捉和解析所有的發(fā)音變體,增加了識別的難度。當(dāng)下的文小言,已經(jīng)可以應(yīng)對重慶、廣西、河南、廣東、山東各地特色方言,其不僅聽得懂,還能使用對應(yīng)的方言進行回復(fù)。
語音交流還有一大特點就是需要多輪交互,例如下面的例子中,文小言既從成年、幼年不同維度給出了分辨虎皮鸚鵡的方法,還在用戶打斷提出新問題時,及時給予正確的反饋。
即使回復(fù)中包含分辨虎皮鸚鵡性別、需要從某一固定特征辨別等諸多要素,文小言也給出了簡明扼要的答案,并且在最后還提醒用戶可以邊觀察邊記錄。
此外,人機交互往往伴隨著中途打斷的情況,如用戶獲得了自己想要的核心信息或者對其目前輸出的內(nèi)容不滿意等等,當(dāng)用戶打斷語音播放進行輸入時,語音識別系統(tǒng)可能會因為環(huán)境噪音、用戶發(fā)音不清晰或與之前的語音內(nèi)容混淆等原因,出現(xiàn)誤識別的情況。
在面對小朋友多次打斷的情況下,文小言可以準確識別出其“換一個故事”的需求,并且當(dāng)小朋友說出“媽媽已經(jīng)講過”時,并不是機械選擇更換故事,而是適時給出有情感的回復(fù),營造出自然對話的氛圍。
文小言這一情感飽滿的交互形式,也使得其在知識問答等助手場景下,向著陪伴場景下的應(yīng)用外延。當(dāng)用戶提到“我的心情有點不好”,文小言的語音帶有擔(dān)心等,并引導(dǎo)用戶說出自己心情不好的原因,進一步進行開導(dǎo)。
二、全新互相關(guān)注意力,打造極低訓(xùn)推成本優(yōu)勢
不同于語言模型,語音語言大模型的核心差異點就是可以產(chǎn)生情感。
賈磊談道,文本大模型只產(chǎn)生文字,而語音語言大模型可以有情感,其關(guān)鍵就是語音語言大模型架構(gòu)圖中的兩個特殊環(huán)節(jié),TN韻律和人設(shè)、風(fēng)格情感控制,這是為語音合成而準備,可以讓大模型在生成答案的同時擁有適配內(nèi)容的情感,這也是百度此次端到端語音語音大模型的關(guān)鍵創(chuàng)新點所在。

具體來看,其關(guān)鍵創(chuàng)新點有4個。
首先,這是百度發(fā)布的業(yè)界首個基于Cross-Attention跨模態(tài)的語音語言大模型;其二是該模型將Encoder和語音識別結(jié)合,使得KV計算節(jié)省到1/10;第三是Encoder和語音合成結(jié)合,輸出內(nèi)容可進行情感控制;最后是高效的全查詢注意力EALLQA,使得KV cache降低到幾十分之一。
在此基礎(chǔ)上,該模型實現(xiàn)了識別文本一體化、文本合成一體化,這些相互耦合的技術(shù)在系統(tǒng)性端到端打通之上,使得模型在快速問答、快速理解的基礎(chǔ)上,能實現(xiàn)自然、逼真、情感豐富的交互體驗。
賈磊解釋說,聲學(xué)模型也是語音模型,只是通常大語言模型都是文字連接。因此在整合語音識別和大語言模型的過程中,研究人員將大語言模型中的Encoder和語音識別的過程融合共享,達到降低語音交互硬延遲的目的,其創(chuàng)新性引入跨模態(tài)建模,從Self-Attention切換到Cross-Attention,完成了語音識別和大語言模型的融合。
百度提出用Cross-Attention來解決語音、語言跨模態(tài)的難題。這一過程中,由于現(xiàn)存Attention技術(shù)在Cross-Attention的語音語言建模中存在速度方面的局限性,百度研發(fā)了適合Cross-Attention的EALLQA技術(shù),采用隱式RNN兩級位置編碼,訓(xùn)練時在128空間上的MHA,推理在模型各層共享的512空間上的MQA,以達到充分利用有限訓(xùn)練資源,降低推理成本的目的

模型基礎(chǔ)訓(xùn)練中,百度基于Self-Attention的成熟的文心語言的預(yù)訓(xùn)練模型,采用自蒸餾方式進行post-train來訓(xùn)練Cross-Attention端到端語音語言大模型。
事實上,在語音模型中,KV cache和KV計算的壓力遠大于文本模型。賈磊解釋說,語音識別相對于文本大模型的本質(zhì)差異就是,句首第一個token決定了語音識別的延遲。對于文本大模型,其可以在用戶輸入一段文字后等待2~3秒鐘給出答案,而語音語言大模型中,用戶對于回復(fù)延遲的可容忍度更低,他們希望在0.5~1秒內(nèi)聽到答案。

在此基礎(chǔ)上,端到端語音語言大模型實現(xiàn)了低成本訓(xùn)練、低成本高速推理。除此以外,語音語言大模型還需要快速響應(yīng)、有情感的回應(yīng),這就是其另一項關(guān)鍵技術(shù)發(fā)力的場景——流式逐字的LLM驅(qū)動的多情感語音合成。賈磊談道,多輪有情感地持續(xù)溝通才能讓人有欲望繼續(xù)交流。

基于流式逐字的方式,其語音合成是看到一個字蹦一個字,大模型可以幫助語音合成輸出其需要的文本歸一化輸出、韻律停頓輸出、情感輸出,使得語音合成的過程像人說話時一樣流動起來,其根據(jù)文本輸出自適配的情感覆蓋可達17種。
此外,語音識別中還有一大痛點是,其無法判斷用戶說話的起點和終點,而大模型加持可以使其基于語義分析用戶說的話是否已經(jīng)結(jié)束,語義不完整需繼續(xù)等待。
賈磊進一步解釋道,語音場景被激活需要極交互成本、極快交付速度、聰明富有情感的人性化的問答。百度將語音識別和大模型一體化,解決了預(yù)存預(yù)取、猶豫、內(nèi)容理解和快速問答的問題,將文本合成一體化與大模型融合,輸出語音和中所需的韻律情感,解決了合成中的上下文理解和情感控制問題。這就使得語音場景的應(yīng)用潛力大幅提升。
三、直擊語音交互難點,百度端到端語音語言大模型放大招
大模型不斷優(yōu)化在語音的穩(wěn)健性、自然度和說話人相似度方面顯著提升,但此前的技術(shù)路徑仍有許多痛點,這也是百度聚焦于端到端語音語言大模型的原因。
相比于人和人之間的交流,大語言模型響應(yīng)速度慢,用戶需要等待一段時間才能得到回復(fù)。此外,語音交流往往伴隨著多輪對話交互,而模型完成口語化多輪交互的難度極大,且相比于文本,用戶使用語音交互的場景更多,其交互量激增會導(dǎo)致大模型應(yīng)用成本上升,大規(guī)模應(yīng)用普及的難度也會隨之增高。
而在傳統(tǒng)語音交互路線上,又會受限于上下文記憶、噪音場合、猶豫發(fā)問和打斷之間的準確響應(yīng)。

因此這成為語音交互領(lǐng)域的一個核心矛盾點,語音交互的便捷性決定了其有大規(guī)模應(yīng)用的潛力,而這些痛點又正在阻礙其普及。賈磊認為,語音和文本兩個跨模態(tài)之間相互關(guān)聯(lián)的化學(xué)反應(yīng),就是未來大模型在特定領(lǐng)域找到突破口的關(guān)鍵
語音語言模型的出現(xiàn)是質(zhì)變,其創(chuàng)新合成技術(shù)使得模型不需要看到一句話的整個文本,而是看到一個字的文本就可以合成一個字,在此基礎(chǔ)上,百度挖掘到了獨特的應(yīng)用場景。他舉了一個例子,如詢問天氣時,用戶獲得了天氣的溫度區(qū)間就可以快速打斷問下一個問題,其好處就是大幅降低了模型的使用成本,而文本模型想要實現(xiàn)如此高效應(yīng)用就需要強大的硬件,但語音語言模型可以使用低成本的硬件就能實現(xiàn)高效并發(fā)。
與此同時,從整個語音交互領(lǐng)域來看,大模型語音識別部分的準確度已經(jīng)大幅提升,賈磊認為更多在于速度、成本、回答準確度的一種比拼,當(dāng)下成本降低,就是大規(guī)模使用跨模態(tài)語音交互的關(guān)鍵
賈磊說:“成本降低是技術(shù)進步的必然方式。” 百度語音語言大模型的極低成本也就意味著大規(guī)模工業(yè)化的可能,AI落地應(yīng)用是2025大模型產(chǎn)業(yè)發(fā)展的核心,而該模型就是解決語音問題的關(guān)鍵。
百度在語音識別領(lǐng)域的積累由來已久。
2018年,百度語音發(fā)布的Deep Peak 2模型突破了沿用十幾年的傳統(tǒng)模型,大幅提升各場景下識別準確率。2019年初,百度語音技術(shù)團隊公布在線語音領(lǐng)域全球首創(chuàng)的流式多級的截斷注意力模型SMLTA, 相對準確率提升15%。2021年,百度發(fā)布基于歷史信息抽象的流式截斷conformer建模技術(shù)——SMLTA2,解決了Transformer模型應(yīng)用于在線語音識別任務(wù)時面臨的問題。
這些技術(shù)創(chuàng)新已經(jīng)應(yīng)用于汽車、消費電子、手機等諸多領(lǐng)域。此次,為了推動語音語言模型的規(guī)模化應(yīng)用,目前,百度已經(jīng)將其上線文小言并免費開放,并且計劃4月上線到開放平臺,后續(xù)將接入呼叫中心、音箱等業(yè)務(wù)線上
賈磊提到:“科學(xué)可能有國界,但沒有公司邊界。”后續(xù),百度將端到端語音語言大模型開放出來,就是想推動大語言模型在語音領(lǐng)域的應(yīng)用,有利于整個行業(yè)和生態(tài)的發(fā)展。
結(jié)語:百度語音語言大模型出鞘,開啟低本高效新篇
便捷高效、自然友好、廣泛應(yīng)用于多場景的語音交互在數(shù)字化時代地位至關(guān)重要,但從目前的實際效果來看,語音交互在識別的準確度等方面已經(jīng)有了很大提升,現(xiàn)在業(yè)界的競爭焦點集中于其識別的速度、成本以及回答的準確度。
這樣的背景下,百度端到端語音語言大模型的發(fā)布進一步突破了成本,且提出了全新技術(shù)路徑,將語音交互的行業(yè)競爭推上了新的高度。與此同時,百度將其上線到開放平臺,將加速大模型在語音交互場景的應(yīng)用與普及。
本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。
熱門跟貼