
作者 | 程茜
編輯 | 漠影
語(yǔ)音交互又被玩出新花樣?!
智東西4月2日?qǐng)?bào)道,本周一,百度發(fā)布業(yè)界首個(gè)基于全新互相關(guān)注意力(Cross-Attention)的端到端語(yǔ)音語(yǔ)言大模型,已首發(fā)上線文小言,可免費(fèi)體驗(yàn)。

用幾個(gè)關(guān)鍵詞概括新升級(jí)的文小言就是:語(yǔ)音交互超逼真、超低時(shí)延、超低成本
超逼真指的是,搭載語(yǔ)音語(yǔ)言大模型的文小言,既能聽(tīng)得懂重慶、廣西、河南、廣東、山東等特色方言,還能實(shí)現(xiàn)情感飽滿對(duì)話;超低時(shí)延是其對(duì)話中可將用戶等待時(shí)長(zhǎng)從行業(yè)常見(jiàn)的3-5秒降低至1秒左右,幾乎與真人對(duì)話無(wú)異;超低成本指在電話語(yǔ)音頻道的語(yǔ)音問(wèn)答場(chǎng)景中,調(diào)用成本較行業(yè)均值下降約50%-90%。
百度語(yǔ)音首席架構(gòu)師賈磊透露,該模型可以部署到L20卡上,在滿足語(yǔ)音交互延遲要求的情況下,雙L20卡的并發(fā)可以做到幾百以上。目前,語(yǔ)音語(yǔ)言大模型的訓(xùn)練流程便捷,基本上基于文心大模型幾百片卡優(yōu)化一周就可以實(shí)現(xiàn),且本身的優(yōu)化工作也并不復(fù)雜。
相比于大模型在語(yǔ)音交互場(chǎng)景的應(yīng)用,這一語(yǔ)音語(yǔ)言大模型的獨(dú)特之處是什么?又是如何做到最高降低達(dá)到90%的調(diào)用成本?其背后的創(chuàng)新點(diǎn)該如何解讀?智東西與百度語(yǔ)音首席架構(gòu)師賈磊進(jìn)行了深入交流,試圖找到這些問(wèn)題的答案。
一、真人對(duì)話體驗(yàn),升級(jí)版文小言語(yǔ)音交互更絲滑
大模型在語(yǔ)音交互場(chǎng)景的發(fā)展,正朝著更自然、低延遲、高擬真的語(yǔ)音交互體驗(yàn)演進(jìn)。而這一更為擬人化的交互體驗(yàn),我們?cè)谛律?jí)的文小言上窺到了雛形,搭載了端到端語(yǔ)音語(yǔ)言大模型的文小言,已經(jīng)化身情感陪伴、全能助手。
首先,文小言已經(jīng)集成了包含天氣查詢、日歷查詢、單位換算、股票股價(jià)等信息查詢的38個(gè)垂類助手,可以看出這些特殊場(chǎng)景下,語(yǔ)音交互的效率要遠(yuǎn)高于文本交互。
其次,文小言對(duì)于時(shí)效性和非時(shí)效性問(wèn)題均能應(yīng)對(duì),百科查詢、時(shí)政知識(shí)類時(shí)效性問(wèn)答內(nèi)容,文小言可以進(jìn)行實(shí)時(shí)檢索,并做到精準(zhǔn)的指令跟隨,降低幻覺(jué);常識(shí)問(wèn)答等非時(shí)效性問(wèn)題也不在話下。
最后,也是語(yǔ)音交互與文本最大的區(qū)別所在,文小言可以與用戶進(jìn)行情感自然充沛的交流,并能做到快速響應(yīng)反饋,實(shí)現(xiàn)逼真擬人的交互效果。
話不多說(shuō),來(lái)看看文小言的實(shí)際效果。
語(yǔ)音識(shí)別的一大難點(diǎn)莫過(guò)于方言識(shí)別。方言的發(fā)音特點(diǎn)豐富多樣,同一方言在不同地區(qū)可能存在發(fā)音差異,甚至同一個(gè)字在不同語(yǔ)境下發(fā)音也有所不同。這使得語(yǔ)音識(shí)別系統(tǒng)難以準(zhǔn)確捕捉和解析所有的發(fā)音變體,增加了識(shí)別的難度。當(dāng)下的文小言,已經(jīng)可以應(yīng)對(duì)重慶、廣西、河南、廣東、山東各地特色方言,其不僅聽(tīng)得懂,還能使用對(duì)應(yīng)的方言進(jìn)行回復(fù)。
語(yǔ)音交流還有一大特點(diǎn)就是需要多輪交互,例如下面的例子中,文小言既從成年、幼年不同維度給出了分辨虎皮鸚鵡的方法,還在用戶打斷提出新問(wèn)題時(shí),及時(shí)給予正確的反饋。
即使回復(fù)中包含分辨虎皮鸚鵡性別、需要從某一固定特征辨別等諸多要素,文小言也給出了簡(jiǎn)明扼要的答案,并且在最后還提醒用戶可以邊觀察邊記錄。
此外,人機(jī)交互往往伴隨著中途打斷的情況,如用戶獲得了自己想要的核心信息或者對(duì)其目前輸出的內(nèi)容不滿意等等,當(dāng)用戶打斷語(yǔ)音播放進(jìn)行輸入時(shí),語(yǔ)音識(shí)別系統(tǒng)可能會(huì)因?yàn)榄h(huán)境噪音、用戶發(fā)音不清晰或與之前的語(yǔ)音內(nèi)容混淆等原因,出現(xiàn)誤識(shí)別的情況。
在面對(duì)小朋友多次打斷的情況下,文小言可以準(zhǔn)確識(shí)別出其“換一個(gè)故事”的需求,并且當(dāng)小朋友說(shuō)出“媽媽已經(jīng)講過(guò)”時(shí),并不是機(jī)械選擇更換故事,而是適時(shí)給出有情感的回復(fù),營(yíng)造出自然對(duì)話的氛圍。
文小言這一情感飽滿的交互形式,也使得其在知識(shí)問(wèn)答等助手場(chǎng)景下,向著陪伴場(chǎng)景下的應(yīng)用外延。當(dāng)用戶提到“我的心情有點(diǎn)不好”,文小言的語(yǔ)音帶有擔(dān)心等,并引導(dǎo)用戶說(shuō)出自己心情不好的原因,進(jìn)一步進(jìn)行開(kāi)導(dǎo)。
二、全新互相關(guān)注意力,打造極低訓(xùn)推成本優(yōu)勢(shì)
不同于語(yǔ)言模型,語(yǔ)音語(yǔ)言大模型的核心差異點(diǎn)就是可以產(chǎn)生情感。
賈磊談道,文本大模型只產(chǎn)生文字,而語(yǔ)音語(yǔ)言大模型可以有情感,其關(guān)鍵就是語(yǔ)音語(yǔ)言大模型架構(gòu)圖中的兩個(gè)特殊環(huán)節(jié),TN韻律和人設(shè)、風(fēng)格情感控制,這是為語(yǔ)音合成而準(zhǔn)備,可以讓大模型在生成答案的同時(shí)擁有適配內(nèi)容的情感,這也是百度此次端到端語(yǔ)音語(yǔ)音大模型的關(guān)鍵創(chuàng)新點(diǎn)所在。

具體來(lái)看,其關(guān)鍵創(chuàng)新點(diǎn)有4個(gè)。
首先,這是百度發(fā)布的業(yè)界首個(gè)基于Cross-Attention跨模態(tài)的語(yǔ)音語(yǔ)言大模型;其二是該模型將Encoder和語(yǔ)音識(shí)別結(jié)合,使得KV計(jì)算節(jié)省到1/10;第三是Encoder和語(yǔ)音合成結(jié)合,輸出內(nèi)容可進(jìn)行情感控制;最后是高效的全查詢注意力EALLQA,使得KV cache降低到幾十分之一。
在此基礎(chǔ)上,該模型實(shí)現(xiàn)了識(shí)別文本一體化、文本合成一體化,這些相互耦合的技術(shù)在系統(tǒng)性端到端打通之上,使得模型在快速問(wèn)答、快速理解的基礎(chǔ)上,能實(shí)現(xiàn)自然、逼真、情感豐富的交互體驗(yàn)。
賈磊解釋說(shuō),聲學(xué)模型也是語(yǔ)音模型,只是通常大語(yǔ)言模型都是文字連接。因此在整合語(yǔ)音識(shí)別和大語(yǔ)言模型的過(guò)程中,研究人員將大語(yǔ)言模型中的Encoder和語(yǔ)音識(shí)別的過(guò)程融合共享,達(dá)到降低語(yǔ)音交互硬延遲的目的,其創(chuàng)新性引入跨模態(tài)建模,從Self-Attention切換到Cross-Attention,完成了語(yǔ)音識(shí)別和大語(yǔ)言模型的融合。
百度提出用Cross-Attention來(lái)解決語(yǔ)音、語(yǔ)言跨模態(tài)的難題。這一過(guò)程中,由于現(xiàn)存Attention技術(shù)在Cross-Attention的語(yǔ)音語(yǔ)言建模中存在速度方面的局限性,百度研發(fā)了適合Cross-Attention的EALLQA技術(shù),采用隱式RNN兩級(jí)位置編碼,訓(xùn)練時(shí)在128空間上的MHA,推理在模型各層共享的512空間上的MQA,以達(dá)到充分利用有限訓(xùn)練資源,降低推理成本的目的

模型基礎(chǔ)訓(xùn)練中,百度基于Self-Attention的成熟的文心語(yǔ)言的預(yù)訓(xùn)練模型,采用自蒸餾方式進(jìn)行post-train來(lái)訓(xùn)練Cross-Attention端到端語(yǔ)音語(yǔ)言大模型。
事實(shí)上,在語(yǔ)音模型中,KV cache和KV計(jì)算的壓力遠(yuǎn)大于文本模型。賈磊解釋說(shuō),語(yǔ)音識(shí)別相對(duì)于文本大模型的本質(zhì)差異就是,句首第一個(gè)token決定了語(yǔ)音識(shí)別的延遲。對(duì)于文本大模型,其可以在用戶輸入一段文字后等待2~3秒鐘給出答案,而語(yǔ)音語(yǔ)言大模型中,用戶對(duì)于回復(fù)延遲的可容忍度更低,他們希望在0.5~1秒內(nèi)聽(tīng)到答案。

在此基礎(chǔ)上,端到端語(yǔ)音語(yǔ)言大模型實(shí)現(xiàn)了低成本訓(xùn)練、低成本高速推理。除此以外,語(yǔ)音語(yǔ)言大模型還需要快速響應(yīng)、有情感的回應(yīng),這就是其另一項(xiàng)關(guān)鍵技術(shù)發(fā)力的場(chǎng)景——流式逐字的LLM驅(qū)動(dòng)的多情感語(yǔ)音合成。賈磊談道,多輪有情感地持續(xù)溝通才能讓人有欲望繼續(xù)交流。

基于流式逐字的方式,其語(yǔ)音合成是看到一個(gè)字蹦一個(gè)字,大模型可以幫助語(yǔ)音合成輸出其需要的文本歸一化輸出、韻律停頓輸出、情感輸出,使得語(yǔ)音合成的過(guò)程像人說(shuō)話時(shí)一樣流動(dòng)起來(lái),其根據(jù)文本輸出自適配的情感覆蓋可達(dá)17種。
此外,語(yǔ)音識(shí)別中還有一大痛點(diǎn)是,其無(wú)法判斷用戶說(shuō)話的起點(diǎn)和終點(diǎn),而大模型加持可以使其基于語(yǔ)義分析用戶說(shuō)的話是否已經(jīng)結(jié)束,語(yǔ)義不完整需繼續(xù)等待。
賈磊進(jìn)一步解釋道,語(yǔ)音場(chǎng)景被激活需要極交互成本、極快交付速度、聰明富有情感的人性化的問(wèn)答。百度將語(yǔ)音識(shí)別和大模型一體化,解決了預(yù)存預(yù)取、猶豫、內(nèi)容理解和快速問(wèn)答的問(wèn)題,將文本合成一體化與大模型融合,輸出語(yǔ)音和中所需的韻律情感,解決了合成中的上下文理解和情感控制問(wèn)題。這就使得語(yǔ)音場(chǎng)景的應(yīng)用潛力大幅提升。
三、直擊語(yǔ)音交互難點(diǎn),百度端到端語(yǔ)音語(yǔ)言大模型放大招
大模型不斷優(yōu)化在語(yǔ)音的穩(wěn)健性、自然度和說(shuō)話人相似度方面顯著提升,但此前的技術(shù)路徑仍有許多痛點(diǎn),這也是百度聚焦于端到端語(yǔ)音語(yǔ)言大模型的原因。
相比于人和人之間的交流,大語(yǔ)言模型響應(yīng)速度慢,用戶需要等待一段時(shí)間才能得到回復(fù)。此外,語(yǔ)音交流往往伴隨著多輪對(duì)話交互,而模型完成口語(yǔ)化多輪交互的難度極大,且相比于文本,用戶使用語(yǔ)音交互的場(chǎng)景更多,其交互量激增會(huì)導(dǎo)致大模型應(yīng)用成本上升,大規(guī)模應(yīng)用普及的難度也會(huì)隨之增高。
而在傳統(tǒng)語(yǔ)音交互路線上,又會(huì)受限于上下文記憶、噪音場(chǎng)合、猶豫發(fā)問(wèn)和打斷之間的準(zhǔn)確響應(yīng)。

因此這成為語(yǔ)音交互領(lǐng)域的一個(gè)核心矛盾點(diǎn),語(yǔ)音交互的便捷性決定了其有大規(guī)模應(yīng)用的潛力,而這些痛點(diǎn)又正在阻礙其普及。賈磊認(rèn)為,語(yǔ)音和文本兩個(gè)跨模態(tài)之間相互關(guān)聯(lián)的化學(xué)反應(yīng),就是未來(lái)大模型在特定領(lǐng)域找到突破口的關(guān)鍵
語(yǔ)音語(yǔ)言模型的出現(xiàn)是質(zhì)變,其創(chuàng)新合成技術(shù)使得模型不需要看到一句話的整個(gè)文本,而是看到一個(gè)字的文本就可以合成一個(gè)字,在此基礎(chǔ)上,百度挖掘到了獨(dú)特的應(yīng)用場(chǎng)景。他舉了一個(gè)例子,如詢問(wèn)天氣時(shí),用戶獲得了天氣的溫度區(qū)間就可以快速打斷問(wèn)下一個(gè)問(wèn)題,其好處就是大幅降低了模型的使用成本,而文本模型想要實(shí)現(xiàn)如此高效應(yīng)用就需要強(qiáng)大的硬件,但語(yǔ)音語(yǔ)言模型可以使用低成本的硬件就能實(shí)現(xiàn)高效并發(fā)。
與此同時(shí),從整個(gè)語(yǔ)音交互領(lǐng)域來(lái)看,大模型語(yǔ)音識(shí)別部分的準(zhǔn)確度已經(jīng)大幅提升,賈磊認(rèn)為更多在于速度、成本、回答準(zhǔn)確度的一種比拼,當(dāng)下成本降低,就是大規(guī)模使用跨模態(tài)語(yǔ)音交互的關(guān)鍵
賈磊說(shuō):“成本降低是技術(shù)進(jìn)步的必然方式?!?百度語(yǔ)音語(yǔ)言大模型的極低成本也就意味著大規(guī)模工業(yè)化的可能,AI落地應(yīng)用是2025大模型產(chǎn)業(yè)發(fā)展的核心,而該模型就是解決語(yǔ)音問(wèn)題的關(guān)鍵。
百度在語(yǔ)音識(shí)別領(lǐng)域的積累由來(lái)已久。
2018年,百度語(yǔ)音發(fā)布的Deep Peak 2模型突破了沿用十幾年的傳統(tǒng)模型,大幅提升各場(chǎng)景下識(shí)別準(zhǔn)確率。2019年初,百度語(yǔ)音技術(shù)團(tuán)隊(duì)公布在線語(yǔ)音領(lǐng)域全球首創(chuàng)的流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA, 相對(duì)準(zhǔn)確率提升15%。2021年,百度發(fā)布基于歷史信息抽象的流式截?cái)郼onformer建模技術(shù)——SMLTA2,解決了Transformer模型應(yīng)用于在線語(yǔ)音識(shí)別任務(wù)時(shí)面臨的問(wèn)題。
這些技術(shù)創(chuàng)新已經(jīng)應(yīng)用于汽車、消費(fèi)電子、手機(jī)等諸多領(lǐng)域。此次,為了推動(dòng)語(yǔ)音語(yǔ)言模型的規(guī)?;瘧?yīng)用,目前,百度已經(jīng)將其上線文小言并免費(fèi)開(kāi)放,并且計(jì)劃4月上線到開(kāi)放平臺(tái),后續(xù)將接入呼叫中心、音箱等業(yè)務(wù)線上
賈磊提到:“科學(xué)可能有國(guó)界,但沒(méi)有公司邊界?!焙罄m(xù),百度將端到端語(yǔ)音語(yǔ)言大模型開(kāi)放出來(lái),就是想推動(dòng)大語(yǔ)言模型在語(yǔ)音領(lǐng)域的應(yīng)用,有利于整個(gè)行業(yè)和生態(tài)的發(fā)展。
結(jié)語(yǔ):百度語(yǔ)音語(yǔ)言大模型出鞘,開(kāi)啟低本高效新篇
便捷高效、自然友好、廣泛應(yīng)用于多場(chǎng)景的語(yǔ)音交互在數(shù)字化時(shí)代地位至關(guān)重要,但從目前的實(shí)際效果來(lái)看,語(yǔ)音交互在識(shí)別的準(zhǔn)確度等方面已經(jīng)有了很大提升,現(xiàn)在業(yè)界的競(jìng)爭(zhēng)焦點(diǎn)集中于其識(shí)別的速度、成本以及回答的準(zhǔn)確度。
這樣的背景下,百度端到端語(yǔ)音語(yǔ)言大模型的發(fā)布進(jìn)一步突破了成本,且提出了全新技術(shù)路徑,將語(yǔ)音交互的行業(yè)競(jìng)爭(zhēng)推上了新的高度。與此同時(shí),百度將其上線到開(kāi)放平臺(tái),將加速大模型在語(yǔ)音交互場(chǎng)景的應(yīng)用與普及。
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
熱門(mén)跟貼