国产97精品一区二区,www欧美乱,亚洲精品熟女五十路在线,亚洲系列日韩专区中文字幕,亚洲国产欧美日产

作者 | 程茜
編輯 | 漠影

語音交互又被玩出新花樣？！

智東西4月2日報道，本周一，百度發(fā)布業(yè)界首個基于全新互相關(guān)注意力（Cross-Attention）的端到端語音語言大模型，已首發(fā)上線文小言，可免費體驗。

用幾個關(guān)鍵詞概括新升級的文小言就是：語音交互超逼真、超低時延、超低成本

超逼真指的是，搭載語音語言大模型的文小言，既能聽得懂重慶、廣西、河南、廣東、山東等特色方言，還能實現(xiàn)情感飽滿對話；超低時延是其對話中可將用戶等待時長從行業(yè)常見的3-5秒降低至1秒左右，幾乎與真人對話無異；超低成本指在電話語音頻道的語音問答場景中，調(diào)用成本較行業(yè)均值下降約50%-90%。

百度語音首席架構(gòu)師賈磊透露，該模型可以部署到L20卡上，在滿足語音交互延遲要求的情況下，雙L20卡的并發(fā)可以做到幾百以上。目前，語音語言大模型的訓(xùn)練流程便捷，基本上基于文心大模型幾百片卡優(yōu)化一周就可以實現(xiàn)，且本身的優(yōu)化工作也并不復(fù)雜。

相比于大模型在語音交互場景的應(yīng)用，這一語音語言大模型的獨特之處是什么？又是如何做到最高降低達到90%的調(diào)用成本？其背后的創(chuàng)新點該如何解讀？智東西與百度語音首席架構(gòu)師賈磊進行了深入交流，試圖找到這些問題的答案。

一、真人對話體驗，升級版文小言語音交互更絲滑

大模型在語音交互場景的發(fā)展，正朝著更自然、低延遲、高擬真的語音交互體驗演進。而這一更為擬人化的交互體驗，我們在新升級的文小言上窺到了雛形，搭載了端到端語音語言大模型的文小言，已經(jīng)化身情感陪伴、全能助手。

首先，文小言已經(jīng)集成了包含天氣查詢、日歷查詢、單位換算、股票股價等信息查詢的38個垂類助手，可以看出這些特殊場景下，語音交互的效率要遠高于文本交互。

其次，文小言對于時效性和非時效性問題均能應(yīng)對，百科查詢、時政知識類時效性問答內(nèi)容，文小言可以進行實時檢索，并做到精準的指令跟隨，降低幻覺；常識問答等非時效性問題也不在話下。

最后，也是語音交互與文本最大的區(qū)別所在，文小言可以與用戶進行情感自然充沛的交流，并能做到快速響應(yīng)反饋，實現(xiàn)逼真擬人的交互效果。

話不多說，來看看文小言的實際效果。

語音識別的一大難點莫過于方言識別。方言的發(fā)音特點豐富多樣，同一方言在不同地區(qū)可能存在發(fā)音差異，甚至同一個字在不同語境下發(fā)音也有所不同。這使得語音識別系統(tǒng)難以準確捕捉和解析所有的發(fā)音變體，增加了識別的難度。當(dāng)下的文小言，已經(jīng)可以應(yīng)對重慶、廣西、河南、廣東、山東各地特色方言，其不僅聽得懂，還能使用對應(yīng)的方言進行回復(fù)。

語音交流還有一大特點就是需要多輪交互，例如下面的例子中，文小言既從成年、幼年不同維度給出了分辨虎皮鸚鵡的方法，還在用戶打斷提出新問題時，及時給予正確的反饋。

即使回復(fù)中包含分辨虎皮鸚鵡性別、需要從某一固定特征辨別等諸多要素，文小言也給出了簡明扼要的答案，并且在最后還提醒用戶可以邊觀察邊記錄。

此外，人機交互往往伴隨著中途打斷的情況，如用戶獲得了自己想要的核心信息或者對其目前輸出的內(nèi)容不滿意等等，當(dāng)用戶打斷語音播放進行輸入時，語音識別系統(tǒng)可能會因為環(huán)境噪音、用戶發(fā)音不清晰或與之前的語音內(nèi)容混淆等原因，出現(xiàn)誤識別的情況。

在面對小朋友多次打斷的情況下，文小言可以準確識別出其“換一個故事”的需求，并且當(dāng)小朋友說出“媽媽已經(jīng)講過”時，并不是機械選擇更換故事，而是適時給出有情感的回復(fù)，營造出自然對話的氛圍。

文小言這一情感飽滿的交互形式，也使得其在知識問答等助手場景下，向著陪伴場景下的應(yīng)用外延。當(dāng)用戶提到“我的心情有點不好”，文小言的語音帶有擔(dān)心等，并引導(dǎo)用戶說出自己心情不好的原因，進一步進行開導(dǎo)。

二、全新互相關(guān)注意力，打造極低訓(xùn)推成本優(yōu)勢

不同于語言模型，語音語言大模型的核心差異點就是可以產(chǎn)生情感。

賈磊談道，文本大模型只產(chǎn)生文字，而語音語言大模型可以有情感，其關(guān)鍵就是語音語言大模型架構(gòu)圖中的兩個特殊環(huán)節(jié)，TN韻律和人設(shè)、風(fēng)格情感控制，這是為語音合成而準備，可以讓大模型在生成答案的同時擁有適配內(nèi)容的情感，這也是百度此次端到端語音語音大模型的關(guān)鍵創(chuàng)新點所在。

具體來看，其關(guān)鍵創(chuàng)新點有4個。

首先，這是百度發(fā)布的業(yè)界首個基于Cross-Attention跨模態(tài)的語音語言大模型；其二是該模型將Encoder和語音識別結(jié)合，使得KV計算節(jié)省到1/10；第三是Encoder和語音合成結(jié)合，輸出內(nèi)容可進行情感控制；最后是高效的全查詢注意力EALLQA，使得KV cache降低到幾十分之一。

在此基礎(chǔ)上，該模型實現(xiàn)了識別文本一體化、文本合成一體化，這些相互耦合的技術(shù)在系統(tǒng)性端到端打通之上，使得模型在快速問答、快速理解的基礎(chǔ)上，能實現(xiàn)自然、逼真、情感豐富的交互體驗。

賈磊解釋說，聲學(xué)模型也是語音模型，只是通常大語言模型都是文字連接。因此在整合語音識別和大語言模型的過程中，研究人員將大語言模型中的Encoder和語音識別的過程融合共享，達到降低語音交互硬延遲的目的，其創(chuàng)新性引入跨模態(tài)建模，從Self-Attention切換到Cross-Attention，完成了語音識別和大語言模型的融合。

百度提出用Cross-Attention來解決語音、語言跨模態(tài)的難題。這一過程中，由于現(xiàn)存Attention技術(shù)在Cross-Attention的語音語言建模中存在速度方面的局限性，百度研發(fā)了適合Cross-Attention的EALLQA技術(shù)，采用隱式RNN兩級位置編碼，訓(xùn)練時在128空間上的MHA，推理在模型各層共享的512空間上的MQA，以達到充分利用有限訓(xùn)練資源，降低推理成本的目的

模型基礎(chǔ)訓(xùn)練中，百度基于Self-Attention的成熟的文心語言的預(yù)訓(xùn)練模型，采用自蒸餾方式進行post-train來訓(xùn)練Cross-Attention端到端語音語言大模型。

事實上，在語音模型中，KV cache和KV計算的壓力遠大于文本模型。賈磊解釋說，語音識別相對于文本大模型的本質(zhì)差異就是，句首第一個token決定了語音識別的延遲。對于文本大模型，其可以在用戶輸入一段文字后等待2～3秒鐘給出答案，而語音語言大模型中，用戶對于回復(fù)延遲的可容忍度更低，他們希望在0.5～1秒內(nèi)聽到答案。

在此基礎(chǔ)上，端到端語音語言大模型實現(xiàn)了低成本訓(xùn)練、低成本高速推理。除此以外，語音語言大模型還需要快速響應(yīng)、有情感的回應(yīng)，這就是其另一項關(guān)鍵技術(shù)發(fā)力的場景——流式逐字的LLM驅(qū)動的多情感語音合成。賈磊談道，多輪有情感地持續(xù)溝通才能讓人有欲望繼續(xù)交流。

基于流式逐字的方式，其語音合成是看到一個字蹦一個字，大模型可以幫助語音合成輸出其需要的文本歸一化輸出、韻律停頓輸出、情感輸出，使得語音合成的過程像人說話時一樣流動起來，其根據(jù)文本輸出自適配的情感覆蓋可達17種。

此外，語音識別中還有一大痛點是，其無法判斷用戶說話的起點和終點，而大模型加持可以使其基于語義分析用戶說的話是否已經(jīng)結(jié)束，語義不完整需繼續(xù)等待。

賈磊進一步解釋道，語音場景被激活需要極交互成本、極快交付速度、聰明富有情感的人性化的問答。百度將語音識別和大模型一體化，解決了預(yù)存預(yù)取、猶豫、內(nèi)容理解和快速問答的問題，將文本合成一體化與大模型融合，輸出語音和中所需的韻律情感，解決了合成中的上下文理解和情感控制問題。這就使得語音場景的應(yīng)用潛力大幅提升。

三、直擊語音交互難點，百度端到端語音語言大模型放大招

大模型不斷優(yōu)化在語音的穩(wěn)健性、自然度和說話人相似度方面顯著提升，但此前的技術(shù)路徑仍有許多痛點，這也是百度聚焦于端到端語音語言大模型的原因。

相比于人和人之間的交流，大語言模型響應(yīng)速度慢，用戶需要等待一段時間才能得到回復(fù)。此外，語音交流往往伴隨著多輪對話交互，而模型完成口語化多輪交互的難度極大，且相比于文本，用戶使用語音交互的場景更多，其交互量激增會導(dǎo)致大模型應(yīng)用成本上升，大規(guī)模應(yīng)用普及的難度也會隨之增高。

而在傳統(tǒng)語音交互路線上，又會受限于上下文記憶、噪音場合、猶豫發(fā)問和打斷之間的準確響應(yīng)。

因此這成為語音交互領(lǐng)域的一個核心矛盾點，語音交互的便捷性決定了其有大規(guī)模應(yīng)用的潛力，而這些痛點又正在阻礙其普及。賈磊認為，語音和文本兩個跨模態(tài)之間相互關(guān)聯(lián)的化學(xué)反應(yīng)，就是未來大模型在特定領(lǐng)域找到突破口的關(guān)鍵

語音語言模型的出現(xiàn)是質(zhì)變，其創(chuàng)新合成技術(shù)使得模型不需要看到一句話的整個文本，而是看到一個字的文本就可以合成一個字，在此基礎(chǔ)上，百度挖掘到了獨特的應(yīng)用場景。他舉了一個例子，如詢問天氣時，用戶獲得了天氣的溫度區(qū)間就可以快速打斷問下一個問題，其好處就是大幅降低了模型的使用成本，而文本模型想要實現(xiàn)如此高效應(yīng)用就需要強大的硬件，但語音語言模型可以使用低成本的硬件就能實現(xiàn)高效并發(fā)。

與此同時，從整個語音交互領(lǐng)域來看，大模型語音識別部分的準確度已經(jīng)大幅提升，賈磊認為更多在于速度、成本、回答準確度的一種比拼，當(dāng)下成本降低，就是大規(guī)模使用跨模態(tài)語音交互的關(guān)鍵

賈磊說：“成本降低是技術(shù)進步的必然方式。” 百度語音語言大模型的極低成本也就意味著大規(guī)模工業(yè)化的可能，AI落地應(yīng)用是2025大模型產(chǎn)業(yè)發(fā)展的核心，而該模型就是解決語音問題的關(guān)鍵。

百度在語音識別領(lǐng)域的積累由來已久。

2018年，百度語音發(fā)布的Deep Peak 2模型突破了沿用十幾年的傳統(tǒng)模型，大幅提升各場景下識別準確率。2019年初，百度語音技術(shù)團隊公布在線語音領(lǐng)域全球首創(chuàng)的流式多級的截斷注意力模型SMLTA, 相對準確率提升15%。2021年，百度發(fā)布基于歷史信息抽象的流式截斷conformer建模技術(shù)——SMLTA2，解決了Transformer模型應(yīng)用于在線語音識別任務(wù)時面臨的問題。

這些技術(shù)創(chuàng)新已經(jīng)應(yīng)用于汽車、消費電子、手機等諸多領(lǐng)域。此次，為了推動語音語言模型的規(guī)模化應(yīng)用，目前，百度已經(jīng)將其上線文小言并免費開放，并且計劃4月上線到開放平臺，后續(xù)將接入呼叫中心、音箱等業(yè)務(wù)線上

賈磊提到：“科學(xué)可能有國界，但沒有公司邊界。”后續(xù)，百度將端到端語音語言大模型開放出來，就是想推動大語言模型在語音領(lǐng)域的應(yīng)用，有利于整個行業(yè)和生態(tài)的發(fā)展。

結(jié)語：百度語音語言大模型出鞘，開啟低本高效新篇

便捷高效、自然友好、廣泛應(yīng)用于多場景的語音交互在數(shù)字化時代地位至關(guān)重要，但從目前的實際效果來看，語音交互在識別的準確度等方面已經(jīng)有了很大提升，現(xiàn)在業(yè)界的競爭焦點集中于其識別的速度、成本以及回答的準確度。

這樣的背景下，百度端到端語音語言大模型的發(fā)布進一步突破了成本，且提出了全新技術(shù)路徑，將語音交互的行業(yè)競爭推上了新的高度。與此同時，百度將其上線到開放平臺，將加速大模型在語音交互場景的應(yīng)用與普及。

本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容，未經(jīng)賬號授權(quán)，禁止隨意轉(zhuǎn)載。