魚羊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
沒想到,文小言接入推理模型的大更新背后,百度還藏了一手“質(zhì)變”級(jí)技術(shù)大招???

士別三日,文小言不僅能講重慶話了,還是成了哄娃的一把好手,被花式打斷照樣應(yīng)對(duì)如流。
實(shí)測(cè)下來,Demo不虛。這個(gè)全新語音對(duì)話功能,確實(shí)更有人味兒了,還是能緊貼當(dāng)下實(shí)事的那種——
只是讓Ta推薦周末放松去處,Ta自己就能主動(dòng)結(jié)合當(dāng)前4、5月份的現(xiàn)實(shí)時(shí)間,給出更加合理的建議。
劃重點(diǎn),這是免費(fèi)的。現(xiàn)在你也一樣可以打開手機(jī)里的文小言,直接體驗(yàn)這一全新升級(jí)的實(shí)時(shí)語音對(duì)話功能。
但!是!
如果單說語音體驗(yàn),那還真不是這個(gè)“大招”的重點(diǎn)。關(guān)鍵是,這回百度還透露了更多技術(shù)細(xì)節(jié)。
我們仔細(xì)一看,還真是有意思了。

首先,上來就是一個(gè)行業(yè)首創(chuàng):以上實(shí)時(shí)語音對(duì)話效果,由百度全新推出的端到端語音語言大模型實(shí)現(xiàn),這是行業(yè)首個(gè)基于Cross-Attention的跨模態(tài)語音語言大模型。
有何不同?站在用戶體驗(yàn)的角度來說,就是語音合成延遲更低,對(duì)話更真實(shí)有情感。
而更重要的一點(diǎn)是,這么個(gè)新模上線,文小言在語音問答場(chǎng)景中的調(diào)用成本,最高能降低90%!直接打掉了工業(yè)級(jí)落地的門檻。
(再也不怕模型廠流量大到掛我服務(wù).jpg)
我們注意到,百度語音首席架構(gòu)師賈磊,其實(shí)用到了“質(zhì)變”這個(gè)詞:
- 百度端到端語音語言大模型是有質(zhì)變的,不是單純把文本大模型用到語音領(lǐng)域。
- 語音場(chǎng)景有其獨(dú)特之處。此前,大家沒有充分挖掘這個(gè)應(yīng)用場(chǎng)景的不同,還是按照把文本大模型用到語音場(chǎng)景的路線,把速度加快一下,工程優(yōu)化一下。
- 我們的創(chuàng)新架構(gòu),讓大模型在語音場(chǎng)景中的應(yīng)用實(shí)現(xiàn)了極低成本,更有利于大模型普及。
就是說,這一次語音技術(shù)的更新,不僅僅是工程上的技巧,百度正在通過技術(shù)創(chuàng)新,打通大模型落地語音場(chǎng)景的工業(yè)級(jí)應(yīng)用新范式。
行業(yè)首個(gè)基于Cross-Attention的端到端語音語言模型
話說到這了,咱們就來一起仔細(xì)扒一扒背后技術(shù)方案,看看究竟是怎么一回事。
先給大家劃個(gè)重點(diǎn):
熟悉大模型的小伙伴都知道,KV cache能夠加速自回歸推理,但其在存儲(chǔ)和訪問上的開銷,也會(huì)隨著序列長(zhǎng)度和模型規(guī)模增大而爆炸式增長(zhǎng)。
因此在保證模型性能的前提下,降低KV cache,對(duì)于大模型應(yīng)用來說,是提升推理效率、降低成本的一大關(guān)鍵。
百度此次推出的基于Cross-Attention的端到端語音語言模型,重點(diǎn)就在于此。
具體來說,百度做了以下創(chuàng)新:
- 業(yè)內(nèi)首創(chuàng)的基于Cross-Attention的跨模態(tài)語音語言大模型
- Encoder和語音識(shí)別過程融合,降低KV計(jì)算
- Decoder和語音合成模型融合
- 創(chuàng)新提出基于Cross-Attention的高效全查詢注意力技術(shù)(EALLQA),降低KV cache
我們一項(xiàng)一項(xiàng)展開來看。
基于Cross-Attention的跨模態(tài)語音語言大模型
整體上,這個(gè)端到端語音語言大模型是基于Self-Attention的文心預(yù)訓(xùn)練大模型,采用自蒸餾的方式進(jìn)行后訓(xùn)練得到。訓(xùn)練數(shù)據(jù)為文本和語音合成數(shù)據(jù)的混合。整個(gè)模型采用MoE結(jié)構(gòu)。
關(guān)鍵點(diǎn)在于,在端到端語音識(shí)別中,聲學(xué)模型也是語言模型,因此在整合語音識(shí)別和大語言模型的過程中,能夠通過將大語言模型中的Encoder和語音識(shí)別的過程融合共享,達(dá)到降低語音交互硬延遲的目的。
而在語音領(lǐng)域,Cross-Attention天然具有跨模態(tài)優(yōu)勢(shì):Decoder會(huì)顯式地將Encoder輸出納入注意力計(jì)算,使得Decoder在每一個(gè)解碼步驟都能動(dòng)態(tài)訪問最相關(guān)的輸入向量,從而充分地對(duì)齊和利用跨模態(tài)信息。

基于Cross-Attention的高效全查詢注意力技術(shù)(EALLQA)
不過,Cross-Attention的引入帶來了另一個(gè)問題:MLA的位置編碼技術(shù),在Cross-Attention中容易出現(xiàn)不穩(wěn)定的現(xiàn)象。
為此,百度語音團(tuán)隊(duì)提出了高效全查詢注意力技術(shù)(EALLQA):
采用創(chuàng)新的隱式RNN兩級(jí)位置編碼,訓(xùn)練時(shí)是在128空間上的MHA,推理時(shí)是在模型各層共享的512空間上的MQA(AllQA)。既充分利用了有限的訓(xùn)練資源,也極大地降低了推理成本。

從具體效果上來說,EALLQA技術(shù)能使KV cache降至原來的幾十分之一,并將Cross-Attention的最近上一個(gè)問題的KV計(jì)算降至原來的十分之一,極大降低了語音交互時(shí)用戶的等待時(shí)間和模型推理成本。

降低成本的另一個(gè)關(guān)鍵,則是Encoder和語音識(shí)別系統(tǒng)的融合:對(duì)Query理解的模型較小,能極大減少KV計(jì)算。
流式逐字的LLM驅(qū)動(dòng)的多情感語音合成
訓(xùn)練、推理成本的降低之外,端到端語音語言大模型還通過語音模型和語言模型的融合,實(shí)現(xiàn)了文體恰當(dāng)、情感契合、自然流暢的合成音頻的生成。

一方面,研發(fā)團(tuán)隊(duì)通過大規(guī)模文本-語音數(shù)據(jù)自監(jiān)督預(yù)訓(xùn)練,構(gòu)建語義+韻律的離散化特征空間,通過雙層GPT-like Transformer,實(shí)現(xiàn)了韻律、音色雙Prompt控制機(jī)制。
另一方面,在此基礎(chǔ)之上,研發(fā)團(tuán)隊(duì)推出了語音語言大模型與合成一體化流式逐字合成。
有別于傳統(tǒng)語音合成的整句輸出,流式逐字相當(dāng)于一個(gè)字一個(gè)字地合成。在這個(gè)過程中,語言大模型能夠指導(dǎo)語音模型去生成情感、停頓,識(shí)別多音字等等,實(shí)現(xiàn)更為擬人、自然的語音合成效果。
需要注意的是,人耳接收信息實(shí)際上是一個(gè)字一個(gè)字地接收,但對(duì)于AI而言,如果1個(gè)token接1個(gè)token的輸出,就需要解決并發(fā)的問題,以使MoE架構(gòu)最大程度發(fā)揮作用。
流式逐字合成要解決的核心問題,就是在適配人聽力的基礎(chǔ)上,實(shí)現(xiàn)高并發(fā)。
通過引入流式逐字合成,百度端到端語音語言大模型有效提升了語音交互的響應(yīng)速度,同時(shí)降低了語音交互領(lǐng)域使用大模型成本。與大模型融合的TTS文體風(fēng)格情緒控制,還可以根據(jù)文本輸出自適配的情況,情感覆蓋達(dá)到17種。

簡(jiǎn)單總結(jié)一下,百度的端到端語音語言大模型,一方面是重點(diǎn)解決了大模型應(yīng)用于語音交互場(chǎng)景成本高、速度慢的問題。
另一方面,大語言模型帶來的語義理解等能力,也解決了傳統(tǒng)語音交互中,同音字識(shí)別、打斷、真實(shí)情感等痛點(diǎn)。
賈磊透露,目前,整個(gè)端到端語音語言大模型在L20卡上即可部署,在滿足語音交互硬延遲要求的情況下,雙L20卡并發(fā)可以做到數(shù)百以上。
極低成本是關(guān)鍵
說了這么多,最主要的關(guān)鍵詞其實(shí)就是:低成本。
在與賈磊的進(jìn)一步交流中,他向我們強(qiáng)調(diào)了降低成本的重要性:
- 極低成本就意味著大規(guī)模工業(yè)化變得非常容易。
- 2025年,大模型的核心并不在于展示什么新功能,而是能以多快速度真正應(yīng)用到國(guó)計(jì)民生中去。
在不考慮計(jì)算資源的情況下,實(shí)時(shí)語音交互有其他路徑可以實(shí)現(xiàn),但“我們今天是第一個(gè)做到跨模態(tài)端到端極低成本解決語音問題的”。

賈磊還表示,希望語音領(lǐng)域的這一突破創(chuàng)新能被行業(yè)更多地關(guān)注到。
- 我們想要把核心技術(shù)分享出去,告訴大家我們是怎么做的,以此推動(dòng)整個(gè)領(lǐng)域的爆發(fā)。
事實(shí)上,不僅是百度,在包含語音的大模型能力對(duì)外輸出上,國(guó)內(nèi)外廠商都將價(jià)格視作突破口。
OpenAI就專門從性價(jià)比出發(fā),推出了GPT-4o mini audio,希望以更低廉的價(jià)格打入語音應(yīng)用市場(chǎng)。
2025年,基礎(chǔ)模型方面,模型廠商在推理模型上爭(zhēng)相競(jìng)逐,而其帶來的最直接的影響之一,是人們對(duì)于大模型應(yīng)用加速爆發(fā)預(yù)期的持續(xù)升溫。在這個(gè)過程中,我們可以看到,站在模型廠商的角度,更多的模型在被開源,更多的服務(wù)在免費(fèi)開放,用戶認(rèn)知、關(guān)注的爭(zhēng)奪之中,成本本身正在變得更加敏感。
更不用提成本即是大規(guī)模應(yīng)用的關(guān)鍵:不僅是在模型廠商們的APP上,還要進(jìn)一步走進(jìn)手機(jī)、汽車……
正如DeepSeek在基礎(chǔ)模型領(lǐng)域攪動(dòng)池水,現(xiàn)在,百度也在語音領(lǐng)域邁出關(guān)鍵一步。
成本,正在成為當(dāng)前階段模型廠商獲得主動(dòng)權(quán)的重要突破口。
One More Thing
從文小言的語音交互架構(gòu)圖中還可以看到,它像是個(gè)語音版百度搜索。

正如文章開篇我們體驗(yàn)到的,文小言能結(jié)合當(dāng)前的季節(jié)對(duì)用戶問題給出更合理的回答。實(shí)際上,在語音功能中,文小言已經(jīng)支持多垂類助手能力,包括天氣、日歷查詢、單位換算、股價(jià)股票等信息查詢內(nèi)容,共計(jì)38個(gè)垂類。
還支持DeepQA RAG問答,包含百度查詢等時(shí)效性問答內(nèi)容,能結(jié)合檢索結(jié)果,做到更精準(zhǔn)的指令跟隨;支持DeepQA非RAG問答,包含常識(shí)問答等非時(shí)效性問答內(nèi)容。
“有問題,問小言”的這個(gè)“問”字,確實(shí)是越來越接近人類原本的交互習(xí)慣了。
這實(shí)際也是產(chǎn)業(yè)趨勢(shì)的一種映射——
之前都是大模型技術(shù)探索,需要不斷適配才能落地產(chǎn)品、形成應(yīng)用,最后被用戶感知。
現(xiàn)在這是大模型技術(shù)和產(chǎn)品應(yīng)用,幾乎在同時(shí)對(duì)齊,技術(shù)推進(jìn)的時(shí)候就瞄準(zhǔn)了應(yīng)用場(chǎng)景,應(yīng)用場(chǎng)景也能催生更適合的技術(shù),不是錘子找釘子,而是錘子釘子同時(shí)對(duì)齊。
大模型依然是AI世界的核心,但天下卻正在變成應(yīng)用為王的天下。
百度,或者說中國(guó)AI玩家,開始找到自己的節(jié)奏了。
— 完 —
熱門跟貼