始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價格實惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。

在人工智能快速發(fā)展的當(dāng)下,多模態(tài)大模型尤其是語音交互類模型備受關(guān)注。然而,語音信息因包含語氣、環(huán)境音等復(fù)雜因素,使大模型“聽懂”語音成為難題。現(xiàn)有方法依賴大規(guī)模數(shù)據(jù)訓(xùn)練,且未充分解決語音與文本在表示空間和序列長度上的差異。

在此背景下,香港中文大學(xué)(深圳)聯(lián)合是石科技推出Soundwave語音理解大模型,針對上述問題采用三階段訓(xùn)練策略,以較少數(shù)據(jù)量實現(xiàn)高效訓(xùn)練,在語音翻譯、情緒識別等任務(wù)中表現(xiàn)優(yōu)異,在AIR-Bench測試超越眾多模型,未來將在多領(lǐng)域推動語音AI落地。目前已上線始智AI-wisemodel開源社區(qū),歡迎體驗。

打開網(wǎng)易新聞 查看精彩圖片

模型地址

https://wisemodel.cn/models/FreedomIntelligence/Soundwave

01.

語音大模型的發(fā)展困境

在自然語言處理(NLP)領(lǐng)域,大模型(LLMs)憑借強(qiáng)大的理解和推理能力,深刻改變著行業(yè)格局。與此同時,多模態(tài)大模型,尤其是以語音交互為核心的模型也異軍突起,展現(xiàn)出廣闊的發(fā)展前景。像GPT-4o將語音與大模型端到端結(jié)合,憑借高實時性和強(qiáng)表現(xiàn)力,吸引了眾多科研學(xué)者和用戶的目光。

不過,在實際的語音交流中,情況遠(yuǎn)比想象的復(fù)雜。語音交流不僅受表達(dá)內(nèi)容影響,語氣、停頓等副語言特征,以及環(huán)境音、說話人特征等背景因素,都會對意圖表達(dá)產(chǎn)生作用。

和文本相比,語音能傳遞更豐富的信息,但這也讓語音特征變得復(fù)雜多變。這就是為什么,即便現(xiàn)有大模型如ChatGPT、DeepSeek在文本理解上已接近人類水平,可讓它們“聽懂”語音仍是一大難題。

目前,提升語音大模型性能的常用方法是依賴大規(guī)模訓(xùn)練數(shù)據(jù),通常需要數(shù)十萬甚至百萬小時的數(shù)據(jù)量。雖然擴(kuò)大數(shù)據(jù)量和模型參數(shù)能在一定程度上解決問題,但文本和語音之間存在的核心問題卻未得到充分研究。

一方面,語音通過額外的語音編碼端建模,文本表示由大模型生成,兩者的表示空間不一致;另一方面,語音以幀為單位,大模型以子詞為單位建模,導(dǎo)致語音序列往往比文本序列長幾十倍。

打開網(wǎng)易新聞 查看精彩圖片

圖一:Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表現(xiàn)

02.

Soundwave模型的創(chuàng)新架構(gòu)

在這樣的背景下,香港中文大學(xué)(深圳)聯(lián)合是石科技帶來了驚喜——提出Soundwave模型。該模型創(chuàng)新性地解耦語音大模型的模態(tài)對齊訓(xùn)練,針對表示空間差異和長度差異這兩個關(guān)鍵問題,分別設(shè)計了解決方案和任務(wù)數(shù)據(jù)。令人驚嘆的是,它僅用10k小時的數(shù)據(jù),就展現(xiàn)出卓越的性能。

打開網(wǎng)易新聞 查看精彩圖片

圖二:Soundwave 的訓(xùn)練過程。其中灰色模塊被凍結(jié),橙色模塊被訓(xùn)練。

Soundwave的訓(xùn)練過程分為三個階段。在語音與文本對齊階段,為解決語音和文本表示空間的差異,模型設(shè)計了對齊適配器,它包含線性層與單層Transformer encoder層,能將音頻序列轉(zhuǎn)換到大模型可理解的表示空間,再借助CTC損失實現(xiàn)兩者對齊。

第二階段是語音特征壓縮,通過壓縮適配器動態(tài)調(diào)整語音序列長度,使其與文本匹配。具體做法是先依據(jù)CTC預(yù)測的峰值選擇語義特征,接著利用這些特征從原始序列中查詢收集輔助信息,最后融合兩類特征完成序列長度的縮減。

打開網(wǎng)易新聞 查看精彩圖片

圖三: 動態(tài)壓縮方法示例

最后是監(jiān)督微調(diào)階段,模型僅調(diào)整LoRA參數(shù),利用豐富的文本和語音指令數(shù)據(jù),通過多種問答格式、十余種語音任務(wù)以及多樣化指令格式進(jìn)行學(xué)習(xí),提升任務(wù)處理能力,增強(qiáng)指令遵循和語音理解能力。

此外,團(tuán)隊還采用基于溫度的采樣方法、數(shù)據(jù)標(biāo)注清洗及針對語音任務(wù)的Chain-of-Thought等策略,提高學(xué)習(xí)效率。

03.

顯著的實驗成果

在實驗環(huán)節(jié),Soundwave選用Whisper Large作為音頻編碼器,Llama-3.1-8B-Instruct作為基礎(chǔ)模型。實驗結(jié)果令人眼前一亮,在多個音頻任務(wù)中,Soundwave表現(xiàn)優(yōu)異。

在語音翻譯任務(wù)上,它超越了Qwen2-Audio;語音情緒識別任務(wù)中,也能精準(zhǔn)識別語音情感;面對Zero-shot任務(wù),比如訓(xùn)練過程中未見過的語言對翻譯,它同樣表現(xiàn)出色。

打開網(wǎng)易新聞 查看精彩圖片

表一:在基礎(chǔ)任務(wù)上的性能表現(xiàn),這些任務(wù)包括自動語音識別(ASR)、語音翻譯(ST)、語音情感識別(SER)、發(fā)聲分類(VSC)。其中*表示 zero-shot 任務(wù)。

打開網(wǎng)易新聞 查看精彩圖片

表二:不同語音大模型在 AIR-Bench 上的表現(xiàn)

打開網(wǎng)易新聞 查看精彩圖片

表三:不同語音大模型在 AIR-Bench Sound Foundation 任務(wù)中的表現(xiàn)

在AIR-Bench測試中,Soundwave在Speech Foundation任務(wù)平均得分75.5,超越其他模型;在Sound Foundation任務(wù)里,即便僅使用約244小時的Sound任務(wù)數(shù)據(jù),也僅次于使用10k小時數(shù)據(jù)的Qwen2-Audio ,并且其單編碼器架構(gòu)處理語音時效率更高。

打開網(wǎng)易新聞 查看精彩圖片

圖五:不同音頻特征壓縮方法下,(a)語音、文本特征相似度對比(b)訓(xùn)練速度對比

研究團(tuán)隊還進(jìn)行了對比實驗,結(jié)果顯示,帶有對齊適配器的Soundwave在語音和文本特征相似度上表現(xiàn)突出,訓(xùn)練速度幾乎是其他方法的三倍。在ASR任務(wù)中,壓縮適配器在2.5%的低壓縮率下,能保持穩(wěn)定性能,顯著加快推理速度,相比其他方法,首Token延遲(TTFT)提升明顯,且計算開銷幾乎不變。

此外,Soundwave的問答功能也十分強(qiáng)大,能精準(zhǔn)理解語音輸入,迅速生成合理答案,在多個領(lǐng)域都能提供高效、精準(zhǔn)的智能問答支持。

打開網(wǎng)易新聞 查看精彩圖片

04.

廣闊的應(yīng)用前景

Soundwave模型憑借創(chuàng)新的語音 - 文本對齊方案,打破了傳統(tǒng)語音大模型對大規(guī)模標(biāo)注數(shù)據(jù)的依賴。通過三階段訓(xùn)練策略,有效解決了語音與文本的表示空間差距和序列長度不一致問題,讓模型高效學(xué)習(xí)語音理解和對齊能力。

未來,Soundwave將持續(xù)優(yōu)化語音理解能力,在醫(yī)療、教育、智能交互等領(lǐng)域有著廣泛的應(yīng)用前景,有望推動語音AI在更多場景落地。

----- END -----

wisemodel相關(guān):

系統(tǒng)升級:

大賽報名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團(tuán)隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看