大數(shù)據(jù)文摘出品
昨天,kim發(fā)布了一款 “萬(wàn)能型”音頻大模型—Kimi-Audio, 支持語(yǔ)音識(shí)別(ASR)、音頻問(wèn)答(AQA)、音頻字幕(AAC)、語(yǔ)音情感識(shí)別(SER)、聲音事件/場(chǎng)景分類(lèi)(SEC/ASC)、文本到語(yǔ)音(TTS)、語(yǔ)音轉(zhuǎn)換(VC)和端到端語(yǔ)音對(duì)話。
換句話說(shuō),它可以聽(tīng)、可以說(shuō)、可以理解、可以對(duì)話,支持實(shí)時(shí)語(yǔ)音會(huì)話,多輪交流。

一套架構(gòu),橫掃音頻全場(chǎng)景,開(kāi)源可用。
從學(xué)術(shù)和工業(yè)角度,我認(rèn)為有兩點(diǎn)貢獻(xiàn):
1.模型架構(gòu)和預(yù)訓(xùn)練規(guī)??涨?/strong>——13萬(wàn)小時(shí)級(jí)別的音頻數(shù)據(jù)+大語(yǔ)言模型初始化,音頻和文本信號(hào)雙線處理,架構(gòu)極其“融合”。
2.全鏈路開(kāi)放+評(píng)測(cè)工具包——所有代碼、模型參數(shù)、評(píng)測(cè)工具全部開(kāi)源,直接對(duì)社區(qū)開(kāi)放,標(biāo)準(zhǔn)化評(píng)測(cè)徹底解決“無(wú)法復(fù)現(xiàn)”的老大難問(wèn)題。
01 模型架構(gòu):語(yǔ)音世界的“大一統(tǒng)”

圖注:Kimi-Audio技術(shù)架構(gòu)
Kimi-Audio的核心架構(gòu)其實(shí)就三大塊:音頻分詞器(Tokenizer)、音頻大模型(Audio LLM)以及音頻反分詞器(Detokenizer)。
就像把一句話切成一個(gè)個(gè)字,音頻分詞器把聲音變成一串“音頻詞”。Kimi用的是12.5Hz采樣率(就是每秒拆12.5個(gè)“詞”),既有“離散語(yǔ)義詞”(理解內(nèi)容),又有“連續(xù)聲學(xué)特征”(保留音色、情感等細(xì)節(jié))。
說(shuō)白了,就是既能知道你說(shuō)了啥,還能盡量還原你怎么說(shuō)的。
音頻大模型的核心是一個(gè)“多模態(tài)大腦”,一邊能處理“音頻詞”,一邊能處理文本詞;底層結(jié)構(gòu)和流行的大模型(transformer那一套)一樣,但上面分兩頭:一頭專門(mén)“寫(xiě)字”輸出文本,一頭專門(mén)“說(shuō)話”輸出音頻。這個(gè)模型底子其實(shí)是個(gè)現(xiàn)成的文本大模型(Qwen2.5 7B),直接“嫁接”了音頻輸入輸出的能力,兼容性強(qiáng),省了很多訓(xùn)練資源。
音頻反分詞器就是把模型輸出的“音頻詞”重新拼成聲音?!胺謮K+流式”方案,就是把長(zhǎng)音頻切成一小塊一小塊,每塊單獨(dú)快速合成,然后拼起來(lái),減少延遲,體驗(yàn)更絲滑。還做了“l(fā)ook-ahead”機(jī)制,就是每塊合成時(shí)偷偷看一點(diǎn)后面的內(nèi)容,讓拼接更自然,不斷句。
02 數(shù)據(jù)管線:1300萬(wàn)+小時(shí)音頻,流水線級(jí)別的數(shù)據(jù)清洗

圖注:數(shù)據(jù)處理流程圖
Kimi-Audio這波,采用的預(yù)訓(xùn)練音頻數(shù)據(jù)高達(dá)1300萬(wàn)+小時(shí),涵蓋語(yǔ)音、音樂(lè)、環(huán)境聲,各種應(yīng)用場(chǎng)景全覆蓋。
那這么多音頻怎么處理?報(bào)告中說(shuō),Kimi團(tuán)隊(duì)搞了個(gè)自動(dòng)化大流水線,從原始音頻到高質(zhì)量“帶標(biāo)注”的數(shù)據(jù),大致分幾步:
語(yǔ)音增強(qiáng):先用AI降噪,把環(huán)境雜音、回聲處理掉。但為了不丟失真實(shí)世界的多樣性,訓(xùn)練時(shí)一半用原聲,一半用降噪后的。
說(shuō)話人分割(Diarization):用PyAnnote工具給每段音頻“數(shù)人頭”,誰(shuí)說(shuō)了哪段切清楚。還專門(mén)寫(xiě)了合并/細(xì)分/優(yōu)化的后處理流程,確保每個(gè)說(shuō)話段準(zhǔn)確且長(zhǎng)度合理。
轉(zhuǎn)寫(xiě)+打標(biāo):用Whisper大模型自動(dòng)識(shí)別英文,用FunASR的Paraformer-Zh識(shí)別中文,還根據(jù)時(shí)間戳智能加標(biāo)點(diǎn),保證后續(xù)訓(xùn)練能用。
據(jù)說(shuō),除了公開(kāi)數(shù)據(jù),還加了自家ASR數(shù)據(jù),音頻理解/問(wèn)答數(shù)據(jù)。

03 訓(xùn)練方式:任務(wù)多、策略細(xì),兼容音頻和文本智能

圖注:預(yù)訓(xùn)練任務(wù)列表
Kimi-Audio的訓(xùn)練分兩步:萬(wàn)能預(yù)訓(xùn)練→精細(xì)指令微調(diào)。
萬(wàn)能預(yù)訓(xùn)練采用音頻+文本混合學(xué),一邊學(xué)“純文本”(用MoonLight數(shù)據(jù)),一邊學(xué)“純音頻”,再加上“音頻對(duì)文本”“文本對(duì)音頻”的互轉(zhuǎn)任務(wù),最后還有“音頻-文本交錯(cuò)混合”的難度提升;
精細(xì)指令微調(diào)中任務(wù)全靠“自然語(yǔ)言指令”分流,不用人為切換,直接靠“你說(shuō)什么任務(wù),我就做什么”,且每種任務(wù)都生成多種隨機(jī)指令,訓(xùn)練時(shí)反復(fù)調(diào)換,模型抗干擾強(qiáng)。
04 各項(xiàng)指標(biāo)“遙遙領(lǐng)先”

Kimi-Audio與以往音頻語(yǔ)言模型在各類(lèi)基準(zhǔn)測(cè)試上的表現(xiàn)對(duì)比
語(yǔ)音識(shí)別方面,LibriSpeech英文測(cè)試集,Kimi-Audio的錯(cuò)誤率(WER)只有1.28%,比Qwen2.5-Omni的2.37%還低一截。AISHELL-1中文:WER 0.60%,比上一代模型低一半。此外多場(chǎng)景、多語(yǔ)種、多環(huán)境,Kimi-Audio基本都是榜首。
音頻理解方面,Kimi-Audio在MMAU、MELD、VocalSound、TUT2017等公開(kāi)集上,分?jǐn)?shù)都是最高。比如MMAU的“聲音理解”類(lèi),Kimi-Audio得分73.27,超過(guò)其它競(jìng)品。
音頻對(duì)話&音頻聊天方面,VoiceBench的多項(xiàng)任務(wù),Kimi-Audio都是第一,平均得分76.93。
語(yǔ)音對(duì)話表達(dá)方面,采用人類(lèi)主觀打分,在速度控制、情感表達(dá)、同理心等多個(gè)維度,Kimi-Audio都能做到接近GPT-4o的效果,平均得分3.9(滿分5分)

Kimi-Audio中用于實(shí)時(shí)語(yǔ)音到語(yǔ)音對(duì)話的生產(chǎn)部署工作流程
05 one more thing
官方也坦誠(chéng)地提到,當(dāng)前Kimi-Audio音頻大模型還存在三大挑戰(zhàn):
一是“轉(zhuǎn)錄”信息有限,描述性理解還需加強(qiáng),現(xiàn)在模型對(duì)音頻的理解,大多還停留在“你說(shuō)了什么”(轉(zhuǎn)寫(xiě)),但很多聲音里“怎么說(shuō)、什么情緒、什么場(chǎng)景”更重要。
二是音頻“語(yǔ)義+細(xì)節(jié)”融合的表示還不夠完美:純語(yǔ)義Token容易丟細(xì)節(jié),純聲學(xué)Token又缺理解,如何把“內(nèi)容”和“感覺(jué)”都融在一套表達(dá)里,是下一個(gè)技術(shù)突破點(diǎn)。
三是無(wú)法擺脫ASR/TTS依賴:目前大部分音頻大模型,底層還是靠ASR(語(yǔ)音識(shí)別)和TTS(語(yǔ)音合成)撐著,實(shí)際上就是在拼裝已有的技術(shù)。
論文地址:
github.com/MoonshotAI/Kimi-Audio/blob/master/assets/kimia_report.pdf
模型地址:
huggingface.co/moonshotai/Kimi-Audio-7B-Instruct
repo地址:
github.com/MoonshotAI/Kimi-Audio
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!
掃碼了解詳情?

熱門(mén)跟貼