打開網(wǎng)易新聞 查看精彩圖片

機(jī)器之心報道

編輯:Sia、楊文

六邊形戰(zhàn)士來了。

今天,kimi 又發(fā)布了新的開源項目 —— 一個全新的通用音頻基礎(chǔ)模型 Kimi-Audio,支持語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等多種任務(wù),在十多個音頻基準(zhǔn)測試中實現(xiàn)了最先進(jìn)的 (SOTA) 性能。

結(jié)果顯示,Kimi-Audio 總體性能排名第一,幾乎沒有明顯短板。

例如在 LibriSpeech ASR 測試上,Kimi-Audio 的 WER 僅 1.28%,顯著優(yōu)于其他模型。VocalSound 測試上,Kimi 達(dá) 94.85%,接近滿分 。MMAU 任務(wù)中,Kimi-Audio 摘得兩項最高分;VoiceBench 設(shè)計評測對話助手的語音理解能力,Kimi-Audio 在所有子任務(wù)中得分最高,包括一項滿分。

打開網(wǎng)易新聞 查看精彩圖片

研發(fā)人員開發(fā)了評估工具包,可在多個基準(zhǔn)任務(wù)上對音頻 LLM 進(jìn)行公平、全面評估 ,五款音頻模型(Kimi-Audio、Qwen2-Audio、Baichuan-Audio、StepAudio、Qwen2.5-Omni)在各類音頻基準(zhǔn)測試中的表現(xiàn)對比。紫線(Kimi-Audio)基本覆蓋最外層,表明其綜合表現(xiàn)最佳。

目前,模型代碼、模型檢查點以及評估工具包已經(jīng)在 Github 上開源。

項目鏈接:https://github.com/MoonshotAI/Kimi-Audio

新穎的架構(gòu)設(shè)計

為實現(xiàn) SOTA 級別的通用音頻建模, Kimi-Audio 采用了集成式架構(gòu)設(shè)計,包括三個核心組件 —— 音頻分詞器(Audio Tokenizer)、音頻大模型(Audio LLM)、音頻去分詞器(Audio Detokenizer)。

這一架構(gòu)使 Kimi-Audio 能夠在單一模型框架下,流暢地處理從語音識別、理解到語音對話等多種音頻語言任務(wù)。

Kimi-Audio 由三個主要組件組成:音頻分詞器(Audio Tokenizer)、音頻大模型(Audio LLM)、音頻去分詞器(Audio Detokenizer)。

打開網(wǎng)易新聞 查看精彩圖片

具體而言,音頻分詞器(Audio Tokenizer)負(fù)責(zé)將輸入音頻轉(zhuǎn)化為通過矢量量化(vector quantization)得到的離散語義 token,幀率為 12.5Hz。同時,音頻分詞器還提取連續(xù)的聲學(xué)向量,以增強(qiáng)感知能力。

這種結(jié)合方式使模型既具有語義上的壓縮表示,又保留了豐富的聲學(xué)細(xì)節(jié),從而為多種音頻任務(wù)提供了堅實的表示基礎(chǔ)。

音頻大模型(Audio LLM)是系統(tǒng)的核心,負(fù)責(zé)生成語義 token 以及文本 token,以提升生成能力。其架構(gòu)基于共享 Transformer 層,能夠處理多模態(tài)輸入,并在后期分支為專門用于文本和音頻生成的兩個并行輸出頭。

音頻去分詞器(Audio Detokenizer)使用流匹配(flow matching)方法,將音頻大模型預(yù)測出的離散語義 token 轉(zhuǎn)化為連貫的音頻波形,生成高質(zhì)量、具有表現(xiàn)力的語音。

數(shù)據(jù)建構(gòu)與訓(xùn)練方法

除了新穎的模型架構(gòu),構(gòu)建 SOTA 模型的核心工作還包括數(shù)據(jù)建構(gòu)和訓(xùn)練方法。

為實現(xiàn) SOTA 級別的通用音頻建模,Kimi-Audio 在預(yù)訓(xùn)練階段使用了約 1300 萬小時覆蓋多語言、音樂、環(huán)境聲等多種場景的音頻數(shù)據(jù),并搭建了一條自動處理 “流水線” 生成高質(zhì)量長音頻 - 文本對。

預(yù)訓(xùn)練后,模型進(jìn)行了監(jiān)督微調(diào)(SFT),數(shù)據(jù)涵蓋音頻理解、語音對話和音頻轉(zhuǎn)文本聊天三大類任務(wù),進(jìn)一步提升了指令跟隨和音頻生成能力。

打開網(wǎng)易新聞 查看精彩圖片

Kimi-Audio 預(yù)訓(xùn)練數(shù)據(jù)處理流程的直觀展示。簡單來說,就是把原始音頻一步步凈化、切分、整理,變成干凈、有結(jié)構(gòu)、有標(biāo)注的訓(xùn)練數(shù)據(jù)。

在訓(xùn)練方法上,為實現(xiàn)強(qiáng)大的音頻理解與生成能力,同時保持模型的知識容量與智能水平,研發(fā)人員以預(yù)訓(xùn)練語言模型為初始化,設(shè)計了三個類別的預(yù)訓(xùn)練任務(wù):

僅文本和僅音頻預(yù)訓(xùn)練,用于分別學(xué)習(xí)兩個模態(tài)的知識;音頻到文本的映射,促進(jìn)模態(tài)轉(zhuǎn)換能力;音頻文本交錯訓(xùn)練,進(jìn)一步彌合模態(tài)間的鴻溝。

在監(jiān)督微調(diào)階段,他們設(shè)計了一套訓(xùn)練配方,以提升訓(xùn)練效率與任務(wù)泛化能力。

考慮到下游任務(wù)的多樣性,研究者沒有設(shè)置特殊的任務(wù)切換操作,而是為每個任務(wù)使用自然語言作為指令;對于指令,他們構(gòu)建了音頻和文本版本(即音頻由 Kimi-TTS 在零樣本方式下基于文本生成),并在訓(xùn)練期間隨機(jī)選擇一種;為了增強(qiáng)遵循指令能力的魯棒性,他們使用大語言模型為 ASR 任務(wù)構(gòu)建了 200 條指令,為其他任務(wù)構(gòu)建了 30 條指令,并為每個訓(xùn)練樣本隨機(jī)選擇一條。他們構(gòu)建了大約 30 萬小時的數(shù)據(jù)用于監(jiān)督式微調(diào)。

如表 1 和表 2 所示,他們基于全面的消融實驗,在每個數(shù)據(jù)源上對 Kimi-Audio 進(jìn)行了 2-4 個訓(xùn)練周期的微調(diào),使用 AdamW 優(yōu)化器,學(xué)習(xí)率從 1e?? 到 1e?? 進(jìn)行余弦衰減,使用 10% 的 token 進(jìn)行學(xué)習(xí)率預(yù)熱。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

此外,他們還分三個階段訓(xùn)練音頻解碼器。首先,使用預(yù)訓(xùn)練數(shù)據(jù)中的大約 100 萬小時的音頻,對流匹配模型和聲碼器進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)具有多樣化音色、語調(diào)和質(zhì)量的音頻。其次,采用分塊微調(diào)策略,在相同的預(yù)訓(xùn)練數(shù)據(jù)上將動態(tài)塊大小調(diào)整為 0.5 秒到 3 秒 。最后,在 Kimi-Audio 說話者提供的高質(zhì)量單聲道錄音數(shù)據(jù)上進(jìn)行微調(diào)。

評估結(jié)果

研究者基于評估工具包,詳細(xì)評估了 Kimi-Audio 在一系列音頻處理任務(wù)中的表現(xiàn),包括自動語音識別(ASR)、音頻理解、音頻轉(zhuǎn)文本聊天和語音對話。他們使用已建立的基準(zhǔn)測試和內(nèi)部測試集,將 Kimi-Audio 與其他音頻基礎(chǔ)模型(Qwen2-Audio 、Baichuan-Audio、Step-Audio、GLM4-Voice 和 Qwen2.5-Omini )進(jìn)行了比較。

自動語音識別

研究者對 Kimi-Audio 的自動語音識別(ASR)能力進(jìn)行了評估,涵蓋了多種語言和聲學(xué)條件的多樣化數(shù)據(jù)集。如表 4 所示,Kimi-Audio 在這些數(shù)據(jù)集上持續(xù)展現(xiàn)出比以往模型更優(yōu)越的性能。他們報告了這些數(shù)據(jù)集上的詞錯誤率(WER),其中較低的值表示更好的性能。

打開網(wǎng)易新聞 查看精彩圖片

值得注意的是,Kimi-Audio 在廣泛使用的 LibriSpeech 基準(zhǔn)測試中取得了最佳結(jié)果,在 test-clean 上達(dá)到了 1.28 的錯誤率,在 test-other 上達(dá)到了 2.42,顯著超越了像 Qwen2-Audio-base 和 Qwen2.5-Omni 這樣的模型。在普通話 ASR 基準(zhǔn)測試中,Kimi-Audio 在 AISHELL-1(0.60)和 AISHELL-2 ios(2.56)上創(chuàng)下了最先進(jìn)的結(jié)果。此外,它在具有挑戰(zhàn)性的 WenetSpeech 數(shù)據(jù)集上表現(xiàn)出色,在 test-meeting 和 test-net 上均取得了最低的錯誤率。最后,研究者在內(nèi)部的 Kimi-ASR 測試集上的評估確認(rèn)了該模型的魯棒性。這些結(jié)果表明,Kimi-Audio 在不同領(lǐng)域和語言中均具有強(qiáng)大的 ASR 能力。

音頻理解

除了語音識別外,研究者還評估了 Kimi-Audio 理解包括音樂、聲音事件和語音在內(nèi)的各種音頻信號的能力。表 5 總結(jié)了在各種音頻理解基準(zhǔn)測試上的性能,通常較高的分?jǐn)?shù)表示更好的性能。

打開網(wǎng)易新聞 查看精彩圖片

在 MMAU 基準(zhǔn)測試中,Kimi-Audio 在聲音類別(73.27)和語音類別(60.66)上展現(xiàn)出卓越的理解能力。同樣,在 MELD 語音情感理解任務(wù)上,它也以 59.13 的得分超越了其他模型。Kimi-Audio 在涉及非語音聲音分類(VocalSound 和 Nonspeech7k )以及聲學(xué)場景分類(TUT2017 和 CochlScene)的任務(wù)中也處于領(lǐng)先地位。這些結(jié)果突顯了 Kimi-Audio 在解讀復(fù)雜聲學(xué)信息方面的高級能力,超越了簡單的語音識別范疇。

音頻到文本聊天

研究者使用 OpenAudioBench 和 VoiceBench 基準(zhǔn)測試 評估了 Kimi-Audio 基于音頻輸入進(jìn)行文本對話的能力。這些基準(zhǔn)測試評估了諸如指令遵循、問答和推理等各個方面。性能指標(biāo)因基準(zhǔn)測試而異,較高的分?jǐn)?shù)表示更好的對話能力。結(jié)果如表 6 所示。

打開網(wǎng)易新聞 查看精彩圖片

在 OpenAudioBench 上,Kimi-Audio 在多個子任務(wù)上實現(xiàn)了最先進(jìn)的性能,包括 AlpacaEval、Llama Questions 和 TriviaQA,并在 Reasoning QA 和 Web Questions 上取得了極具競爭力的性能。VoiceBench 評估進(jìn)一步證實了 Kimi-Audio 的優(yōu)勢。它在 AlpacaEval(4.46)、CommonEval(3.97)、SD-QA(63.12)、MMSU(62.17)、OpenBookQA(83.52)、Advbench(100.00)和 IFEval(61.10)上均持續(xù)超越所有對比模型。Kimi-Audio 在這些全面的基準(zhǔn)測試中的整體表現(xiàn)證明了其在基于音頻的對話和復(fù)雜推理任務(wù)中的卓越能力。

語音對話

最后,他們基于多維度的主觀評估,評估了 Kimi-Audio 的端到端語音對話能力。如表 7 所示,Kimi-Audio 與 GPT-4o 和 GLM-4-Voice 等模型在人類評分(1-5 分量表,分?jǐn)?shù)越高越好)的基礎(chǔ)上進(jìn)行了比較。

打開網(wǎng)易新聞 查看精彩圖片

除去 GPT-4o,Kimi-Audio 在情感控制、同理心和速度控制方面均取得了最高分。盡管 GLM-4-Voice 在口音控制方面表現(xiàn)略佳,但 Kimi-Audio 的整體平均得分仍高達(dá) 3.90,超過了 Step-Audio-chat(3.33)、GPT-4o-mini(3.45)和 GLM-4-Voice(3.65),并與 GPT-4o(4.06)僅存在微小差距??傮w而言,評估結(jié)果表明,Kimi-Audio 在生成富有表現(xiàn)力和可控性的語音方面表現(xiàn)出色。