作者|子川

來(lái)源|AI先鋒官

安靜許久的kimi,終于又有新動(dòng)作了!

近日,Kimi團(tuán)隊(duì)甩出一套組合拳——視覺語(yǔ)言模型Kimi-VL及其推理版Kimi-VL-Thinking雙雙開源!

這波操作直接把多模態(tài)+推理全都給拿捏了。

據(jù)介紹,兩款模型都是具有 28 億激活參數(shù)、160 億總參數(shù)的 MoE 結(jié)構(gòu)的多模態(tài)模型,支持128K上下文窗口,同時(shí)采用的是比較寬松的MIT許可證。

模型雖小,但和同層次模型相比,跑分成績(jī)絲毫不差!

Kimi-VL在MMMU、MMBench等通用基準(zhǔn)測(cè)試中的表現(xiàn)出色,超越了Qwen2.5-VL-7B、GPT-4o等多模態(tài)模型,在多項(xiàng)中測(cè)中取得第一的成績(jī)。

打開網(wǎng)易新聞 查看精彩圖片

相較于基礎(chǔ)版的Kimi-VL,支持長(zhǎng)思考的Kimi-VL-Thinking會(huì)更強(qiáng),在 MathVista 上提升了 2.6%,在 MMMU 上提升了 4.7%,在 MathVision 上提升了 15.4%。

打開網(wǎng)易新聞 查看精彩圖片

同時(shí)kimi團(tuán)隊(duì)表示, 盡管Kimi-VL-Thinking 是個(gè)只有 2.8B 激活參數(shù)的輕量級(jí)模型,但在有較高推理難度的基準(zhǔn)測(cè)試(包括 MMMU,MathVision,MathVista)中,部分成績(jī)可以接近甚至超過(guò)超大尺寸的前沿模型。

目前兩款模型均已上架Hugging Face,大家進(jìn)行下載并部署到自己的程序上去使用。
打開網(wǎng)易新聞 查看精彩圖片
目前兩款模型均已上架Hugging Face,大家進(jìn)行下載并部署到自己的程序上去使用。
打開網(wǎng)易新聞 查看精彩圖片

Hugging Face 模型下載:

https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct、https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking

那這款只有 2.8B 激活參數(shù)的輕量級(jí)模型到底是如何媲美參數(shù)大10倍的模型的呢?

下面我們來(lái)扒一下Kimi此次公開的技術(shù)報(bào)告。

模型架構(gòu)

Kimi-VL和Kimi-VL-Thinking主要由三大部分構(gòu)成:一個(gè)原生分辨率視覺編碼器(MoonViT)、一個(gè) MLP 投影儀以及一個(gè)混合專家(MoE)語(yǔ)言模型。

打開網(wǎng)易新聞 查看精彩圖片

MoE 語(yǔ)言模型:語(yǔ)言生成模塊

僅激活 2.8B 參數(shù)(總參數(shù) 16B),顯著降低了計(jì)算成本,同時(shí)保持了強(qiáng)大的性能。

與傳統(tǒng)的密集架構(gòu)相比,MoE 架構(gòu)通過(guò)稀疏激活專家網(wǎng)絡(luò),實(shí)現(xiàn)了更高的效率和擴(kuò)展性。

MoonViT:圖像處理模塊

設(shè)計(jì)出的MoonViT,可以讓它可以直接處理不同分辨率的圖像,而不需要復(fù)雜的切割和拼接操作。

這里使用了一種方法,把圖像切成小塊,然后拼成一維序列。這樣可以讓 MoonViT 和語(yǔ)言模型共享計(jì)算方式,比如用 FlashAttention 技術(shù)處理不同長(zhǎng)度的圖像數(shù)據(jù),確保不同分辨率的圖像都能高效訓(xùn)練。

MLP 投影儀:連接模塊

MLP 投影儀是一個(gè)兩層的網(wǎng)絡(luò),用來(lái)連接圖像處理模塊和語(yǔ)言模型。它會(huì)先壓縮圖像特征的空間維度(比如 2×2 下采樣),然后擴(kuò)展通道維度,最后將特征轉(zhuǎn)換為語(yǔ)言模型可以理解的形式。

數(shù)據(jù)處理與訓(xùn)練

多樣化數(shù)據(jù)集:Kimi-VL 的預(yù)訓(xùn)練數(shù)據(jù)涵蓋文本、圖像、視頻等多種模態(tài),包括字幕數(shù)據(jù)、OCR 數(shù)據(jù)、知識(shí)數(shù)據(jù)和視頻數(shù)據(jù)等,確保模型在不同任務(wù)中的廣泛適用性。

漸進(jìn)式訓(xùn)練策略:模型通過(guò)多階段訓(xùn)練(如 ViT 預(yù)訓(xùn)練、聯(lián)合預(yù)訓(xùn)練、長(zhǎng)上下文激活等)逐步提升語(yǔ)言和多模態(tài)能力,同時(shí)保留文本生成能力。

高效優(yōu)化器(Muon):使用增強(qiáng)版的 Muon 優(yōu)化器,結(jié)合分布式實(shí)現(xiàn)和內(nèi)存優(yōu)化策略(如 ZeRO-1 和選擇性檢查點(diǎn)),顯著提高了訓(xùn)練效率。

更多細(xì)節(jié)感興趣可以查閱原論文。

論文地址:https://arxiv.org/abs/2504.07491v1#

最后,給大家分享一下大彩蛋。

在今年3月,基于Kimi-K1.6的數(shù)學(xué)模型被曝光了出來(lái),在編程基準(zhǔn)測(cè)試LiveCodeBench中超越o3、DeepSeek-R1等模型,取得第一的好成績(jī)。

打開網(wǎng)易新聞 查看精彩圖片

難怪kimi這幾個(gè)月沒有一點(diǎn)動(dòng)靜,原來(lái)是在在蒙聲干大事。