AI競賽激烈,小米也加入戰(zhàn)局!

4月30日,小米推出專注推理能力的開源大模型MiMo,僅用7B參數(shù)規(guī)模在數(shù)學(xué)推理和代碼競賽測評中超越OpenAI的閉源模型o1-mini以及阿里32B規(guī)模的QwQ。

據(jù)小米介紹,Xiaomi MiMo誕生之初探索的核心問題就是激發(fā)模型推理潛能,這款模型聯(lián)動預(yù)訓(xùn)練到后訓(xùn)練,全面提升推理能力。

國內(nèi)外AI競爭日趨白熱化,本周阿里前腳發(fā)布Qwen 3,馬斯克后腳就官宣Grok 3.5。而據(jù)此前媒體報道,小米正在建設(shè)萬卡GPU集群,并引入頂尖AI人才,顯示出對大模型領(lǐng)域的全面投入。

性能突破:小參數(shù)量實現(xiàn)大能力

Xiaomi MiMo這款模型最引人注目之處在于,在數(shù)學(xué)推理(AIME 24-25)和 代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數(shù)規(guī)模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規(guī)模的開源推理模型 QwQ-32B-Preview。

打開網(wǎng)易新聞 查看精彩圖片

更值得注意的是,在相同強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練數(shù)據(jù)條件下,MiMo-7B在數(shù)學(xué)和代碼領(lǐng)域展現(xiàn)出的強(qiáng)化學(xué)習(xí)潛力明顯領(lǐng)先于業(yè)界廣泛使用的其他模型,包括DeepSeek-R1-Distill-7B和Qwen2.5-32B等知名強(qiáng)化學(xué)習(xí)起步模型。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

技術(shù)關(guān)鍵:預(yù)訓(xùn)練與后訓(xùn)練雙輪驅(qū)動

據(jù)小米介紹,MiMo模型的成功并非偶然,而是來自于預(yù)訓(xùn)練和后訓(xùn)練兩個階段的多層面創(chuàng)新。

在預(yù)訓(xùn)練階段,小米團(tuán)隊著重挖掘富含推理模式的語料,并合成了約200B tokens的推理數(shù)據(jù)。訓(xùn)練過程采用三階段策略,逐步提升訓(xùn)練難度,累計訓(xùn)練了25T tokens,這一訓(xùn)練量在同等規(guī)模模型中處于領(lǐng)先水平。

打開網(wǎng)易新聞 查看精彩圖片

后訓(xùn)練階段的創(chuàng)新更為關(guān)鍵,小米團(tuán)隊提出了"Test Difficulty Driven Reward"機(jī)制,有效解決了困難算法問題中獎勵稀疏的問題。同時引入"Easy Data Re-Sampling"策略,顯著提升了強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性。在框架層面,他們設(shè)計了"Seamless Rollout"系統(tǒng),使得強(qiáng)化學(xué)習(xí)訓(xùn)練速度提升2.29倍,驗證速度提升1.96倍。

打開網(wǎng)易新聞 查看精彩圖片

技術(shù)之外:小米的AI全面投入戰(zhàn)略

據(jù)界面新聞報道,小米正在搭建自己的GPU萬卡級集群,將對AI大模型進(jìn)行大力投入。一名知情人士透露,該計劃已經(jīng)實施數(shù)月之久,小米創(chuàng)始人雷軍親自參與領(lǐng)導(dǎo)。該人士強(qiáng)調(diào):"在AI硬件這件事情上,最核心的是手機(jī)而不是眼鏡,小米在這個領(lǐng)域不'all in'是不可能的。"

小米的AI人才布局也在加速。12月20日,第一財經(jīng)報道稱DeepSeek開源大模型DeepSeek-V2的關(guān)鍵開發(fā)者之一羅福莉?qū)⒓尤胄∶?,或供職于小米AI實驗室,領(lǐng)導(dǎo)小米大模型團(tuán)隊。羅福莉是MLA(Multi-head Latent Attention)技術(shù)的核心開發(fā)者之一,該技術(shù)在降低大模型使用成本上發(fā)揮了關(guān)鍵作用。