智東西作者 ZeR0編輯 漠影
打開網(wǎng)易新聞 查看精彩圖片
智東西作者 ZeR0編輯 漠影

智東西4月30日?qǐng)?bào)道,今日,小米開源其首個(gè)推理大模型Xiaomi MiMo。其中經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練形成的MiMo-7B-RL,在數(shù)學(xué)推理(AIME 24-25)和代碼競(jìng)賽(LiveCodeBench v5)公開測(cè)評(píng)集上,僅用7B參數(shù)量,得分超過了OpenAI的閉源推理模型o1-mini和阿里Qwen開源推理模型QwQ-32B-Preview。

打開網(wǎng)易新聞 查看精彩圖片

在相同強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)情況下,MiMo-7B-RL在數(shù)學(xué)和代碼推理任務(wù)上均表現(xiàn)出色,分?jǐn)?shù)超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。

打開網(wǎng)易新聞 查看精彩圖片

MiMo是新成立不久的小米大模型Core團(tuán)隊(duì)的初步嘗試,4款MiMo-7B模型(基礎(chǔ)模型、SFT模型、基于基礎(chǔ)模型訓(xùn)練的強(qiáng)化學(xué)習(xí)模型、基于SFT模型訓(xùn)練的強(qiáng)化學(xué)習(xí)模型)均開源至Hugging Face。代碼庫采用Apache2.0許可證授權(quán)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

開源地址:https://huggingface.co/XiaomiMiMo

小米大模型Core團(tuán)隊(duì)已公開MiMo的26頁技術(shù)報(bào)告。

打開網(wǎng)易新聞 查看精彩圖片

技術(shù)報(bào)告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

受此消息提振,截至午間休市,小米集團(tuán)今日股價(jià)上漲4.74%,總市值1.29萬億港元(約合人民幣1.21萬億元)。

打開網(wǎng)易新聞 查看精彩圖片

一、預(yù)訓(xùn)練+后訓(xùn)練,聯(lián)動(dòng)提升推理能力

MiMo系列模型從零開始訓(xùn)練,其推理能力的提升由預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)和算法等多層面的創(chuàng)新聯(lián)合驅(qū)動(dòng),包括:

預(yù)訓(xùn)練:核心是讓模型見過更多推理模式

  • 數(shù)據(jù):著重挖掘富推理語料,并合成約200B tokens推理數(shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

  • 訓(xùn)練:采用三階段數(shù)據(jù)混合策略,逐步提升訓(xùn)練難度,MiMo-7B-Base在約25T tokens上進(jìn)行預(yù)訓(xùn)練;受DeepSeek-V3啟發(fā),將多token預(yù)測(cè)作為額外的訓(xùn)練目標(biāo),以增強(qiáng)模型性能并加速推理。

打開網(wǎng)易新聞 查看精彩圖片

▲使用MiMo-7B實(shí)現(xiàn)多token預(yù)測(cè):在預(yù)訓(xùn)練期間使用單個(gè)MTP層,推理階段可使用多個(gè)MTP層以獲得額外的加速

后訓(xùn)練:核心是高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架

  • 算法:提出Test Difficulty Driven Reward來緩解困難算法問題中的獎(jiǎng)勵(lì)稀疏問題,并引入Easy Data Re-Sampling 策略,以穩(wěn)定強(qiáng)化學(xué)習(xí)訓(xùn)練。
  • 數(shù)據(jù):精選了13萬道數(shù)學(xué)和代碼題作為強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù),可供基于規(guī)則的驗(yàn)證器進(jìn)行驗(yàn)證。每道題都經(jīng)過仔細(xì)的清理和難度評(píng)估,以確保質(zhì)量。僅采用基于規(guī)則的準(zhǔn)確率獎(jiǎng)勵(lì)機(jī)制,以避免潛在的獎(jiǎng)勵(lì)黑客攻擊。
  • 框架:設(shè)計(jì)了Seamless Rollout系統(tǒng),集成了連續(xù)部署、異步獎(jiǎng)勵(lì)計(jì)算和提前終止功能,以最大限度地減少GPU空閑時(shí)間,使得強(qiáng)化學(xué)習(xí)訓(xùn)練加速2.29倍,驗(yàn)證加速1.96倍。

打開網(wǎng)易新聞 查看精彩圖片

▲MiMo-7B-RL Seamless Rollout引擎概覽

二、7B強(qiáng)化學(xué)習(xí)模型,性能超過阿里32B模型和OpenAI o1-mini

小米大模型Core團(tuán)隊(duì)將MiMo-7B-Base與Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等規(guī)模相當(dāng)?shù)拈_源基礎(chǔ)模型進(jìn)行了比較,所有模型評(píng)估都共享相同的評(píng)估設(shè)置。

結(jié)果如圖所示,MiMo-7B-Base在所有基準(zhǔn)和評(píng)估的k值取得了高于其他對(duì)比模型的pass@k分?jǐn)?shù)。隨著k增加,MiMo-7B-Base與其他模型的分?jǐn)?shù)差距穩(wěn)步拉大,特別是在LiveCodeBench上。

打開網(wǎng)易新聞 查看精彩圖片

在評(píng)估語言推理模型的BBH基準(zhǔn)測(cè)試上,MiMo-7B-Base的分?jǐn)?shù)為75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基準(zhǔn)測(cè)試結(jié)果展示出MiMo-7B-Base在解決研究生水平問題方面的出色表現(xiàn)。在閱讀理解基準(zhǔn)測(cè)試DROP上,該模型的表現(xiàn)優(yōu)于其他對(duì)比模型。

打開網(wǎng)易新聞 查看精彩圖片

在代碼和數(shù)學(xué)推理任務(wù)中,MiMo-7B-Base的多項(xiàng)分?jǐn)?shù)超過Llama-3.1-8B、Gemma-2-9B。

MiMo-7B-Base在支持的32K上下文長度內(nèi)實(shí)現(xiàn)了近乎完美的NIAH檢索性能,并在需要長上下文推理的任務(wù)中表現(xiàn)出色,多數(shù)情況下分?jǐn)?shù)都超過了Qwen2.5-7B。這些結(jié)果驗(yàn)證了其在預(yù)訓(xùn)練期間將多樣化數(shù)據(jù)與高質(zhì)量推理模式相結(jié)合的策略的有效性。

打開網(wǎng)易新聞 查看精彩圖片

▲RULER上的長上下文理解結(jié)果

MiMo-7B-RL在多項(xiàng)通用基準(zhǔn)測(cè)試接近或超過擁有32B參數(shù)規(guī)模的QwQ-32B Preview模型,數(shù)學(xué)和代碼性能更是全面領(lǐng)先。

打開網(wǎng)易新聞 查看精彩圖片

在數(shù)學(xué)基準(zhǔn)測(cè)試AIME 2025測(cè)試、代碼基準(zhǔn)測(cè)試LiveCodeBench v6中,MiMo-7B-RL的得分均超過OpenAI o1-mini。

MiMo-7B系列4款大模型的多項(xiàng)數(shù)學(xué)和代碼測(cè)試對(duì)比如下:

打開網(wǎng)易新聞 查看精彩圖片

結(jié)語:今年大模型的三大熱點(diǎn),MiMo一舉覆蓋

今年,在DeepSeek爆紅后,開源和推理迅速成為大模型領(lǐng)域的熱門風(fēng)向。如今低調(diào)許久的小米也正式加入這一戰(zhàn)局。

作為國產(chǎn)手機(jī)頭部企業(yè)之一,小米這次開源的四款模型參數(shù)規(guī)模只有7B,小到可以滿足在端側(cè)設(shè)備上本地運(yùn)行的需求,貼合了大模型的另一大趨勢(shì)——從卷參數(shù)規(guī)模轉(zhuǎn)向追求經(jīng)濟(jì)高效。

通過在預(yù)訓(xùn)練和后訓(xùn)練過程中的多項(xiàng)創(chuàng)新聯(lián)動(dòng),MiMo-7B-Base在數(shù)學(xué)、代碼和通用任務(wù)上都展現(xiàn)了出色的推理能力。這項(xiàng)研究可以為開發(fā)更強(qiáng)大的推理模型提供參考。