国产理论午夜精品一区,老熟女xxxx,www成年人毛片,xxxxwww亚洲,亚洲天堂av中文字幕在线观看

小米推出首個推理開源大模型Mimo！以7B參數(shù)打敗OpenAI o1-mini和阿里QwQ-32B-Preview

華爾街見聞官方

2025-04-30 12:03 ·上海 ·華爾街見聞官方網(wǎng)易號

AI競賽激烈，小米也加入戰(zhàn)局！

4月30日，小米推出專注推理能力的開源大模型MiMo，僅用7B參數(shù)規(guī)模在數(shù)學(xué)推理和代碼競賽測評中超越OpenAI的閉源模型o1-mini以及阿里32B規(guī)模的QwQ。

據(jù)小米介紹，Xiaomi MiMo誕生之初探索的核心問題就是激發(fā)模型推理潛能，這款模型聯(lián)動預(yù)訓(xùn)練到后訓(xùn)練，全面提升推理能力。

國內(nèi)外AI競爭日趨白熱化，本周阿里前腳發(fā)布Qwen 3，馬斯克后腳就官宣Grok 3.5。而據(jù)此前媒體報道，小米正在建設(shè)萬卡GPU集群，并引入頂尖AI人才，顯示出對大模型領(lǐng)域的全面投入。

性能突破：小參數(shù)量實現(xiàn)大能力

Xiaomi MiMo這款模型最引人注目之處在于，在數(shù)學(xué)推理（AIME 24-25）和代碼競賽（LiveCodeBench v5）公開測評集上，MiMo 僅用 7B 的參數(shù)規(guī)模，超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規(guī)模的開源推理模型 QwQ-32B-Preview。

更值得注意的是，在相同強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練數(shù)據(jù)條件下，MiMo-7B在數(shù)學(xué)和代碼領(lǐng)域展現(xiàn)出的強(qiáng)化學(xué)習(xí)潛力明顯領(lǐng)先于業(yè)界廣泛使用的其他模型，包括DeepSeek-R1-Distill-7B和Qwen2.5-32B等知名強(qiáng)化學(xué)習(xí)起步模型。

技術(shù)關(guān)鍵：預(yù)訓(xùn)練與后訓(xùn)練雙輪驅(qū)動

據(jù)小米介紹，MiMo模型的成功并非偶然，而是來自于預(yù)訓(xùn)練和后訓(xùn)練兩個階段的多層面創(chuàng)新。

在預(yù)訓(xùn)練階段，小米團(tuán)隊著重挖掘富含推理模式的語料，并合成了約200B tokens的推理數(shù)據(jù)。訓(xùn)練過程采用三階段策略，逐步提升訓(xùn)練難度，累計訓(xùn)練了25T tokens，這一訓(xùn)練量在同等規(guī)模模型中處于領(lǐng)先水平。

后訓(xùn)練階段的創(chuàng)新更為關(guān)鍵，小米團(tuán)隊提出了"Test Difficulty Driven Reward"機(jī)制，有效解決了困難算法問題中獎勵稀疏的問題。同時引入"Easy Data Re-Sampling"策略，顯著提升了強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性。在框架層面，他們設(shè)計了"Seamless Rollout"系統(tǒng)，使得強(qiáng)化學(xué)習(xí)訓(xùn)練速度提升2.29倍，驗證速度提升1.96倍。

技術(shù)之外：小米的AI全面投入戰(zhàn)略

據(jù)界面新聞報道，小米正在搭建自己的GPU萬卡級集群，將對AI大模型進(jìn)行大力投入。一名知情人士透露，該計劃已經(jīng)實施數(shù)月之久，小米創(chuàng)始人雷軍親自參與領(lǐng)導(dǎo)。該人士強(qiáng)調(diào)："在AI硬件這件事情上，最核心的是手機(jī)而不是眼鏡，小米在這個領(lǐng)域不'all in'是不可能的。"

小米的AI人才布局也在加速。12月20日，第一財經(jīng)報道稱DeepSeek開源大模型DeepSeek-V2的關(guān)鍵開發(fā)者之一羅福莉?qū)⒓尤胄∶?，或供職于小米AI實驗室，領(lǐng)導(dǎo)小米大模型團(tuán)隊。羅福莉是MLA（Multi-head Latent Attention）技術(shù)的核心開發(fā)者之一，該技術(shù)在降低大模型使用成本上發(fā)揮了關(guān)鍵作用。