新浪科技訊 4月30日上午消息,小米開源首個(gè)為推理(Reasoning)而生的大模型‘Xiaomi MiMo’,聯(lián)動(dòng)預(yù)訓(xùn)練到后訓(xùn)練,全面提升推理能力。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)介紹,在數(shù)學(xué)推理(AIME 24-25)和 代碼競(jìng)賽(LiveCodeBench v5)公開測(cè)評(píng)集上,MiMo 僅用 7B 的參數(shù)規(guī)模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規(guī)模的開源推理模型 QwQ-32B-Preview。

隨著DeepSeek-R1引發(fā)業(yè)界強(qiáng)化學(xué)習(xí)(RL)共創(chuàng)潮,DeepSeek-R1-Distill-7B和Qwen2.5-32B已成為廣泛使用的強(qiáng)化學(xué)習(xí)起步模型。在相同RL訓(xùn)練數(shù)據(jù)情況下,MiMo-7B 的數(shù)學(xué)&代碼領(lǐng)域的強(qiáng)化學(xué)習(xí)潛力顯著領(lǐng)先。

值得注意的是,MiMo-7B全系列模型均已開源。據(jù)了解,MiMo 來自小米全新成立不久的“小米大模型Core團(tuán)隊(duì)”的初步嘗試。(閆妍)

來源:新浪網(wǎng)