Xiaomi MiMo:小米開源的首個(gè)“為推理而生”的大模型
Xiaomi MiMo 是小米公司于 2025 年 4 月 30 日宣布開源的首個(gè)為推理而生的ai大模型。MiMo - 7B 系列模型通過充分挖掘語(yǔ)言模型的推理潛力,不僅關(guān)注后訓(xùn)練,還注重針對(duì)推理的預(yù)訓(xùn)練策略。該系列模型在相對(duì)較小的 7B 規(guī)模下,展現(xiàn)出超越許多 32B 模型的推理能力,其中 MiMo - 7B - RL 在數(shù)學(xué)和代碼推理任務(wù)上的表現(xiàn)可與 OpenAI o1 - mini 相媲美。

MiMo核心特點(diǎn)
預(yù)訓(xùn)練
數(shù)據(jù)預(yù)處理優(yōu)化:改進(jìn)文本提取工具包,采用多維數(shù)據(jù)過濾,增加預(yù)訓(xùn)練數(shù)據(jù)中的推理模式密度。
合成數(shù)據(jù)生成:運(yùn)用多種策略生成大量多樣化的合成推理數(shù)據(jù)。
三階段數(shù)據(jù)混合:預(yù)訓(xùn)練采用三階段數(shù)據(jù)混合策略,MiMo - 7B - Base 在約 25 萬(wàn)億個(gè)標(biāo)記上進(jìn)行預(yù)訓(xùn)練。
多令牌預(yù)測(cè):引入多令牌預(yù)測(cè)作為額外訓(xùn)練目標(biāo),提升模型性能并加速推理。
后訓(xùn)練
優(yōu)質(zhì)訓(xùn)練數(shù)據(jù):精心挑選 130K 個(gè)數(shù)學(xué)和代碼問題作為 RL 訓(xùn)練數(shù)據(jù),每個(gè)問題都經(jīng)過仔細(xì)清理和難度評(píng)估,并使用基于規(guī)則的驗(yàn)證器確保數(shù)據(jù)質(zhì)量。
代碼獎(jiǎng)勵(lì)機(jī)制:針對(duì)具有挑戰(zhàn)性的代碼問題,引入測(cè)試難度驅(qū)動(dòng)的代碼獎(jiǎng)勵(lì),通過為不同難度的測(cè)試用例分配細(xì)粒度分?jǐn)?shù),優(yōu)化策略。
數(shù)據(jù)重采樣:對(duì)簡(jiǎn)單問題實(shí)施數(shù)據(jù)重采樣策略,提高滾動(dòng)采樣效率,穩(wěn)定策略更新。
RL 基礎(chǔ)設(shè)施
無縫滾動(dòng)引擎:開發(fā)無縫滾動(dòng)引擎,集成連續(xù)滾動(dòng)、異步獎(jiǎng)勵(lì)計(jì)算和提前終止功能,減少 GPU 空閑時(shí)間,使訓(xùn)練速度提高 2.29 倍,驗(yàn)證速度提高 1.96 倍。
MTP 支持:在 vLLM 中支持 MTP,并增強(qiáng) RL 系統(tǒng)中推理引擎的魯棒性。
MiMo模型版本
MiMo - 7B - Base:具有卓越推理潛力的基礎(chǔ)模型
MiMo - 7B - RL - Zero:從基礎(chǔ)模型訓(xùn)練的 RL 模型
MiMo - 7B - SFT:從基礎(chǔ)模型訓(xùn)練的 SFT 模型
MiMo - 7B - RL:從 SFT 模型訓(xùn)練的 RL 模型,性能與 OpenAI o1 - mini 相當(dāng)。
技術(shù)細(xì)節(jié)與創(chuàng)新點(diǎn)
預(yù)訓(xùn)練數(shù)據(jù)優(yōu)化:通過多維度數(shù)據(jù)過濾和合成推理數(shù)據(jù)生成,提升了預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和推理模式密度。
MTP模塊:在預(yù)訓(xùn)練中引入MTP模塊,顯著提升了推理任務(wù)的性能和推理速度。
RL基礎(chǔ)設(shè)施:開發(fā)了無縫回放引擎(Seamless Rollout Engine),加速了RL訓(xùn)練和驗(yàn)證過程,分別實(shí)現(xiàn)了2.29倍和1.96倍的速度提升。
測(cè)試難度驅(qū)動(dòng)獎(jiǎng)勵(lì)機(jī)制:為解決代碼問題中的稀疏獎(jiǎng)勵(lì)問題,提出了基于測(cè)試難度的獎(jiǎng)勵(lì)機(jī)制,提升了模型在困難問題上的學(xué)習(xí)效率。
實(shí)驗(yàn)與結(jié)果
預(yù)訓(xùn)練模型性能
MiMo-7B-Base:在多個(gè)基準(zhǔn)測(cè)試中超越了其他7B參數(shù)規(guī)模的開源模型,如BBH、SuperGPQA等。
推理潛力評(píng)估:采用pass@k指標(biāo)評(píng)估模型的推理潛力,MiMo-7B-Base在所有基準(zhǔn)測(cè)試中均展現(xiàn)出更高的pass@k分?jǐn)?shù)。
后訓(xùn)練模型性能
MiMo-7B-RL-Zero:直接從MiMo-7B-Base進(jìn)行RL訓(xùn)練,展現(xiàn)了強(qiáng)大的推理能力。
MiMo-7B-RL:從SFT模型進(jìn)行RL訓(xùn)練,最終在數(shù)學(xué)和代碼任務(wù)上超越了OpenAI的o1-mini模型。
具體表現(xiàn):
在AIME 2025中,MiMo-7B-RL得分55.4,超過o1-mini 4.7分。
在LiveCodeBench v5和v6中,MiMo-7B-RL顯著優(yōu)于o1-mini。
相關(guān)鏈接
Hugging Face平臺(tái):https://huggingface.co/XiaomiMiMo
GitHub 倉(cāng)庫(kù):https://github.com/XiaomiMiMo/MiMo
技術(shù)報(bào)告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










