小米大模型團(tuán)隊(duì)在“Xiaomi MiMo”公眾號(hào)上宣布了一項(xiàng)重大進(jìn)展:4月30日,他們正式開源了首個(gè)專為推理設(shè)計(jì)的大模型——Xiaomi MiMo。這一舉措標(biāo)志著小米在AI領(lǐng)域邁出了堅(jiān)實(shí)的一步,旨在通過(guò)聯(lián)動(dòng)預(yù)訓(xùn)練與后訓(xùn)練,全面提升模型的推理能力。
MiMo是小米大模型Core團(tuán)隊(duì)這一新興力量的初步探索成果。該團(tuán)隊(duì)致力于推動(dòng)AI技術(shù)的創(chuàng)新與應(yīng)用,而MiMo正是他們交出的第一份答卷。
在公開測(cè)評(píng)中,MiMo的表現(xiàn)令人矚目。在數(shù)學(xué)推理(AIME 24-25)和代碼競(jìng)賽(LiveCodeBench v5)兩大領(lǐng)域,MiMo僅憑7B的參數(shù)規(guī)模,便超越了OpenAI的閉源推理模型o1-mini以及阿里更大規(guī)模的開源推理模型QwQ-32B-Preview。這一成績(jī)無(wú)疑是對(duì)小米大模型團(tuán)隊(duì)實(shí)力的有力證明。
小米官方透露,MiMo推理能力的提升得益于預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)與算法等多層面的創(chuàng)新。在預(yù)訓(xùn)練階段,團(tuán)隊(duì)注重讓模型接觸更多推理模式,以拓寬其視野。在數(shù)據(jù)層面,他們深入挖掘富含推理元素的語(yǔ)料,并合成了約200B tokens的推理數(shù)據(jù),為模型提供了豐富的訓(xùn)練素材。訓(xùn)練過(guò)程則分為三個(gè)階段,逐步提升難度,總共訓(xùn)練了25T tokens,確保了模型的扎實(shí)基礎(chǔ)。
在后訓(xùn)練階段,小米團(tuán)隊(duì)引入了高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架。他們提出了Test Difficulty Driven Reward策略,以緩解困難算法問題中的獎(jiǎng)勵(lì)稀疏問題,并引入了Easy Data Re-Sampling策略,以穩(wěn)定強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程。他們還設(shè)計(jì)了Seamless Rollout系統(tǒng),使得強(qiáng)化學(xué)習(xí)訓(xùn)練加速2.29倍,驗(yàn)證加速1.96倍,大大提高了訓(xùn)練效率。
對(duì)于廣大開發(fā)者和技術(shù)愛好者而言,這無(wú)疑是一個(gè)振奮人心的消息。小米開源MiMo大模型,不僅為他們提供了一個(gè)強(qiáng)大的推理工具,更為他們探索AI技術(shù)的無(wú)限可能提供了寶貴的資源。目前,MiMo大模型已可在Hugging Face平臺(tái)上獲取,技術(shù)報(bào)告也已在GitHub上公開,供感興趣的人士深入研究和應(yīng)用。
在小米大模型團(tuán)隊(duì)的持續(xù)努力下,我們有理由相信,未來(lái)將有更多創(chuàng)新性的AI技術(shù)和產(chǎn)品涌現(xiàn),為人們的生活和工作帶來(lái)更多便利和驚喜。讓我們共同期待小米在AI領(lǐng)域的更多精彩表現(xiàn)吧!