近期,人工智能領域迎來了一項引人注目的技術創(chuàng)新。知名技術團隊月之暗面Kimi發(fā)布了一項關于Muon優(yōu)化器的新技術報告,并隨之推出了名為“Moonlight”的混合專家模型(MoE)。這款模型在Muon優(yōu)化器的基礎上進行了訓練,擁有30億至160億不等的參數(shù)規(guī)模。
Moonlight模型在訓練過程中采用了5.7萬億個token的數(shù)據(jù)量,并且在減少浮點運算次數(shù)(FLOPs)的同時,實現(xiàn)了卓越的性能表現(xiàn)。這一成果不僅提升了帕累托效率邊界,更為大規(guī)模的語言模型訓練提供了新的思路。
月之暗面團隊表示,Muon優(yōu)化器通過引入權重衰減和精細調整每個參數(shù)更新幅度的技術,實現(xiàn)了在大規(guī)模訓練中的高效應用。這些創(chuàng)新技術使得Muon優(yōu)化器無需繁瑣的超參數(shù)調優(yōu),即可直接應用于實際訓練任務。
據(jù)團隊介紹,在擴展法則實驗中,Muon優(yōu)化器相較于計算最優(yōu)訓練的AdamW優(yōu)化器,實現(xiàn)了約2倍的計算效率提升。這一顯著優(yōu)勢使得Muon優(yōu)化器在處理大規(guī)模數(shù)據(jù)集時更加得心應手。
本次發(fā)布的Moonlight模型采用了名為Moonlight-16B-A3B的具體配置,總參數(shù)量達到15.29B,其中激活參數(shù)為2.24B。在5.7T token的訓練數(shù)據(jù)支持下,Moonlight模型展現(xiàn)出了卓越的性能表現(xiàn),不僅突破了當前的Pareto前沿,還在大幅減少FLOPs的情況下實現(xiàn)了比以往模型更優(yōu)的性能。
為了方便其他研究人員和開發(fā)者利用這一創(chuàng)新成果,月之暗面團隊還開源了一個分布式版本的Muon實現(xiàn)。該實現(xiàn)在內存使用和通信效率上都進行了優(yōu)化,旨在提高整體性能和易用性。團隊還發(fā)布了預訓練模型、經過指令調優(yōu)的模型以及中間訓練檢查點,為未來的研究工作提供了有力支持。
對于對這項技術感興趣的研究人員和開發(fā)者來說,可以通過訪問GitHub和Hugging Face平臺,獲取更多關于Moonlight模型和Muon優(yōu)化器的詳細信息。