摩爾線程在DeepSeek開源周活動(dòng)中大放異彩,宣布全面支持多項(xiàng)開源項(xiàng)目。這家智能科技公司昨日晚間宣布,他們已成功實(shí)現(xiàn)對(duì)DeepSeek各個(gè)開源項(xiàng)目的廣泛兼容,涵蓋了FlashMLA、DeepEP、DeepGEMM、DualPipe以及Fire-Flyer文件系統(tǒng)(3FS)等多個(gè)關(guān)鍵組件。
據(jù)摩爾線程介紹,F(xiàn)lashMLA作為一款專為加速M(fèi)LA(Multi-Head Latent Attention)機(jī)制計(jì)算而設(shè)計(jì)的開源推理內(nèi)核,尤其適用于DeepSeek系列模型。摩爾線程依托其最新的MUSA Compute Capability 3.1計(jì)算架構(gòu),提供了原生FP8計(jì)算能力,并通過升級(jí)高性能線性代數(shù)模板庫(kù)MUTLASS,迅速推出了MT-FlashMLA開源倉(cāng)庫(kù),確保了對(duì)DeepSeek FlashMLA的快速兼容部署。
DeepEP則是專為MoE(混合專家)模型訓(xùn)練和推理打造的開源EP(expert parallelism,專家并行)通信庫(kù),特別適用于大規(guī)模模型訓(xùn)練。摩爾線程基于MUSA Compute Capability 3.1全功能GPU,第一時(shí)間適配了DeepEP,支持高效優(yōu)化的All-to-All通信、MTLink + GPU節(jié)點(diǎn)內(nèi)通信以及原生FP8數(shù)據(jù)分發(fā)等多項(xiàng)特性,顯著提升了訓(xùn)練效率。
DeepGEMM則是支持密集矩陣與MoE矩陣乘法的FP8 GEMM庫(kù),為V3/R1的訓(xùn)練與推理提供了強(qiáng)大支持。摩爾線程基于MUTLASS在全新GPU架構(gòu)上進(jìn)行了優(yōu)化,實(shí)現(xiàn)了FP8矩陣乘法,成功支持了DeepGEMM的相應(yīng)功能。
DualPipe是DeepSeek-V3提出的雙向流水線并行算法,通過計(jì)算與通信的完全重疊,顯著減少了設(shè)備空閑等待時(shí)間,大幅提升了資源利用率與訓(xùn)練效率。摩爾線程依托其深度學(xué)習(xí)框架Torch-MUSA和MUSA軟件棧的全方位兼容性,實(shí)現(xiàn)了對(duì)DualPipe算法的高效支持,并成功接入了摩爾線程的MT-Megatron框架和即將開源的MT-TransformerEngine框架。
Fire-Flyer文件系統(tǒng)(3FS)作為一種并行文件系統(tǒng),充分利用了現(xiàn)代SSD和RDMA網(wǎng)絡(luò)的帶寬,成為V3和R1訓(xùn)練與推理過程中的關(guān)鍵支撐。摩爾線程在極短時(shí)間內(nèi)完成了3FS的搭建,并開發(fā)了存儲(chǔ)插件,成功實(shí)現(xiàn)了與夸娥智算集群的無(wú)縫集成,為AI訓(xùn)練、推理和科學(xué)計(jì)算等場(chǎng)景提供了全棧存儲(chǔ)加速方案。