科大訊飛與華為昇騰攜手,在“飛星一號”平臺上實現(xiàn)了MoE模型集群推理性能的顯著提升。這一突破性進展,標志著國產(chǎn)算力在AI領(lǐng)域的應(yīng)用邁出了重要一步。
據(jù)悉,雙方聯(lián)合團隊通過一系列創(chuàng)新優(yōu)化手段,成功將MoE模型在“飛星一號”平臺上的集群推理性能翻倍。這一成就不僅彰顯了國產(chǎn)算力在處理復(fù)雜AI任務(wù)方面的潛力,更為AI技術(shù)的廣泛應(yīng)用提供了有力支持。
在此次優(yōu)化過程中,聯(lián)合團隊針對MoE模型的特性,升級了PD分離+大規(guī)模專家并行系統(tǒng)解決方案。他們通過定制集合通信協(xié)議,有效消除了集合通信流量沖突,解決了推理過程中Prefill階段和Decode階段的相互干擾問題。這一創(chuàng)新舉措使得P實例和D實例均達到了系統(tǒng)最優(yōu)狀態(tài),性能提升超過20%。
聯(lián)合團隊還在國產(chǎn)算力上實現(xiàn)了MTP多token預(yù)測技術(shù),這一技術(shù)的引入顯著降低了MTP層的計算耗時,整體性能提升超過30%。同時,他們還對專家負載均衡算法進行了升級,實現(xiàn)了多DP負載均衡,卡間負載均衡差異小于8%,集群推理吞吐性能因此提升了30%以上。
聯(lián)合團隊還創(chuàng)新性地實現(xiàn)了異步雙發(fā)射技術(shù)。這一技術(shù)有效解決了高并發(fā)下的高CPU負載問題,實現(xiàn)了CPU和NPU的高效協(xié)同。通過降低服務(wù)請求調(diào)度耗時,系統(tǒng)性能得到了進一步提升,提升幅度達到10%。
基于上述一系列創(chuàng)新解決方案的迭代與升級,聯(lián)合團隊在“飛星一號”平臺上對星火MoE模型、DeepSeekV3/R1進行了實測。測試結(jié)果顯示,推理性能相較于上一個版本有了顯著提升,幾乎逼近了國產(chǎn)算力上MoE集群推理的性能上限。這一突破性進展無疑為國產(chǎn)算力在AI領(lǐng)域的應(yīng)用注入了新的活力。