近日,科大訊飛研究院攜手華為昇騰團(tuán)隊(duì),在“飛星一號(hào)”平臺(tái)上取得了MoE模型集群推理性能優(yōu)化的重大突破。經(jīng)過(guò)一系列創(chuàng)新技術(shù)的研發(fā)與實(shí)施,該團(tuán)隊(duì)成功實(shí)現(xiàn)了大規(guī)模專家并行集群推理性能的顯著提升,性能翻倍的佳績(jī)令人矚目。
科大訊飛在國(guó)產(chǎn)算力集群領(lǐng)域一直處于領(lǐng)先地位,此次更是在MoE模型的大規(guī)??绻?jié)點(diǎn)專家并行集群推理方面邁出了重要一步。此前,科大訊飛已經(jīng)發(fā)布了基于國(guó)產(chǎn)算力的首個(gè)MoE模型訓(xùn)練與推理解決方案,為業(yè)界樹(shù)立了標(biāo)桿。在此基礎(chǔ)上,科大訊飛與華為昇騰的聯(lián)合團(tuán)隊(duì)再次發(fā)力,對(duì)適配MoE模型的PD分離+大規(guī)模專家并行系統(tǒng)解決方案進(jìn)行了全面升級(jí)。
此次升級(jí)的關(guān)鍵技術(shù)創(chuàng)新點(diǎn)之一,在于針對(duì)MoE模型的PD分離部署進(jìn)行了定制化的集合通信協(xié)議設(shè)計(jì)。這一設(shè)計(jì)有效解決了集合通信流量沖突問(wèn)題,消除了推理過(guò)程中Prefill階段和Decode階段的相互干擾,使得P實(shí)例和D實(shí)例均能發(fā)揮出最佳性能,整體性能因此提升了20%以上。
聯(lián)合團(tuán)隊(duì)還在國(guó)產(chǎn)算力上成功實(shí)現(xiàn)了MTP多token預(yù)測(cè)技術(shù),這一技術(shù)的引入大幅降低了MTP層的計(jì)算耗時(shí),使得整體性能再次提升了30%以上。這一突破不僅展示了團(tuán)隊(duì)在技術(shù)創(chuàng)新方面的實(shí)力,也為國(guó)產(chǎn)算力在大規(guī)模模型推理領(lǐng)域的應(yīng)用開(kāi)辟了更廣闊的空間。
在專家負(fù)載均衡算法方面,團(tuán)隊(duì)也進(jìn)行了深入優(yōu)化。通過(guò)采用多DP負(fù)載均衡技術(shù),團(tuán)隊(duì)成功將卡間負(fù)載均衡差異控制在8%以內(nèi),從而顯著提升了集群推理的吞吐性能,性能提升幅度超過(guò)30%。這一優(yōu)化措施有效解決了集群推理過(guò)程中可能出現(xiàn)的資源瓶頸問(wèn)題,提升了系統(tǒng)的整體運(yùn)行效率。
聯(lián)合團(tuán)隊(duì)還創(chuàng)新性地引入了異步雙發(fā)射技術(shù),這一技術(shù)的實(shí)施有效解決了高并發(fā)場(chǎng)景下的高CPU負(fù)載問(wèn)題。通過(guò)實(shí)現(xiàn)CPU與NPU之間的高效協(xié)同,這一改進(jìn)不僅降低了服務(wù)請(qǐng)求調(diào)度的耗時(shí),還使得系統(tǒng)性能整體提升了10%。這一技術(shù)突破為大規(guī)模模型推理性能的提升提供了新的思路和解決方案。
經(jīng)過(guò)上述一系列優(yōu)化與升級(jí),聯(lián)合團(tuán)隊(duì)在“飛星一號(hào)”平臺(tái)上對(duì)星火MoE模型、DeepSeekV3/R1等模型進(jìn)行了實(shí)際測(cè)試。測(cè)試結(jié)果顯示,這些模型的推理性能相較于上一版本實(shí)現(xiàn)了翻倍提升,已經(jīng)接近國(guó)產(chǎn)算力上MoE集群推理的性能上限。這一成果不僅標(biāo)志著國(guó)產(chǎn)算力在大規(guī)模模型推理領(lǐng)域的技術(shù)水平邁上了新臺(tái)階,也為后續(xù)的技術(shù)研發(fā)和應(yīng)用推廣奠定了堅(jiān)實(shí)基礎(chǔ)。