百度智能云近期宣布了一項重大進展,成功點亮了國內(nèi)首個自研萬卡集群——昆侖芯三代。這一里程碑式的成就標志著百度在人工智能算力領域的實力得到了顯著提升,并且公司計劃進一步擴展至3萬卡集群規(guī)模。
昆侖芯三代萬卡集群的建成,不僅為百度內(nèi)部提供了強大的算力支持,更為整個行業(yè)帶來了模型降本的新趨勢。在過去的一年里,大模型的使用成本一直是行業(yè)關注的焦點,而算力緊張是導致成本居高不下的關鍵因素之一。百度通過自主研發(fā)芯片和構(gòu)建大規(guī)模集群,不僅解決了自身的算力瓶頸,也為行業(yè)探索出了一條新的道路。
從技術層面來看,昆侖芯三代萬卡集群的超大規(guī)模并行計算能力,實現(xiàn)了訓練效率的飛躍。這一集群能夠大幅降低千億參數(shù)模型的訓練周期,滿足AI原生應用快速迭代的需求。同時,它還支持更大規(guī)模的模型和更復雜的任務,以及多模態(tài)數(shù)據(jù)的處理,為Sora類應用的開發(fā)提供了有力支撐。
昆侖芯三代萬卡集群還具備多任務并發(fā)能力。通過動態(tài)資源切分,單個集群可以同時訓練多個輕量化模型。結(jié)合通信優(yōu)化與容錯機制,這一集群能夠顯著減少算力浪費,實現(xiàn)訓練成本的指數(shù)級下降。隨著國產(chǎn)大模型的興起,昆侖芯三代萬卡集群逐漸從“單任務算力消耗”向“集群效能最大化”過渡,通過智能調(diào)度任務,提升了集群的綜合利用率,降低了單位算力成本。
在昆侖芯三代萬卡集群的建設過程中,百度百舸AI異構(gòu)計算平臺4.0發(fā)揮了至關重要的作用。該平臺突破了硬件擴展性瓶頸,解決了卡間互聯(lián)的拓撲限制和通信帶寬問題。同時,針對萬卡規(guī)模集群的高功耗問題,百舸平臺采用了創(chuàng)新性散熱方案,有效解決了能效與散熱難題。在模型訓練方面,百舸平臺完善了分布式訓練優(yōu)化策略,提升了主流開源模型的訓練效率。
為了保障萬卡集群的穩(wěn)定性,百舸平臺4.0還提供了容錯與穩(wěn)定性機制。這一機制避免了由于單卡故障率隨規(guī)模指數(shù)上升而造成的集群有效性大幅下降問題,保障了有效訓練率達到98%以上。針對機間通信帶寬需求,百舸平臺建設了超大規(guī)模HPN高性能網(wǎng)絡,優(yōu)化了拓撲結(jié)構(gòu),降低了通信瓶頸,帶寬有效性達到90%以上。
百舸4.0在構(gòu)建超大規(guī)模HPN高性能網(wǎng)絡方面取得了顯著成果。它針對跨地域通信中的高延遲問題,通過優(yōu)化的拓撲結(jié)構(gòu)、多路徑負載均衡策略及通信策略,實現(xiàn)了幾十公里的跨地域高效通信。在通信效率上,百舸平臺采用了先進的擁塞控制算法和集合通信算法策略,實現(xiàn)了完全無阻塞通信,并通過高精度網(wǎng)絡監(jiān)控保障了網(wǎng)絡的穩(wěn)定性。
在多芯混訓方面,百舸平臺展現(xiàn)了強大的資源整合能力。它能夠?qū)⒉煌攸c、不同規(guī)模的異構(gòu)算力進行統(tǒng)一管理,構(gòu)建起多芯資源池。當業(yè)務提交工作負載時,百舸平臺可自動進行芯片選型,依據(jù)集群剩余的芯片資源選擇性價比最高的芯片來運行任務。這一機制最大化地利用了集群的剩余資源,實現(xiàn)了高達95%的萬卡多芯混合訓練效能。
在集群穩(wěn)定性保障方面,百舸平臺提供了全面的故障診斷手段。它能夠快速自動偵測到導致訓練任務異常的節(jié)點故障,并通過百度自研的BCCL(百度集合通信庫)快速定位故障并提供自動化的容錯能力。這一機制將故障恢復時間從小時級降低到分鐘級,顯著提高了集群的可靠性和可用性。