在人工智能算力領域,百度智能云近期取得了重大突破,成功點亮了昆侖芯三代萬卡集群,這標志著國內首個自研萬卡集群的正式啟用。據悉,百度智能云計劃進一步擴大規(guī)模,點亮3萬卡集群,此舉將為百度自身的技術發(fā)展注入強勁動力,同時也為中國科技界、互聯(lián)網行業(yè)及AI行業(yè)帶來新的發(fā)展機遇。
萬卡集群的建成,不僅為百度提供了前所未有的算力支持,還推動了模型降本的趨勢。過去一年,大模型使用成本居高不下,算力緊張是其中的關鍵因素之一。百度通過自研芯片和大規(guī)模集群的建設,不僅解決了自身的算力瓶頸,也為整個行業(yè)提供了全新的解決方案和發(fā)展方向。
從算力角度來看,萬卡集群的超大規(guī)模并行計算能力實現了訓練效率的飛躍。它能夠將千億參數模型的訓練周期大幅縮短,滿足AI原生應用快速迭代的需求。同時,萬卡集群還能支持更大規(guī)模的模型和復雜任務,以及多模態(tài)數據的處理,為Sora類應用的開發(fā)提供了堅實的基礎。通過動態(tài)資源切分和多任務并發(fā)能力,萬卡集群能夠同時訓練多個輕量化模型,并通過通信優(yōu)化與容錯機制減少算力浪費,實現訓練成本的顯著降低。
隨著國產大模型的興起,萬卡集群逐漸從“單任務算力消耗”向“集群效能最大化”轉變。通過模型優(yōu)化、有效訓練率提升和動態(tài)資源分配等手段,百度智能云實現了訓練、微調、推理任務的智能調度和混合部署,從而提升了集群的綜合利用率,降低了單位算力成本。
在萬卡集群的建設過程中,百度百舸AI異構計算平臺4.0發(fā)揮了至關重要的作用。該平臺突破了硬件擴展性瓶頸,解決了卡間互聯(lián)的拓撲限制和通信帶寬問題。同時,針對萬卡規(guī)模常規(guī)方案的高功耗問題,百度采用了創(chuàng)新性散熱方案,有效解決了能效與散熱難題。百舸平臺還完善了模型的分布式訓練優(yōu)化,提升了主流開源模型的訓練效率。在穩(wěn)定性方面,百舸平臺提供了容錯與穩(wěn)定性機制,保障了萬卡集群的有效性。
百舸4.0還構建了十萬卡級別的超大規(guī)模HPN高性能網絡,針對跨地域通信中的高延遲問題進行了優(yōu)化。通過優(yōu)化的拓撲結構、多路徑負載均衡策略及通信策略,百舸實現了幾十公里的跨地域通信。在通信效率上,百舸采用了先進的擁塞控制算法和集合通信算法策略,實現了完全無阻塞的通信,并通過超高精度網絡監(jiān)控保障了網絡的穩(wěn)定性。
在多芯混訓方面,百舸展現了出色的資源整合能力。它能夠將不同地點、不同規(guī)模的異構算力進行統(tǒng)一管理,構建起多芯資源池。當業(yè)務提交工作負載時,百舸可自動進行芯片選型,選擇性價比最高的芯片來運行任務,從而最大化地利用集群的剩余資源。這一能力使得萬卡多芯混合訓練效能高達95%。
在集群穩(wěn)定性方面,百舸提供了全面的故障診斷手段。百度自研的BCCL能夠快速定位故障并提供自動化的容錯能力,將故障恢復時間從小時級降低到分鐘級。這一能力極大地提高了集群的可靠性和可用性,為萬卡集群的穩(wěn)定運行提供了有力保障。
日前,花旗銀行發(fā)布的研報指出,DeepSeek、百度等中國模型展現出高效和低成本優(yōu)勢,將有助于加速全球AI應用開發(fā),并在全球范圍內引發(fā)更多技術創(chuàng)新。中國工程院院士、清華大學計算機系教授鄭緯民也表示,構建國產自主萬卡系統(tǒng)雖然充滿挑戰(zhàn),但具有至關重要的意義。