近日,中國科學(xué)家在人工智能領(lǐng)域取得了重大突破,他們聯(lián)合研發(fā)了一種名為GroPipe的全新混合并行算法,成功地將流水線模型并行與數(shù)據(jù)并行融合,實現(xiàn)了AI訓(xùn)練速度的大幅提升,近乎翻倍。
據(jù)悉,這一創(chuàng)新成果由西北農(nóng)林科技大學(xué)信息工程學(xué)院智能計算與農(nóng)業(yè)信息系統(tǒng)團隊領(lǐng)銜,團隊負(fù)責(zé)人劉斌教授擔(dān)任核心作者,并與美國紐約州立大學(xué)及云南大學(xué)展開合作。相關(guān)研究成果已在國際計算機體系結(jié)構(gòu)領(lǐng)域的權(quán)威期刊《IEEE Transactions on Computers》上發(fā)表。
在大型深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)的訓(xùn)練過程中,為了提高模型精度,使用越來越大的數(shù)據(jù)集已成為常態(tài),但這也導(dǎo)致了訓(xùn)練時間的顯著增加。傳統(tǒng)的數(shù)據(jù)并行(DP)和流水線模型并行(PMP)等分布式訓(xùn)練方法雖然提供了解決方案,但仍面臨負(fù)載不平衡和通信開銷大等挑戰(zhàn)。
針對這些問題,研究團隊提出了GroPipe算法架構(gòu),該架構(gòu)通過協(xié)同整合PMP和DP,采用基于性能預(yù)測技術(shù)的自動模型分割算法,實現(xiàn)了負(fù)載的平衡和性能的量化評估。這一創(chuàng)新方法不僅解決了傳統(tǒng)訓(xùn)練方法的痛點,還構(gòu)建了一種全新的“組內(nèi)流水線 + 組間數(shù)據(jù)并行”的分層訓(xùn)練架構(gòu)。
在GroPipe方法中,自動模型劃分算法(AMPA)發(fā)揮了關(guān)鍵作用,它實現(xiàn)了計算負(fù)載的動態(tài)均衡調(diào)度,大幅提升了GPU資源的利用率。在一臺8-GPU服務(wù)器上進行的廣泛測試中,GroPipe方法展現(xiàn)出了卓越的性能優(yōu)勢。
具體來說,在ImageNet數(shù)據(jù)集上,GroPipe方法相較于主流方案(如DP、Torchgpipe、DAPPLE和DeepSpeed)在ResNet系列模型上平均加速比達到了42.2%,在VGG系列模型上更是高達79.2%。在BERT-base模型訓(xùn)練中,GroPipe方法的性能提升最高可達51%。
這一研究成果不僅為中國科學(xué)家在國際人工智能領(lǐng)域贏得了榮譽,更為人工智能的發(fā)展注入了新的活力。GroPipe算法的創(chuàng)新性和實用性,將有望推動人工智能技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。