亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

DeepSeek再放大招!高效FP8矩陣乘法庫DeepGEMM正式開源

   時間:2025-02-26 18:15 作者:陸辰風(fēng)

DeepSeek公司在近期舉行的開源周活動中,持續(xù)推動其技術(shù)開放步伐,繼MLA解碼核FlashMLA和DeepEP代碼庫之后,再度邁出重要一步,正式對外公布了DeepGEMM代碼庫。

DeepGEMM是一款專為高效FP8通用矩陣乘法(GEMM)設(shè)計的工具庫,其核心目標(biāo)是強(qiáng)化V3/R1訓(xùn)練和推理任務(wù)的處理能力。該庫不僅支持傳統(tǒng)的矩陣運(yùn)算,還特別針對專家混合(MoE)分組的GEMM運(yùn)算進(jìn)行了優(yōu)化,全部采用CUDA語言編寫。

據(jù)悉,DeepGEMM的一大亮點(diǎn)在于其安裝流程的便捷性。用戶無需進(jìn)行繁瑣的編譯操作,而是依靠運(yùn)行時的輕量級即時編譯模塊,動態(tài)生成所需的內(nèi)核代碼。這一設(shè)計極大地提升了使用的便利性。

目前,DeepGEMM主要適用于英偉達(dá)Hopper架構(gòu)的硬件環(huán)境。為了解決FP8張量核心累加過程中可能出現(xiàn)的精度問題,該庫創(chuàng)新性地采用了兩級累加方法,確保能夠充分利用CUDA核心的性能優(yōu)勢。DeepGEMM的代碼設(shè)計極為精簡,其核心功能高度集成在一個內(nèi)核函數(shù)中,整個代碼庫的總代碼量僅為約300行。

盡管體積小巧,但DeepGEMM在計算性能上的表現(xiàn)卻不容小覷。經(jīng)過DeepSeek團(tuán)隊的嚴(yán)格測試,該庫在不同矩陣形狀下的計算性能均表現(xiàn)出色,甚至能夠與經(jīng)過深度優(yōu)化的專業(yè)庫相媲美或超越。特別是在H800 GPU上使用NVCC 12.8編譯器進(jìn)行全面評估時,DeepGEMM的計算性能最高可達(dá)1358 TFLOPS,內(nèi)存帶寬峰值為2668 GB/s。與基于CUTLASS 3.6的優(yōu)化實現(xiàn)相比,其性能提升幅度最高可達(dá)2.7倍。在分組GEMM(MoE模型)的連續(xù)性布局和掩碼布局下,DeepGEMM的性能提升同樣顯著,可達(dá)1.2倍以上。

值得注意的是,使用DeepGEMM還需滿足一定的環(huán)境要求。硬件方面,需要支持Hopper架構(gòu)(sm_90a);操作系統(tǒng)則需安裝Python 3.8或更高版本;CUDA版本需為12.3及以上(推薦使用12.8);同時,還需配備PyTorch 2.1及以上版本以及CUTLASS 3.6及以上版本。這些要求確保了DeepGEMM能夠在最佳狀態(tài)下運(yùn)行,發(fā)揮出其卓越的計算性能。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容