亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

DeepSeek連發(fā)大招:開源優(yōu)化策略,英偉達(dá)R1模型推理速度飆升25倍

   時(shí)間:2025-02-27 15:44 作者:陸辰風(fēng)

近期,人工智能領(lǐng)域迎來(lái)了一系列重要進(jìn)展,其中DeepSeek公司的動(dòng)作尤為引人注目。該公司宣布了一項(xiàng)重大決定——將其優(yōu)化并行策略(Optimized Parallelism Strategies)進(jìn)行開源,這一策略旨在提升計(jì)算效率,減少資源浪費(fèi),并最大化系統(tǒng)性能。

據(jù)DeepSeek介紹,該優(yōu)化并行策略是一套精心設(shè)計(jì)的并行計(jì)算方案,適用于多核、分布式或異構(gòu)系統(tǒng)。它通過(guò)合理分配任務(wù)、協(xié)調(diào)資源利用以及減少通信開銷,實(shí)現(xiàn)了高效并行執(zhí)行,為人工智能模型的訓(xùn)練和推理提供了強(qiáng)有力的支持。

不僅如此,DeepSeek還宣布了其另一項(xiàng)重要成果——與英偉達(dá)合作,在Blackwell架構(gòu)上優(yōu)化的DeepSeek-R1模型。這一新模型在推理速度上實(shí)現(xiàn)了25倍的提升,同時(shí)每token成本降低了20倍,標(biāo)志著英偉達(dá)在人工智能領(lǐng)域的又一次重大突破。

DeepSeek的開源行動(dòng)并未止步于此。在此之前,該公司已經(jīng)將DeepEP向公眾開放,這一Expert Parallelism通信基礎(chǔ)專為MoE模型的訓(xùn)練和推理而設(shè)計(jì)。DeepEP能夠?qū)崿F(xiàn)高效優(yōu)化的全到全通信,支持低精度計(jì)算,并對(duì)非對(duì)稱帶寬轉(zhuǎn)發(fā)場(chǎng)景進(jìn)行了深度優(yōu)化,從而在訓(xùn)練和推理任務(wù)中展現(xiàn)出卓越的性能。

為了進(jìn)一步提升用戶體驗(yàn),DeepSeek還推出了錯(cuò)峰優(yōu)惠活動(dòng)。在北京時(shí)間每日00:30至08:30的夜間空閑時(shí)段,DeepSeek開放平臺(tái)的API調(diào)用價(jià)格大幅下調(diào),DeepSeek-V3降至原價(jià)的50%,DeepSeek-R1更是降至25%。DeepSeek鼓勵(lì)用戶充分利用這一時(shí)段,享受更經(jīng)濟(jì)、更流暢的服務(wù)。

此次優(yōu)惠活動(dòng)正值DeepSeek的“開源周”。在這一周內(nèi),DeepSeek連續(xù)開源了多個(gè)重要代碼庫(kù)。首個(gè)開源的是針對(duì)Hopper GPU優(yōu)化的FlashMLA,隨后是用于MoE模型訓(xùn)練和推理的開源EP通信庫(kù)DeepEP,以及一個(gè)支持密集和MoE GEMM的FP8 GEMM庫(kù),為V3/R1的訓(xùn)練和推理提供了有力支持。

英偉達(dá)也在這一領(lǐng)域取得了顯著進(jìn)展。通過(guò)應(yīng)用TensorRT DeepSeek優(yōu)化,英偉達(dá)在Blackwell架構(gòu)上實(shí)現(xiàn)了具有FP4生產(chǎn)級(jí)精度的模型,該模型在MMLU通用智能基準(zhǔn)測(cè)試中達(dá)到了FP8模型性能的99.8%。目前,英偉達(dá)基于FP4優(yōu)化的DeepSeek-R1檢查點(diǎn)已經(jīng)在Hugging Face上開源,用戶可以通過(guò)相關(guān)鏈接訪問(wèn)這一模型。

在后訓(xùn)練量化方面,DeepSeek也取得了重要突破。該模型將Transformer模塊內(nèi)的線性算子的權(quán)重和激活量化到了FP4,適用于TensorRT-LLM推理。這一優(yōu)化不僅減少了每個(gè)參數(shù)的位數(shù),從8位降低到4位,還使得磁碟空間和GPU顯存的需求減少了約1.6倍,為人工智能模型的部署和應(yīng)用提供了更加經(jīng)濟(jì)、高效的選擇。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容