亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

英偉達(dá)聯(lián)手高校推出Fast-dLLM框架,AI推理速度大幅提升最高達(dá)27.6倍

   時(shí)間:2025-06-03 12:49 作者:馮璃月

近期,科技界迎來了一項(xiàng)重要突破,英偉達(dá)攜手麻省理工學(xué)院(MIT)及香港大學(xué),共同推出了Fast-dLLM框架,這一創(chuàng)新成果旨在顯著提升擴(kuò)散模型(Diffusion-based LLMs)的推理速度,為語言生成任務(wù)帶來了全新的可能性。

擴(kuò)散模型,作為傳統(tǒng)自回歸模型的有力挑戰(zhàn)者,憑借其雙向注意力機(jī)制,理論上能夠?qū)崿F(xiàn)多詞元同步生成,從而加速解碼過程。然而,在實(shí)際應(yīng)用中,擴(kuò)散模型的推理速度卻往往不盡如人意。原因在于,每次生成步驟都需要重新計(jì)算全部注意力狀態(tài),這導(dǎo)致了高昂的計(jì)算成本。多詞元同步解碼時(shí),詞元間的依賴關(guān)系容易受到破壞,進(jìn)而影響生成質(zhì)量,使得擴(kuò)散模型難以滿足實(shí)際應(yīng)用的需求。

為了突破這一瓶頸,英偉達(dá)聯(lián)合團(tuán)隊(duì)研發(fā)了Fast-dLLM框架,該框架引入了兩大核心創(chuàng)新:塊狀近似KV緩存機(jī)制和置信度感知并行解碼策略。這一創(chuàng)新設(shè)計(jì),為擴(kuò)散模型的推理速度和質(zhì)量帶來了顯著提升。

在Fast-dLLM框架中,KV緩存機(jī)制通過將序列劃分為塊,預(yù)計(jì)算并存儲其他塊的激活值,以便在后續(xù)解碼中重復(fù)利用,從而顯著減少了計(jì)算冗余。而其DualCache版本更進(jìn)一步,緩存了前后綴詞元,利用相鄰?fù)评聿襟E的高相似性,進(jìn)一步提升了效率。這一機(jī)制的實(shí)施,為擴(kuò)散模型的推理速度帶來了質(zhì)的飛躍。

另一方面,置信度解碼策略則根據(jù)設(shè)定的閾值,選擇性解碼高置信度的詞元,從而避免了同步采樣帶來的依賴沖突,確保了生成質(zhì)量。這一策略的實(shí)施,使得擴(kuò)散模型在保持高質(zhì)量生成的同時(shí),進(jìn)一步提升了推理速度。

Fast-dLLM框架在多項(xiàng)基準(zhǔn)測試中均展現(xiàn)出了驚人的表現(xiàn)。在GSM8K數(shù)據(jù)集上,生成長度為1024詞元時(shí),其8-shot配置下實(shí)現(xiàn)了27.6倍的加速,準(zhǔn)確率高達(dá)76.0%。在MATH基準(zhǔn)測試中,加速倍數(shù)為6.5倍,準(zhǔn)確率約為39.3%。而在Humaneval和MBPP測試中,分別實(shí)現(xiàn)了3.2倍和7.8倍的加速,準(zhǔn)確率維持在54.3%和基線水平附近。這些測試結(jié)果表明,F(xiàn)ast-dLLM框架在加速推理的同時(shí),僅犧牲了1-2個(gè)百分點(diǎn)的準(zhǔn)確率,成功實(shí)現(xiàn)了速度與質(zhì)量的平衡。

Fast-dLLM框架的成功推出,標(biāo)志著擴(kuò)散模型在實(shí)際語言生成任務(wù)中具備了與自回歸模型競爭的實(shí)力。這一創(chuàng)新成果不僅解決了推理效率和解碼質(zhì)量問題,更為擴(kuò)散模型的廣泛應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。未來,我們有理由相信,隨著技術(shù)的不斷進(jìn)步和完善,擴(kuò)散模型將在更多領(lǐng)域展現(xiàn)出其獨(dú)特的優(yōu)勢和潛力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容