英偉達(dá)近日宣布了一項(xiàng)令人矚目的成就:其最新推出的Blackwell GPU在meta的Llama 4 Maverick模型上,成功刷新了大型語(yǔ)言模型(LLM)推理速度的世界紀(jì)錄。這一突破發(fā)生在周四,當(dāng)時(shí)英偉達(dá)正式對(duì)外公布了這一消息。
據(jù)悉,為了達(dá)到這一里程碑,AI基準(zhǔn)測(cè)試權(quán)威機(jī)構(gòu)Artificial Analysis采用了配置了8塊Blackwell GPU的DGX B200節(jié)點(diǎn)。這一配置使得系統(tǒng)每用戶每秒能夠生成高達(dá)1000個(gè)tokens(TPS),這在之前是難以想象的。
英偉達(dá)的技術(shù)團(tuán)隊(duì)通過(guò)深度優(yōu)化TensorRT-LLM軟件棧,并結(jié)合EAGLE-3技術(shù),對(duì)推測(cè)解碼草稿模型進(jìn)行了訓(xùn)練。這種加速技術(shù)通過(guò)小型快速草稿模型預(yù)測(cè)token序列,再由大型目標(biāo)LLM進(jìn)行并行驗(yàn)證。英偉達(dá)表示,這種方法的優(yōu)勢(shì)在于單次迭代可能生成多個(gè)token,盡管這需要額外的草稿模型計(jì)算開銷。經(jīng)過(guò)這些優(yōu)化,整套服務(wù)器系統(tǒng)在峰值吞吐配置下,每秒能夠處理72,000個(gè)tokens。
英偉達(dá)進(jìn)一步解釋說(shuō),Blackwell架構(gòu)與Llama 4 Maverick級(jí)別的超大規(guī)模語(yǔ)言模型完美適配,這得益于其專為大型語(yǔ)言模型推理加速設(shè)計(jì)的EAGLE3軟件架構(gòu)。這一架構(gòu)與GPU硬件架構(gòu)形成了協(xié)同效應(yīng),從而實(shí)現(xiàn)了性能的顯著提升。
英偉達(dá)還強(qiáng)調(diào),他們?cè)谔岣咝阅艿耐瑫r(shí),也確保了響應(yīng)的準(zhǔn)確性。測(cè)試結(jié)果顯示,使用FP8數(shù)據(jù)格式的準(zhǔn)確性與人工分析的BF16數(shù)據(jù)格式相當(dāng)。這意味著,在保持高準(zhǔn)確性的前提下,英偉達(dá)成功地大幅提高了系統(tǒng)的性能。
英偉達(dá)的這一突破,不僅展示了其在GPU技術(shù)領(lǐng)域的領(lǐng)先地位,也為大型語(yǔ)言模型的推理加速提供了新的解決方案。隨著人工智能技術(shù)的不斷發(fā)展,這一突破將對(duì)未來(lái)的AI應(yīng)用產(chǎn)生深遠(yuǎn)的影響。