亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

英偉達發(fā)布Mamba-Transformer混合架構模型,推理吞吐量提升6倍,20萬億Token錘煉

   時間:2025-08-21 12:53 作者:蘇婉清

英偉達近期在人工智能領域再次邁出重要一步,推出了一款名為NVIDIA Nemotron Nano 2的全新語言模型。這款模型以其獨特的Mamba-Transformer混合架構,為復雜的推理任務帶來了前所未有的性能提升。

據(jù)悉,NVIDIA Nemotron Nano 2模型大小僅為9B參數(shù),卻在對標業(yè)界標桿Qwen3-8B時,展現(xiàn)出了相當甚至更優(yōu)的表現(xiàn)。其背后的秘密武器,便是革命性的Mamba-Transformer混合架構。這一架構結合了Mamba狀態(tài)空間模型的快速推理能力與Transformer架構的卓越性能,實現(xiàn)了在復雜推理基準測試中準確率的顯著提升,同時吞吐量最高可達Qwen3-8B的6倍。

在英偉達官方網(wǎng)站的簡單測試中,NVIDIA Nemotron Nano 2模型對于經(jīng)典問題的回答準確無誤,展現(xiàn)出了強大的實用性和可靠性。英偉達還為用戶提供了三款實用小工具,包括實時天氣查詢、哈利波特角色描述以及顏色建議,進一步增強了用戶的互動體驗。

NVIDIA Nemotron Nano 2模型的成功,離不開其創(chuàng)新的Nemotron-H架構。該架構采用閃電般快速的Mamba-2層,替換了傳統(tǒng)Transformer架構中絕大多數(shù)的自注意力層,從而在處理長篇大論和思考復雜長思維鏈時,實現(xiàn)了推理速度的史詩級提升。這一創(chuàng)新不僅提升了模型的性能,更為未來的AI發(fā)展開辟了新的道路。

值得注意的是,Mamba架構作為一種完全無注意力機制的序列建模架構,基于結構化狀態(tài)空間模型(SSMs),通過“選擇性機制”根據(jù)當前輸入動態(tài)調(diào)整參數(shù),專注于保留相關信息并忽略無關信息。這一特性使得Mamba在處理超長序列時,推理速度可比Transformer快3–5倍,且復雜度為線性級別,支持極長的上下文(甚至達到百萬級token)。

為了打造NVIDIA Nemotron Nano 2模型,英偉達進行了精心的訓練和壓縮。首先,在一個擁有20萬億Token的海量數(shù)據(jù)集上,利用先進的FP8訓練方案,鍛造出一個120億參數(shù)的基礎模型——Nemotron-Nano-12B-v2-Base。然后,結合SFT、DPO、GRPO、RLHF等多階段對齊方法,提升了推理、對話、工具調(diào)用與安全性。最后,通過Minitron策略進行極限壓縮與蒸餾,將12B基礎模型壓縮為9B參數(shù)的NVIDIA Nemotron Nano 2模型。

在各大推理基準測試中,NVIDIA Nemotron Nano 2模型展現(xiàn)出了卓越的性能。在數(shù)學、代碼、通用推理以及長上下文等基準測試中,其表現(xiàn)優(yōu)于或持平同類開源模型,如Qwen3-8B和Gemma3-12B。同時,在8k輸入/16k輸出場景下,實現(xiàn)了6.3倍的吞吐量提升。

英偉達還宣布在HuggingFace平臺上全面開放NVIDIA Nemotron Nano 2模型及其相關資源,包括支持128K上下文長度的推理模型、基礎模型以及剪枝前的基模型。英偉達還開源了用于預訓練的大部分數(shù)據(jù),包括高質(zhì)量網(wǎng)頁、數(shù)學、代碼、SFT和多語言問答數(shù)據(jù)等,為AI社區(qū)提供了寶貴的資源。

英偉達此次發(fā)布的NVIDIA Nemotron Nano 2模型,不僅展現(xiàn)了其在AI領域的深厚實力,更為開源社區(qū)注入了新的活力。隨著AI技術的不斷發(fā)展,我們有理由相信,未來將有更多創(chuàng)新性的模型和架構涌現(xiàn),為人類社會帶來更多的便利和進步。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容