滾動資訊

當前位置：網(wǎng)界 > 數(shù)據(jù)洞察 > 正文內(nèi)容

英偉達發(fā)布Mamba-Transformer混合架構模型，推理吞吐量提升6倍，20萬億Token錘煉

時間：2025-08-21 12:53 作者：蘇婉清

英偉達近期在人工智能領域再次邁出重要一步，推出了一款名為NVIDIA Nemotron Nano 2的全新語言模型。這款模型以其獨特的Mamba-Transformer混合架構，為復雜的推理任務帶來了前所未有的性能提升。

據(jù)悉，NVIDIA Nemotron Nano 2模型大小僅為9B參數(shù)，卻在對標業(yè)界標桿Qwen3-8B時，展現(xiàn)出了相當甚至更優(yōu)的表現(xiàn)。其背后的秘密武器，便是革命性的Mamba-Transformer混合架構。這一架構結合了Mamba狀態(tài)空間模型的快速推理能力與Transformer架構的卓越性能，實現(xiàn)了在復雜推理基準測試中準確率的顯著提升，同時吞吐量最高可達Qwen3-8B的6倍。

在英偉達官方網(wǎng)站的簡單測試中，NVIDIA Nemotron Nano 2模型對于經(jīng)典問題的回答準確無誤，展現(xiàn)出了強大的實用性和可靠性。英偉達還為用戶提供了三款實用小工具，包括實時天氣查詢、哈利波特角色描述以及顏色建議，進一步增強了用戶的互動體驗。

NVIDIA Nemotron Nano 2模型的成功，離不開其創(chuàng)新的Nemotron-H架構。該架構采用閃電般快速的Mamba-2層，替換了傳統(tǒng)Transformer架構中絕大多數(shù)的自注意力層，從而在處理長篇大論和思考復雜長思維鏈時，實現(xiàn)了推理速度的史詩級提升。這一創(chuàng)新不僅提升了模型的性能，更為未來的AI發(fā)展開辟了新的道路。

值得注意的是，Mamba架構作為一種完全無注意力機制的序列建模架構，基于結構化狀態(tài)空間模型（SSMs），通過“選擇性機制”根據(jù)當前輸入動態(tài)調(diào)整參數(shù)，專注于保留相關信息并忽略無關信息。這一特性使得Mamba在處理超長序列時，推理速度可比Transformer快3–5倍，且復雜度為線性級別，支持極長的上下文（甚至達到百萬級token）。

為了打造NVIDIA Nemotron Nano 2模型，英偉達進行了精心的訓練和壓縮。首先，在一個擁有20萬億Token的海量數(shù)據(jù)集上，利用先進的FP8訓練方案，鍛造出一個120億參數(shù)的基礎模型——Nemotron-Nano-12B-v2-Base。然后，結合SFT、DPO、GRPO、RLHF等多階段對齊方法，提升了推理、對話、工具調(diào)用與安全性。最后，通過Minitron策略進行極限壓縮與蒸餾，將12B基礎模型壓縮為9B參數(shù)的NVIDIA Nemotron Nano 2模型。

在各大推理基準測試中，NVIDIA Nemotron Nano 2模型展現(xiàn)出了卓越的性能。在數(shù)學、代碼、通用推理以及長上下文等基準測試中，其表現(xiàn)優(yōu)于或持平同類開源模型，如Qwen3-8B和Gemma3-12B。同時，在8k輸入/16k輸出場景下，實現(xiàn)了6.3倍的吞吐量提升。

英偉達還宣布在HuggingFace平臺上全面開放NVIDIA Nemotron Nano 2模型及其相關資源，包括支持128K上下文長度的推理模型、基礎模型以及剪枝前的基模型。英偉達還開源了用于預訓練的大部分數(shù)據(jù)，包括高質(zhì)量網(wǎng)頁、數(shù)學、代碼、SFT和多語言問答數(shù)據(jù)等，為AI社區(qū)提供了寶貴的資源。

英偉達此次發(fā)布的NVIDIA Nemotron Nano 2模型，不僅展現(xiàn)了其在AI領域的深厚實力，更為開源社區(qū)注入了新的活力。隨著AI技術的不斷發(fā)展，我們有理由相信，未來將有更多創(chuàng)新性的模型和架構涌現(xiàn)，為人類社會帶來更多的便利和進步。

更多>同類內(nèi)容

AI時代下的2025：資深產(chǎn)品經(jīng)理核心能力提升全攻略

CDA數(shù)據(jù)分析師認證課程為產(chǎn)品經(jīng)理提供了系統(tǒng)化的數(shù)據(jù)思維訓練，其課程中的業(yè)務數(shù)據(jù)分析模塊和數(shù)據(jù)驅動決策方法，直接幫助產(chǎn)品經(jīng)理構建這種深度分析能力。通過系統(tǒng)化學習CDA課程和持續(xù)實踐，產(chǎn)品經(jīng)理可以構建這種多維…

08-21

Kimi大模型訓推混部：實戰(zhàn)穩(wěn)定性提升與資源高效利用

在舉辦的 QCon 全球軟件開發(fā)大會上，月之暗面系統(tǒng)工程師黃維嘯分享了“Kimi 穩(wěn)定高效的 LLM 基礎設施構建之道”，他介紹了月之暗面在訓推混部集群中的實踐經(jīng)驗，重點探討如何快速定位并隔離…

08-21

港交所上半年業(yè)績亮眼：IPO全球奪冠，外資參與度大增！

08-21

2025全球應收賬款與營運資金報告：企業(yè)如何應對經(jīng)濟波動與貿(mào)易挑戰(zhàn)？

08-21

中銀證券大手筆！擬14億增資全資子公司中銀國際投資

08-20

德陽文旅新風貌：三星堆璀璨，龍門之巔邀您共賞“安逸游”

08-19

柯達Q2凈虧損2600萬，面臨持續(xù)經(jīng)營重大疑慮

08-19

日上光電黃鋼：泰國基地啟航，中國照明企業(yè)全球化新征途

08-19

eBay全球交易平臺探秘：從拍賣到綜合電商的華麗轉身

08-19

美日貿(mào)易風波再起，日本急派代表赴美，能否化解關稅危機？

08-19

全球百萬富翁版圖：美日爭霸下，中國財富韌性何如？

08-19

立訊精密赴港上市申請已提交，或融資超70億人民幣

立訊精密，一家深耕精密制造領域的領先企業(yè)，近日宣布了其向香港聯(lián)合交易所遞交上市申請的重大決定。據(jù)悉，該申請已于今年8月18日正式提交，旨在通過發(fā)行境外上市股份（H股）在香港聯(lián)交所主板掛牌上市。同日，相關申請材料也在香港聯(lián)交所官方網(wǎng)站公布。

08-19

滬指十年新高！場外資金洶涌入場？市場熱議后續(xù)走向

08-18

中國經(jīng)濟穩(wěn)健前行，這份成績單為何讓全球“看多”？

08-18

新疆白楊河鈹?shù)V巨量發(fā)現(xiàn)，200萬噸儲量引領高科技產(chǎn)業(yè)新飛躍！

08-17

點擊查看更多 +

全站最新

辛巴退網(wǎng)：直播電商生態(tài)重構，快手辛選尋求新平衡

四川盛世鋼聯(lián)：槽鋼市場的領航者，共創(chuàng)工程建設新價值

上海百年鐵路站日均萬輛新突破，海鐵聯(lián)運彰顯戰(zhàn)略新高度！

港交所中期業(yè)績亮眼，外資投資趨勢能否持續(xù)升溫？

長牛慢?；A何在？十萬億場外資金能否助力A股穩(wěn)步前行？

美中經(jīng)貿(mào)對話順暢，貝森特：預計11月前再會面

熱門內(nèi)容

本欄最新

2025全球應收賬款與營運資金報告：企業(yè)如何應對經(jīng)濟波動與貿(mào)易挑戰(zhàn)？

中銀證券大手筆！擬14億增資全資子公司中銀國際投資

德陽文旅新風貌：三星堆璀璨，龍門之巔邀您共賞“安逸游”

柯達Q2凈虧損2600萬，面臨持續(xù)經(jīng)營重大疑慮

日上光電黃鋼：泰國基地啟航，中國照明企業(yè)全球化新征途

eBay全球交易平臺探秘：從拍賣到綜合電商的華麗轉身

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標，是該商標的唯一持有者，未經(jīng)授本公司授權，嚴禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

英偉達發(fā)布Mamba-Transformer混合架構模型，推理吞吐量提升6倍，20萬億Token錘煉

英偉達發(fā)布Mamba-Transformer混合架構模型，推理吞吐量提升6倍，20萬億Token錘煉