亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

阿里通義團(tuán)隊(duì)開(kāi)源Qwen3-Next:混合架構(gòu)+極致稀疏MoE,推理性價(jià)比飆升

   時(shí)間:2025-09-12 18:50 作者:楊凌霄

阿里通義團(tuán)隊(duì)近日宣布,正式推出并開(kāi)源新一代大語(yǔ)言模型架構(gòu)Qwen3-Next,標(biāo)志著大模型技術(shù)進(jìn)入全新發(fā)展階段。這款總參數(shù)量達(dá)800億的模型通過(guò)創(chuàng)新架構(gòu)設(shè)計(jì),僅需激活30億參數(shù)即可實(shí)現(xiàn)與千億級(jí)模型相當(dāng)?shù)男阅埽谟?jì)算效率與推理速度上取得突破性進(jìn)展。

核心技術(shù)創(chuàng)新方面,Qwen3-Next采用混合注意力機(jī)制與高稀疏度MoE架構(gòu)的組合方案。通過(guò)將75%的神經(jīng)網(wǎng)絡(luò)層替換為Gated DeltaNet線性注意力模塊,配合25%的標(biāo)準(zhǔn)注意力層,模型在保持長(zhǎng)序列處理能力的同時(shí),將計(jì)算復(fù)雜度從二次方降至線性水平。實(shí)驗(yàn)數(shù)據(jù)顯示,這種混合架構(gòu)在上下文學(xué)習(xí)任務(wù)中顯著優(yōu)于純線性或標(biāo)準(zhǔn)注意力方案。

在參數(shù)效率優(yōu)化上,研發(fā)團(tuán)隊(duì)構(gòu)建了包含512個(gè)專家模塊的極致稀疏MoE架構(gòu)。每次推理僅需激活10個(gè)路由專家中的3個(gè),配合1個(gè)共享專家,實(shí)現(xiàn)3.7%的參數(shù)激活率。這種設(shè)計(jì)使800億參數(shù)模型在推理時(shí)僅需調(diào)動(dòng)30億參數(shù),卻能達(dá)到Qwen3旗艦版2350億參數(shù)模型的性能水平,同時(shí)訓(xùn)練成本降低90%以上。

針對(duì)長(zhǎng)文本處理場(chǎng)景,模型引入多項(xiàng)針對(duì)性優(yōu)化。通過(guò)擴(kuò)展注意力頭維度至256、優(yōu)化旋轉(zhuǎn)位置編碼策略,以及采用Zero-Centered RMSNorm歸一化方法,有效提升了32K以上超長(zhǎng)上下文的推理穩(wěn)定性。在4K文本長(zhǎng)度下,預(yù)填充階段吞吐量較前代模型提升7倍,解碼階段提升4倍;當(dāng)上下文擴(kuò)展至32K時(shí),兩項(xiàng)指標(biāo)均實(shí)現(xiàn)10倍以上增長(zhǎng)。

多token預(yù)測(cè)(MTP)機(jī)制的引入進(jìn)一步強(qiáng)化了模型效率。該技術(shù)通過(guò)同步預(yù)測(cè)多個(gè)連續(xù)token,使推測(cè)解碼(Speculative Decoding)的接受率顯著提升。在編程能力評(píng)測(cè)LiveCodeBench v6中,指令調(diào)優(yōu)版本Qwen3-Next-Instruct超越前代旗艦?zāi)P停辉跀?shù)學(xué)推理基準(zhǔn)AIME25測(cè)試中,思考增強(qiáng)版本Qwen3-Next-Thinking取得87.8分,全面領(lǐng)先Gemini2.5-Flash-Thinking等同量級(jí)模型。

開(kāi)發(fā)團(tuán)隊(duì)透露,混合架構(gòu)的研發(fā)歷經(jīng)近一年實(shí)驗(yàn)驗(yàn)證。通過(guò)系統(tǒng)化對(duì)比滑動(dòng)窗口注意力、Mamba2等方案,最終確定Gated DeltaNet與標(biāo)準(zhǔn)注意力的最優(yōu)混合比例。在模型初始化階段,團(tuán)隊(duì)采用參數(shù)歸一化技術(shù)確保專家模塊均衡激活,配合權(quán)重衰減策略有效控制數(shù)值穩(wěn)定性問(wèn)題。

目前,Qwen3-Next的指令調(diào)優(yōu)版和思考增強(qiáng)版已通過(guò)HuggingFace、Kaggle等平臺(tái)開(kāi)源,并在Qwen.ai官網(wǎng)提供交互服務(wù)。第三方平臺(tái)anycoder的實(shí)時(shí)編程測(cè)試顯示,新模型在代碼生成質(zhì)量與響應(yīng)速度上均有顯著提升。該架構(gòu)的突破為大規(guī)模模型的高效部署提供了全新范式,特別適用于資源受限場(chǎng)景下的高性能AI應(yīng)用。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容