阿里巴巴在技術(shù)創(chuàng)新領(lǐng)域再次邁出重要一步,于近日凌晨正式發(fā)布了其最新一代的通義千問模型——Qwen3。這一發(fā)布不僅標(biāo)志著阿里巴巴在人工智能領(lǐng)域的深厚積累,更讓Qwen3一躍成為全球最頂尖的開源模型。
Qwen3系列模型涵蓋了多個(gè)版本,從Qwen3-0.6B到Qwen3-32B,以及更高級(jí)的MoE模型Qwen3-30B-A3B和Qwen3-235B-A22B,它們在層數(shù)、頭數(shù)、嵌入綁定、上下文長度等關(guān)鍵指標(biāo)上展現(xiàn)出不同的配置。其中,Qwen3-235B-A22B作為旗艦?zāi)P?,在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級(jí)模型相比,展現(xiàn)出了卓越的性能。
Qwen3是國內(nèi)首個(gè)“混合推理模型”,它將“快思考”與“慢思考”巧妙融合于一個(gè)模型中,實(shí)現(xiàn)了算力消耗的極大節(jié)省。這種設(shè)計(jì)使得Qwen3能夠在面對復(fù)雜問題時(shí)進(jìn)行深入推理,而在處理簡單問題時(shí)則能提供快速響應(yīng)。
阿里云不僅開源了Qwen3的MoE模型權(quán)重,包括Qwen3-235B-A22B和Qwen3-30B-A3B,還開源了六個(gè)Dense模型,這些模型均在Apache 2.0許可下開放給公眾使用。這一舉措無疑將極大地推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用。
Qwen3模型支持多達(dá)119種語言和方言,這一廣泛的多語言能力為全球用戶提供了前所未有的便利。無論是簡體中文、繁體中文還是粵語,Qwen3都能輕松應(yīng)對,為國際應(yīng)用開辟了全新的可能性。
在預(yù)訓(xùn)練方面,Qwen3的數(shù)據(jù)集相比前代Qwen2.5有了顯著擴(kuò)展。Qwen3使用了約36萬億個(gè)token的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,涵蓋了119種語言和方言。這些數(shù)據(jù)不僅來自網(wǎng)絡(luò),還包括從PDF文檔中提取的文本信息。為了增加數(shù)學(xué)和代碼數(shù)據(jù)的數(shù)量,阿里云還利用Qwen2.5-Math和Qwen2.5-Coder這兩個(gè)專家模型合成了大量數(shù)據(jù)。
Qwen3的預(yù)訓(xùn)練過程分為三個(gè)階段,每個(gè)階段都針對不同的目標(biāo)和數(shù)據(jù)集進(jìn)行優(yōu)化。在第一階段,模型在超過30萬億個(gè)token上進(jìn)行了基礎(chǔ)預(yù)訓(xùn)練;在第二階段,通過增加知識(shí)密集型數(shù)據(jù)的比例來改進(jìn)數(shù)據(jù)集,并在額外的5萬億個(gè)token上進(jìn)行了預(yù)訓(xùn)練;在第三階段,使用高質(zhì)量的長上下文數(shù)據(jù)將上下文長度擴(kuò)展到32K token,以確保模型能夠處理更長的輸入。
在后訓(xùn)練方面,阿里云實(shí)施了一個(gè)四階段的訓(xùn)練流程,旨在開發(fā)同時(shí)具備思考推理和快速響應(yīng)能力的混合模型。這一流程包括長思維鏈冷啟動(dòng)、長思維鏈強(qiáng)化學(xué)習(xí)、思維模式融合和通用強(qiáng)化學(xué)習(xí)四個(gè)階段。
阿里云還為部署用戶提供了一種軟切換機(jī)制,允許用戶在enable_thinking=True時(shí)動(dòng)態(tài)控制模型的行為。用戶可以通過添加/think和/no_think指令來逐輪切換模型的思考模式,這一功能在多輪對話中尤為實(shí)用。
目前,用戶可以在Qwen Chat網(wǎng)頁版(chat.qwen.ai)和通義App中試用Qwen3模型,體驗(yàn)其強(qiáng)大的功能和靈活的思考模式。這一創(chuàng)新不僅將推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展,也將為全球用戶帶來更加便捷和智能的服務(wù)。