在五一假期前夕,阿里巴巴正式開源了其最新一代通義千問模型——Qwen3。這款模型以其精簡的參數(shù)量和顯著的成本效益引發(fā)了廣泛關注。據(jù)悉,Qwen3的參數(shù)量僅為DeepSeek-R1的三分之一,但其性能表現(xiàn)卻毫不遜色。
據(jù)報告顯示,Qwen3在多個基準測試中表現(xiàn)卓越,超越了包括DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro在內(nèi)的全球頂尖模型,成功登頂全球最強開源模型的寶座。特別是在代碼、數(shù)學和通用能力等方面的測試中,Qwen3展現(xiàn)出了強大的實力。
Qwen3之所以能夠在參數(shù)量減少的情況下依然保持高性能,得益于其模型架構(gòu)的改進、訓練數(shù)據(jù)的增加以及更高效的訓練方法。與上一代Qwen2.5基礎模型相比,Qwen3在體積更小的同時,性能表現(xiàn)也更為出色。特別是在STEM、編碼和推理等領域,Qwen3 Dense基礎模型的表現(xiàn)甚至超過了更大規(guī)模的Qwen2.5模型。
阿里巴巴在官方博客中透露,Qwen3 Dense基礎模型的整體性能與參數(shù)更多的Qwen2.5基礎模型相當。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分別與Qwen2.5-3B/7B/14B/32B/72B-Base在性能上不相上下。這一數(shù)據(jù)無疑進一步證明了Qwen3的強大實力。
Qwen3不僅擁有235B參數(shù)的MoE模型,還配備了一個小型MoE模型——Qwen3-30B-A3B。盡管該模型的激活參數(shù)量僅為3B,不及QwQ-32B模型的十分之一,但其性能卻更為優(yōu)異。這得益于MoE架構(gòu)的獨特設計,它能夠?qū)⒉煌膯栴}分配給最適合的專家來處理,從而提高查詢的計算效率。
此次阿里巴巴開源的模型包括Dense模型和MoE模型兩大類。其中,開源了兩個MoE模型的權(quán)重:一個是擁有2350多億總參數(shù)和220多億激活參數(shù)的Qwen3-235B-A22B大模型,另一個是擁有約300億總參數(shù)和30億激活參數(shù)的Qwen3-30B-A3B小型MoE模型。六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,這些模型均在Apache 2.0許可下開源,可直接用于商業(yè)用途。
Qwen3系列的另一個創(chuàng)新點在于其“混合型”模型設計。這種設計使得模型能夠在深度思考(用于復雜的邏輯推理、數(shù)學和編碼)和快思考(用于高效、通用的聊天)之間無縫切換,從而在各種場景下實現(xiàn)最佳性能。用戶無需手動操作開啟或關閉“深度思考”功能,也無需擔心模型過度思考的問題。這一設計不僅提高了用戶體驗,還有效降低了成本。
在部署方面,阿里巴巴表示,僅需4張H20顯卡即可部署Qwen3滿血版,顯存占用僅為性能相近模型的三分之一。這意味著與滿血版DeepSeek R1相比,Qwen3的部署成本降低了65%~75%。這一數(shù)據(jù)無疑為Qwen3的廣泛應用提供了有力支持。
阿里巴巴還介紹了Qwen3的四階段訓練流程,包括基礎訓練、深度思考訓練、混合快慢模式訓練和全面優(yōu)化。這一流程確保了Qwen3在工具調(diào)用、指令執(zhí)行和數(shù)據(jù)格式處理方面表現(xiàn)出色。阿里巴巴建議搭配Qwen-Agent使用,以簡化工具調(diào)用的代碼實現(xiàn)。此次,阿里巴巴還專門優(yōu)化了Qwen3模型的Agent和代碼能力,并加強了對MCP的支持。