近日,強(qiáng)化學(xué)習(xí)在提升模型推理能力方面的潛力得到了新的驗證。據(jù)悉,一種名為DeepSeek-R1的模型,通過結(jié)合冷啟動數(shù)據(jù)和多階段訓(xùn)練策略,成功展現(xiàn)了卓越的性能,特別是在深度思考和復(fù)雜推理任務(wù)上。
在此基礎(chǔ)上,阿里云通義千問團(tuán)隊宣布推出其最新的推理模型QwQ-32B,該模型擁有驚人的320億參數(shù)。令人矚目的是,盡管參數(shù)規(guī)模遠(yuǎn)小于DeepSeek-R1的6710億參數(shù)(激活370億),QwQ-32B的性能卻能夠與之比肩。
這一突破彰顯了強(qiáng)化學(xué)習(xí)在預(yù)訓(xùn)練大模型上的強(qiáng)大應(yīng)用效果。不僅如此,QwQ-32B還集成了與智能體相關(guān)的能力,能夠在使用工具的同時進(jìn)行批判性思考,并根據(jù)環(huán)境反饋動態(tài)調(diào)整推理路徑。這一創(chuàng)新使得QwQ-32B在復(fù)雜場景下的表現(xiàn)更為出色。
目前,QwQ-32B已在Hugging Face和ModelScope平臺開源,并遵循Apache 2.0協(xié)議。用戶可以通過這些平臺或Qwen Chat直接體驗這一先進(jìn)模型。
在性能測試方面,阿里云對QwQ-32B進(jìn)行了全面的評估,包括數(shù)學(xué)推理、編程能力和通用能力。結(jié)果顯示,QwQ-32B在數(shù)學(xué)評測集AIME24和代碼評測集LiveCodeBench上的表現(xiàn)與DeepSeek-R1相當(dāng),遠(yuǎn)超同尺寸的R1蒸餾模型及o1-mini。在LiveBench、IFeval和BFCL等多個權(quán)威評測中,QwQ-32B的得分均超越了DeepSeek-R1。
阿里云表示,QwQ-32B的成功是大規(guī)模強(qiáng)化學(xué)習(xí)在增強(qiáng)推理能力方面邁出的重要一步。這一過程中,團(tuán)隊不僅見證了強(qiáng)化學(xué)習(xí)的巨大潛力,還發(fā)現(xiàn)了預(yù)訓(xùn)練語言模型中尚未挖掘的無限可能。
展望未來,阿里云計劃將更強(qiáng)大的基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)相結(jié)合,并依托規(guī)?;嬎阗Y源,推動下一代Qwen模型的發(fā)展。團(tuán)隊正積極探索智能體與強(qiáng)化學(xué)習(xí)的集成,以實現(xiàn)長時推理,旨在通過推理時間的擴(kuò)展,解鎖更高的智能水平。