字節(jié)跳動近期發(fā)布了一份英文版技術(shù)報告,詳細(xì)介紹了其最新的Seed1.5-Thinking混合專家模型(MoE)。該模型擁有200億激活參數(shù)和高達(dá)2000億的總參數(shù),展現(xiàn)了卓越的推理能力。
在多個基準(zhǔn)測試中,Seed1.5-Thinking的表現(xiàn)尤為亮眼。在AIME 2024競賽中,它獲得了86.7分的高分;在Codeforces平臺上也取得了55.0分的佳績;而在GPQA測試中,則獲得了77.3分。這些成績不僅證明了該模型在STEM和編程領(lǐng)域的強(qiáng)大實(shí)力,還顯示出在非推理任務(wù)上的廣泛適用性。與DeepSeek R1相比,Seed1.5-Thinking的勝率更是高出了8%。
在模型開發(fā)方面,字節(jié)跳動團(tuán)隊(duì)強(qiáng)調(diào)了數(shù)據(jù)、強(qiáng)化學(xué)習(xí)(RL)算法和RL基礎(chǔ)設(shè)施的重要性。數(shù)據(jù)方面,他們采用監(jiān)督微調(diào)(SFT)方法,并依賴于鏈?zhǔn)剿季S(CoT)數(shù)據(jù)。然而,過多的非CoT數(shù)據(jù)可能會降低模型的探索能力。RL訓(xùn)練數(shù)據(jù)則涵蓋了STEM問題、代碼任務(wù)等多個領(lǐng)域,其中數(shù)學(xué)數(shù)據(jù)的泛化能力尤為突出,能夠全面提升各任務(wù)的性能。
針對RL算法訓(xùn)練中的不穩(wěn)定性問題,字節(jié)跳動團(tuán)隊(duì)自主研發(fā)了VAPO和DAPO框架。這兩個框架分別針對演員-評論家及策略梯度范式,有效解決了訓(xùn)練不穩(wěn)定的問題,確保了模型的穩(wěn)健性。
在RL基礎(chǔ)設(shè)施方面,團(tuán)隊(duì)采用了混合引擎架構(gòu),并引入了Streaming Rollout System(SRS)。這一系統(tǒng)能夠緩解長響應(yīng)生成中的滯后問題,結(jié)合多種并行機(jī)制和內(nèi)存優(yōu)化策略,進(jìn)一步提升了訓(xùn)練效率和可擴(kuò)展性。
評估結(jié)果顯示,Seed1.5-Thinking在數(shù)學(xué)推理方面與OpenAI的o3-mini-high表現(xiàn)相當(dāng),但在AIME 2025和BeyondAIME等更高級別的測試中仍存在一定差距。在科學(xué)領(lǐng)域的GPQA測試中,該模型接近o3水平;在編程方面,則接近Gemini 2.5 Pro的性能。在邏輯推理的ARC-AGI測試中,Seed1.5-Thinking更是展現(xiàn)出了突出的表現(xiàn)。人類評估顯示,該模型在非推理場景的整體勝率超過DeepSeek R1達(dá)8.0%,且更符合人類的偏好。
字節(jié)跳動團(tuán)隊(duì)表示,他們將繼續(xù)探索更高效的強(qiáng)化學(xué)習(xí)方法,挑戰(zhàn)更復(fù)雜的任務(wù),并研究通用獎勵建模,以進(jìn)一步提升模型的智能邊界。同時,他們計(jì)劃公開BeyondAIME和Codeforces等內(nèi)部基準(zhǔn),為相關(guān)領(lǐng)域的研究提供有力支持。