字節(jié)跳動(dòng)旗下的Seed團(tuán)隊(duì)近日宣布了一項(xiàng)重大開源舉措,正式推出了Seed-OSS系列模型。這一系列模型專為處理長上下文、推理任務(wù)、Agent行為及通用場(chǎng)景設(shè)計(jì),其上下文窗口擴(kuò)展至前所未有的512k,這一數(shù)字是業(yè)界常規(guī)上下文窗口(128k)的四倍,甚至超越了GPT-5的兩倍,相當(dāng)于能夠一次性處理約1600頁文本的內(nèi)容。
Seed-OSS系列模型特別針對(duì)推理任務(wù)進(jìn)行了優(yōu)化,并賦予用戶調(diào)節(jié)思維預(yù)算的靈活性,以滿足不同應(yīng)用場(chǎng)景的需求。此次開源包含了三個(gè)版本:基礎(chǔ)模型Seed-OSS-36B-Base、無合成數(shù)據(jù)基礎(chǔ)模型Seed-OSS-36B-Base-woSyn,以及經(jīng)過指令微調(diào)的Seed-OSS-36B-Instruct。
在多個(gè)基準(zhǔn)測(cè)試中,經(jīng)過指令微調(diào)的Seed-OSS-36B-Instruct展現(xiàn)了出色的性能,在通用知識(shí)、Agent行為、編程及長上下文等領(lǐng)域取得了7項(xiàng)開源模型中的最佳表現(xiàn)(SOTA)。其整體能力超越了Qwen3-32B、Gemma3-27B及gpt-oss-20B等模型,與Qwen3-30B-A3B-Thinking-2507在多數(shù)領(lǐng)域不相伯仲。
Seed-OSS系列模型遵循寬松的Apache2.0開源協(xié)議,并計(jì)劃在未來發(fā)布詳細(xì)的技術(shù)報(bào)告。這些模型采用了12萬億個(gè)token的預(yù)訓(xùn)練數(shù)據(jù),基于當(dāng)前主流的因果語言模型架構(gòu),即預(yù)測(cè)下一個(gè)token的模型類型,且全部為稠密模型,未采用MoE等復(fù)雜架構(gòu)。
在技術(shù)創(chuàng)新方面,Seed-OSS系列結(jié)合了多項(xiàng)關(guān)鍵技術(shù),包括RoPE(旋轉(zhuǎn)位置編碼)、GQA注意力機(jī)制、RMSNorm歸一化及SwiGLU激活函數(shù)等,這些組件的組合旨在提升訓(xùn)練穩(wěn)定性和推理性能。尤為Seed-OSS的512k上下文窗口并非后續(xù)擴(kuò)展,而是原生訓(xùn)練的結(jié)果。
模型還引入了思考預(yù)算功能,幫助開發(fā)者控制推理成本并優(yōu)化使用體驗(yàn)。根據(jù)Seed團(tuán)隊(duì)的分享,對(duì)于簡單任務(wù),隨著思維預(yù)算的增加,模型分?jǐn)?shù)波動(dòng)不大;而對(duì)于復(fù)雜任務(wù),分?jǐn)?shù)則會(huì)隨著思維預(yù)算的增加而提升。在默認(rèn)模式下,模型沒有思考長度限制,但若指定思維預(yù)算,建議優(yōu)先考慮512的整數(shù)倍值。
Seed-OSS系列模型一經(jīng)發(fā)布,便獲得了開發(fā)者社區(qū)的廣泛認(rèn)可。Hugging Face的工程師Tiezhen Wang評(píng)價(jià)稱,這一系列模型非常適合進(jìn)行消融研究,能夠以較低成本探索不同組件對(duì)大模型性能的影響。社區(qū)成員也紛紛表示,如此規(guī)模的基礎(chǔ)模型在開源界較為罕見,且長上下文能力對(duì)實(shí)際應(yīng)用具有重要意義。
近期,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)頻繁開源多款模型,除了Seed-OSS系列外,還包括多語言翻譯模型Seed-X、智能體模型Tar系列及圖像編輯模型Vincie等。這一系列舉措表明,開源正逐漸成為模型發(fā)布的重要選擇,甚至像OpenAI這樣原本堅(jiān)持閉源的廠商也開始逐步開源其模型。字節(jié)跳動(dòng)此次將核心語言模型貢獻(xiàn)給社區(qū),無疑為開源研究提供了更多基礎(chǔ)模型的選擇。