昆侖萬維近日宣布,其天工團(tuán)隊(duì)在邏輯推理大模型領(lǐng)域取得了新的突破?;谑卓钪形倪壿嬐评泶竽P蚐kywork-o1,團(tuán)隊(duì)推出了全面升級(jí)的Skywork-OR1(Open Reasoner 1)系列模型。
據(jù)悉,Skywork-OR1系列模型在邏輯推理性能上達(dá)到了業(yè)界領(lǐng)先水平,成功突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的瓶頸。尤為昆侖萬維決定將這一系列模型全面開放并免費(fèi)提供給開發(fā)者社區(qū),以完全開源的形式助力技術(shù)創(chuàng)新。
此次開源涵蓋了三款高性能模型:Skywork-OR1-Math-7B,這是一款專注于數(shù)學(xué)領(lǐng)域的專項(xiàng)模型,同時(shí)擁有出色的代碼生成能力;Skywork-OR1-7B-Preview,融合了數(shù)學(xué)與代碼能力,是一款兼具通用性與專業(yè)性的模型;以及Skywork-OR1-32B-Preview,面向更高復(fù)雜度的任務(wù),具備更強(qiáng)的推理能力,堪稱旗艦版本。
昆侖萬維采取了業(yè)界最高透明度的開源策略,不僅全面開源了模型權(quán)重和訓(xùn)練數(shù)據(jù)集,還提供了完整的訓(xùn)練代碼。所有資源均已在GitHub和Huggingface平臺(tái)上公開,為開發(fā)者提供了極大的便利。昆侖萬維還在Notion平臺(tái)上發(fā)布了配套的技術(shù)博客,詳細(xì)闡述了數(shù)據(jù)處理流程、訓(xùn)練方法和關(guān)鍵技術(shù)發(fā)現(xiàn),為社區(qū)提供了可復(fù)現(xiàn)的實(shí)踐參考。
目前,Skywork-OR1-7B和Skywork-OR1-32B的能力仍在持續(xù)提升中。昆侖萬維透露,將在兩周內(nèi)發(fā)布這兩個(gè)模型的正式版本,并推出更為系統(tǒng)詳盡的技術(shù)報(bào)告,分享在推理模型訓(xùn)練中的經(jīng)驗(yàn)與洞察。
在數(shù)學(xué)推理任務(wù)中,Skywork-OR1系列模型展現(xiàn)出了強(qiáng)大的實(shí)力。通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24與AIME25數(shù)據(jù)集上均實(shí)現(xiàn)了同參數(shù)規(guī)模下的最優(yōu)表現(xiàn)。而針對(duì)數(shù)學(xué)場(chǎng)景深度優(yōu)化的專項(xiàng)模型Skywork-OR1-Math-7B更是取得了令人矚目的成績(jī),在AIME24和AIME25上分別獲得了69.8和52.3的高分,遠(yuǎn)超當(dāng)前主流7B級(jí)別模型。
在競(jìng)賽編程任務(wù)中,Skywork-OR1系列模型同樣表現(xiàn)出色。通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench數(shù)據(jù)集上均取得了同等參數(shù)規(guī)模下的最優(yōu)性能。特別是Skywork-OR1-32B-Preview,其代碼生成與問題求解能力已接近參數(shù)規(guī)模高達(dá)671B的DeepSeek-R1,實(shí)現(xiàn)了卓越的性價(jià)比。
Skywork-OR1-Math-7B不僅在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色,還在代碼任務(wù)上展現(xiàn)出了較強(qiáng)的泛化能力。通過多階段GRPO訓(xùn)練,該模型在復(fù)雜數(shù)學(xué)問題上實(shí)現(xiàn)了卓越表現(xiàn),同時(shí)在代碼評(píng)測(cè)基準(zhǔn)Livecodebench上的表現(xiàn)也從37.6%提升到43.6%,相比基線模型有了顯著提升。
Skywork-OR1-Math-7B的最終模型在AIME24和AIME25上的準(zhǔn)確率分別達(dá)到69.8%和52.3%,超越了OpenAI-o3-mini (low),達(dá)到了當(dāng)前尺寸下的最優(yōu)性能。這一成績(jī)不僅驗(yàn)證了昆侖萬維天工團(tuán)隊(duì)訓(xùn)練策略的有效性,也展示了Skywork-OR1系列模型在邏輯推理和代碼生成方面的強(qiáng)大實(shí)力。