群核科技在近日舉辦的首屆技術(shù)開放日上,震撼發(fā)布了其空間大模型的最新研究成果:升級(jí)版空間語言模型SpatialLM 1.5和空間生成模型SpatialGen。同時(shí),公司還向與會(huì)者透露了新模型后續(xù)的開源計(jì)劃。這一大模型體系專注于3D室內(nèi)場景的認(rèn)知與生成,展示了在真實(shí)感全息漫游、結(jié)構(gòu)化可交互性以及復(fù)雜室內(nèi)場景處理上的卓越能力。
除了開源模型,群核科技還首次分享了AI團(tuán)隊(duì)基于SpatialGen探索的AI視頻生成解決方案,該方案旨在通過創(chuàng)新的范式解決AI視頻中時(shí)空一致性的難題。
SpatialLM 1.5,作為此次發(fā)布的亮點(diǎn)之一,是一款基于大語言模型訓(xùn)練的空間語言模型。它能通過對(duì)話交互系統(tǒng)SpatialLM-Chat,實(shí)現(xiàn)可交互場景的端到端生成。與傳統(tǒng)大語言模型相比,SpatialLM 1.5不僅理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”。用戶只需輸入簡單文本描述,該模型便能自動(dòng)生成結(jié)構(gòu)化場景腳本,智能匹配家具模型并完成布局,之后還支持通過自然語言進(jìn)行問答或編輯。
更重要的是,SpatialLM 1.5生成的場景富含物理正確的結(jié)構(gòu)化信息,并能快速批量輸出大量符合要求的多樣化場景。這些場景可用于機(jī)器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等,有效解決機(jī)器人訓(xùn)練數(shù)據(jù)缺乏的問題。在現(xiàn)場演示中,群核科技首席科學(xué)家周子寒展示了機(jī)器人在養(yǎng)老場景中的應(yīng)用,模型不僅理解了相關(guān)物體對(duì)象,還自動(dòng)規(guī)劃出最優(yōu)行動(dòng)路徑,展示了機(jī)器人在復(fù)雜家庭環(huán)境中執(zhí)行任務(wù)的潛力。
SpatialLM的前代版本1.0在今年3月開源后,迅速登上Hugging Face趨勢榜前三,已有初創(chuàng)企業(yè)基于其代碼和架構(gòu)訓(xùn)練出自有模型,這充分驗(yàn)證了開源模式的技術(shù)影響力。
而SpatialGen則專注于“生成與呈現(xiàn)”,它是一款基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型。根據(jù)文字描述、參考圖像和3D空間布局,SpatialGen能生成具有時(shí)空一致性的多視角圖像,并進(jìn)一步生成3D高斯場景,渲染出漫游視頻。依托群核科技的海量室內(nèi)3D場景數(shù)據(jù)與多視角擴(kuò)散模型技術(shù),SpatialGen生成的多視角圖像能確保同一物體在不同鏡頭下保持準(zhǔn)確的空間屬性和物理關(guān)系。用戶可以在生成的3D高斯場景和真實(shí)感全息漫游視頻中自由穿梭,獲得沉浸式的體驗(yàn)。
群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚商岬剑F(xiàn)有的AIGC文生視頻與圖生視頻工具雖已初步推動(dòng)了全民視頻創(chuàng)作的潮流,但由于時(shí)空一致性問題的制約,離真正的商業(yè)化應(yīng)用還有一定距離。群核科技正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品,計(jì)劃在今年內(nèi)正式發(fā)布,這或?qū)⒊蔀槿蚴卓钌疃热诤?D能力的AI視頻生成工具。通過構(gòu)建3D渲染與視頻增強(qiáng)一體化的生成管線,有望彌補(bǔ)當(dāng)前AIGC視頻生成中時(shí)空一致性不足的問題。
群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌在活動(dòng)現(xiàn)場分享了公司在空間智能布局上的最新思考?;诳峒覙愤@一全球最大的空間設(shè)計(jì)平臺(tái),群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,工具沉淀數(shù)據(jù),數(shù)據(jù)加速模型訓(xùn)練,模型提升工具體驗(yàn),工具廣泛應(yīng)用中再沉淀豐富的場景數(shù)據(jù)。截至2025年6月30日,群核科技擁有超過4.41億個(gè)3D模型及超過5億個(gè)結(jié)構(gòu)化3D空間場景。
黃曉煌表示,開源是公司戰(zhàn)略的重要關(guān)鍵詞之一。自2018年起,群核科技便啟動(dòng)了開源戰(zhàn)略,逐步開放數(shù)據(jù)和算法能力。當(dāng)前,空間大模型還處于初級(jí)階段,群核科技希望通過開源推動(dòng)全球空間智能技術(shù)快速發(fā)展,成為全球空間智能服務(wù)提供商,推動(dòng)空間大模型迎來屬于自己的“DeepSeek時(shí)刻”。
據(jù)悉,技術(shù)開放日上分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺(tái)向全球開發(fā)者開源。其中,空間生成模型SpatialGen在技術(shù)開放日當(dāng)天已可在開源網(wǎng)站下載使用,而空間語言模型SpatialLM 1.5也將以“SpatialLM-Chat”的形式完成開源。