智元機器人在科技創(chuàng)新領域邁出了重要一步,正式揭曉了其首個通用具身基座大模型——智元啟元大模型(簡稱GO-1)。這一發(fā)布標志著具身智能技術(shù)取得了突破性進展。
GO-1大模型的核心在于其創(chuàng)新的Vision-Language-Latent-Action(ViLLA)架構(gòu),該架構(gòu)由多模態(tài)大模型(VLM)與混合專家模型(MoE)兩大組件構(gòu)成。VLM通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù)的訓練,獲得了卓越的場景感知和語言理解能力。而MoE則進一步細分為隱式規(guī)劃器(Latent Planner)和動作專家(Action Expert),前者通過大規(guī)??绫倔w和人類操作數(shù)據(jù),實現(xiàn)了對動作的深刻理解;后者則憑借百萬真機數(shù)據(jù)的訓練,具備了精細的動作執(zhí)行能力。這三者之間的緊密協(xié)作,不僅使GO-1大模型能夠?qū)W習人類視頻,還實現(xiàn)了小樣本快速泛化,極大地降低了具身智能的應用門檻。
GO-1大模型的問世,意味著具身智能的全面革新。它能夠結(jié)合人類和多種機器人數(shù)據(jù),使機器人具備革命性的學習能力,可廣泛應用于各類環(huán)境和物品中,迅速適應新任務,學習新技能。同時,GO-1大模型支持部署到不同形態(tài)的機器人本體,實現(xiàn)高效落地,并在實際應用中持續(xù)進化。
GO-1大模型的四大特點尤為突出:首先,它能夠結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,從而更好地理解人類行為,提升服務質(zhì)量。其次,GO-1大模型具備強大的小樣本快速泛化能力,能夠在極少數(shù)據(jù)甚至零樣本的情況下,迅速適應新場景和新任務,顯著降低了使用門檻和后訓練成本。再者,GO-1大模型作為通用機器人策略模型,能夠在不同機器人形態(tài)之間遷移,實現(xiàn)快速適配和群體升智。最后,得益于智元的數(shù)據(jù)回流系統(tǒng),GO-1大模型能夠在實際執(zhí)行中遇到問題時持續(xù)學習進化,變得越來越智能。
GO-1大模型的構(gòu)建基于具身領域的數(shù)字金字塔模型,該模型吸納了人類世界多種維度和類型的數(shù)據(jù)。數(shù)字金字塔的底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),為機器人提供通用知識和場景理解的基礎。往上是大規(guī)模人類操作/跨本體視頻數(shù)據(jù),幫助機器人學習動作操作模式。再往上則是用于增強泛化性的仿真數(shù)據(jù),使機器人能夠適應不同場景和物體。而金字塔的頂層,則是高質(zhì)量的真機示教數(shù)據(jù),用于訓練精準動作執(zhí)行。
相較于現(xiàn)有的Vision-Language-Action(VLA)架構(gòu),ViLLA架構(gòu)通過預測隱式動作標記,有效彌合了圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。它能夠充分利用高質(zhì)量的AgiBot World數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù),顯著增強策略的泛化能力。基于ViLLA架構(gòu),GO-1大模型能夠接收多相機的視覺信號、力覺信號、語言指令等多模態(tài)信息,直接輸出機器人的動作執(zhí)行序列。
GO-1大模型為機器人提供了全面的“基礎教育”和“職業(yè)教育”,使機器人天生就能適應新場景,輕松面對多樣化的環(huán)境和物體,快速學習新的操作。例如,當用戶給出“掛衣服”的指令時,GO-1大模型能夠根據(jù)看到的畫面理解任務要求,設想操作步驟,并最終執(zhí)行完成整個任務。
在更深層次的技術(shù)層面,GO-1大模型在構(gòu)建和訓練階段學習了互聯(lián)網(wǎng)的大規(guī)模純文本和圖文數(shù)據(jù),使其能夠理解“掛衣服”在此情此景下的具體含義和要求。同時,通過學習人類操作視頻和其他機器人的操作視頻,GO-1大模型能夠知道掛衣服通常包括哪些環(huán)節(jié)。通過仿真不同衣服、衣柜和房間,以及模擬掛衣服的操作,GO-1大模型能夠理解環(huán)節(jié)中對應的物體和環(huán)境,并打通整個任務過程。最后,由于學習了真機的示教數(shù)據(jù),機器人能夠精準完成整個任務的操作。
GO-1大模型的推出,標志著具身智能正朝著通用化、開放化、智能化的方向快速邁進。機器人將能夠在不同場景中執(zhí)行多種任務,而無需針對每個新任務重新訓練。同時,機器人將不再局限于實驗室環(huán)境,而是能夠適應多變的真實世界。機器人將能夠理解自然語言指令,并根據(jù)語義進行組合推理,而不再局限于預設程序。