在科技界的矚目下,前華為“天才少年”彭志輝參與的智元機器人公司,于近日推出了其首個通用具身基座大模型——Genie Operator-1(簡稱GO-1)。這一創(chuàng)新成果于3月10日正式發(fā)布,標志著智元機器人在具身智能領域邁出了重要一步。
GO-1的核心在于其開創(chuàng)性的Vision-Language-Latent-Action(ViLLA)架構(gòu),該架構(gòu)巧妙融合了多模態(tài)大模型(VLM)與混合專家(MoE)系統(tǒng)。VLM通過廣泛汲取互聯(lián)網(wǎng)圖文數(shù)據(jù),獲得了強大的場景感知和語言理解能力;而MoE則通過隱式規(guī)劃器(Latent Planner)和動作專家(Action Expert)的協(xié)同作用,分別實現(xiàn)了對動作的高效理解和精確執(zhí)行。這一架構(gòu)不僅實現(xiàn)了從小樣本到復雜任務的快速泛化,還顯著降低了具身智能的應用門檻。
作為國內(nèi)領先的機器人品牌,智元機器人隸屬于上海智元新創(chuàng)技術有限公司,總部位于張江科學城。公司自成立以來,便致力于AI與機器人的融合創(chuàng)新,致力于打造世界級的智能機器人產(chǎn)品。彭志輝,這位曾經(jīng)的華為天才少年,于2022年底離職后,于次年2月聯(lián)合創(chuàng)立了智元機器人。同年8月,其團隊研發(fā)的首款具身智能機器人“遠征A1”便成功亮相,展現(xiàn)了不俗的實力。
GO-1的發(fā)布,無疑為智元機器人贏得了業(yè)界的廣泛關注。與傳統(tǒng)的Vision-Language-Action(VLA)架構(gòu)相比,ViLLA架構(gòu)通過引入隱式動作標記(Latent Action Tokens),成功彌合了圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。在真實世界的靈巧操作和長時任務方面,GO-1的表現(xiàn)遠超現(xiàn)有的開源模型,展現(xiàn)了卓越的性能。
在五種不同復雜度的任務測試中,GO-1相比已有的最優(yōu)模型,成功率大幅提升,平均成功率從46%提高至78%,提高了32個百分點。特別是在“倒水”、“清理桌面”和“補充飲料”等任務中,GO-1的表現(xiàn)尤為突出。通過單獨驗證Latent Planner的作用,發(fā)現(xiàn)其能進一步提升12%的成功率,從66%提高至78%。
GO-1大模型的革命性在于其強大的學習能力。借助人類和多種機器人數(shù)據(jù),GO-1能夠快速適應新任務、學習新技能,并泛化應用到各類環(huán)境和物品中。同時,GO-1還支持部署到不同的機器人本體上,實現(xiàn)高效落地,并在實際使用中持續(xù)進化。這一特性使得GO-1在商業(yè)、工業(yè)、家庭等多領域具有廣泛的應用前景。
智元機器人的快速發(fā)展,離不開資本的支持。目前,其股東名單中包括高瓴創(chuàng)投、鼎暉投資、紅杉中國等知名投資機構(gòu),以及比亞迪、軟通動力等上市公司。在業(yè)務層面,智元機器人與多家上市公司存在關聯(lián),形成了緊密的產(chǎn)業(yè)鏈合作。智元機器人還積極投資相關產(chǎn)業(yè)鏈企業(yè),進一步鞏固其在智能機器人領域的領先地位。
受智元機器人消息的刺激,相關概念股在二級市場出現(xiàn)了明顯上漲。多家與智元機器人存在關聯(lián)的上市公司股價漲幅顯著,市場反應熱烈。
智元通用具身基座大模型GO-1的推出,標志著具身智能正朝著通用化、開放化、智能化的方向快速發(fā)展。隨著GO-1的普及和應用,機器人將從依賴特定任務的工具,逐漸轉(zhuǎn)變?yōu)榫邆渫ㄓ弥悄艿淖灾黧w,在多領域發(fā)揮更大的作用,為人類社會的智能化進程貢獻力量。