亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

網(wǎng)界科技資訊 手機網(wǎng)站 站內(nèi)搜索
  • 助力產(chǎn)業(yè)數(shù)字化 推動數(shù)字產(chǎn)業(yè)化

北大智元聯(lián)合發(fā)布OmniManip:視覺語言模型賦能機器人高精度操作

   時間:2025-01-23 13:49 來源:ITBEAR作者:唐云澤

在探索具身智能領(lǐng)域的道路上,如何將視覺語言基礎(chǔ)模型(VLMs)應(yīng)用于機器人以實現(xiàn)通用操作,一直是科研人員關(guān)注的焦點。這一目標的實現(xiàn)面臨兩大核心挑戰(zhàn):VLMs缺乏精確的3D理解能力,以及難以輸出低層次的機器人動作。

傳統(tǒng)的VLMs主要通過對比學(xué)習(xí)范式訓(xùn)練,以2D圖像和文本作為輸入,這限制了它們在3D空間中的理解和應(yīng)用能力。同時,盡管將VLMs在機器人數(shù)據(jù)上進行微調(diào)以構(gòu)建視覺-語言-動作(VLA)模型被視為一種有潛力的解決方案,但高昂的數(shù)據(jù)收集成本和模型的泛化能力限制,使得這一方案仍面臨諸多挑戰(zhàn)。

為了克服這些難題,北京大學(xué)與智元機器人團隊攜手提出了OmniManip架構(gòu)。這一架構(gòu)基于以對象為中心的3D交互基元,成功地將VLMs的高層次推理能力轉(zhuǎn)化為機器人的低層次高精度動作。OmniManip通過引入VLM規(guī)劃和機器人執(zhí)行的雙閉環(huán)系統(tǒng)設(shè)計,有效解決了大模型幻覺問題和真實環(huán)境操作的不確定性,實現(xiàn)了操作性能的顯著提升。

OmniManip的關(guān)鍵設(shè)計包括基于VLMs的任務(wù)解析、以物體為中心的交互基元作為空間約束、閉環(huán)VLM規(guī)劃和閉環(huán)機器人執(zhí)行。利用VLMs強大的常識推理能力,OmniManip能夠?qū)⑷蝿?wù)分解為多個結(jié)構(gòu)化階段,每個階段都明確指定了主動物體、被動物體和動作類型。通過3D基座模型生成任務(wù)相關(guān)物體的3D模型和規(guī)范化空間,OmniManip使得VLMs能夠直接在該空間中采樣3D交互基元,作為動作的空間約束,從而優(yōu)化求解出主動物體在被動物體規(guī)范坐標系下的目標交互姿態(tài)。

在閉環(huán)VLM規(guī)劃階段,OmniManip將目標交互姿態(tài)下的主動/被動物體渲染成圖像,由VLMs進行評估與重采樣,實現(xiàn)VLMs對自身規(guī)劃結(jié)果的閉環(huán)調(diào)整。而在閉環(huán)機器人執(zhí)行階段,通過物體6D姿態(tài)跟蹤器實時更新主動/被動物體的位姿,并將其轉(zhuǎn)換為機械臂末端執(zhí)行器的操作軌跡,實現(xiàn)閉環(huán)執(zhí)行。

OmniManip具備通用泛化能力,不受特定場景和物體的限制。這一特性使得OmniManip能夠被廣泛應(yīng)用于數(shù)字資產(chǎn)自動標注/合成管道等領(lǐng)域,實現(xiàn)大規(guī)模的機器人軌跡自動采集。目前,研究團隊已經(jīng)開源了泛化操作大規(guī)模數(shù)據(jù)集和對應(yīng)的仿真評測基準,為相關(guān)領(lǐng)域的進一步研究提供了有力支持。

在智元機器人方面,其量產(chǎn)的第1000臺通用具身機器人已于本月正式下線。這批機器人中包括731臺雙足人形機器人(遠征A2/靈犀X1)和269臺輪式通用機器人(遠征A2-D/A2-W)。這一成果不僅展示了智元機器人在機器人量產(chǎn)方面的實力,也進一步驗證了OmniManip架構(gòu)的有效性和實用性。

智元機器人的發(fā)展也備受關(guān)注。據(jù)悉,以“天才少年”身份加入華為的稚暉君已于2022年底宣布離職,并創(chuàng)業(yè)成立了智元機器人。2024年9月3日,智元機器人完成了A++++++輪融資,估值已超過70億元。這一輪融資得到了包括北汽、上汽、比亞迪在內(nèi)的國內(nèi)汽車巨頭的支持,為智元機器人的未來發(fā)展注入了強勁動力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容