滾動資訊

當前位置：網(wǎng)界科技 > 行業(yè)動態(tài) > 正文內(nèi)容

北大智元聯(lián)合發(fā)布OmniManip：視覺語言模型賦能機器人高精度操作

時間：2025-01-23 13:49 來源：ITBEAR作者：唐云澤

在探索具身智能領(lǐng)域的道路上，如何將視覺語言基礎(chǔ)模型（VLMs）應(yīng)用于機器人以實現(xiàn)通用操作，一直是科研人員關(guān)注的焦點。這一目標的實現(xiàn)面臨兩大核心挑戰(zhàn)：VLMs缺乏精確的3D理解能力，以及難以輸出低層次的機器人動作。

傳統(tǒng)的VLMs主要通過對比學(xué)習(xí)范式訓(xùn)練，以2D圖像和文本作為輸入，這限制了它們在3D空間中的理解和應(yīng)用能力。同時，盡管將VLMs在機器人數(shù)據(jù)上進行微調(diào)以構(gòu)建視覺-語言-動作（VLA）模型被視為一種有潛力的解決方案，但高昂的數(shù)據(jù)收集成本和模型的泛化能力限制，使得這一方案仍面臨諸多挑戰(zhàn)。

為了克服這些難題，北京大學(xué)與智元機器人團隊攜手提出了OmniManip架構(gòu)。這一架構(gòu)基于以對象為中心的3D交互基元，成功地將VLMs的高層次推理能力轉(zhuǎn)化為機器人的低層次高精度動作。OmniManip通過引入VLM規(guī)劃和機器人執(zhí)行的雙閉環(huán)系統(tǒng)設(shè)計，有效解決了大模型幻覺問題和真實環(huán)境操作的不確定性，實現(xiàn)了操作性能的顯著提升。

OmniManip的關(guān)鍵設(shè)計包括基于VLMs的任務(wù)解析、以物體為中心的交互基元作為空間約束、閉環(huán)VLM規(guī)劃和閉環(huán)機器人執(zhí)行。利用VLMs強大的常識推理能力，OmniManip能夠?qū)⑷蝿?wù)分解為多個結(jié)構(gòu)化階段，每個階段都明確指定了主動物體、被動物體和動作類型。通過3D基座模型生成任務(wù)相關(guān)物體的3D模型和規(guī)范化空間，OmniManip使得VLMs能夠直接在該空間中采樣3D交互基元，作為動作的空間約束，從而優(yōu)化求解出主動物體在被動物體規(guī)范坐標系下的目標交互姿態(tài)。

在閉環(huán)VLM規(guī)劃階段，OmniManip將目標交互姿態(tài)下的主動/被動物體渲染成圖像，由VLMs進行評估與重采樣，實現(xiàn)VLMs對自身規(guī)劃結(jié)果的閉環(huán)調(diào)整。而在閉環(huán)機器人執(zhí)行階段，通過物體6D姿態(tài)跟蹤器實時更新主動/被動物體的位姿，并將其轉(zhuǎn)換為機械臂末端執(zhí)行器的操作軌跡，實現(xiàn)閉環(huán)執(zhí)行。

OmniManip具備通用泛化能力，不受特定場景和物體的限制。這一特性使得OmniManip能夠被廣泛應(yīng)用于數(shù)字資產(chǎn)自動標注/合成管道等領(lǐng)域，實現(xiàn)大規(guī)模的機器人軌跡自動采集。目前，研究團隊已經(jīng)開源了泛化操作大規(guī)模數(shù)據(jù)集和對應(yīng)的仿真評測基準，為相關(guān)領(lǐng)域的進一步研究提供了有力支持。

在智元機器人方面，其量產(chǎn)的第1000臺通用具身機器人已于本月正式下線。這批機器人中包括731臺雙足人形機器人（遠征A2/靈犀X1）和269臺輪式通用機器人（遠征A2-D/A2-W）。這一成果不僅展示了智元機器人在機器人量產(chǎn)方面的實力，也進一步驗證了OmniManip架構(gòu)的有效性和實用性。

智元機器人的發(fā)展也備受關(guān)注。據(jù)悉，以“天才少年”身份加入華為的稚暉君已于2022年底宣布離職，并創(chuàng)業(yè)成立了智元機器人。2024年9月3日，智元機器人完成了A++++++輪融資，估值已超過70億元。這一輪融資得到了包括北汽、上汽、比亞迪在內(nèi)的國內(nèi)汽車巨頭的支持，為智元機器人的未來發(fā)展注入了強勁動力。

更多>同類內(nèi)容

崔東樹預(yù)測：2025年中國汽車出口增速將放緩至10%，電動車出口面臨挑戰(zhàn)

01-23

《破曉傳奇》等大作即將離庫，1月PS+游戲變動名單搶先看！

01-23

華為Pura 80 Ultra來襲，自研影像系統(tǒng)能否再掀影像旗艦風暴？

01-23

全球最大綠色氫氨醇項目啟動！首臺風機已在松原氫能產(chǎn)業(yè)園就位

01-23

三星Galaxy S25系列：環(huán)保與性能并驅(qū)，引領(lǐng)智能設(shè)備綠色變革

01-23

微博紅利不再，明星網(wǎng)紅紛紛轉(zhuǎn)向新陣地

01-23

向量數(shù)據(jù)庫新紀元：推理、Serverless與混合搜索引領(lǐng)變革

01-23

中國電子節(jié)氣門行業(yè)：2025至2031年戰(zhàn)略運行與未來趨勢深度剖析

01-23

廣州期貨交易所億元成立科技公司，經(jīng)營范圍涵蓋AI軟件開發(fā)等

01-23

三星Galaxy S25系列震撼發(fā)布，S25 Ultra成最輕薄耐用旗艦新寵

01-23

東風奕派攜手華為，共鑄中高端智能座駕新篇章

01-23

科技圈新動向：蘋果iOS 18.3 RC發(fā)布，OPPO聯(lián)發(fā)科合作深化，尊界門店拓展中

01-23

2025電商新風向：整治羊毛黨，惠商政策助力商家輕裝上陣

01-23

OPPO Find N5折疊屏新機曝光：衛(wèi)通版來襲，側(cè)邊指紋設(shè)計引關(guān)注

01-23

小紅書：生活分享領(lǐng)航者，廣告電商雙軌并行開啟新紀元

01-23

點擊查看更多 +

全站最新

崔東樹預(yù)測：2025年中國汽車出口增速將放緩至10%，電動車出口面臨挑戰(zhàn)

A股半日成交破9100億，指數(shù)全線飄紅，權(quán)益市場投資價值凸顯

TikTok公會市場權(quán)益全解析：入駐門檻與挑戰(zhàn)并存

《破曉傳奇》等大作即將離庫，1月PS+游戲變動名單搶先看！

《漫威爭鋒》玩家留存率驚人，六周僅流失3%領(lǐng)跑在線游戲領(lǐng)域

XP分享會精彩回顧：從太空科幻到中世紀，哪款游戲是你的最愛？

熱門內(nèi)容

本欄最新

崔東樹預(yù)測：2025年中國汽車出口增速將放緩至10%，電動車出口面臨挑戰(zhàn)

《破曉傳奇》等大作即將離庫，1月PS+游戲變動名單搶先看！

全球最大綠色氫氨醇項目啟動！首臺風機已在松原氫能產(chǎn)業(yè)園就位

三星Galaxy S25系列：環(huán)保與性能并驅(qū)，引領(lǐng)智能設(shè)備綠色變革

微博紅利不再，明星網(wǎng)紅紛紛轉(zhuǎn)向新陣地

向量數(shù)據(jù)庫新紀元：推理、Serverless與混合搜索引領(lǐng)變革

網(wǎng)界 - 新財經(jīng) 新科技新未來 / 網(wǎng)界傳媒旗下網(wǎng)站 / 中國·北京 / 合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標，是該商標的唯一持有者，未經(jīng)授本公司授權(quán)，嚴禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

北大智元聯(lián)合發(fā)布OmniManip：視覺語言模型賦能機器人高精度操作