meta公司近期揭曉了其人工智能領(lǐng)域的最新突破——V-JEPA 2模型,這一創(chuàng)新成果被定位為“世界模型”,旨在賦能AI智能體,讓它們更好地理解并適應(yīng)周遭的物理世界。
V-JEPA 2作為meta去年推出的V-JEPA模型的升級(jí)版,其訓(xùn)練素材涵蓋了超過百萬小時(shí)的視頻數(shù)據(jù)。這些豐富的數(shù)據(jù)資源,旨在模擬并教授AI智能體,如機(jī)器人等,在真實(shí)物理環(huán)境中的運(yùn)作邏輯,讓它們能夠理解和預(yù)測諸如重力等自然現(xiàn)象對(duì)事件演變的影響。
值得注意的是,V-JEPA 2所具備的這種能力,與兒童和動(dòng)物在成長過程中逐漸形成的常識(shí)性認(rèn)知有著異曲同工之妙。比如,在與人類進(jìn)行接球游戲時(shí),狗狗能夠本能地判斷球落地后的反彈軌跡,并準(zhǔn)確跑向球可能落點(diǎn)的位置,而非球當(dāng)前的位置。
meta通過實(shí)例進(jìn)一步闡釋了V-JEPA 2的應(yīng)用場景。設(shè)想一個(gè)場景,機(jī)器人手持盤子和鍋鏟,走向裝有熟雞蛋的爐灶。借助V-JEPA 2的預(yù)測能力,AI能夠迅速判斷出,接下來最合理的動(dòng)作是用鍋鏟將雞蛋移至盤子中。
在性能表現(xiàn)上,meta聲稱V-JEPA 2的運(yùn)行速度相較于Nvidia的Cosmos模型快了30倍。盡管兩者都致力于提升AI在物理世界中的智能水平,但可能采用了不同的評(píng)估基準(zhǔn)來衡量各自模型的效能。
meta首席人工智能科學(xué)家Yann LeCun在一則視頻中表達(dá)了對(duì)于V-JEPA 2的樂觀態(tài)度:“我們堅(jiān)信,世界模型將引領(lǐng)機(jī)器人技術(shù)進(jìn)入一個(gè)嶄新的時(shí)代。這意味著,AI智能體將能夠在現(xiàn)實(shí)世界中,無需依賴龐大的機(jī)器人訓(xùn)練數(shù)據(jù)集,就能有效地協(xié)助人類完成日常家務(wù)和各種體力勞動(dòng)?!?/p>