在人工智能領域,一項革命性的突破正在引發(fā)廣泛關注。谷歌DeepMind最新推出的Genie 3,被譽為迄今為止最先進的世界模型之一,它僅憑文本輸入,就能實時構建出高度互動且內在一致性的虛擬世界。
這一成就不僅是DeepMind多年研究的結晶,更是向通用人工智能(AGI)和具身智能體邁出的關鍵步伐。近日,DeepMind的研究科學家Jack Parker-Holder與研究總監(jiān)Shlomi Fruchter,在a16z的訪談中,深入探討了Genie 3的構建過程及其背后的理念。
訪談中,兩位專家分享了關于Genie 3的第一手信息。據悉,Genie 3是Veo 2和Genie 2兩個項目合作的產物,其實時互動功能預示著廣泛的應用前景,而這些應用正是在用戶與模型的互動中自然浮現的。
尤為Genie 3能夠保留長達一分鐘的空間記憶。物理規(guī)律在模型中自然涌現,隨著訓練數據的不斷累積和深化,模型的表現也在持續(xù)提升。目前,尚未有模型能同時具備Veo 3和Genie 3的所有功能。
如果說大型語言模型的圖像編輯功能如同“言出法隨”,那么Genie 3的新特性則堪稱AI的新魔法。用戶只需輸入簡單的文本提示,Genie 3便能生成一個動態(tài)世界,支持每秒24幀、分辨率為720p的實時探索。這種能力為游戲開發(fā)、強化學習智能體訓練以及機器人研究等領域帶來了無限可能。
Genie 3在多個方面實現了突破,包括生成視頻的長度、世界的一致性、內容的多樣性以及特殊記憶能力。例如,一個角色在墻上刷漆后移動到另一側再返回,之前刷的痕跡依然保留,這種高度一致性的表現讓內部成員都感到震撼。
實際上,Genie 2已經具備了一定的記憶能力,但在當時并未得到充分強調。到了Genie 3,DeepMind團隊明確將增強記憶能力作為核心目標之一,成功實現了超過一分鐘的記憶、實時生成以及分辨率的提升。這些看似矛盾的目標,在DeepMind的努力下得以兼顧。
在設計上,DeepMind團隊放棄了顯式表示法,堅持讓模型逐幀生成內容,以提升模型的泛化能力和適應多樣世界的能力。這種堅持讓Genie 3在模擬現實世界的能力上取得了巨大飛躍,生成的物理效果和光照變化都令人驚艷。
Genie 3還涌現出了一些令人驚訝的行為,如角色靠近門時模型會推測其應該打開門等。這些符合人類直覺的行為以及不斷提升的語言理解能力和真實感,讓Genie 3的視頻真假難辨,即便是非專業(yè)人士也難以分辨。
在地形多樣性方面,Genie 3也表現出色。它能夠理解不同地形上的行走、滑雪、游泳等動作以及相應的物理反饋,這些都是模型通過豐富的訓練數據自行學習得到的。這種涌現能力讓Genie 3的表現更加自然和真實。
未來,DeepMind團隊將繼續(xù)致力于提升模型的真實感和交互性,為智能體走向現實世界鋪平道路。他們表示,最終將開放Genie 3模型,讓更多人有機會探索這一神奇的世界。雖然距離準確模擬現實世界還有很大差距,但Genie 3已經邁出了重要的一步。