近期,谷歌DeepMind團(tuán)隊公布了一項名為Genie 2的前沿技術(shù),這是一項基礎(chǔ)世界模型,能夠從圖像或文字描述中生成可供人類或AI智能體互動的3D環(huán)境。
據(jù)悉,用戶只需提供一張由Imagen 3生成的圖片及相應(yīng)的文字說明,Genie 2便能迅速構(gòu)建出一個可探索的3D世界。用戶通過鼠標(biāo)和鍵盤,可以在這個虛擬環(huán)境中自由行走,體驗時長可達(dá)一分鐘之久。
Genie 2不僅在生成環(huán)境的一致性上表現(xiàn)出色,還能在用戶移動時精準(zhǔn)呈現(xiàn)視野變化中的細(xì)節(jié),確保體驗的真實感。
谷歌進(jìn)一步透露,Genie 2在生成過程中能夠模擬物體的交互行為、動畫效果、光照條件、物理反射以及NPC(非玩家角色)的行動。許多生成的場景在畫質(zhì)上接近3A級游戲水平,并且在物體視角一致性和場景記憶方面展現(xiàn)出了卓越的能力。
這一技術(shù)突破引起了廣泛關(guān)注,有人驚嘆于科技進(jìn)步的速度,認(rèn)為它預(yù)示著視頻游戲的未來發(fā)展方向。甚至有人設(shè)想,隨著技術(shù)的不斷進(jìn)步,一個完全虛擬化的世界模型將成為可能。
值得注意的是,在Genie 2發(fā)布后,DeepMind的CEO向特斯拉創(chuàng)始人馬斯克發(fā)出了共同制作AI游戲的邀請。馬斯克對此回應(yīng)稱:“Cool?!?/p>
谷歌研究人員Jack Parker-Holder通過實例展示了Genie 2的靈活性。他提到,當(dāng)向模型輸入不同的語言指令時,比如一張包含紅門和藍(lán)門的圖片,可以生成通往不同方向的3D場景。用戶可以選擇走向紅門或藍(lán)門,探索不同的虛擬世界。
在更加復(fù)雜的場景中,比如包含三門的選擇,Genie 2依然能夠準(zhǔn)確理解指令并生成研究人員期望的3D動畫效果,展現(xiàn)了其強(qiáng)大的理解和生成能力。