谷歌DeepMind的首席執(zhí)行官Demis Hassabis在近期的一次播客訪談中,揭示了谷歌AI發(fā)展的最新動(dòng)向。在與領(lǐng)英聯(lián)合創(chuàng)始人Reid Hoffman共同主持的節(jié)目Possible中,Hassabis透露,谷歌正計(jì)劃將Gemini AI模型與Veo視頻生成模型進(jìn)行深度整合,旨在增強(qiáng)Gemini對(duì)物理世界的認(rèn)知與理解能力。
Hassabis強(qiáng)調(diào),Gemini從一開(kāi)始就被設(shè)計(jì)為具備多模態(tài)特性的基礎(chǔ)模型,這一決策背后承載著谷歌構(gòu)建一個(gè)能夠在實(shí)際生活中為用戶提供切實(shí)幫助的通用數(shù)字助手的宏偉愿景。
當(dāng)前,AI領(lǐng)域正邁向“全能”模型的新紀(jì)元,這類模型能夠跨越圖像、文本、音頻等多種媒體形式,實(shí)現(xiàn)信息的全面理解和整合。谷歌的Gemini模型便是這一趨勢(shì)的佼佼者,它不僅擅長(zhǎng)圖像與文本的生成,還具備音頻創(chuàng)作的能力。與此同時(shí),OpenAI的ChatGPT模型也已進(jìn)化至能夠繪制圖像,包括獨(dú)具宮崎駿風(fēng)格的藝術(shù)作品,展現(xiàn)了AI在藝術(shù)領(lǐng)域的新探索。亞馬遜同樣不甘落后,宣布將在今年晚些時(shí)候推出一款能夠?qū)崿F(xiàn)“任意到任意”轉(zhuǎn)換的模型,進(jìn)一步拓寬了AI的應(yīng)用邊界。
為了實(shí)現(xiàn)這些“全能”模型的訓(xùn)練,海量的數(shù)據(jù)資源是必不可少的。據(jù)Hassabis透露,Veo視頻模型的數(shù)據(jù)主要源自谷歌旗下的YouTube平臺(tái)。通過(guò)大量觀看YouTube視頻,Veo 2得以深入理解世界的物理規(guī)律,從而提升了其視頻生成與內(nèi)容理解的準(zhǔn)確性。此前,谷歌已向外界透露,其模型可能會(huì)依據(jù)與YouTube創(chuàng)作者達(dá)成的協(xié)議,使用部分YouTube內(nèi)容進(jìn)行訓(xùn)練。為了獲取更多數(shù)據(jù)以優(yōu)化AI模型,谷歌去年還對(duì)其服務(wù)條款進(jìn)行了部分調(diào)整。