近日,科技界迎來了一項創(chuàng)新突破,谷歌DeepMind攜手哥倫比亞大學及加州大學圣地亞哥分校的研究團隊,成功研發(fā)出一款名為CAT4D的人工智能系統(tǒng)。該系統(tǒng)能夠將常規(guī)視頻轉化為栩栩如生的動態(tài)3D場景,極大地降低了3D內容創(chuàng)作的復雜性與成本,為眾多行業(yè)開辟了全新的可能性。
CAT4D的工作原理基于先進的擴散模型,它能夠從單一視角的視頻中生成多視角視圖,并構建出可互動的3D場景。用戶只需簡單操作,即可從任意角度觀賞視頻中的主體,體驗仿佛身臨其境的視覺盛宴。以下是CAT4D技術的演示圖片:
傳統(tǒng)上,要實現(xiàn)類似的3D效果,通常需要多臺攝像機同步錄制同一場景,過程繁瑣且成本高昂。而CAT4D的出現(xiàn),徹底顛覆了這一現(xiàn)狀,它僅需普通的視頻素材,便能輕松完成轉換。這一技術革新有望在游戲開發(fā)、電影制作、增強現(xiàn)實等多個領域引發(fā)深刻的變革。
在研發(fā)過程中,DeepMind團隊面臨了數(shù)據(jù)稀缺的挑戰(zhàn)。為了克服這一難題,他們巧妙地結合了真實世界的鏡頭與計算機生成的內容,形成了包括靜態(tài)場景多視圖圖像、單視角視頻及合成4D數(shù)據(jù)在內的豐富訓練數(shù)據(jù)集。通過擴散模型的學習,系統(tǒng)能夠在特定時刻從特定角度精準地生成圖像。
盡管目前CAT4D系統(tǒng)生成的3D場景長度尚不及原始素材,但其成像質量已遠超同類系統(tǒng),展現(xiàn)出了卓越的性能。這一技術的廣泛應用前景令人矚目。游戲開發(fā)者可以利用CAT4D快速創(chuàng)建逼真的虛擬環(huán)境,提升游戲體驗;電影制作人則能借此技術豐富視覺效果,為觀眾帶來前所未有的觀影感受;而AR開發(fā)者也能將CAT4D融入工作流程,推動增強現(xiàn)實技術的進一步發(fā)展。