近日,阿里巴巴(中國(guó))有限公司在視頻生成技術(shù)領(lǐng)域取得了新突破,一項(xiàng)名為“一種圖生視頻方法和裝置”的專利正式公布。這一創(chuàng)新成果由天眼查知識(shí)產(chǎn)權(quán)信息渠道披露,標(biāo)志著阿里巴巴在智能化視頻生成方面邁出了重要一步。
據(jù)專利摘要介紹,該發(fā)明通過一系列復(fù)雜的處理流程,成功實(shí)現(xiàn)了從靜態(tài)圖像到動(dòng)態(tài)視頻的智能化轉(zhuǎn)換。具體而言,該方法首先將包含目標(biāo)對(duì)象的源圖像輸入到第一視頻生成模型中,生成基礎(chǔ)的素材視頻。隨后,系統(tǒng)會(huì)根據(jù)素材視頻確定幀間變換矩陣序列,這一步驟對(duì)于捕捉和模擬對(duì)象的運(yùn)動(dòng)軌跡至關(guān)重要。
在此基礎(chǔ)上,發(fā)明者進(jìn)一步從源圖像中提取出目標(biāo)對(duì)象對(duì)應(yīng)的對(duì)象掩碼圖像。通過將幀間變換矩陣序列應(yīng)用于對(duì)象掩碼圖像,可以生成一系列掩碼圖像,這些圖像共同組成了掩碼圖像序列。同樣地,將幀間變換矩陣序列應(yīng)用于源圖像,可以生成一系列目標(biāo)對(duì)象圖像,形成目標(biāo)對(duì)象圖像序列。
接下來,系統(tǒng)會(huì)根據(jù)源圖像、掩碼圖像序列和目標(biāo)對(duì)象圖像序列,確定目標(biāo)輸入數(shù)據(jù)。這些數(shù)據(jù)被輸入到支持局部重繪的第二視頻生成模型中,經(jīng)過一系列復(fù)雜的運(yùn)算和處理,最終生成對(duì)應(yīng)的目標(biāo)視頻。這一過程不僅實(shí)現(xiàn)了智能化端到端的圖生視頻,還能夠在不引入預(yù)設(shè)運(yùn)動(dòng)參數(shù)的情況下,保持目標(biāo)對(duì)象不擴(kuò)散,同時(shí)實(shí)現(xiàn)運(yùn)動(dòng)軌跡的多樣性。
這一創(chuàng)新技術(shù)的出現(xiàn),無疑將為視頻制作領(lǐng)域帶來革命性的變化。以往,從靜態(tài)圖像生成動(dòng)態(tài)視頻往往需要大量的手工操作和預(yù)設(shè)參數(shù),不僅耗時(shí)耗力,而且難以保證視頻的質(zhì)量和多樣性。而阿里巴巴的這項(xiàng)專利,通過智能化的處理方式,大大提高了視頻生成的效率和靈活性。
該專利還展示了阿里巴巴在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的深厚積累。通過兩次模型生成視頻的方式,系統(tǒng)能夠更準(zhǔn)確地捕捉和模擬對(duì)象的運(yùn)動(dòng)軌跡,生成更加自然和逼真的視頻效果。這一技術(shù)的成功應(yīng)用,不僅將推動(dòng)視頻制作行業(yè)的發(fā)展,還將為其他領(lǐng)域提供有益的借鑒和啟示。
隨著人工智能技術(shù)的不斷發(fā)展,越來越多的創(chuàng)新應(yīng)用正在不斷涌現(xiàn)。阿里巴巴的這項(xiàng)專利,無疑是其中的佼佼者之一。它不僅展示了人工智能技術(shù)的巨大潛力,也為視頻制作領(lǐng)域的未來發(fā)展指明了方向。我們有理由相信,在不久的將來,這項(xiàng)技術(shù)將會(huì)得到更廣泛的應(yīng)用和推廣,為人們的生活帶來更多便利和樂趣。