阿里通義萬(wàn)相今日宣布了一項(xiàng)重大技術(shù)突破,正式向公眾開(kāi)源其創(chuàng)新的“首尾幀生視頻模型”。該模型以驚人的140億參數(shù)規(guī)模,在業(yè)界首次實(shí)現(xiàn)了如此大規(guī)模的開(kāi)源首尾幀視頻生成技術(shù)。
這款模型的核心功能在于,用戶僅需提供一張起始圖片和一張結(jié)束圖片,它便能自動(dòng)生成一段高清720p的視頻,完美銜接首尾畫(huà)面。這一技術(shù)的問(wèn)世,無(wú)疑將為用戶帶來(lái)前所未有的視頻生成體驗(yàn),滿足更加個(gè)性化和定制化的需求。
為了讓更多用戶能夠輕松體驗(yàn)這一前沿技術(shù),阿里通義萬(wàn)相提供了多種獲取途徑。用戶可以直接訪問(wèn)通義萬(wàn)相官網(wǎng),免費(fèi)試用該模型;同時(shí),該模型也已在Github、Hugging Face以及魔搭社區(qū)等平臺(tái)上線,供開(kāi)發(fā)者下載并進(jìn)行本地部署和二次開(kāi)發(fā)。
首尾幀生視頻技術(shù)相較于文生視頻和單圖生視頻,具有更高的可控性。然而,這類模型的訓(xùn)練難度也相應(yīng)提升。為了確保生成的視頻內(nèi)容既與用戶輸入的兩張圖像保持一致,又能遵循用戶的提示詞指令,同時(shí)實(shí)現(xiàn)從首幀到尾幀的自然、流暢過(guò)渡,阿里通義萬(wàn)相團(tuán)隊(duì)在模型設(shè)計(jì)上下了不少功夫。
基于現(xiàn)有的Wan2.1文生視頻基礎(chǔ)模型架構(gòu),團(tuán)隊(duì)引入了額外的條件控制機(jī)制,從而實(shí)現(xiàn)了首尾幀視頻生成的精準(zhǔn)與流暢。在訓(xùn)練階段,團(tuán)隊(duì)構(gòu)建了專門(mén)用于首尾幀模式的訓(xùn)練數(shù)據(jù),并采用了并行策略來(lái)優(yōu)化文本與視頻編碼模塊以及擴(kuò)散變換模型模塊,這不僅提升了模型的訓(xùn)練效率,還確保了高清視頻生成的效果。
在推理階段,面對(duì)有限的內(nèi)存資源,團(tuán)隊(duì)采用了模型切分策略和序列并行策略,在確保推理效果不受影響的前提下,大幅縮短了推理時(shí)間,使得高清視頻推理成為可能。
這款首尾幀生視頻模型不僅技術(shù)先進(jìn),而且在功能上也有著諸多亮點(diǎn)。用戶可以利用它完成更加復(fù)雜和個(gè)性化的視頻生成任務(wù),如實(shí)現(xiàn)同一主體的特效變化、不同場(chǎng)景的運(yùn)鏡控制等。例如,用戶只需上傳兩張相同位置但不同時(shí)間段的外景圖片,并輸入一段提示詞,模型便能生成一段展現(xiàn)四季交替或晝夜變化的延時(shí)攝影效果視頻。用戶還可以通過(guò)旋轉(zhuǎn)、搖鏡、推進(jìn)等運(yùn)鏡控制,將兩張不同畫(huà)面的場(chǎng)景巧妙銜接,使視頻在保持與預(yù)設(shè)圖片一致性的同時(shí),擁有更加豐富的鏡頭語(yǔ)言。
這一技術(shù)的推出,無(wú)疑將為視頻創(chuàng)作領(lǐng)域帶來(lái)一場(chǎng)革命性的變革。無(wú)論是專業(yè)視頻制作者還是普通用戶,都將能夠利用這一技術(shù)輕松實(shí)現(xiàn)心中的創(chuàng)意,創(chuàng)作出獨(dú)一無(wú)二的視頻作品。