近日,阿里巴巴正式推出了其最新的多模態(tài)視頻生成模型——通義萬相Wan2.2-S2V。這款模型憑借其強大的功能,引起了業(yè)界的廣泛關注。用戶只需提供一張靜態(tài)圖片和一段音頻,Wan2.2-S2V便能生成面部表情自然、口型與音頻完美同步、肢體動作流暢如電影級別的數(shù)字人視頻。尤為其單次生成的視頻時長可達分鐘級,這在業(yè)界尚屬領先。
為了方便用戶體驗,該模型已在Hugging Face和魔搭社區(qū)上架,用戶可以直接下載,或在通義萬相官網(wǎng)進行體驗。從真人、卡通到動物、數(shù)字人,Wan2.2-S2V支持多種類型的圖片,無論肖像、半身還是全身畫幅,只需上傳一段音頻,模型就能讓圖片中的主體形象活靈活現(xiàn)地說話、唱歌或表演。
不僅如此,Wan2.2-S2V還引入了文本控制功能,用戶可以通過輸入Prompt,進一步對視頻畫面進行個性化調整,使視頻中的主體運動和背景變化更加豐富多樣。例如,用戶上傳一張人物彈鋼琴的照片、一段歌曲以及一段描述性的文字,模型就能生成一段完整且充滿情感的鋼琴演奏視頻。視頻中的人物形象不僅與原圖保持一致,其面部表情、嘴部動作與音頻的同步也極為精準,甚至連手指的動作、力度和速度都能完美匹配音頻的節(jié)奏。
在技術層面,Wan2.2-S2V融合了多項創(chuàng)新技術。它基于通義萬相的視頻生成基礎模型,結合了文本引導的全局運動控制和音頻驅動的細粒度局部運動,實現(xiàn)了復雜場景下音頻驅動視頻的高效生成。同時,通過引入AdaIN和CrossAttention兩種控制機制,模型實現(xiàn)了更為準確和動態(tài)的音頻控制效果。為了保障長視頻的生成質量,Wan2.2-S2V采用了層次化幀壓縮技術,大幅降低了歷史幀的Token數(shù)量,從而將歷史參考幀的長度從數(shù)幀拓展到了73幀,確保了長視頻生成的穩(wěn)定性和高質量。
在模型訓練方面,阿里巴巴團隊構建了包含超過60萬個片段的音視頻數(shù)據(jù)集,通過混合并行訓練進行全參數(shù)化訓練,充分挖掘了模型的性能潛力。模型還支持多分辨率訓練與推理,能夠滿足不同分辨率場景的視頻生成需求,無論是豎屏短視頻還是橫屏影視劇,都能輕松應對。
實測數(shù)據(jù)顯示,Wan2.2-S2V在視頻質量、表情真實度和身份一致性等核心指標上均取得了同類模型中的最佳成績。自今年2月以來,通義萬相已陸續(xù)開源了多款視頻生成模型,包括文生視頻、圖生視頻、首尾幀生視頻等,受到了開源社區(qū)和第三方平臺的熱烈歡迎,下載量已超過2000萬次,成為開源社區(qū)中最受歡迎的視頻生成模型之一。