B站團(tuán)隊(duì)近期宣布了一項(xiàng)重大技術(shù)突破,于5月12日正式開源了名為AniSora的動(dòng)漫視頻生成模型。這一舉措標(biāo)志著在動(dòng)漫內(nèi)容創(chuàng)作領(lǐng)域,AI技術(shù)邁出了重要一步。
B站團(tuán)隊(duì)指出,盡管當(dāng)前已有諸如Sora、Kling、CogVideoX等先進(jìn)的自然視頻生成模型,但這些模型在動(dòng)漫視頻生成方面仍存在一定的局限性。動(dòng)漫的獨(dú)特藝術(shù)風(fēng)格、夸張的運(yùn)動(dòng)表現(xiàn)以及對(duì)物理規(guī)律的打破,給模型的訓(xùn)練和評(píng)測帶來了巨大挑戰(zhàn)。
為了克服這些挑戰(zhàn),B站團(tuán)隊(duì)精心打造了AniSora系統(tǒng)。該系統(tǒng)涵蓋了數(shù)據(jù)處理流水線、可控生成模型以及評(píng)測數(shù)據(jù)集等多個(gè)方面。其中,數(shù)據(jù)處理流水線整合了超過1000萬份高質(zhì)量數(shù)據(jù),為模型的訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)??煽厣赡P蛣t引入了時(shí)空掩碼模塊,支持圖生視頻、幀插值、局部圖像引導(dǎo)等關(guān)鍵動(dòng)畫制作功能,使得生成的動(dòng)漫視頻更加生動(dòng)和逼真。
為了評(píng)估AniSora模型的性能,B站團(tuán)隊(duì)還收集了948段多樣化動(dòng)畫視頻,并配套進(jìn)行了雙盲人評(píng)實(shí)驗(yàn)及VBench測試。測試結(jié)果顯示,AniSora模型在人物一致性與運(yùn)動(dòng)一致性方面均達(dá)到了業(yè)界領(lǐng)先水平。
為了讓大家更直觀地感受AniSora模型的魅力,B站團(tuán)隊(duì)還提供了多個(gè)圖生視頻示例。在示例中,可以看到各種動(dòng)漫風(fēng)格的場景和角色,如坐在汽車?yán)锵蚝髶]手的人物、身穿紅色婚服走向遠(yuǎn)方的人物、金發(fā)人物伸手觸摸跪著的人物的頭部等。這些場景和角色的動(dòng)作流暢自然,充滿了動(dòng)漫特有的夸張和想象力。
AniSora模型的開源,無疑將激發(fā)更多動(dòng)漫創(chuàng)作者的熱情,推動(dòng)動(dòng)漫產(chǎn)業(yè)的創(chuàng)新發(fā)展。同時(shí),這一技術(shù)也將為AI在動(dòng)漫領(lǐng)域的應(yīng)用開辟更廣闊的空間。
對(duì)于對(duì)動(dòng)漫創(chuàng)作感興趣的讀者來說,不妨前往AniSora的開源地址,親自體驗(yàn)這一技術(shù)的神奇魅力。相信在不久的將來,我們將看到更多由AniSora模型生成的精彩動(dòng)漫作品。