近日,Character.AI公司在X平臺(tái)上發(fā)布了一項(xiàng)令人矚目的新技術(shù)——AvatarFX模型,該模型能夠?qū)㈧o態(tài)圖片中的人物賦予生命,讓他們“開口說話”。這一創(chuàng)新技術(shù)引發(fā)了廣泛關(guān)注和討論。
用戶只需上傳一張圖片,并從平臺(tái)提供的聲音庫中選擇一個(gè)聲音,AvatarFX模型就能迅速生成一個(gè)會(huì)說話、會(huì)移動(dòng)的形象。這些形象不僅動(dòng)作自然流暢,還能準(zhǔn)確地表達(dá)情感,真實(shí)感令人驚嘆。這一技術(shù)的實(shí)現(xiàn),得益于Character.AI公司研發(fā)的一種名為“SOTA DiT-based diffusion video generation model”的先進(jìn)AI模型。
據(jù)了解,該模型經(jīng)過長(zhǎng)時(shí)間的訓(xùn)練和優(yōu)化,結(jié)合了音頻條件優(yōu)化技術(shù),能夠高效地生成高質(zhì)量的視頻內(nèi)容。為了展示這一技術(shù)的實(shí)際效果,Character.AI公司還附上了一段演示視頻。
AvatarFX模型的技術(shù)亮點(diǎn)在于其出色的“高保真、時(shí)間一致性”視頻生成能力。即使面對(duì)復(fù)雜的場(chǎng)景,如多角色、長(zhǎng)序列或多輪對(duì)話,AvatarFX模型也能保持驚人的速度和穩(wěn)定性,生成的視頻內(nèi)容質(zhì)量極高。與目前市場(chǎng)上的一些競(jìng)爭(zhēng)對(duì)手,如OpenAI的Sora和Google的Veo相比,AvatarFX模型并非從零開始或基于文本生成視頻,而是專注于將特定的靜態(tài)圖片動(dòng)畫化,為用戶提供了全新的使用體驗(yàn)。
然而,這一技術(shù)的出現(xiàn)也引發(fā)了一些潛在的風(fēng)險(xiǎn)和爭(zhēng)議。由于AvatarFX模型能夠生成高度逼真的虛假視頻,用戶可能會(huì)上傳名人或熟人的照片,制作看似真實(shí)的對(duì)話視頻,從而引發(fā)隱私和倫理問題。因此,Character.AI公司在推廣這一技術(shù)的同時(shí),也強(qiáng)調(diào)了用戶應(yīng)遵守法律法規(guī),尊重他人的隱私和權(quán)益。