在2025年6月,一場科技盛宴在美國田納西州悄然拉開帷幕,這便是備受矚目的國際計(jì)算機(jī)視覺與模式識別會議(CVPR2025)。此次盛會匯聚了全球頂尖的學(xué)者與科研人員,共同探討計(jì)算機(jī)視覺領(lǐng)域的最新進(jìn)展。
在這場科技盛宴中,一項(xiàng)由中國值得買科技與中國人民大學(xué)高瓴人工智能學(xué)院聯(lián)手打造的科研成果《圖像轉(zhuǎn)有聲視頻》成功脫穎而出,榮耀入選CVPR2025。這項(xiàng)成果首次提出并實(shí)現(xiàn)了一種從靜態(tài)圖像直接生成同步音視頻內(nèi)容的創(chuàng)新框架——JointDiT(Joint Diffusion Transformer),標(biāo)志著從圖像到“動態(tài)視頻+聲音”的高質(zhì)量聯(lián)合生成邁出了關(guān)鍵一步。
CVPR,作為計(jì)算機(jī)視覺和模式識別領(lǐng)域的頂級年度會議,由IEEE與CVF聯(lián)合主辦,每年吸引著來自全球的數(shù)千名與會者。CVPR2025涵蓋了從基礎(chǔ)理論到前沿應(yīng)用的廣泛議題,被錄用的論文代表了該領(lǐng)域最具影響力且經(jīng)過嚴(yán)格同行評審的研究成果。
值得買科技與人大高瓴人工智能學(xué)院的合作始于2023年,雙方結(jié)合值得買科技的集群算力、消費(fèi)數(shù)據(jù)和應(yīng)用場景能力,以及人大高瓴的科研和人才優(yōu)勢,在AI內(nèi)容創(chuàng)作、多模態(tài)生成等方面開展前沿研究。此次的《圖像轉(zhuǎn)有聲視頻》成果,正是雙方共同努力的又一力作。
長期以來,生成式模型的研究主要集中在單一模態(tài)的內(nèi)容合成上,如生成高保真的視頻畫面或自然的音頻片段。然而,在生成自然融合的有聲視頻時(shí),卻面臨著視頻和音頻分離、畫面和聲音語義不匹配或時(shí)間上不同步等挑戰(zhàn)。針對這一問題,JointDiT創(chuàng)新性地提出了圖像到有聲視頻生成(I2SV)的新任務(wù),并構(gòu)建了統(tǒng)一的聯(lián)合生成框架。
JointDiT不僅采用了“重組+協(xié)同”的創(chuàng)新思路,還設(shè)計(jì)了感知式聯(lián)合注意力機(jī)制(Perceiver Joint Attention),實(shí)現(xiàn)對視頻幀與音頻序列之間的細(xì)粒度互動建模。同時(shí),提出的聯(lián)合無分類器引導(dǎo)(JointCFG)及其增強(qiáng)版,進(jìn)一步提升了音視頻之間的語義一致性與時(shí)間同步性。這一成果在視頻質(zhì)量、音頻自然度、同步性和語義一致性等方面均實(shí)現(xiàn)了顯著提升。
為了驗(yàn)證JointDiT的有效性,研究團(tuán)隊(duì)在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量測試。結(jié)果顯示,JointDiT在各項(xiàng)核心指標(biāo)上均優(yōu)于基于pipeline組合的多階段方法。在用戶主觀打分測試中,JointDiT同樣表現(xiàn)出色,在“視頻質(zhì)量”“音頻質(zhì)量”“語義一致性”“同步性”與“整體效果”五項(xiàng)評分中均名列前茅。
人大高瓴人工智能學(xué)院的宋睿華副教授表示,未來研究團(tuán)隊(duì)計(jì)劃將JointDiT擴(kuò)展至圖像、文本、音頻、視頻四模態(tài)的聯(lián)合建模,為構(gòu)建更通用、更智能的多模態(tài)生成系統(tǒng)奠定基礎(chǔ)。這一愿景無疑將為AI技術(shù)的發(fā)展注入新的活力。
值得買科技作為一家AI與內(nèi)容驅(qū)動的數(shù)字消費(fèi)服務(wù)集團(tuán),在AI浪潮來臨之時(shí)便搶先布局,將AIGC列為集團(tuán)重點(diǎn)戰(zhàn)略項(xiàng)目。此次與人大高瓴團(tuán)隊(duì)的合作,正是值得買科技全面AI戰(zhàn)略中的重要一環(huán)。據(jù)悉,雙方正在制定開源計(jì)劃,旨在讓更多開發(fā)者能夠便利地應(yīng)用這一創(chuàng)新成果。
目前,值得買科技已形成了從技術(shù)底層、產(chǎn)品形態(tài)到生態(tài)共建的全面AI布局。不僅構(gòu)建了以AIUC引擎為代表的底層AI技術(shù)能力,還推出了面向用戶、品牌、創(chuàng)作者及大模型的AI產(chǎn)品和解決方案。同時(shí),值得買科技還將自身沉淀的AI能力開放給合作伙伴,共建高質(zhì)量AI生態(tài),推動行業(yè)生態(tài)的繁榮與發(fā)展。