在近期舉辦的智源大會(huì)2025上,多模態(tài)大模型成為了焦點(diǎn)話題,吸引了來(lái)自學(xué)術(shù)界、創(chuàng)業(yè)公司和科技巨頭的眾多參與者。這場(chǎng)為期兩天的論壇,匯聚了多模態(tài)領(lǐng)域的熱門(mén)選手,包括愛(ài)詩(shī)科技、生數(shù)科技、Sand.ai、智象未來(lái)、Luma AI、智譜等創(chuàng)業(yè)公司,以及字節(jié)、騰訊、百度等大廠的代表,還有來(lái)自中國(guó)人民大學(xué)和麻省理工學(xué)院的專家學(xué)者。
大會(huì)現(xiàn)場(chǎng),關(guān)于多模態(tài)大模型的討論熱烈非凡。與會(huì)者圍繞自回歸、擴(kuò)散、原生多模態(tài)等技術(shù)路線展開(kāi)了深入探討,這些技術(shù)路線的論證和實(shí)踐分享揭示了一個(gè)事實(shí):相較于大語(yǔ)言模型戰(zhàn)場(chǎng),多模態(tài)大模型的技術(shù)路徑仍在不斷探索之中,遠(yuǎn)未形成統(tǒng)一共識(shí)。
智源研究院院長(zhǎng)王仲遠(yuǎn)指出,盡管多模態(tài)大模型已在特定場(chǎng)景開(kāi)始落地應(yīng)用,但尚未實(shí)現(xiàn)高度普適化。他認(rèn)為,要實(shí)現(xiàn)根本性突破,還需依賴更強(qiáng)大的基礎(chǔ)模型。一旦多模態(tài)模型達(dá)到足夠可用的水平,將極大推動(dòng)產(chǎn)業(yè)發(fā)展。
面對(duì)多模態(tài)大模型的發(fā)展現(xiàn)狀,Sand.ai聯(lián)合創(chuàng)始人張拯表示:“對(duì)于多模態(tài)模型而言,現(xiàn)在定義下半場(chǎng)還為時(shí)尚早,我們連上半場(chǎng)都還沒(méi)有看到邊界在哪里?!彼砸曨l生成為例,指出目前視頻生成還處于GPT-2到GPT-3之間的階段,距離理想中的效果還有一定差距。
智象未來(lái)CEO梅濤也表達(dá)了類似觀點(diǎn),他認(rèn)為視頻生成在敘事性、穩(wěn)定性和可控性方面仍有待提升。特別是在可控性方面,要求模型能夠精準(zhǔn)生成指定內(nèi)容,但目前的大模型還無(wú)法達(dá)到這樣的水準(zhǔn)。梅濤強(qiáng)調(diào),數(shù)據(jù)質(zhì)量成為提升模型生成效果的關(guān)鍵。
在提升多模態(tài)大模型能力方面,各家企業(yè)采取了不同的技術(shù)路線。相較于普遍采用Diffusion Transformer模型的文生圖、文生視頻領(lǐng)域,多模態(tài)大模型應(yīng)采用何種技術(shù)路線,業(yè)內(nèi)尚未達(dá)成共識(shí)。Sand.ai CEO曹越指出,主流的Diffusion和Transformer訓(xùn)練方案存在可擴(kuò)展性不足的問(wèn)題。
Luma AI創(chuàng)始人宋佳銘則認(rèn)為,多模態(tài)大模型進(jìn)入下半場(chǎng)的前提是上半場(chǎng)要先把不同模態(tài)像語(yǔ)言一樣統(tǒng)一處理,既要用同一個(gè)模型建模,還要保證推理速度足夠快。這涉及到多模態(tài)和“原生多模態(tài)”兩條路線的區(qū)分。
為了解決這個(gè)問(wèn)題,智源研究院推出了全球首個(gè)原生多模態(tài)世界大模型Emu3,試圖將多種模態(tài)的數(shù)據(jù)統(tǒng)一在一個(gè)架構(gòu)內(nèi)。Emu3采用自回歸的生成方式,能夠處理文本、圖像、視頻的任意組合理解與生成,實(shí)現(xiàn)跨模態(tài)交互。
MIT CSAIL的黎天鴻認(rèn)為,真正的“下半場(chǎng)”多模態(tài)應(yīng)該是模型能處理超越人類感官的數(shù)據(jù)。智源研究院也分享了多模態(tài)數(shù)據(jù)形態(tài)的擴(kuò)充,包括腦信號(hào)等。
在商業(yè)應(yīng)用方面,企業(yè)端正在加速多模態(tài)大模型在行業(yè)中的落地進(jìn)程。字節(jié)跳動(dòng)Seed圖像&視頻生成負(fù)責(zé)人黃偉林表示,2025年是圖像生成商業(yè)化元年。他給出了用戶生成圖片下載率和留存率的數(shù)據(jù),證明了圖像生成已經(jīng)越過(guò)了商業(yè)化的關(guān)鍵門(mén)檻。
黃偉林還表示,頭部視頻生成產(chǎn)品的年化收入預(yù)計(jì)今年將達(dá)到1億美元,明年可能增長(zhǎng)到5到10億美元。生數(shù)科技CEO駱怡航也認(rèn)為,今年多模態(tài)生成正處于規(guī)?;a(chǎn)落地的拐點(diǎn)。
在商業(yè)化路線上,中國(guó)的多模態(tài)大模型公司們給出了不同的答案。愛(ài)詩(shī)科技創(chuàng)始人王長(zhǎng)虎分享了旗下產(chǎn)品PixVerse通過(guò)特效視頻模版在社交媒體上的傳播,成功打響了知名度。愛(ài)詩(shī)科技選擇先做To C,再做To B的商業(yè)化路徑。
相比之下,生數(shù)科技更早聚焦視頻生成大模型如何落地產(chǎn)業(yè)端的問(wèn)題。駱怡航表示,生數(shù)科技強(qiáng)調(diào)的是對(duì)成本以及生產(chǎn)效率的降低,與行業(yè)深入適配,滿足行業(yè)的專業(yè)需求。他分享了一個(gè)海外動(dòng)畫(huà)工作室與生數(shù)科技合作打造“AI動(dòng)漫”工作流的案例,證明了AI視頻生成在提升效率和降低成本方面的潛力。
隨著多模態(tài)大模型技術(shù)的不斷發(fā)展和商業(yè)化進(jìn)程的加速,可以預(yù)見(jiàn)的是,下半年多模態(tài)領(lǐng)域的AI生成將在商業(yè)化上迎來(lái)更激烈的競(jìng)爭(zhēng)。