滾動資訊

當(dāng)前位置：網(wǎng)界 > 智能手機 > 正文內(nèi)容

多模態(tài)大模型2025：技術(shù)紛爭中，視頻生成商業(yè)化風(fēng)起云涌

時間：2025-06-11 10:19 作者：ITBEAR

在近期舉辦的智源大會2025上，多模態(tài)大模型成為了焦點話題，吸引了來自學(xué)術(shù)界、創(chuàng)業(yè)公司和科技巨頭的眾多參與者。這場為期兩天的論壇，匯聚了多模態(tài)領(lǐng)域的熱門選手，包括愛詩科技、生數(shù)科技、Sand.ai、智象未來、Luma AI、智譜等創(chuàng)業(yè)公司，以及字節(jié)、騰訊、百度等大廠的代表，還有來自中國人民大學(xué)和麻省理工學(xué)院的專家學(xué)者。

大會現(xiàn)場，關(guān)于多模態(tài)大模型的討論熱烈非凡。與會者圍繞自回歸、擴散、原生多模態(tài)等技術(shù)路線展開了深入探討，這些技術(shù)路線的論證和實踐分享揭示了一個事實：相較于大語言模型戰(zhàn)場，多模態(tài)大模型的技術(shù)路徑仍在不斷探索之中，遠(yuǎn)未形成統(tǒng)一共識。

智源研究院院長王仲遠(yuǎn)指出，盡管多模態(tài)大模型已在特定場景開始落地應(yīng)用，但尚未實現(xiàn)高度普適化。他認(rèn)為，要實現(xiàn)根本性突破，還需依賴更強大的基礎(chǔ)模型。一旦多模態(tài)模型達(dá)到足夠可用的水平，將極大推動產(chǎn)業(yè)發(fā)展。

面對多模態(tài)大模型的發(fā)展現(xiàn)狀，Sand.ai聯(lián)合創(chuàng)始人張拯表示：“對于多模態(tài)模型而言，現(xiàn)在定義下半場還為時尚早，我們連上半場都還沒有看到邊界在哪里?！彼砸曨l生成為例，指出目前視頻生成還處于GPT-2到GPT-3之間的階段，距離理想中的效果還有一定差距。

智象未來CEO梅濤也表達(dá)了類似觀點，他認(rèn)為視頻生成在敘事性、穩(wěn)定性和可控性方面仍有待提升。特別是在可控性方面，要求模型能夠精準(zhǔn)生成指定內(nèi)容，但目前的大模型還無法達(dá)到這樣的水準(zhǔn)。梅濤強調(diào)，數(shù)據(jù)質(zhì)量成為提升模型生成效果的關(guān)鍵。

在提升多模態(tài)大模型能力方面，各家企業(yè)采取了不同的技術(shù)路線。相較于普遍采用Diffusion Transformer模型的文生圖、文生視頻領(lǐng)域，多模態(tài)大模型應(yīng)采用何種技術(shù)路線，業(yè)內(nèi)尚未達(dá)成共識。Sand.ai CEO曹越指出，主流的Diffusion和Transformer訓(xùn)練方案存在可擴展性不足的問題。

Luma AI創(chuàng)始人宋佳銘則認(rèn)為，多模態(tài)大模型進入下半場的前提是上半場要先把不同模態(tài)像語言一樣統(tǒng)一處理，既要用同一個模型建模，還要保證推理速度足夠快。這涉及到多模態(tài)和“原生多模態(tài)”兩條路線的區(qū)分。

為了解決這個問題，智源研究院推出了全球首個原生多模態(tài)世界大模型Emu3，試圖將多種模態(tài)的數(shù)據(jù)統(tǒng)一在一個架構(gòu)內(nèi)。Emu3采用自回歸的生成方式，能夠處理文本、圖像、視頻的任意組合理解與生成，實現(xiàn)跨模態(tài)交互。

MIT CSAIL的黎天鴻認(rèn)為，真正的“下半場”多模態(tài)應(yīng)該是模型能處理超越人類感官的數(shù)據(jù)。智源研究院也分享了多模態(tài)數(shù)據(jù)形態(tài)的擴充，包括腦信號等。

在商業(yè)應(yīng)用方面，企業(yè)端正在加速多模態(tài)大模型在行業(yè)中的落地進程。字節(jié)跳動Seed圖像&視頻生成負(fù)責(zé)人黃偉林表示，2025年是圖像生成商業(yè)化元年。他給出了用戶生成圖片下載率和留存率的數(shù)據(jù)，證明了圖像生成已經(jīng)越過了商業(yè)化的關(guān)鍵門檻。

黃偉林還表示，頭部視頻生成產(chǎn)品的年化收入預(yù)計今年將達(dá)到1億美元，明年可能增長到5到10億美元。生數(shù)科技CEO駱怡航也認(rèn)為，今年多模態(tài)生成正處于規(guī)模化生產(chǎn)落地的拐點。

在商業(yè)化路線上，中國的多模態(tài)大模型公司們給出了不同的答案。愛詩科技創(chuàng)始人王長虎分享了旗下產(chǎn)品PixVerse通過特效視頻模版在社交媒體上的傳播，成功打響了知名度。愛詩科技選擇先做To C，再做To B的商業(yè)化路徑。

相比之下，生數(shù)科技更早聚焦視頻生成大模型如何落地產(chǎn)業(yè)端的問題。駱怡航表示，生數(shù)科技強調(diào)的是對成本以及生產(chǎn)效率的降低，與行業(yè)深入適配，滿足行業(yè)的專業(yè)需求。他分享了一個海外動畫工作室與生數(shù)科技合作打造“AI動漫”工作流的案例，證明了AI視頻生成在提升效率和降低成本方面的潛力。

隨著多模態(tài)大模型技術(shù)的不斷發(fā)展和商業(yè)化進程的加速，可以預(yù)見的是，下半年多模態(tài)領(lǐng)域的AI生成將在商業(yè)化上迎來更激烈的競爭。

更多>同類內(nèi)容

火山引擎新動作：豆包視頻生成模型即將面世！

06-11

騰訊音樂12.6億美元“牽手”喜馬拉雅，音頻市場格局或?qū)⒅厮?/a>

06-11

奧爾特曼透露：ChatGPT每次查詢用水量僅約1/15茶匙，智能成本將趨近電力

06-11

蘋果watchOS 26更新：火焰、水等五款表盤成歷史，新表盤何時來？

06-11

Siri個性化功能2026春或?qū)⑸暇€，蘋果費德里吉詳解推遲幕后

06-11

iOS 26天氣應(yīng)用升級：智能預(yù)測目的地，提前預(yù)警惡劣天氣

06-11

騰訊音樂大手筆！擬12.6億美元全資收購喜馬拉雅音頻平臺

06-11

中鋼協(xié)痛批汽車業(yè)價格戰(zhàn)：最低價中標(biāo)，鋼廠利潤何在？

06-11

macOS 27將不再支持AirPort Time Capsule備份，你的數(shù)據(jù)怎么辦？

06-11

張坤卸任高管、鮑無可離職，公募告別明星時代，基金經(jīng)理團隊制或成主流

06-10

ESG解讀｜一致行動協(xié)議終止后，桃李面包董事會首現(xiàn)反對票；家族雙核治理直面業(yè)績考驗

06-10

如何客觀看待目前賣場的問題？

06-10

商超調(diào)改將會給食品企業(yè)帶來哪些影響？

06-10

商超企業(yè)的采購必須要走出來了！

06-10

商超的采購結(jié)構(gòu)要盡快調(diào)整為433

06-10

點擊查看更多 +

全站最新

多模態(tài)大模型2025：技術(shù)紛爭中，視頻生成商業(yè)化風(fēng)起云涌

蘋果Vision Pro新突破：APMP文件解鎖多元沉浸式視頻體驗

法國Mistral實驗室新推Magistral系列，推理AI能否后來居上？

Dacora新車亮相，挑戰(zhàn)凱迪拉克！美產(chǎn)超豪華轎車能否引領(lǐng)復(fù)古新風(fēng)尚？

Xcode 26大升級！蘋果Swift Assist新增端側(cè)及Claude等AI模型支持

蘋果AI模型更新，服務(wù)器端表現(xiàn)不敵OpenAI GPT-4o，競爭力何在？

熱門內(nèi)容

本欄最新

多模態(tài)大模型2025：技術(shù)紛爭中，視頻生成商業(yè)化風(fēng)起云涌

火山引擎新動作：豆包視頻生成模型即將面世！

騰訊音樂12.6億美元“牽手”喜馬拉雅，音頻市場格局或?qū)⒅厮? /></a></div>
<div id=

奧爾特曼透露：ChatGPT每次查詢用水量僅約1/15茶匙，智能成本將趨近電力

蘋果watchOS 26更新：火焰、水等五款表盤成歷史，新表盤何時來？

Siri個性化功能2026春或?qū)⑸暇€，蘋果費德里吉詳解推遲幕后

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

多模態(tài)大模型2025：技術(shù)紛爭中，視頻生成商業(yè)化風(fēng)起云涌

多模態(tài)大模型2025：技術(shù)紛爭中，視頻生成商業(yè)化風(fēng)起云涌