滾動資訊

當(dāng)前位置：網(wǎng)界 > 數(shù)據(jù)洞察 > 正文內(nèi)容

字節(jié)Seed團(tuán)隊開源BAGEL：多模態(tài)理解與生成，圖像視頻文本一鍵搞定！

時間：2025-06-03 19:22 作者：柳晴雪

字節(jié)跳動旗下的Seed團(tuán)隊近期公布了一項重大技術(shù)進(jìn)展，他們宣布開源了一個名為BAGEL的統(tǒng)一多模態(tài)理解與生成模型。這一模型能夠同時處理文本、圖像和視頻數(shù)據(jù)，實現(xiàn)跨模態(tài)的信息交互與生成。

據(jù)悉，BAGEL模型擁有70億個激活參數(shù)（總參數(shù)量達(dá)到140億），并在海量交錯多模態(tài)數(shù)據(jù)上進(jìn)行了深度訓(xùn)練。在多項標(biāo)準(zhǔn)測試中，BAGEL的表現(xiàn)超越了當(dāng)前頂尖的開源多模態(tài)模型，如Qwen2.5-VL和InternVL-2.5，甚至在文本到圖像的生成質(zhì)量上，也能與專業(yè)級生成器SD3相媲美。

除了在多模態(tài)理解方面取得突破，BAGEL在圖像編輯領(lǐng)域同樣展現(xiàn)出了非凡的能力。它不僅在經(jīng)典編輯場景中優(yōu)于其他開源模型，還進(jìn)一步擴(kuò)展到自由形式的視覺操作、多視圖合成以及世界導(dǎo)航等高級任務(wù)。這些能力標(biāo)志著BAGEL在“世界建模”這一前沿領(lǐng)域邁出了重要一步。

BAGEL基于先進(jìn)的大語言模型進(jìn)行訓(xùn)練，因此具備基礎(chǔ)的推理和對話能力。它能夠接收混合了圖像和文本的輸入，并以同樣混合的格式輸出結(jié)果。這種靈活性使得BAGEL在處理復(fù)雜多模態(tài)信息時更加得心應(yīng)手。

在生成高質(zhì)量、逼真的圖像和視頻方面，BAGEL同樣表現(xiàn)出色。它還引入了長思維鏈（COT）模式，使得模型在生成內(nèi)容之前能夠進(jìn)行更為深入的“思考”。這種能力不僅提升了生成內(nèi)容的質(zhì)量，還增加了生成過程的可控性和可預(yù)測性。

由于在大規(guī)模交錯多模態(tài)數(shù)據(jù)上的預(yù)訓(xùn)練，BAGEL自然而然地學(xué)會了保留視覺特征和細(xì)微細(xì)節(jié)。它能夠從視頻中捕捉到復(fù)雜的視覺運動，這一能力使得它在圖像編輯方面更加高效且準(zhǔn)確。BAGEL還能基于少量對齊數(shù)據(jù)實現(xiàn)圖片風(fēng)格的切換和場景轉(zhuǎn)換。

更令人矚目的是，BAGEL還具備世界模型的基礎(chǔ)能力。它能夠進(jìn)行世界導(dǎo)航、未來幀預(yù)測以及3D世界生成等挑戰(zhàn)性任務(wù)。通過不同角度的旋轉(zhuǎn)或視角切換，BAGEL能夠展現(xiàn)出強(qiáng)大的泛化能力。不僅在真實場景中表現(xiàn)出色，它還能在游戲、藝術(shù)作品以及卡通動畫等虛擬環(huán)境中實現(xiàn)導(dǎo)航。

基于以上強(qiáng)大的能力，BAGEL通過一個統(tǒng)一的多模態(tài)接口，實現(xiàn)了各項能力的復(fù)雜組合和多輪對話。用戶可以通過簡單的指令，讓BAGEL完成從圖片剪切到智能編輯，再到場景轉(zhuǎn)換和風(fēng)格轉(zhuǎn)換等一系列操作，極大地提升了工作效率和創(chuàng)作自由度。

更多>同類內(nèi)容

塔塔Harrier EV搭載三星Neo QLED屏，高端電動SUV市場迎新寵

06-05

海昌海洋公園易主祥源控股，21億資金能否助其走出困境？

06-05

亞朵酒店頻陷品控危機(jī)，枕套事件后如何重振消費者信心？

06-05

《007 First Light》首曝預(yù)告：年輕邦德成長之旅，2026年冒險啟程

06-05

2025年第一季度全球PC GPU出貨量下滑，市場趨勢如何？

06-05

比亞迪海豹06EV亮相重慶車展，純電中型車售價親民引關(guān)注

06-05

兆易創(chuàng)新新加坡設(shè)國際總部，加速全球化布局新篇章

06-05

Mac版ChatGPT新功能上線：AI錄音轉(zhuǎn)錄+云文件智能分析，生產(chǎn)力大幅提升！

06-05

Meta攜手迪士尼等，為新智能眼鏡Loma爭取獨家流媒體內(nèi)容？

06-05

蘋果上訴遭拒，Epic等開發(fā)者可維持外部購買引導(dǎo)

06-05

芒種至，仲夏啟幕，農(nóng)忙時節(jié)收獲與希望并存

06-05

任天堂Switch多款大作獲更新，首日即兼容Switch 2新機(jī)

06-05

榮耀Magic8系列升級：標(biāo)準(zhǔn)版也配潛望長焦，小直屏新機(jī)來襲

06-05

我國科學(xué)家合成最缺中子鏷同位素鏷-210，突破原子核物理研究難關(guān)

06-04

英偉達(dá)臺北設(shè)辦，高薪搶奪臺積電人才，碩士生年薪最高可達(dá)250萬新臺幣

06-04

點擊查看更多 +

全站最新

億級像素捕捉青海秘境生靈，富士GFX100 II生態(tài)攝影之旅

蔚來李斌：水軍問題嚴(yán)峻，公司發(fā)展面臨多樣挑戰(zhàn)需自強(qiáng)

Fairphone 6模塊化易維修手機(jī)即將發(fā)布，6月25日荷蘭見真容！

三星Galaxy S25 Edge摔落測試：超薄旗艦屏幕首摔即裂，耐用性引關(guān)注

One UI 8三星筆記大升級：自定義工具欄、橫向布局等新特性來襲！

塔塔Harrier EV搭載三星Neo QLED屏，高端電動SUV市場迎新寵

熱門內(nèi)容

本欄最新

塔塔Harrier EV搭載三星Neo QLED屏，高端電動SUV市場迎新寵

《007 First Light》首曝預(yù)告：年輕邦德成長之旅，2026年冒險啟程

2025年第一季度全球PC GPU出貨量下滑，市場趨勢如何？

比亞迪海豹06EV亮相重慶車展，純電中型車售價親民引關(guān)注

兆易創(chuàng)新新加坡設(shè)國際總部，加速全球化布局新篇章

Mac版ChatGPT新功能上線：AI錄音轉(zhuǎn)錄+云文件智能分析，生產(chǎn)力大幅提升！

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

字節(jié)Seed團(tuán)隊開源BAGEL：多模態(tài)理解與生成，圖像視頻文本一鍵搞定！

字節(jié)Seed團(tuán)隊開源BAGEL：多模態(tài)理解與生成，圖像視頻文本一鍵搞定！