字節(jié)跳動(dòng)旗下的Seed團(tuán)隊(duì)近期公布了一項(xiàng)重大技術(shù)進(jìn)展,他們宣布開(kāi)源了一個(gè)名為BAGEL的統(tǒng)一多模態(tài)理解與生成模型。這一模型能夠同時(shí)處理文本、圖像和視頻數(shù)據(jù),實(shí)現(xiàn)跨模態(tài)的信息交互與生成。
據(jù)悉,BAGEL模型擁有70億個(gè)激活參數(shù)(總參數(shù)量達(dá)到140億),并在海量交錯(cuò)多模態(tài)數(shù)據(jù)上進(jìn)行了深度訓(xùn)練。在多項(xiàng)標(biāo)準(zhǔn)測(cè)試中,BAGEL的表現(xiàn)超越了當(dāng)前頂尖的開(kāi)源多模態(tài)模型,如Qwen2.5-VL和InternVL-2.5,甚至在文本到圖像的生成質(zhì)量上,也能與專業(yè)級(jí)生成器SD3相媲美。
除了在多模態(tài)理解方面取得突破,BAGEL在圖像編輯領(lǐng)域同樣展現(xiàn)出了非凡的能力。它不僅在經(jīng)典編輯場(chǎng)景中優(yōu)于其他開(kāi)源模型,還進(jìn)一步擴(kuò)展到自由形式的視覺(jué)操作、多視圖合成以及世界導(dǎo)航等高級(jí)任務(wù)。這些能力標(biāo)志著B(niǎo)AGEL在“世界建?!边@一前沿領(lǐng)域邁出了重要一步。
BAGEL基于先進(jìn)的大語(yǔ)言模型進(jìn)行訓(xùn)練,因此具備基礎(chǔ)的推理和對(duì)話能力。它能夠接收混合了圖像和文本的輸入,并以同樣混合的格式輸出結(jié)果。這種靈活性使得BAGEL在處理復(fù)雜多模態(tài)信息時(shí)更加得心應(yīng)手。
在生成高質(zhì)量、逼真的圖像和視頻方面,BAGEL同樣表現(xiàn)出色。它還引入了長(zhǎng)思維鏈(COT)模式,使得模型在生成內(nèi)容之前能夠進(jìn)行更為深入的“思考”。這種能力不僅提升了生成內(nèi)容的質(zhì)量,還增加了生成過(guò)程的可控性和可預(yù)測(cè)性。
由于在大規(guī)模交錯(cuò)多模態(tài)數(shù)據(jù)上的預(yù)訓(xùn)練,BAGEL自然而然地學(xué)會(huì)了保留視覺(jué)特征和細(xì)微細(xì)節(jié)。它能夠從視頻中捕捉到復(fù)雜的視覺(jué)運(yùn)動(dòng),這一能力使得它在圖像編輯方面更加高效且準(zhǔn)確。BAGEL還能基于少量對(duì)齊數(shù)據(jù)實(shí)現(xiàn)圖片風(fēng)格的切換和場(chǎng)景轉(zhuǎn)換。
更令人矚目的是,BAGEL還具備世界模型的基礎(chǔ)能力。它能夠進(jìn)行世界導(dǎo)航、未來(lái)幀預(yù)測(cè)以及3D世界生成等挑戰(zhàn)性任務(wù)。通過(guò)不同角度的旋轉(zhuǎn)或視角切換,BAGEL能夠展現(xiàn)出強(qiáng)大的泛化能力。不僅在真實(shí)場(chǎng)景中表現(xiàn)出色,它還能在游戲、藝術(shù)作品以及卡通動(dòng)畫等虛擬環(huán)境中實(shí)現(xiàn)導(dǎo)航。
基于以上強(qiáng)大的能力,BAGEL通過(guò)一個(gè)統(tǒng)一的多模態(tài)接口,實(shí)現(xiàn)了各項(xiàng)能力的復(fù)雜組合和多輪對(duì)話。用戶可以通過(guò)簡(jiǎn)單的指令,讓BAGEL完成從圖片剪切到智能編輯,再到場(chǎng)景轉(zhuǎn)換和風(fēng)格轉(zhuǎn)換等一系列操作,極大地提升了工作效率和創(chuàng)作自由度。