字節(jié)跳動(dòng)近期宣布了其最新的文本生成圖像模型——Seedream 3.0,這一新版本在性能上實(shí)現(xiàn)了顯著提升,不僅超越了前代Seedream 2.0,還在與GPT-4o、Midjourney v6.1以及Imagen 3等業(yè)界領(lǐng)先系統(tǒng)的比拼中展現(xiàn)出了強(qiáng)大的競爭力。
據(jù)透露,Seedream 3.0在模型訓(xùn)練階段所使用的數(shù)據(jù)量實(shí)現(xiàn)了翻倍增長,并特別引入了經(jīng)過精心預(yù)處理掩碼的瑕疵圖像。該模型還采用了分辨率自適應(yīng)采樣和混合分辨率訓(xùn)練等一系列創(chuàng)新技術(shù),確保了在生成不同尺寸圖像時(shí)的高保真度。
Seedream 3.0原生支持2K分辨率,并且生成1K圖像的速度極快,僅需約3秒。在Artificial Analysis Arena等權(quán)威基準(zhǔn)測(cè)試中,Seedream 3.0的圖像質(zhì)量評(píng)分(Arena ELO 1158)甚至略微超過了GPT-4o(1157),進(jìn)一步證明了其卓越的性能。
在處理文本密集型任務(wù)時(shí),Seedream 3.0同樣展現(xiàn)出了非凡的能力。無論是英文還是中文文本,其渲染成功率高達(dá)94%,即使面對(duì)復(fù)雜的排版要求,也能輕松應(yīng)對(duì),游刃有余。
字節(jié)跳動(dòng)表示,Seedream 3.0的訓(xùn)練數(shù)據(jù)集中包含了詳盡的美學(xué)和風(fēng)格描述,這使得該模型在海報(bào)、貼紙等設(shè)計(jì)任務(wù)中的表現(xiàn)尤為出色,不僅超越了GPT-4o,甚至可以與Canva等專業(yè)設(shè)計(jì)平臺(tái)相媲美。
在寫實(shí)肖像領(lǐng)域,Seedream 3.0同樣有著令人矚目的表現(xiàn)。該模型能夠生成極為真實(shí)的皮膚紋理、皺紋和頭發(fā)等細(xì)節(jié),有效避免了AI肖像常見的“過度平滑”問題。其生成的圖像效果優(yōu)于Midjourney v6.1,且無需后期放大處理即可直接輸出高分辨率圖像。
為了進(jìn)一步提升用戶體驗(yàn),字節(jié)跳動(dòng)還推出了配套工具SeedEdit。這款工具專注于圖像內(nèi)的文本和圖像編輯功能,據(jù)稱在精確編輯方面優(yōu)于GPT-4o和Gemini 2.0 Flash。它能夠在不破壞圖像整體風(fēng)格的前提下,完成文本移除、替換或插入等操作,且?guī)缀鯚o明顯瑕疵。
未來,字節(jié)跳動(dòng)計(jì)劃將Seedream 3.0集成至其聊天機(jī)器人平臺(tái)“豆包”,以進(jìn)一步拓展該模型的應(yīng)用場景,為用戶提供更加豐富和便捷的圖像生成與編輯服務(wù)。