近日,科技新聞界傳來(lái)一則關(guān)于meta AI創(chuàng)新進(jìn)展的報(bào)道。據(jù)報(bào)道,meta AI研發(fā)了一種名為T(mén)oken-Shuffle的新方法,旨在解決自回歸(AR)模型在生成高分辨率圖像時(shí)所面臨的挑戰(zhàn)。
自回歸模型是一種在時(shí)間序列分析中廣泛應(yīng)用的統(tǒng)計(jì)方法,它基于歷史數(shù)據(jù)預(yù)測(cè)未來(lái)值。近年來(lái),這種方法在語(yǔ)言生成領(lǐng)域取得了顯著成就,并逐漸應(yīng)用于圖像合成。然而,在處理高分辨率圖像時(shí),AR模型遇到了瓶頸。與文本生成相比,圖像合成需要處理數(shù)千個(gè)token,導(dǎo)致計(jì)算成本急劇增加,限制了AR模型在精細(xì)圖像生成中的應(yīng)用。
盡管擴(kuò)散模型在高分辨率圖像生成方面表現(xiàn)出色,但其復(fù)雜的采樣過(guò)程和較慢的推理速度也成為其應(yīng)用的局限。因此,meta AI推出的Token-Shuffle方法顯得尤為重要。
Token-Shuffle的核心機(jī)制在于解決token效率問(wèn)題。該方法通過(guò)識(shí)別多模態(tài)大語(yǔ)言模型(MLLMs)中視覺(jué)詞匯的維度冗余,提出了一種創(chuàng)新策略:在Transformer處理前,將空間上相鄰的視覺(jué)token沿通道維度合并,推理后再恢復(fù)原始空間結(jié)構(gòu)。這種token融合機(jī)制不僅降低了計(jì)算成本,還保持了視覺(jué)質(zhì)量,使自回歸模型能夠高效處理最高達(dá)2048×2048分辨率的圖像。
具體來(lái)說(shuō),Token-Shuffle包括兩個(gè)關(guān)鍵步驟:token-shuffle和token-unshuffle。在輸入準(zhǔn)備階段,通過(guò)多層感知機(jī)(MLP)將空間相鄰的token壓縮為單個(gè)token,從而減少token數(shù)量。以窗口大小s為例,token數(shù)量可減少到原來(lái)的s2分之一,顯著降低了Transformer的計(jì)算量。
Token-Shuffle還引入了針對(duì)自回歸生成的classifier-free guidance(CFG)調(diào)度器,動(dòng)態(tài)調(diào)整引導(dǎo)強(qiáng)度,優(yōu)化文本-圖像對(duì)齊效果。這一創(chuàng)新不僅提升了圖像生成的質(zhì)量,還為AR模型在高分辨率圖像生成領(lǐng)域樹(shù)立了新的標(biāo)桿。
在實(shí)驗(yàn)中,Token-Shuffle展現(xiàn)了強(qiáng)大的實(shí)力。在GenAI-Bench基準(zhǔn)測(cè)試中,基于2.7B參數(shù)的LLaMA模型,Token-Shuffle在“困難”提示下取得了VQAScore 0.77,超越了其他AR模型如LlamaGen和擴(kuò)散模型LDM。同時(shí),在Geneval基準(zhǔn)測(cè)試中,Token-Shuffle的綜合得分為0.62,為AR模型樹(shù)立了新的標(biāo)準(zhǔn)。
用戶評(píng)估也顯示,盡管在邏輯一致性方面略遜于擴(kuò)散模型,但Token-Shuffle在文本對(duì)齊和圖像質(zhì)量上優(yōu)于LlamaGen和Lumina-mGPT。這一成果不僅為圖像合成領(lǐng)域帶來(lái)了新的突破,也為未來(lái)AR模型在更高分辨率圖像生成中的應(yīng)用提供了可能。