近期,科技界傳來(lái)了一則關(guān)于多模態(tài)AI技術(shù)的新突破。據(jù)報(bào)道,蘋果公司與法國(guó)索邦大學(xué)聯(lián)手,在多模態(tài)AI模型的訓(xùn)練與優(yōu)化方面取得了顯著成果。他們對(duì)比了早期融合與后期融合兩種模型,并揭示了早期融合模型在計(jì)算效率和擴(kuò)展性方面的獨(dú)特優(yōu)勢(shì)。
多模態(tài)AI技術(shù)旨在同時(shí)處理多種數(shù)據(jù)類型,如圖像和文本,以實(shí)現(xiàn)更全面的信息理解和應(yīng)用。然而,這一技術(shù)面臨的一個(gè)主要挑戰(zhàn)是如何有效地整合這些異構(gòu)數(shù)據(jù)。目前,多數(shù)多模態(tài)AI系統(tǒng)采用的是后期融合策略,即分別訓(xùn)練視覺編碼器、語(yǔ)言模型等單模態(tài)模型,然后再進(jìn)行組合。這種方法雖然操作簡(jiǎn)便,但難以實(shí)現(xiàn)真正的多模態(tài)理解和協(xié)同。
蘋果與索邦大學(xué)的聯(lián)合團(tuán)隊(duì)對(duì)這一傳統(tǒng)策略提出了挑戰(zhàn)。他們深入研究了從頭訓(xùn)練的原生多模態(tài)模型(NMMs)的擴(kuò)展特性,并對(duì)比了早期融合與后期融合模型的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,在從頭訓(xùn)練的情況下,早期融合模型與后期融合模型在性能上相當(dāng),但早期融合模型在計(jì)算資源有限的情況下更為高效,且易于擴(kuò)展。
研究團(tuán)隊(duì)還探索了專家混合(MoE)稀疏架構(gòu)在多模態(tài)模型中的應(yīng)用。他們發(fā)現(xiàn),稀疏架構(gòu)能夠動(dòng)態(tài)地分配參數(shù),針對(duì)不同模態(tài)進(jìn)行專項(xiàng)優(yōu)化。與稠密模型相比,稀疏模型在性能上有顯著提升,特別是在小規(guī)模模型中表現(xiàn)尤為突出。這一發(fā)現(xiàn)進(jìn)一步證明了稀疏架構(gòu)在多模態(tài)AI技術(shù)中的潛力。
研究團(tuán)隊(duì)通過(guò)系統(tǒng)實(shí)驗(yàn),訓(xùn)練了從0.3億到40億活躍參數(shù)的多模態(tài)模型,以驗(yàn)證早期融合和稀疏架構(gòu)的實(shí)際效果。實(shí)驗(yàn)結(jié)果表明,原生多模態(tài)模型的擴(kuò)展規(guī)律與語(yǔ)言模型相似,但跨模態(tài)數(shù)據(jù)類型和訓(xùn)練組合會(huì)對(duì)擴(kuò)展系數(shù)產(chǎn)生一定影響。稀疏模型在等效推理成本下持續(xù)優(yōu)于密集模型,展現(xiàn)出了處理異構(gòu)數(shù)據(jù)的強(qiáng)大能力。
稀疏模型在擴(kuò)展過(guò)程中更傾向于優(yōu)先增加訓(xùn)練數(shù)據(jù)量而非活躍參數(shù)數(shù)量,這與稠密模型的擴(kuò)展模式截然不同。這一發(fā)現(xiàn)為進(jìn)一步優(yōu)化多模態(tài)AI模型的性能和擴(kuò)展性提供了新的思路。
此次研究不僅挑戰(zhàn)了多模態(tài)AI技術(shù)的傳統(tǒng)設(shè)計(jì)理念,還為未來(lái)高效多模態(tài)AI系統(tǒng)的開發(fā)提供了重要方向。統(tǒng)一早期融合架構(gòu)與動(dòng)態(tài)參數(shù)分配的結(jié)合,有望成為推動(dòng)多模態(tài)AI技術(shù)發(fā)展的新動(dòng)力。