近日,科技界迎來了一項新的突破,meta公司正式發(fā)布了WebSSL系列模型,這一系列模型基于純圖像數(shù)據(jù)進行訓(xùn)練,旨在探索無語言監(jiān)督的視覺自監(jiān)督學(xué)習(xí)(SSL)的潛力。此舉標(biāo)志著meta在視覺學(xué)習(xí)領(lǐng)域邁出了重要一步。
在當(dāng)前的視覺學(xué)習(xí)領(lǐng)域,以O(shè)penAI的CLIP為代表的對比語言-圖像模型已成為學(xué)習(xí)視覺表征的熱門選擇。這類模型在視覺問答(VQA)、文檔理解等多模態(tài)任務(wù)中展現(xiàn)出了卓越的性能。然而,語言依賴成為了一個限制因素,由于數(shù)據(jù)集獲取的復(fù)雜性和數(shù)據(jù)規(guī)模的限制,語言依賴面臨著諸多挑戰(zhàn)。meta公司正是針對這一痛點,推出了WebSSL系列模型。
WebSSL系列模型涵蓋了DINO和Vision Transformer(ViT)兩種架構(gòu),參數(shù)規(guī)模從3億到70億不等。這些模型在Hugging Face平臺上發(fā)布,為研究和應(yīng)用提供了極大的便利。值得注意的是,這些模型僅使用了metaCLIP數(shù)據(jù)集(MC-2B)中的20億張圖像子集進行訓(xùn)練,完全排除了語言監(jiān)督的影響。
WebSSL模型采用了兩種視覺自監(jiān)督學(xué)習(xí)范式:聯(lián)合嵌入學(xué)習(xí)(DINOv2)和掩碼建模(MAE)。在訓(xùn)練過程中,統(tǒng)一使用了224×224分辨率的圖像,并凍結(jié)了視覺編碼器,以確保結(jié)果差異僅源于預(yù)訓(xùn)練策略。這一設(shè)計使得WebSSL模型能夠在不受數(shù)據(jù)和模型規(guī)模限制的情況下,深入評估純視覺自監(jiān)督學(xué)習(xí)的表現(xiàn)潛力。
模型在五個容量層級(ViT-1B至ViT-7B)上進行了訓(xùn)練,并基于Cambrian-1基準(zhǔn)測試進行了評估。該基準(zhǔn)測試覆蓋了通用視覺理解、知識推理、OCR和圖表解讀等16個VQA任務(wù)。實驗結(jié)果顯示,隨著參數(shù)規(guī)模的增加,WebSSL模型在VQA任務(wù)上的表現(xiàn)接近對數(shù)線性提升,而CLIP在超過30億參數(shù)后性能趨于飽和。
在OCR和圖表任務(wù)中,WebSSL模型的表現(xiàn)尤為突出。經(jīng)過數(shù)據(jù)篩選后,僅用1.3%的富文本圖像進行訓(xùn)練,WebSSL模型就在OCRBench和ChartQA任務(wù)中實現(xiàn)了高達13.6%的性能提升。這一成果充分展示了WebSSL模型在特定任務(wù)中的卓越性能。
WebSSL模型在高分辨率(518px)微調(diào)方面也表現(xiàn)出色,進一步縮小了與SigLIP等高分辨率模型的差距。在文檔任務(wù)中,WebSSL模型更是展現(xiàn)出了卓越的性能。這一成果不僅驗證了WebSSL模型在視覺學(xué)習(xí)領(lǐng)域的潛力,也為未來的研究提供了重要的參考。
WebSSL模型在無語言監(jiān)督下仍展現(xiàn)出與預(yù)訓(xùn)練語言模型(如LLaMA-3)的良好對齊性。這表明大規(guī)模視覺模型能夠隱式學(xué)習(xí)與文本語義相關(guān)的特征,為視覺與語言的交叉研究提供了新的思路。
同時,WebSSL模型在傳統(tǒng)基準(zhǔn)測試(如ImageNet-1k分類、ADE20K分割)上也保持了強勁的表現(xiàn)。部分場景下,WebSSL模型甚至優(yōu)于metaCLIP和DINOv2等現(xiàn)有模型。這一成果進一步證明了WebSSL模型在視覺學(xué)習(xí)領(lǐng)域的領(lǐng)先地位。