近日,科技界迎來了一項新的突破,Hugging Face公司于1月26日正式推出了兩款精心打造的多模態(tài)模型——SmolVLM-256M與SmolVLM-500M。這兩款模型是從去年訓練的龐大800億參數(shù)模型中提煉而出,成功地在性能與資源消耗之間找到了完美的平衡點。
據(jù)悉,SmolVLM-256M采用了先進的SigLIP作為圖像編碼技術,而更高級別的SmolVLM-500M則配備了更為強大的SmolLM2文本編碼器。尤為引人注目的是,SmolVLM-256M憑借其小巧的體積,成功躋身當前最小的多模態(tài)模型之列。它不僅能夠接收任意序列的圖像與文本輸入,還能生成豐富的文字輸出,涵蓋圖片描述、視頻字幕生成乃至PDF處理等多樣化功能。
在資源占用方面,這兩款模型同樣展現(xiàn)出了極高的效率。對于移動設備而言,SmolVLM-256M僅需不到1GB的GPU顯存即可完成單張圖片的推理任務,這對于移動應用開發(fā)來說無疑是個巨大的福音。而對于追求更高性能的企業(yè)級應用環(huán)境,SmolVLM-500M則提供了更為精準的輸出結果,盡管其資源需求稍高,僅需1.23GB的GPU顯存,但其在處理復雜任務時的表現(xiàn)更為出色。
值得注意的是,Hugging Face此次推出的兩款模型均采用了Apache 2.0開源授權,這意味著開發(fā)者可以自由地獲取、修改和分發(fā)這些模型。公司還貼心地提供了基于transformer和WebGUI的示例程序,大大降低了開發(fā)者的上手難度。所有模型及其演示代碼均已在公開平臺上發(fā)布,方便開發(fā)者下載與使用。