阿里巴巴在人工智能領(lǐng)域的探索再次邁出重要一步。其Qwen團(tuán)隊(duì)繼3月推出Qwen2.5-Omni-7B模型后,4月30日又發(fā)布了該系列的輕量版本——Qwen2.5-Omni-3B模型。目前,這一新版本已在Hugging Face平臺(tái)上開放下載,供開發(fā)者和研究人員使用。
Qwen2.5-Omni-3B作為7B旗艦多模態(tài)模型的精簡版,專為消費(fèi)級(jí)硬件設(shè)計(jì),旨在提供覆蓋文本、音頻、圖像和視頻等多種輸入功能的強(qiáng)大性能。盡管參數(shù)規(guī)模有所縮減,但團(tuán)隊(duì)表示,3B版本在多模態(tài)性能上仍保持了7B模型90%以上的水平,尤其在實(shí)時(shí)文本生成和自然語音輸出方面表現(xiàn)尤為突出。
基準(zhǔn)測試數(shù)據(jù)顯示,Qwen2.5-Omni-3B在視頻理解和語音生成等任務(wù)中的表現(xiàn)接近7B模型。例如,在VideoBench視頻理解測試中,3B版本取得了68.8的分?jǐn)?shù);在Seed-tts-eval語音生成測試中,其在hard難度下獲得了92.1的高分。
值得注意的是,Qwen2.5-Omni-3B在內(nèi)存使用上的優(yōu)化尤為顯著。在處理長達(dá)25,000 token的上下文輸入時(shí),該模型的VRAM占用減少了53%,從7B模型的60.2 GB降至28.2 GB。這意味著Qwen2.5-Omni-3B可以在配備24GB GPU的高端臺(tái)式機(jī)和筆記本電腦上運(yùn)行,無需依賴企業(yè)級(jí)GPU集群。
Qwen2.5-Omni-3B的架構(gòu)創(chuàng)新也是其性能卓越的關(guān)鍵因素之一。該模型采用了Thinker-Talker設(shè)計(jì)和定制位置嵌入方法TMRoPE,確保了視頻與音頻輸入的同步理解。它還支持FlashAttention 2和BF16精度優(yōu)化,進(jìn)一步提升了處理速度并降低了內(nèi)存消耗。
然而,Qwen2.5-Omni-3B的使用也受到一定的限制。根據(jù)許可條款,該模型目前僅限于研究用途。企業(yè)若希望將其用于商業(yè)產(chǎn)品開發(fā),必須先從阿里巴巴Qwen團(tuán)隊(duì)獲得單獨(dú)的許可。這意味著Qwen2.5-Omni-3B目前并不直接面向生產(chǎn)部署,而是更偏向于測試和原型開發(fā)階段。