在科技界引發(fā)廣泛關注的消息傳來,阿里云宣布了一項重大舉措。2月25日晚,其旗下的視覺生成基座模型——萬相2.1(Wan),正式向全球開發(fā)者開放源代碼。此次開源采用的是極為寬松的Apache 2.0協(xié)議,涵蓋了14B和1.3B兩種參數(shù)規(guī)格的全部推理代碼與權重,并支持文字生成視頻及圖片生成視頻的任務。開發(fā)者可以在Github、HuggingFace以及魔搭社區(qū)等平臺下載并體驗。
阿里云此次開源行動,標志著其實現(xiàn)了全模態(tài)、全尺寸大模型的全面開放。據(jù)官方介紹,14B參數(shù)的萬相模型在指令遵循、復雜運動生成、物理建模以及文字視頻生成等多個方面均表現(xiàn)出色。在權威評測集VBench中,萬相2.1以總分86.22%的成績遙遙領先,超越了包括Sora、Luma、Pika在內的國內外眾多模型,穩(wěn)居榜首。而1.3B版本的表現(xiàn)同樣不俗,不僅在測試中超越了部分更大尺寸的開源模型,甚至接近了某些閉源模型的水平。更它能夠在消費級顯卡上運行,僅需8.2GB顯存即可生成高質量視頻,非常適合二次模型開發(fā)和學術研究。
在算法設計層面,萬相模型基于主流DiT架構和線性噪聲軌跡Flow Matching范式,研發(fā)了高效的因果3D VAE以及可擴展的預訓練策略等創(chuàng)新技術。以3D VAE為例,為了實現(xiàn)高效支持任意長度視頻的編碼和解碼,萬相在因果卷積模塊中引入了特征緩存機制,替代了直接對長視頻進行端到端編解碼的過程,從而實現(xiàn)了對無限長1080P視頻的高效處理。通過提前進行空間降采樣壓縮,萬相在不犧牲性能的前提下,進一步減少了29%的推理時內存占用。
在多項測試中,萬相模型均展現(xiàn)出了業(yè)界領先的表現(xiàn)。在運動質量、視覺質量、風格和多目標等14個主要維度以及26個子維度的測試中,萬相均獲得了優(yōu)異成績,并在5項測試中奪得第一。特別是在復雜運動和物理規(guī)律遵循方面,萬相模型能夠穩(wěn)定地展現(xiàn)各種復雜的人物肢體運動,如旋轉、跳躍、轉身、翻滾等,并且能夠精準還原碰撞、反彈、切割等復雜真實的物理場景。
自2023年以來,阿里云就堅定地走上了大模型開源的道路。從2023年8月起,阿里云相繼開源了Qwen、Qwen1.5、Qwen2、Qwen2.5等四代模型,涵蓋了從0.5B到110B的全尺寸范圍,以及大語言、多模態(tài)、數(shù)學和代碼等全模態(tài)領域。這些模型多次登上國內外權威榜單,已成為全球開源社區(qū)中不可或缺的模型系列。目前,阿里云千問(Qwen)的衍生模型數(shù)量已超過10萬個,是全球最大的AI模型家族之一。
在萬相模型開源的同時,阿里巴巴集團也宣布了一項重大投資計劃。CEO吳泳銘在2月24日表示,未來三年,阿里將投入超過3800億元用于建設云和AI硬件基礎設施,這一投資總額超過了過去十年的總和,也創(chuàng)下了中國民營企業(yè)在該領域投資的新紀錄。吳泳銘指出:“AI的爆發(fā)遠超預期,國內科技產(chǎn)業(yè)正方興未艾,潛力巨大。阿里巴巴將不遺余力地加速云和AI硬件基礎設施建設,以助推全行業(yè)生態(tài)的發(fā)展?!?/p>
此前,吳泳銘在財報會上透露,阿里將于近期發(fā)布基于千問Qwen2.5-MAX的深度推理模型。而1月底,阿里已經(jīng)發(fā)布了AI基礎大模型千問旗艦版Qwen2.5-Max,并在多項權威基準評測中取得了業(yè)界領先的水平。目前,Qwen的全球衍生模型數(shù)量已突破9萬個,位居全球第一。2月25日,通義千問官方賬號在海外社交平臺上發(fā)布了QwQ-Max-Preview(推理模型預覽版),并宣布即將發(fā)布QwQ-Max的正式版本、可部署在本地的較小版本以及官方App QwQ-Max。
作為亞洲領先的云計算公司,阿里云在AI領域的投入和成果備受矚目。此次萬相模型的開源以及3800億元的投資計劃,不僅極大提振了相關產(chǎn)業(yè)的信心,也彰顯了阿里巴巴一如既往相信未來、投資未來的決心和魄力。