在大年初一這個(gè)喜慶的日子里,阿里巴巴向全球展示了其在人工智能領(lǐng)域的最新突破。阿里云通義千問團(tuán)隊(duì)于北京時(shí)間1月29日凌晨正式推出了Qwen2.5-Max旗艦版模型,這一舉動(dòng)在業(yè)界引起了廣泛關(guān)注。
據(jù)阿里云通義千問團(tuán)隊(duì)介紹,Qwen2.5-Max是他們對(duì)混合專家(MoE)模型的最新探索成果,其預(yù)訓(xùn)練數(shù)據(jù)規(guī)模超過20萬億tokens,展現(xiàn)了極為出色的綜合性能。在多項(xiàng)主流模型評(píng)測基準(zhǔn)上,Qwen2.5-Max取得了高分,全面超越了當(dāng)前全球領(lǐng)先的開源MoE模型以及最大的開源稠密模型。
與Qwen2.5-Max進(jìn)行對(duì)比的模型中,包括了近期備受矚目的DeepSeek旗下的V3模型。受到這一新模型發(fā)布的影響,1月28日,阿里巴巴美股股價(jià)大幅拉升,一度漲幅超過7%,最終收盤時(shí)上漲6.71%,報(bào)96.03美元/股。而在1月29日,阿里巴巴美股股價(jià)繼續(xù)上漲,收盤時(shí)漲幅為0.71%,收于96.715美元。
阿里云通義千問團(tuán)隊(duì)強(qiáng)調(diào),Qwen2.5-Max采用了超大規(guī)模的MoE架構(gòu),并基于龐大的預(yù)訓(xùn)練數(shù)據(jù)以及精心設(shè)計(jì)的后訓(xùn)練方案進(jìn)行訓(xùn)練。在知識(shí)、編程、綜合能力評(píng)估以及人類偏好對(duì)齊等主流權(quán)威基準(zhǔn)測試上,Qwen2.5-Max展現(xiàn)出了全球領(lǐng)先的模型性能。
在指令模型這一可直接對(duì)話體驗(yàn)的模型版本中,Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準(zhǔn)測試中,與Claude-3.5-Sonnet比肩,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。這一表現(xiàn)無疑證明了Qwen2.5-Max的強(qiáng)大實(shí)力。
在反映模型裸性能的基座模型對(duì)比中,由于無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型,通義團(tuán)隊(duì)將Qwen2.5-Max與目前領(lǐng)先的開源MoE模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B,以及同樣位列開源稠密模型前列的Qwen2.5-72B進(jìn)行了對(duì)比。結(jié)果顯示,在所有11項(xiàng)基準(zhǔn)測試中,Qwen2.5-Max全部超越了對(duì)比模型,再次證明了其卓越的性能。
除了發(fā)布Qwen2.5-Max以外,阿里巴巴還于1月28日開源了全新的視覺理解模型Qwen2.5-VL,推出了3B、7B、72B三個(gè)尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項(xiàng)權(quán)威評(píng)測中奪得視覺理解冠軍,全面超越了GPT-4o與Claude3.5,進(jìn)一步展示了阿里巴巴在人工智能領(lǐng)域的深厚底蘊(yùn)。
Qwen2.5-Max的發(fā)布引發(fā)了資本市場關(guān)于重估中國AI資產(chǎn)的討論。阿里巴巴的股價(jià)在近年來雖然經(jīng)歷了波動(dòng),但此次新模型的發(fā)布無疑為其股價(jià)注入了新的活力。業(yè)內(nèi)人士分析認(rèn)為,阿里云不僅發(fā)布了與全球頂尖模型比肩甚至更優(yōu)的模型,而且具備完整的云生態(tài),這或能形成類似去年北美云計(jì)算服務(wù)商的投資邏輯。
在DeepSeek備受關(guān)注的同時(shí),國內(nèi)其他互聯(lián)網(wǎng)大廠的大模型能力也不容忽視。包括阿里通義千問、字節(jié)豆包、騰訊混元在內(nèi)的大廠大模型,在性能上同樣表現(xiàn)出色。這些大廠往往出于商業(yè)化等方面的考量,不會(huì)完全開源其模型,但這并不影響它們?cè)谌斯ぶ悄茴I(lǐng)域的競爭力。
值得注意的是,DeepSeek在文本生成能力和理解能力方面表現(xiàn)出色,尤其擅長中文語境下的長文本和復(fù)雜語境。然而,DeepSeek目前尚無多模態(tài)生成能力,而大廠模型如豆包等則屬于多模態(tài)大模型,在大語言模型基礎(chǔ)上融合了圖片、音頻、視頻等多種模態(tài),對(duì)算力底座要求更高。
盡管如此,DeepSeek仍因其創(chuàng)新架構(gòu)與優(yōu)化算法降低了訓(xùn)練成本,并聚焦于大語言模型領(lǐng)域而備受矚目。然而,DeepSeek也面臨著“蒸餾”爭議。所謂“蒸餾”,即用預(yù)先訓(xùn)練好的復(fù)雜模型輸出的結(jié)果作為監(jiān)督信號(hào)來訓(xùn)練簡單模型。雖然這一方法存在爭議,但在大模型訓(xùn)練中卻是一種常用的手段。無論是中國還是美國,初創(chuàng)公司和學(xué)術(shù)機(jī)構(gòu)使用ChatGPT等商業(yè)大語言模型輸出數(shù)據(jù)來訓(xùn)練自己的模型,已成為一種普遍現(xiàn)象。
總的來說,阿里巴巴此次發(fā)布的Qwen2.5-Max模型無疑為人工智能領(lǐng)域帶來了新的突破和活力。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展,人工智能將在未來發(fā)揮更加重要的作用。