阿里通義千問(wèn)于近日正式宣布,開源了其最新的Qwen2.5-1M模型及其配套的推理框架。這一舉措標(biāo)志著通義千問(wèn)在人工智能領(lǐng)域邁出了重要一步。
據(jù)悉,通義千問(wèn)此次發(fā)布的開源模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M兩個(gè)版本。尤為引人注目的是,這兩個(gè)版本首次將Qwen模型的上下文長(zhǎng)度擴(kuò)展到了1M(即100萬(wàn)標(biāo)記),這在業(yè)界尚屬首次。
為了幫助開發(fā)者更好地部署和應(yīng)用這些模型,Qwen團(tuán)隊(duì)還開源了基于vLLM的推理框架。該框架集成了稀疏注意力方法,使得在處理長(zhǎng)達(dá)1M標(biāo)記的輸入時(shí),推理速度有了顯著提升,達(dá)到了3倍至7倍的增長(zhǎng)。
在長(zhǎng)上下文任務(wù)方面,Qwen2.5-1M系列模型展現(xiàn)出了強(qiáng)大的能力。在一項(xiàng)名為“大海撈針”的任務(wù)中,這些模型能夠準(zhǔn)確地從1M長(zhǎng)度的文檔中檢索出隱藏信息。盡管7B版本的模型在極少數(shù)情況下出現(xiàn)了錯(cuò)誤,但整體上,其表現(xiàn)仍然令人矚目。
為了全面評(píng)估Qwen2.5-1M系列模型在長(zhǎng)上下文任務(wù)中的表現(xiàn),研究團(tuán)隊(duì)還選擇了RULER、LV-eval和LongbenchChat等多個(gè)測(cè)試集進(jìn)行測(cè)試。測(cè)試結(jié)果顯示,這些模型在大多數(shù)任務(wù)中都顯著優(yōu)于之前的128K版本,特別是在處理超過(guò)64K長(zhǎng)度的任務(wù)時(shí),其優(yōu)勢(shì)更加明顯。
Qwen2.5-14B-Instruct-1M模型不僅在性能上擊敗了Qwen2.5-Turbo,還在多個(gè)數(shù)據(jù)集上穩(wěn)定超越了GPT-4o-mini。這一結(jié)果無(wú)疑為長(zhǎng)上下文任務(wù)提供了更多開源模型的選擇。
除了長(zhǎng)上下文任務(wù)外,Qwen2.5-1M系列模型在短序列任務(wù)上的表現(xiàn)同樣出色。測(cè)試結(jié)果顯示,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在短文本任務(wù)上的表現(xiàn)與其128K版本相當(dāng),這意味著增加長(zhǎng)序列處理能力并沒有犧牲其基本能力。
與GPT-4o-mini相比,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任務(wù)上實(shí)現(xiàn)了相近的性能,但它們的上下文長(zhǎng)度卻是GPT-4o-mini的八倍。這一結(jié)果進(jìn)一步證明了Qwen2.5-1M系列模型在短序列任務(wù)上的強(qiáng)大實(shí)力。