阿里云在最新一輪的技術(shù)創(chuàng)新中,推出了通義千問(wèn)Qwen模型家族的新成員——Qwen2.5-Omni。這款旗艦級(jí)端到端多模態(tài)模型不僅向公眾展示了其強(qiáng)大的技術(shù)實(shí)力,還通過(guò)開(kāi)源的方式,在Hugging Face、ModelScope、DashScope和GitHub等平臺(tái)上供開(kāi)發(fā)者使用。
Qwen2.5-Omni專為全面的多模態(tài)感知設(shè)計(jì),能夠無(wú)縫處理包括文本、圖像、音頻和視頻在內(nèi)的多種輸入形式。其獨(dú)特之處在于,能夠?qū)崟r(shí)以流式方式響應(yīng),并同時(shí)生成文本和自然語(yǔ)音合成的輸出。這一特性使得Qwen2.5-Omni在交互體驗(yàn)上達(dá)到了新的高度。
Qwen團(tuán)隊(duì)此次引入了全新的Thinker-Talker架構(gòu),這一架構(gòu)是Qwen2.5-Omni的核心創(chuàng)新之一。Thinker模塊如同大腦,負(fù)責(zé)處理多模態(tài)輸入,生成高層語(yǔ)義表征和對(duì)應(yīng)文本內(nèi)容;而Talker模塊則像發(fā)聲器官,接收Thinker實(shí)時(shí)輸出的語(yǔ)義表征和文本,以流式方式流暢合成離散語(yǔ)音單元。這種架構(gòu)不僅提高了模型的處理效率,還保證了輸出的自然性和穩(wěn)定性。
在實(shí)時(shí)音視頻交互方面,Qwen2.5-Omni同樣表現(xiàn)出色。其架構(gòu)支持完全實(shí)時(shí)交互,能夠分塊輸入并即時(shí)輸出,為用戶提供了流暢無(wú)阻的交互體驗(yàn)。Qwen2.5-Omni在語(yǔ)音生成的自然性和穩(wěn)定性方面也超越了現(xiàn)有的許多流式和非流式替代方案。
在性能表現(xiàn)上,Qwen2.5-Omni同樣不容小覷。與同等規(guī)模的單模態(tài)模型相比,Qwen2.5-Omni在多模態(tài)任務(wù)中展現(xiàn)出了卓越的性能。在音頻能力上,它優(yōu)于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。同時(shí),Qwen2.5-Omni在端到端語(yǔ)音指令跟隨方面也表現(xiàn)出色,與文本輸入處理的效果相媲美。
模型架構(gòu)圖
為了更直觀地展示Qwen2.5-Omni的性能優(yōu)勢(shì),阿里云還提供了多個(gè)基準(zhǔn)測(cè)試的結(jié)果。在多模態(tài)任務(wù)OmniBench中,Qwen2.5-Omni達(dá)到了SOTA(State-of-the-Art)的表現(xiàn)。在單模態(tài)任務(wù)中,Qwen2.5-Omni也在多個(gè)領(lǐng)域中表現(xiàn)優(yōu)異,包括語(yǔ)音識(shí)別、翻譯、音頻理解、圖像推理、視頻理解以及語(yǔ)音生成等。
模型性能圖
對(duì)于開(kāi)發(fā)者而言,Qwen2.5-Omni的開(kāi)源無(wú)疑是一個(gè)巨大的福音。他們可以通過(guò)訪問(wèn)Hugging Face、ModelScope、DashScope和GitHub等平臺(tái),輕松獲取模型并進(jìn)行二次開(kāi)發(fā)。這不僅有助于推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展,還為開(kāi)發(fā)者提供了更多的創(chuàng)新機(jī)會(huì)。
如果你對(duì)Qwen2.5-Omni感興趣,不妨親自體驗(yàn)一下。你可以通過(guò)訪問(wèn)ModelScope平臺(tái)上的Qwen2.5-Omni Demo頁(yè)面,感受這款旗艦級(jí)多模態(tài)模型的強(qiáng)大魅力。