近日,字節(jié)跳動旗下的豆包大模型團(tuán)隊宣布了一項針對混合專家(MoE)架構(gòu)的重要技術(shù)突破,并宣布將此關(guān)鍵技術(shù)優(yōu)化方案開源。據(jù)官方介紹,這項技術(shù)能顯著提升大模型的訓(xùn)練效率,最高可達(dá)1.7倍,同時降低訓(xùn)練成本40%。
據(jù)悉,該優(yōu)化技術(shù)已在字節(jié)跳動的萬卡集群訓(xùn)練中得到了實際應(yīng)用,成功節(jié)省了數(shù)百萬GPU小時的訓(xùn)練算力資源。這一成果不僅體現(xiàn)了字節(jié)跳動在大模型技術(shù)領(lǐng)域的深厚積累,也為其在全球范圍內(nèi)的技術(shù)競爭增添了新的籌碼。
值得注意的是,這項技術(shù)還入選了全球機器學(xué)習(xí)系統(tǒng)頂級會議MLSys 2025,并以高分獲得了評審專家的高度評價。MLSys 2025認(rèn)為,該技術(shù)在解決大規(guī)模生產(chǎn)環(huán)境中的實際問題方面具有極大的應(yīng)用潛力。
MoE架構(gòu)作為當(dāng)前大模型的主流選擇,雖然在性能上表現(xiàn)出色,但在分布式訓(xùn)練中卻面臨著巨大的通信開銷問題。以海外知名的Mixtral-8x7B模型為例,其訓(xùn)練過程中的通信時間占比高達(dá)40%,嚴(yán)重制約了訓(xùn)練效率和成本控制。針對這一難題,字節(jié)跳動內(nèi)部研發(fā)了名為COMET的計算-通信重疊技術(shù),通過一系列創(chuàng)新手段,有效降低了MoE專家通信的空轉(zhuǎn)時間。
與近期DeepSeek開源的DualPipe等MoE優(yōu)化方案相比,COMET具有更高的靈活性和兼容性。它像插件一樣可以直接接入現(xiàn)有的MoE訓(xùn)練框架,無需對框架進(jìn)行大規(guī)模的改動,從而支持了業(yè)界絕大部分主流大模型。COMET還支持多種MoE并行模式,部署方便,為開發(fā)者提供了一套友好的Python API。
COMET與DeepSeek的DualPipe方案還可以聯(lián)合使用,進(jìn)一步降低MoE的通信開銷。COMET通過計算-通信融合算子的優(yōu)化方式,減少了通信時間;而DualPipe則通過巧妙的算子排布來掩蓋通信延遲。兩者結(jié)合使用,有望更大幅度地壓縮模型訓(xùn)練成本。
在國內(nèi)大模型研發(fā)技術(shù)快速發(fā)展的背景下,相關(guān)應(yīng)用的下載量也呈現(xiàn)出快速增長的趨勢。據(jù)最新數(shù)據(jù)顯示,DeepSeek在中國區(qū)蘋果應(yīng)用商店免費APP下載排行榜上位居榜首,豆包緊隨其后排在第二位,而騰訊的元寶則位列第三。這一排名不僅反映了各家大模型技術(shù)的實用能力,也預(yù)示著未來市場競爭的激烈程度。
然而,近期也有關(guān)于字節(jié)跳動的市場傳言引發(fā)關(guān)注。有消息稱,字節(jié)跳動已向寒武紀(jì)下單4萬顆580芯片,總價值高達(dá)10億元。但對此傳言,字節(jié)跳動相關(guān)負(fù)責(zé)人迅速進(jìn)行了辟謠,表示消息不實。
還有消息稱國內(nèi)創(chuàng)業(yè)公司Monica開發(fā)的Manus大模型曾婉拒了字節(jié)跳動的投資。據(jù)報道,Monica在2024年初曾與字節(jié)跳動進(jìn)行過一輪收購談判,但因價格未達(dá)預(yù)期而未能達(dá)成協(xié)議。接近Monica內(nèi)部的從業(yè)者透露,字節(jié)跳動的收購計劃主要是看重Monica的團(tuán)隊和技術(shù),但Monica創(chuàng)始人肖弘擔(dān)心被收購后會喪失產(chǎn)品上的獨特優(yōu)勢,因此選擇了拒絕。目前,Monica的估值已接近1億美元。
另一方面,有關(guān)抖音將接入豆包大模型的消息也引起了廣泛關(guān)注。據(jù)稱,抖音App正在測試將豆包的AI能力直接嵌入其中,為用戶帶來更加豐富多元的智能體驗。在測試版本中,抖音為豆包開放了兩個重要入口,分別置于短視頻界面和消息列表內(nèi),使用戶無需跳轉(zhuǎn)即可直接使用AI服務(wù)。這一舉措不僅將強化抖音自身的AI能力,還能通過龐大的用戶基數(shù)為豆包導(dǎo)流,推動AI生態(tài)閉環(huán)的建設(shè)。