滾動資訊

當(dāng)前位置：網(wǎng)界 > 智能出行 > 正文內(nèi)容

字節(jié)豆包大模型團(tuán)隊官宣：MoE架構(gòu)優(yōu)化技術(shù)，訓(xùn)練效率翻倍，成本大降！

時間：2025-03-10 19:54 作者：江紫萱

近日，字節(jié)跳動旗下的豆包大模型團(tuán)隊宣布了一項針對混合專家（MoE）架構(gòu)的重要技術(shù)突破，并宣布將此關(guān)鍵技術(shù)優(yōu)化方案開源。據(jù)官方介紹，這項技術(shù)能顯著提升大模型的訓(xùn)練效率，最高可達(dá)1.7倍，同時降低訓(xùn)練成本40%。

據(jù)悉，該優(yōu)化技術(shù)已在字節(jié)跳動的萬卡集群訓(xùn)練中得到了實際應(yīng)用，成功節(jié)省了數(shù)百萬GPU小時的訓(xùn)練算力資源。這一成果不僅體現(xiàn)了字節(jié)跳動在大模型技術(shù)領(lǐng)域的深厚積累，也為其在全球范圍內(nèi)的技術(shù)競爭增添了新的籌碼。

值得注意的是，這項技術(shù)還入選了全球機器學(xué)習(xí)系統(tǒng)頂級會議MLSys 2025，并以高分獲得了評審專家的高度評價。MLSys 2025認(rèn)為，該技術(shù)在解決大規(guī)模生產(chǎn)環(huán)境中的實際問題方面具有極大的應(yīng)用潛力。

MoE架構(gòu)作為當(dāng)前大模型的主流選擇，雖然在性能上表現(xiàn)出色，但在分布式訓(xùn)練中卻面臨著巨大的通信開銷問題。以海外知名的Mixtral-8x7B模型為例，其訓(xùn)練過程中的通信時間占比高達(dá)40%，嚴(yán)重制約了訓(xùn)練效率和成本控制。針對這一難題，字節(jié)跳動內(nèi)部研發(fā)了名為COMET的計算-通信重疊技術(shù)，通過一系列創(chuàng)新手段，有效降低了MoE專家通信的空轉(zhuǎn)時間。

與近期DeepSeek開源的DualPipe等MoE優(yōu)化方案相比，COMET具有更高的靈活性和兼容性。它像插件一樣可以直接接入現(xiàn)有的MoE訓(xùn)練框架，無需對框架進(jìn)行大規(guī)模的改動，從而支持了業(yè)界絕大部分主流大模型。COMET還支持多種MoE并行模式，部署方便，為開發(fā)者提供了一套友好的Python API。

COMET與DeepSeek的DualPipe方案還可以聯(lián)合使用，進(jìn)一步降低MoE的通信開銷。COMET通過計算-通信融合算子的優(yōu)化方式，減少了通信時間；而DualPipe則通過巧妙的算子排布來掩蓋通信延遲。兩者結(jié)合使用，有望更大幅度地壓縮模型訓(xùn)練成本。

在國內(nèi)大模型研發(fā)技術(shù)快速發(fā)展的背景下，相關(guān)應(yīng)用的下載量也呈現(xiàn)出快速增長的趨勢。據(jù)最新數(shù)據(jù)顯示，DeepSeek在中國區(qū)蘋果應(yīng)用商店免費APP下載排行榜上位居榜首，豆包緊隨其后排在第二位，而騰訊的元寶則位列第三。這一排名不僅反映了各家大模型技術(shù)的實用能力，也預(yù)示著未來市場競爭的激烈程度。

然而，近期也有關(guān)于字節(jié)跳動的市場傳言引發(fā)關(guān)注。有消息稱，字節(jié)跳動已向寒武紀(jì)下單4萬顆580芯片，總價值高達(dá)10億元。但對此傳言，字節(jié)跳動相關(guān)負(fù)責(zé)人迅速進(jìn)行了辟謠，表示消息不實。

還有消息稱國內(nèi)創(chuàng)業(yè)公司Monica開發(fā)的Manus大模型曾婉拒了字節(jié)跳動的投資。據(jù)報道，Monica在2024年初曾與字節(jié)跳動進(jìn)行過一輪收購談判，但因價格未達(dá)預(yù)期而未能達(dá)成協(xié)議。接近Monica內(nèi)部的從業(yè)者透露，字節(jié)跳動的收購計劃主要是看重Monica的團(tuán)隊和技術(shù)，但Monica創(chuàng)始人肖弘擔(dān)心被收購后會喪失產(chǎn)品上的獨特優(yōu)勢，因此選擇了拒絕。目前，Monica的估值已接近1億美元。

另一方面，有關(guān)抖音將接入豆包大模型的消息也引起了廣泛關(guān)注。據(jù)稱，抖音App正在測試將豆包的AI能力直接嵌入其中，為用戶帶來更加豐富多元的智能體驗。在測試版本中，抖音為豆包開放了兩個重要入口，分別置于短視頻界面和消息列表內(nèi)，使用戶無需跳轉(zhuǎn)即可直接使用AI服務(wù)。這一舉措不僅將強化抖音自身的AI能力，還能通過龐大的用戶基數(shù)為豆包導(dǎo)流，推動AI生態(tài)閉環(huán)的建設(shè)。

更多>同類內(nèi)容

微信安卓8.0.57測試版來襲！主要優(yōu)化哪些已知問題？

03-11

企業(yè)推行強制下班雙休新風(fēng)尚，職場文化迎來大變革？

03-11

眾擎PM01機器人再升級，跑步靈活如真人，技術(shù)實力驚艷全球

03-11

小米人形機器人CyberOne量產(chǎn)計劃真相如何？官方回應(yīng)引猜測

03-11

數(shù)字歐元遇阻！歐洲央行支付系統(tǒng)故障引發(fā)信任危機

03-11

特斯拉FSD中國推廣為何放緩？謹(jǐn)慎態(tài)度背后有隱情

03-11

《雙影奇境》火爆開場！發(fā)售兩天銷量即破百萬份

03-11

我國磁等離子體發(fā)動機突破百千瓦大關(guān)，航天動力技術(shù)再上新臺階！

03-11

蘋果iOS/iPadOS 18.4 Beta 3新預(yù)覽版來襲，間隔僅7天！

03-11

蘋果推送watchOS 11.4 Beta 3更新，開發(fā)者預(yù)覽版再升級

03-11

零跑B10預(yù)售火爆，朱江明：被稱“半價理想”是對我們產(chǎn)品力的認(rèn)可

03-11

匯頂科技總裁辭職，收購云英谷失敗后戰(zhàn)略走向何方？

03-11

《死亡擱淺2》港版來襲！收藏版、豪華版、普通版定價公布

03-10

2025款坦克300上市：內(nèi)飾大改，動力升級，越野新選擇來了！

03-10

零跑B10預(yù)售開啟，激光雷達(dá)智駕低至10.98萬起，性價比如何？

03-10

點擊查看更多 +

全站最新

蘋果Apple One高級訂閱海外升級，新增“邀請”與“美食”兩大特權(quán)

微信安卓8.0.57測試版來襲！主要優(yōu)化哪些已知問題？

小米人形機器人CyberOne量產(chǎn)計劃是謠言？官方這樣說

微信朋友圈大升級：5分鐘長視頻隨心分享！

GDC2025：EA揭秘死亡空間與鋼鐵俠游戲紋理創(chuàng)新技術(shù)

企業(yè)應(yīng)對職場“內(nèi)卷”：強制下班，以人為本的新策略？

熱門內(nèi)容

本欄最新

微信安卓8.0.57測試版來襲！主要優(yōu)化哪些已知問題？

小米人形機器人CyberOne量產(chǎn)計劃真相如何？官方回應(yīng)引猜測

數(shù)字歐元遇阻！歐洲央行支付系統(tǒng)故障引發(fā)信任危機

特斯拉FSD中國推廣為何放緩？謹(jǐn)慎態(tài)度背后有隱情

《雙影奇境》火爆開場！發(fā)售兩天銷量即破百萬份

我國磁等離子體發(fā)動機突破百千瓦大關(guān)，航天動力技術(shù)再上新臺階！

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

字節(jié)豆包大模型團(tuán)隊官宣：MoE架構(gòu)優(yōu)化技術(shù)，訓(xùn)練效率翻倍，成本大降！

字節(jié)豆包大模型團(tuán)隊官宣：MoE架構(gòu)優(yōu)化技術(shù)，訓(xùn)練效率翻倍，成本大降！