滾動資訊

火山引擎豆包1.5模型升級，多模態(tài)理解與GUI Agent能力引領創(chuàng)新

時間：2025-05-13 16:35 作者：沈如風

在近日于上海舉行的FORCE LINK AI創(chuàng)新巡展活動中，火山引擎隆重推出了其最新的豆包1.5視覺深度思考模型（Doubao-1.5-thinking-vision-pro）。盡管該模型的激活參數(shù)僅為20B，但它展現(xiàn)出了卓越的多模態(tài)理解與推理能力，令人矚目。在多達60項的公開評測基準中，豆包1.5在38項上取得了業(yè)界最佳成績（SOTA），特別是在視頻理解、視覺推理以及GUI Agent能力方面，均位列前茅。

在視頻理解領域，豆包1.5引入了動態(tài)幀率采樣技術，這一創(chuàng)新極大地提升了模型對視頻時序的定位能力。結(jié)合先進的向量搜索功能，模型能夠迅速且準確地找到與文本描述相匹配的視頻片段，為視頻內(nèi)容的深度挖掘與檢索提供了強有力的支持。

不僅如此，豆包1.5還具備了視頻深度思考的能力。通過深度學習數(shù)萬億的多模態(tài)標記數(shù)據(jù)，模型積累了豐富的視覺知識。同時，借助強化學習技術，豆包1.5的視覺推理能力得到了顯著提升。在復雜的圖形推理任務中，它能夠自主提出假設、進行驗證，并在發(fā)現(xiàn)不符時不斷反思與調(diào)整，直至得出正確答案，這一過程展現(xiàn)了其強大的思考與自我修正能力。

豆包1.5新增的GUI Agent能力同樣令人印象深刻。憑借其出色的GUI定位性能，模型能夠在多種不同環(huán)境，如PC端和手機端，完成復雜的交互任務。這一功能在新開發(fā)的App功能自動化檢測中發(fā)揮了巨大作用，目前已在字節(jié)跳動多款App產(chǎn)品的開發(fā)測試中得到實際應用，大大提高了測試效率與準確性。

GUI Agent，作為一種基于多模態(tài)視覺模型驅(qū)動的人工智能系統(tǒng)，能夠模擬人類用戶的操作，如點擊、輸入、拖拽以及讀取界面信息等，從而完成各種指定的工作任務。這一技術的引入，無疑為豆包1.5增添了更為廣泛的應用場景與價值。

豆包1.5的推出也標志著火山引擎在人工智能領域邁出了堅實的一步。該模型不僅展現(xiàn)了火山引擎在技術創(chuàng)新方面的實力，更為行業(yè)內(nèi)的其他參與者樹立了新的標桿。

目前，豆包1.5視覺深度思考模型已在火山方舟平臺正式上線，標志著這一先進技術將正式服務于更廣泛的用戶群體，為人工智能的應用與發(fā)展注入新的活力。

更多>同類內(nèi)容

魅族Note 16 Pro震撼登場：驍龍7s加持，創(chuàng)新“防撞梁”設計引領潮流

05-13

品牌名含&符號，語音消息竟無法送達？蘋果用戶遭遇發(fā)送難題

05-13

魅族22旗艦盛夏來襲，小屏時代AI新王者？

05-13

NHTSA追問特斯拉：Robotaxi惡劣天氣如何應對？

05-13

國補iPhone16Pro遭瘋搶，128GB真的夠用嗎？國產(chǎn)旗艦何去何從？

05-13

榮耀大手筆！新增AI部門，中國區(qū)關鍵崗位大換血

05-13

蘋果復旦聯(lián)手打造StreamBridge，突破端側(cè)視頻大語言模型理解瓶頸

05-13

720健康科技智選產(chǎn)品摘金奪銀，科技美學引領健康空氣新風尚

05-13

華為nova 14 Ultra新機亮點曝光，前置變焦自拍成新亮點？

05-13

小派Dream Air SE VR頭顯來襲：輕量化+眼球追蹤，預約價4845元起

05-13

中國航模大師徐陽刷新微型飛行器地面速度世界紀錄！

05-13

OPPO Enco Clip耳夾耳機首發(fā)在即，產(chǎn)能受限將限量發(fā)售

05-13

小米米家空調(diào)Pro健康風新品上市，APF5.65超一級能效，首發(fā)僅2999元！

05-13

特斯拉新添家長控制功能，青少年駕車安全再升級！

05-13

微軟Phone Link新增設備移除功能，Win11用戶解綁手機更便捷！

05-13

點擊查看更多 +

全站最新

魅族Flyme AIOS 2煥新登場，Note 16系列領銜，6月首批老機型升級在即

廣汽昊鉑免費充電再升級！新增300站，首任車主享限時終身福利

鴻?？萍技尤隠OT Network，全球?qū)＠Ｗo戰(zhàn)略再升級！

淘寶內(nèi)測“高退款屏蔽”功能，服飾商家先行嘗鮮？

魅族Note 16 Pro震撼登場：驍龍7s加持，創(chuàng)新“防撞梁”設計引領潮流

魅族Note 16“流暢耐用戰(zhàn)神”來襲，799元起售，性價比如何？

熱門內(nèi)容

本欄最新

魅族Note 16 Pro震撼登場：驍龍7s加持，創(chuàng)新“防撞梁”設計引領潮流

品牌名含&符號，語音消息竟無法送達？蘋果用戶遭遇發(fā)送難題

魅族22旗艦盛夏來襲，小屏時代AI新王者？

NHTSA追問特斯拉：Robotaxi惡劣天氣如何應對？

國補iPhone16Pro遭瘋搶，128GB真的夠用嗎？國產(chǎn)旗艦何去何從？

蘋果復旦聯(lián)手打造StreamBridge，突破端側(cè)視頻大語言模型理解瓶頸

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標，是該商標的唯一持有者，未經(jīng)授本公司授權，嚴禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

火山引擎豆包1.5模型升級，多模態(tài)理解與GUI Agent能力引領創(chuàng)新

火山引擎豆包1.5模型升級，多模態(tài)理解與GUI Agent能力引領創(chuàng)新