在近日于上海舉行的FORCE LINK AI創(chuàng)新巡展活動中,火山引擎隆重推出了其最新的豆包1.5視覺深度思考模型(Doubao-1.5-thinking-vision-pro)。盡管該模型的激活參數(shù)僅為20B,但它展現(xiàn)出了卓越的多模態(tài)理解與推理能力,令人矚目。在多達60項的公開評測基準中,豆包1.5在38項上取得了業(yè)界最佳成績(SOTA),特別是在視頻理解、視覺推理以及GUI Agent能力方面,均位列前茅。
在視頻理解領域,豆包1.5引入了動態(tài)幀率采樣技術,這一創(chuàng)新極大地提升了模型對視頻時序的定位能力。結(jié)合先進的向量搜索功能,模型能夠迅速且準確地找到與文本描述相匹配的視頻片段,為視頻內(nèi)容的深度挖掘與檢索提供了強有力的支持。
不僅如此,豆包1.5還具備了視頻深度思考的能力。通過深度學習數(shù)萬億的多模態(tài)標記數(shù)據(jù),模型積累了豐富的視覺知識。同時,借助強化學習技術,豆包1.5的視覺推理能力得到了顯著提升。在復雜的圖形推理任務中,它能夠自主提出假設、進行驗證,并在發(fā)現(xiàn)不符時不斷反思與調(diào)整,直至得出正確答案,這一過程展現(xiàn)了其強大的思考與自我修正能力。
豆包1.5新增的GUI Agent能力同樣令人印象深刻。憑借其出色的GUI定位性能,模型能夠在多種不同環(huán)境,如PC端和手機端,完成復雜的交互任務。這一功能在新開發(fā)的App功能自動化檢測中發(fā)揮了巨大作用,目前已在字節(jié)跳動多款App產(chǎn)品的開發(fā)測試中得到實際應用,大大提高了測試效率與準確性。
GUI Agent,作為一種基于多模態(tài)視覺模型驅(qū)動的人工智能系統(tǒng),能夠模擬人類用戶的操作,如點擊、輸入、拖拽以及讀取界面信息等,從而完成各種指定的工作任務。這一技術的引入,無疑為豆包1.5增添了更為廣泛的應用場景與價值。
豆包1.5的推出也標志著火山引擎在人工智能領域邁出了堅實的一步。該模型不僅展現(xiàn)了火山引擎在技術創(chuàng)新方面的實力,更為行業(yè)內(nèi)的其他參與者樹立了新的標桿。
目前,豆包1.5視覺深度思考模型已在火山方舟平臺正式上線,標志著這一先進技術將正式服務于更廣泛的用戶群體,為人工智能的應用與發(fā)展注入新的活力。