近日,字節(jié)跳動旗下的云服務(wù)平臺火山引擎公布了豆包大模型的最新數(shù)據(jù)。數(shù)據(jù)顯示,截至今年3月底,豆包大模型的日均tokens調(diào)用量已達到驚人的12.7萬億,與去年5月發(fā)布時相比,實現(xiàn)了106倍的增長。這一數(shù)字不僅遠(yuǎn)超去年12月的4萬億日均調(diào)用量,也彰顯了豆包大模型在處理信息方面的強大能力。
火山引擎總裁譚待在近期接受媒體采訪時表示,火山引擎對模型的接入持開放態(tài)度,只要模型質(zhì)量高且符合客戶需求,無論是字節(jié)的模型還是其他開源模型,都會考慮接入平臺。他特別提到,對豆包大模型抱有極大的信心。
譚待進一步解釋了豆包大模型調(diào)用量激增的原因。他指出,模型在聊天和信息處理能力上的提升,以及成本的降低,是調(diào)用量增長的基礎(chǔ)。而深度思考模型的上線,則為豆包大模型注入了新的活力。他透露,未來模型的一個突破方向?qū)⑹且曈X推理,這將解鎖更多視覺驅(qū)動的現(xiàn)實場景,使模型更加貼近人類的生活方式。
在“AI創(chuàng)新巡展”上,火山引擎面向B端發(fā)布了豆包1.5深度思考模型。這款模型具備視覺推理能力,能夠像人類一樣對看到的事物進行聯(lián)想和思考。譚待表示,多模態(tài)能力的加持將使豆包深度思考模型在更多場景中助力企業(yè)實現(xiàn)智能化升級。例如,在分析航拍圖時,模型能結(jié)合地貌特征來判斷區(qū)域開發(fā)的可行性。
值得注意的是,就在火山引擎發(fā)布豆包1.5深度思考模型的同時,OpenAI也發(fā)布了最新的推理模型o3和o4-mini,同樣強調(diào)了視覺推理方面的突破。這表明,在AI領(lǐng)域,視覺推理已成為各大廠商競相角逐的焦點。
除了視覺推理外,火山引擎還關(guān)注另一個模型突破方向——Agent。譚待認(rèn)為,AI在對話和信息處理市場的潛力有限,要真正深入到各行各業(yè)中,Agent是必經(jīng)之路。然而,業(yè)內(nèi)對智能體并沒有統(tǒng)一的定義,這造成了概念上的混亂。他強調(diào),真正的Agent應(yīng)該能夠完成專業(yè)度較高、需要較長時間才能實現(xiàn)的完整任務(wù),并且需要基于深度思考模型構(gòu)建,支持多模態(tài)處理復(fù)雜任務(wù)。
譚待表示,隨著Agent的進一步落地,其定義可能會變得更清晰。他提出了一個類比,就像自動駕駛一樣,Agent也可能發(fā)展出不同級別的定義。他預(yù)測,開發(fā)出幾千個能完成簡單任務(wù)的Agent只能算作L1級,而最終做到L2++級才能算作“落地的元年”。
針對Agent的分類,火山引擎將其大致劃分為垂直類Agent和通用型Agent。譚待透露,對于垂直類Agent,火山引擎可能會在擅長的領(lǐng)域嘗試自主研發(fā),如數(shù)據(jù)、代碼Agent。而在通用型Agent方面,火山引擎更注重提供合適的工具,幫助開發(fā)者和企業(yè)構(gòu)建自己的通用Agent。
為此,火山引擎推出了OS Agent解決方案,包括豆包UI-TARS模型以及一系列云服務(wù)產(chǎn)品。這些產(chǎn)品能夠?qū)崿F(xiàn)對代碼、瀏覽器、電腦、手機以及其他Agent的操作。在活動現(xiàn)場,譚待演示了如何使用Agent操作瀏覽器完成商品比價任務(wù),甚至通過Agent在剪映上進行視頻編輯與配樂。這一演示充分展示了火山引擎在Agent領(lǐng)域的實力和創(chuàng)新能力。
譚待還分享了火山引擎在Agent研發(fā)方面的規(guī)劃。他表示,火山引擎將繼續(xù)投入資源,加強在深度思考模型、多模態(tài)處理等方面的研發(fā),以推動Agent技術(shù)的不斷突破和落地應(yīng)用。
隨著AI技術(shù)的不斷發(fā)展,火山引擎作為領(lǐng)先的云服務(wù)平臺,將繼續(xù)發(fā)揮自身優(yōu)勢,推動AI技術(shù)的創(chuàng)新和應(yīng)用,為各行各業(yè)提供更多智能化解決方案。