滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界科技 > 數(shù)據(jù)洞察 > 正文內(nèi)容

北大清華等聯(lián)手發(fā)布LLaVA-o1，開啟自發(fā)性視覺AI新紀(jì)元

時(shí)間：2024-11-19 12:10 來源：ITBEAR作者：唐云澤

近日，一項(xiàng)突破性的研究成果在人工智能領(lǐng)域引起了廣泛關(guān)注。由北京大學(xué)、清華大學(xué)、鵬城實(shí)驗(yàn)室、阿里巴巴達(dá)摩院以及美國理海大學(xué)聯(lián)手打造的LLaVA-o1模型，正式面世。這款模型被譽(yù)為首個(gè)能夠自發(fā)進(jìn)行系統(tǒng)性推理的視覺語言模型，其功能與GPT-o1模型相類似，但在視覺處理方面實(shí)現(xiàn)了新的飛躍。

LLaVA-o1是一款新型視覺語言模型（VLM），其核心設(shè)計(jì)理念是實(shí)現(xiàn)自主多階段推理。該模型擁有驚人的110億個(gè)參數(shù)，是基于Llama-3.2-Vision-Instruct模型進(jìn)一步開發(fā)而來。為了提升其推理能力，研究者們精心設(shè)計(jì)了四個(gè)推理階段：總結(jié)（summary）、描述（caption）、推理（reasoning）和結(jié)論（conclusion）。

在訓(xùn)練過程中，LLaVA-o1使用了名為LLaVA-o1-100k的數(shù)據(jù)集進(jìn)行微調(diào)。這一數(shù)據(jù)集結(jié)合了視覺問答（VQA）資源和GPT-4o生成的結(jié)構(gòu)化推理注釋，為模型的推理能力提供了強(qiáng)有力的支持。

LLaVA-o1的創(chuàng)新之處在于其采用的階段級(jí)束搜索（stage-level beam search）技術(shù)。這一技術(shù)使得模型能夠在每個(gè)推理階段生成多個(gè)候選答案，并從中選擇出最優(yōu)解。這一特性使得LLaVA-o1在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出色，突破了傳統(tǒng)視覺語言模型的局限性。

在實(shí)際測(cè)試中，LLaVA-o1展現(xiàn)了其強(qiáng)大的多模態(tài)推理能力。與基礎(chǔ)模型相比，該模型在多模態(tài)推理基準(zhǔn)測(cè)試中性能提升了8.9%，超越了眾多大型且閉源的競(jìng)爭對(duì)手。特別是在復(fù)雜視覺問答任務(wù)中，LLaVA-o1的表現(xiàn)尤為突出。

LLaVA-o1的推出還填補(bǔ)了文本和視覺問答模型之間的空白。在多個(gè)基準(zhǔn)測(cè)試中，該模型均表現(xiàn)出色，特別是在數(shù)學(xué)和科學(xué)視覺問題的推理領(lǐng)域。這一成果充分展示了結(jié)構(gòu)化推理在視覺語言模型中的重要性。

LLaVA-o1還涉及到一個(gè)新的概念——自發(fā)性人工智能（Spontaneous AI）。這一概念旨在模擬動(dòng)物的自發(fā)行為，通過機(jī)器學(xué)習(xí)和復(fù)雜的時(shí)間模式來設(shè)計(jì)具有自發(fā)行為的智能系統(tǒng)。LLaVA-o1在這一領(lǐng)域邁出了重要的一步，為實(shí)現(xiàn)更加智能、自主的人工智能系統(tǒng)奠定了堅(jiān)實(shí)的基礎(chǔ)。

12-18

華為Mate70系列銷量備受矚目，能否突破千萬大關(guān)成焦點(diǎn)

12-18

小米15 Ultra將推雙衛(wèi)星通訊技術(shù)，影像續(xù)航全面升級(jí)引期待

12-18

英偉達(dá)RTX 5080性能曝光，GDDR7顯存助力逼近4090？

12-18

《黑神話：悟空》未獲獎(jiǎng)引熱議，馮驥幽默發(fā)言遭誤解？

12-18

OLED筆記本市場(chǎng)將迎小高潮，蘋果MacBook或?qū)⒁I(lǐng)OLED新風(fēng)尚

12-18

《奪寶奇兵：古老之圈》正式上市，獲媒體高分贊譽(yù)，冒險(xiǎn)之旅即刻啟程！

12-18

OLED顯示屏筆記本滲透率待提升，未來能否成主流？

12-18

《GTA6》新預(yù)告片何時(shí)來？博主預(yù)測(cè)這幾個(gè)日期引關(guān)注

12-18

小米15 Pro喜提澎湃OS新更，這些功能你期待嗎？

12-18

外賣平臺(tái)強(qiáng)化騎手休息權(quán)益，美團(tuán)餓了么舉措連連

12-18

路虎車主購車四月難上牌，4S店：合格證在銀行，何時(shí)上牌成謎

12-18

RTX50系列顯卡曝光：RTX5090顯存驚人，RTX5080頻率登頂？

12-18

龍芯中科新一代服務(wù)器芯片3C6000樣片出爐，性能直追至強(qiáng)

12-18

寶馬M部門千億瓦電動(dòng)超跑計(jì)劃遇阻，盈利與技術(shù)難題成攔路虎？

12-18

點(diǎn)擊查看更多 +

全站最新

年輕科技旗艦愛瑪A7Plus攜“六大神技”盛大發(fā)布

榮耀Magic7 RSR保時(shí)捷版：100倍AI長焦，手機(jī)秒變超級(jí)望遠(yuǎn)鏡？

小米Civi 5 Pro來襲，首發(fā)驍龍8s至尊版，徠卡影像再升級(jí)？

五菱之光EV：電動(dòng)K-Car新選擇，2025年一季度上市成“多功能新星”？

最懂年輕人的阿維塔06來了，顏值實(shí)力拉滿！

五菱宏光MINIEV四門版來襲！預(yù)訂享四重禮，新車色更吸睛

熱門內(nèi)容

本欄最新

五菱宏光MINIEV四門版來襲！預(yù)訂享四重禮，新車色更吸睛

國產(chǎn)手機(jī)電池容量飆升，7000mAh時(shí)代即將到來，為何越來越大？

特斯拉Cybertruck入華在即，專為中國市場(chǎng)打造新方案引期待

中國移動(dòng)小面額話費(fèi)充值服務(wù)在多地微信支付寶下架

Steam的誕生傳奇：曾遭99%公司否定，如何逆襲成游戲巨頭？

《黑神話：悟空》金搖桿奪魁，M站評(píng)分81分引發(fā)討論

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來 / 網(wǎng)界傳媒旗下網(wǎng)站 / 中國·北京 / 合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊(cè)商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號(hào)-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

北大清華等聯(lián)手發(fā)布LLaVA-o1，開啟自發(fā)性視覺AI新紀(jì)元

北大清華等聯(lián)手發(fā)布LLaVA-o1，開啟自發(fā)性視覺AI新紀(jì)元