亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

Hugging Face發(fā)布SmolVLA:4.5億參數(shù)開(kāi)源,消費(fèi)級(jí)硬件也能跑的機(jī)器人模型!

   時(shí)間:2025-06-09 17:22 作者:沈如風(fēng)

Hugging Face近期發(fā)布了一款名為SmolVLA的開(kāi)源機(jī)器人模型,該模型擁有4.5億參數(shù),主打高普適性,旨在降低開(kāi)發(fā)者進(jìn)入機(jī)器人智能領(lǐng)域的門(mén)檻。尤為引人注目的是,SmolVLA能夠在如MacBook Pro這樣的消費(fèi)級(jí)硬件上運(yùn)行,無(wú)需依賴(lài)昂貴的專(zhuān)業(yè)設(shè)備。

在機(jī)器人模型領(lǐng)域,業(yè)界通常采用“視覺(jué)-語(yǔ)言-行動(dòng)”(VLA)框架,試圖在單一架構(gòu)內(nèi)整合感知、理解和決策能力,以實(shí)現(xiàn)機(jī)器人的自主復(fù)雜任務(wù)執(zhí)行。然而,這類(lèi)模型訓(xùn)練成本高昂,且多為閉源項(xiàng)目,依賴(lài)于高性能硬件、龐大的工程資源和私有數(shù)據(jù)集。

為了打破這一現(xiàn)狀,Hugging Face推出了SmolVLA,一個(gè)輕量級(jí)且開(kāi)源的模型。它使用公開(kāi)數(shù)據(jù)集進(jìn)行訓(xùn)練,旨在推動(dòng)通用機(jī)器人智能體的研究發(fā)展,并降低愛(ài)好者的入門(mén)成本。這一舉措有望吸引更多開(kāi)發(fā)者參與到機(jī)器人智能的研究與應(yīng)用中來(lái)。

SmolVLA在模型架構(gòu)上進(jìn)行了創(chuàng)新,結(jié)合了Transformer結(jié)構(gòu)與flow-matching解碼器,并采用了四項(xiàng)關(guān)鍵優(yōu)化技術(shù)。首先,通過(guò)跳過(guò)視覺(jué)模型中的一半層數(shù),提升了推理速度并減小了模型體積。其次,交替融合自注意力與交叉注意力模塊,提高了多模態(tài)信息的整合效率。減少視覺(jué)Token數(shù)量以提升處理效率,并采用更輕量的SmolVLM2作為視覺(jué)編碼器,進(jìn)一步降低了硬件要求。

在訓(xùn)練策略上,SmolVLA采用了預(yù)訓(xùn)練與微調(diào)相結(jié)合的方法。首先通過(guò)通用操作數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后針對(duì)特定任務(wù)進(jìn)行微調(diào),以提升模型的適應(yīng)能力。盡管SmolVLA的訓(xùn)練數(shù)據(jù)遠(yuǎn)少于現(xiàn)有其他VLA模型,但Hugging Face表示,該模型在模擬環(huán)境和真實(shí)場(chǎng)景中的表現(xiàn)與大型模型相當(dāng),甚至在部分任務(wù)上實(shí)現(xiàn)了超越。

SmolVLA還引入了“異步推理架構(gòu)”(Asynchronous Inference Stack),將感知處理(如視覺(jué)和語(yǔ)音理解)與動(dòng)作執(zhí)行進(jìn)行解耦,使機(jī)器人在面對(duì)快速變化的環(huán)境時(shí)能夠做出更及時(shí)的響應(yīng),從而大幅提升了其實(shí)用性。

Hugging Face強(qiáng)調(diào),用戶(hù)無(wú)需花費(fèi)高昂成本采購(gòu)專(zhuān)用AI訓(xùn)練服務(wù)器,只需使用如MacBook Pro等消費(fèi)級(jí)硬件即可運(yùn)行SmolVLA-450M模型。同時(shí),用戶(hù)還可以考慮采購(gòu)Hugging Face推出的低成本機(jī)器人平臺(tái)(如SO-100、SO-101和LeKiwi),以進(jìn)一步降低成本。

為了驗(yàn)證SmolVLA的性能,Hugging Face進(jìn)行了多項(xiàng)基準(zhǔn)測(cè)試。在LIBERO與meta-World等模擬測(cè)試平臺(tái)上,SmolVLA的表現(xiàn)優(yōu)于Octo、OpenVLA等業(yè)界競(jìng)品。而在使用真實(shí)機(jī)器人SO-100和SO-101進(jìn)行抓取、放置、堆疊與分類(lèi)任務(wù)時(shí),SmolVLA也展現(xiàn)出了卓越的性能。

目前,SmolVLA的基礎(chǔ)模型已在Hugging Face平臺(tái)上上線,完整的訓(xùn)練方法也已在GitHub上公開(kāi)。感興趣的開(kāi)發(fā)者可以訪問(wèn)Hugging Face的項(xiàng)目頁(yè)面(https://huggingface.co/lerobot/smolvla_base),獲取更多關(guān)于SmolVLA的信息和資源。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容