銀河通用公司近期震撼發(fā)布了一款名為TrackVLA的全球首創(chuàng)產(chǎn)品級端到端具身FSD大模型。這款模型集成了純視覺環(huán)境感知、語言指令驅動、自主推理及零樣本泛化能力,標志著人工智能領域的一大突破。
TrackVLA是一款專為機器人導航設計的產(chǎn)品級大模型,它結合了“視覺-語言-動作”(VLA)訓練框架,通過仿真合成動作數(shù)據(jù)進行訓練。這一創(chuàng)新使機器人能夠形成“聽 → 看 → 懂 → 走”的閉環(huán)運動能力,無需預先建圖或依賴遙控操作,僅需語言指令即可驅動。
這款大模型的八大核心能力令人矚目:
首先,TrackVLA具備出色的自然語言理解和目標識別能力。用戶只需簡單發(fā)出指令,如“跟著媽媽”,機器人便能迅速鎖定目標,并根據(jù)用戶的新指令,如“換成跟孩子”,立即切換跟隨對象。這種能力不僅限于人類,甚至還能跟蹤寵物。
其次,在人流密集的場景中,TrackVLA展現(xiàn)出卓越的空間理解和視覺記憶機制。它能準確識別并持續(xù)跟隨目標,即便在多變環(huán)境和多個相似穿著的人中,也能避免“認錯人”。
第三,當目標走出視野范圍時,TrackVLA不會停滯不前,而是利用實時空間智能和大模型推理能力,分析目標運動軌跡,重新規(guī)劃路徑找回目標。
第四,TrackVLA不依賴建圖,僅憑純視覺輸入理解環(huán)境。這意味著它可以在未經(jīng)訓練的陌生環(huán)境中,如商場、電梯、游樂區(qū)等,實現(xiàn)長時穩(wěn)定自主跟隨。
第五,在復雜場景中,如兒童游樂區(qū)和狹窄通道,TrackVLA能實時識別障礙物,分析可通行區(qū)域,并根據(jù)自身構型自主推理出合理路線,靈活避障。
第六,TrackVLA展現(xiàn)出極強的環(huán)境適應性,無論室外陽光還是室內(nèi)昏暗,從電梯鏡面反射到超市貨架夾縫,都無需專門調參或切換模式。
第七,用戶可通過App實時查看機器人視角,掌握家人動態(tài),系統(tǒng)還能主動提醒風險行為,如小朋友奔跑或老人跌倒,提供“移動守護”。
最后,TrackVLA的技能涌現(xiàn)能力令人驚嘆。它不僅能穩(wěn)定跟隨人類,還能泛化至任意移動目標。例如,在視頻中,機器狗成功跟隨一只偶遇的動物狗狗,盡管目標形態(tài)、運動方式和遮擋情況都非常不確定,但TrackVLA仍表現(xiàn)出穩(wěn)定的跟隨能力。
目前,TrackVLA已搭載于宇樹機器狗,化身“二寶保鏢”,實現(xiàn)兒童看護,并在未訓練過的真實場景中完成了嚴格的長程驗證。在超市、電梯、服裝店等環(huán)境中,它成功穿梭于人流和貨架之間,準確跟隨母子,根據(jù)語音指令切換目標,并在兒童玩耍時發(fā)出提醒,展現(xiàn)出卓越的性能。