銀河通用昨日(1 月 9 日)宣布,聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員,發(fā)布首個全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。
注:“具身智能”是指將人工智能融入機(jī)器人等物理實體,賦予它們感知、學(xué)習(xí)和與環(huán)境動態(tài)交互的能力。
據(jù)介紹,GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達(dá)到了有史以來最大的數(shù)據(jù)體量 —— 十億幀「視覺-語言-動作」對,掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型。
預(yù)訓(xùn)練后,模型可直接 Sim2Real(IT之家注:從模擬到現(xiàn)實)在未見過的、千變?nèi)f化的真實場景和物體上零樣本測試,官方宣稱滿足大多數(shù)產(chǎn)品的需求;而針對特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場景,維持高泛化性的同時形成符合產(chǎn)品需求的專業(yè)技能。
官方公布了 VLA 達(dá)到基礎(chǔ)模型需滿足的七大泛化“金標(biāo)準(zhǔn)”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態(tài)干擾泛化、物體類別泛化。
▲ 光照泛化,二倍速播放
▲ 背景泛化,三倍速播放
▲ 平面位置泛化,二倍速播放
▲ 空間高度泛化,二倍速播放
▲ 動作策略泛化,三倍速播放
▲ 動態(tài)干擾泛化,二倍速播放