新京報貝殼財經(jīng)訊(記者韋博雅)1月9日,銀河通用發(fā)布端到端具身抓取基礎大模型 GraspVLA。


銀河通用介紹,GraspVLA 的訓練包含預訓練和后訓練兩部分。其中預訓練完全基于合成大數(shù)據(jù),訓練數(shù)據(jù)達到十億幀“視覺-語言-動作”對,掌握泛化閉環(huán)抓取能力、達成基礎模型。預訓練后,模型可直接在真實場景和物體上零樣本測試,并具有七大泛化能力;針對特別需求,后訓練僅需小樣本學習即可遷移基礎能力到特定場景,滿足產(chǎn)品需求的專業(yè)技能。


銀河通用還給出了VLA((視覺-語言-動作模型))達到基礎模型需滿足的七大泛化標準,即光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態(tài)干擾泛化和物體類別泛化。


銀河通用表示,對于特定場景的特殊需求, GraspVLA 也具備對新需求的適應及遷移能力。如在工業(yè)場景中,僅需采集少量軌跡進行快速后訓練,GraspVLA 便可掌握諸如接線座(Wiring Base)、三角板(Triangular Panel)、黑色軟管(Black Hose)等特殊工業(yè)名詞,能從任意擺放的密集場景中找出對應零件。


校對 柳寶慶