C114通信网  |  通信人家园

人工智能
2025/1/10 15:01

银河通用发布全球首个端到端具身抓取基础大模型GraspVLA,预训练数据十亿帧“视觉-语言-动作”对

IT之家  沛霖(实习)

银河通用昨日(1 月 9 日)宣布,联合北京智源人工智能研究院(BAAI)及北京大学和香港大学研究人员,发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。

注:“具身智能”是指将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。

据介绍,GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据,训练数据达到了有史以来最大的数据体量 —— 十亿帧「视觉-语言-动作」对,掌握泛化闭环抓取能力、达成基础模型。

预训练后,模型可直接 Sim2Real(IT之家注:从模拟到现实)在未见过的、千变万化的真实场景和物体上零样本测试,官方宣称满足大多数产品的需求;而针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。

官方公布了 VLA 达到基础模型需满足的七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。

  ▲ 光照泛化,二倍速播放

  ▲ 背景泛化,三倍速播放

  ▲ 平面位置泛化,二倍速播放

  ▲ 空间高度泛化,二倍速播放

  ▲ 动作策略泛化,三倍速播放

  ▲ 动态干扰泛化,二倍速播放

  ▲ 物体类别泛化,三倍速播放

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2025 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141