本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘 要:针对智能机器人系统存在的平台集中管控能力弱、数据闭环断裂和控制策略通用性差问题,提出了一种基于多模态大模型的智能机器人平台架构。智能机器人平台依托格物AIoT平台构建标准物模型,统一接入异构机器人实现对多种智能机器人的集中管控,打通“感知—训练—部署”数据闭环;引入VLA(Vision Language Action)多模态大模型,通过“语言—视觉—动作”的端到端映射直接生成机器人控制指令,提高控制策略的灵活性与泛化性。
关键词:具身智能;物联网平台;视觉语言动作大模型;智能机器人
doi:10.12045/j.issn.1007-3043.2025.07.003
概述
近年来,以大模型为代表的人工智能(Artificial Intelligence,AI)系统在语言理解、视觉感知和推理生成等任务中取得了突破性进展,推动AI逐步从感知认知智能迈向具身行为智能的发展阶段。具身智能(Embodied Intelligence)作为新一代人工智能的重要方向,强调智能体通过身体与环境互动产生智能行为完成“感知—理解—推理—执行”的闭环交互,目前已成为机器人、智能制造与人机协作等领域的核心技术路径。在此背景下,智能机器人作为具身智能的重要载体,逐渐成为推动具身智能落地应用的关键力量,引发了学术界与产业界的高度关注。
我国高度重视人工智能,尤其是智能机器人方向的发展。2024年,“人工智能+”首次被写入政府工作报告,标志着人工智能与实体经济融合的重要性进一步提升。2025年的政府工作报告首次将“具身智能”纳入国家重点发展方向,提出要加快突破人形机器人、具身智能等关键技术,指出要大力培育具身智能、6G等未来产业,持续推进“人工智能+”行动,大力发展人工智能手机和电脑、智能机器人等新一代智能终端及智能制造装备。
尽管人工智能在多个领域取得了长足进展,但现有智能机器人系统仍存在两大瓶颈。一方面,缺乏统一平台支撑的数据闭环和集中管控能力。现有机器人系统中,训练数据采集、模型训练与终端部署常处于割裂状态,模型难以快速迭代优化,需要专用的平台对异构智能机器人进行管理控制,限制了多机器人的协同部署。另一方面,缺乏通用、端到端的智能机器人控制模型,系统灵活性不足。传统机器人系统依赖规则系统或功能函数库进行控制逻辑拆解,难以适应复杂、动态的复杂环境,不同类型的机器人往往需要独立开发控制策略,导致控制方案高度定制化,通用性差。
本文设计了基于多模态大模型的智能机器人平台架构以解决上述问题。一方面依托格物AIoT平台在海量设备接入、物模型建模与数据统一管理等方面的技术能力,构建了面向异构智能机器人的统一管控平台,使异构机器人的协同部署成为可能,打通了数据采集、模型训练与终端部署的链路,有效提升了模型迭代效率;另一方面引入VLA多模态大模型进行智能机器人控制,该模型融合语言理解、视觉感知与动作控制,实现了自然语言指令到具体动作的端到端控制。基于多模态大模型的智能机器人平台架构提升了模型迭代效率,还有效增强了机器人控制策略的泛化性和跨设备适应能力,为多机器人协同控制的落地提供了支撑。