C114讯 10月9日消息(九九)当我们还在为大模型的文本生成能力惊叹不已时,一场为人工智能赋予“身体”、激发其行动力的具身智能革命,已悄然而至。
9月24日,“具身智能前沿”论坛在2025年中国国际信息通信展览会(2025PT展)期间举办。政产学研各方聚焦前沿算法、支撑平台和落地应用,进行多层次的深入探讨,分享创新成果,凝聚产业共识,同频发力推动具身智能的高质量发展。
技术有温度,探索开放环境下的具身视觉导盲
聚焦前沿技术如何赋能特殊场景,中国科学院计算技术研究所研究员阚美娜带来《开放环境下的具身视觉导盲》主题演讲,让与会人员感受到了具身智能在无障碍领域的温暖力量。
阚美娜提出,开放环境下的具身视觉导盲,能够解决盲人独立出行难题,需将高带宽视觉信息转化为低带宽听觉/触觉信号,涉及视觉感知、行为决策、人机交互三大技术方向。
在感知层,“多模态大语言模型在推理规划和常见的视觉感知上已经做得非常不错,但是在比较稳定的精细感知能力上远远不如专用小模型,因此我们提出大模型和小模型的协同方式提升大语言模型的视觉能力。”阚美娜说。
在决策层,搭建条件预测模型能够提升行为规划精度,在导盲测试中明显提升行走速度、并减少提示次数,大大降低交互认知的负荷。
在系统层,中国科学院计算技术研究所研发可穿戴导盲系统,具体包括头盔、背包、腰带等。头盔主要采集视觉信息和进行语音提示,背包里放置计算单元,腰带用来做振动提示。这一套系统可以支持主动提示和被动响应,并支持用户的问答。
当AI有了“视觉”,世界便少了黑暗,开放环境下的具身视觉导盲,是具身智能服务社会、造福人类的重要体现。
大小脑协同,迈向通用的具身智能
要实现真正的通用具身智能,“大脑”的规划与“小脑”的控制缺一不可。论坛上,中国电信人工智能研究院主任研究员白辰甲带来主题演讲《具身大小脑协同:迈向通用的具身智能》。
现在大家都有一个共识,具身智能需要有大小脑。LLM、VLM、VPM作为大脑的基座,能够为具身智能提供环境感知、任务规划、未来推演等能力,这种通用能力负责上层大脑的基础;下层需要类比人的小脑,主要负责全身控制、运动规划和行为克隆。
白辰甲指出,小脑是一个特别高频的决策过程,需要跟机器人本体非常快速地连通,运动系统达到500赫兹的决策水平,只能用一些领域特有的小模型进行实现。最终如何把大小脑拼接起来,实现人形机器人大小脑协同是一项非常复杂的工作。
白辰甲介绍,中国电信TeleAI也在做大小脑协同方面的工作。大脑层用分割大模型+ 3D感知融合,在规划层面提出结合大模型的通用能力以及特定任务场景的专用能力,引入少量专家数据,使之在特有场景下做出场景合理的规划。数据是具身智能等主要瓶颈,依靠真机素材成本比较高,TeleAI尝试利用仿真数据,形成人形机器人的优质轨迹。
小脑主要面向人形机器人的控制,窄环境行走对人形机器人来讲是比较大的挑战。需探索如何平衡人形机器人重心的投影和支撑平面的关系,并且训练成一个强化学习的机制,使机器人能够走比较窄的路线,并且在负重情况下和干扰情况下取得平衡。
百家争鸣,但依然处于婴儿“襁褓期”
“从2023、2024到2025年,具身智能大模型呈现百花齐放、百家争鸣的态势。具身智能产业和技术已经成为国家层面科技竞争的高地,也是各个企业战略布局的重点。”中国移动具身智能产业创新中心人形机器人技术负责人赵永生在《从模型到场景:具身智能商业化探索》主题演讲谈到:“即使如此火热,目前具身智能依然处于‘婴儿襁褓期’。”
赵永生指出,虽然业界发布了非常多的VLA大模型,但是语言跟随能力、空间位置和操作对象的泛化能力依然没有有效的解决方案。在此背景下,为什么还有如此多的高校、企业涌进这个赛道,归根结底还是因为它的潜力和想象空间是无限的——机器人五年、十年、二十年或者更长的周期进入千家万户是业界的共识。
赵永生认为,机器人可能在三个领域成为劳动力替代:第一,对于碳基生命不适合的场景,如星际探索,高温、高热、高腐蚀的场所;第二,碳基生命不喜欢的场景,如工厂流水线;第三,随着社会发展、技术变革不再必要的劳动场景,例如洗衣、拖地、洗碗等。
目前整个电信行业所做的工作是对国内10亿、全球数十亿的自然人的运营,解决他们网络通信的一系列诉求。未来,整个电信行业的命题就会变成如何运营好机器人。马斯克有一个结论,未来社会里机器人和人的比例将会达到1:1或者2:1,如何做好运营,是大家现在开始就做好准备的课题。
赵永生介绍,中国移动今年2月份成立具身智能产业中心,目标是成为全球最大的机器人运营商。具身智能的商业化落地高度依赖上下游产业链的协同,中国移动更聚焦于模型能力、共性平台能力的搭建,希望与产业链共筑模式、共创价值、共建生态,打造技术、市场、生产和商业化的闭环。
端云协同,赋能具身智能体验跃迁
华为无线网络产品线5G-A领域总裁方坤鹏带来主题演讲《无线网络筑基,具身体验跃迁》,他强调,无线网络是具身智能体验跃迁的关键,华为不造机器人,而是通过“端云协同”架构赋能机器人发展。
2025年8月,全球首届人形机器人运动会在北京的顺利举办极具象征意义——如同1896年人类运动会标志“身体觉醒”,机器人运动会标志着具身智能进入发展新阶段。
但未知与挑战同样明显:运动会中多数机器人需人工遥控参赛,暴露出“大模型价值未充分赋能机器人本体”的核心问题。“当前智能仍处于‘初觉醒’阶段,如何将算法、模型、数据的进展真正落地到机器人上,是产业突破的关键。”方坤鹏说。
方坤鹏介绍,用端云协同的架构赋能具身产业发展具有三个优势:一是本体上加载的算力有限,云端算力可以更好地支撑大模型;二是机器人搭载算力卡会造成20%~30%的能耗,云端算力功耗更低,续航更长;三是云端算力协同,单体成本必然会下降,终端用户易能接受。
演讲最后,方坤鹏提出行业协作倡议:当前通信行业组织如GTI、GSMA已联合产业伙伴成立了Mobile AI社区和项目,今年华为参与苏州、上海等多地机器人测试场的研究,并联合研究院推进AI业务体验标准建设。未来需基于国标、行标组织,进一步研究明确通信标准,适配具身智能发展需求。
尽管当前具身智能仍处于“婴儿襁褓期”,面临着大模型落地、成本控制、标准统一等诸多挑战,但政产学研的同频共振,已为其铺就了从实验室到千行百业的大道。
咨询机构预测,2030年具身智能体规模将达5000多万台,产值超2000亿元。从为视障人士驱散黑暗的导盲系统,到迈向通用智能的“大小脑”协同,再到无线网络与端云架构的技术赋能,具身智能正以“技术+人文”的双重姿态,在产业浪潮中加速生长。