移动平台
`
2025/9/26 14:44
北京大学程翔详解“机器联觉”,支撑通信和AI双向奔赴与深度融合
0
0

C114讯9月26日消息(水易)近日,以“做实万兆多维能力,加速5G-A商业成功”为主题的第二届5G-A万兆网论坛在北京召开,旨在促进5G-A多维网络能力及用户多维体验全面提升,推动5G-A产业商用发展进程。

北京大学博雅特聘教授、国家杰青程翔发表题为《机器联觉:AI原生的通信与多模态感知智能融合》的主旨演讲,系统介绍了北京大学泛在连接与网联智能实验室(PCNI)对于机器联觉的研究和实践,支撑通信网络和AI的双向奔赴与深度融合。

人类联觉启发下的“机器联觉”

6G将在5G原有三大场景基础上扩展深化,实现通信、感知、计算、AI等能力的深度融合,支撑具身智能场景(如无人驾驶、人形机器人、低空经济)。程翔表示,不管哪一种智能体,都会配备大量通信和感知设备,在网联场景下存在丰富的通信和多模态感知信息。

不过,当前通信和多模感知互相独立、各自为政,通信作为管道无法获知传输的信息,感知只为智能体对环境的理解和认知服务,不会辅助通信网络。因此,需要将两者进行紧耦合的设计,实现多模态信息智能融合和互惠互利,进一步达到AI for Comm和Comm For AI。

不过,多模态感知信息和通信信道信息在数据表现形式上、采集频段上、面向应用上均有显著差异,提升了通信和多模态感知融合难度,需要探索新理论与新方法实现通信与多模态感知的智能融合。

受人类联觉(Synesthesia of Human)的启发,团队创新性提出“机器联觉” (Synesthesia of Machines, SoM)概念和架构。

程翔介绍了什么是人类联觉,比如睁着眼睛品尝美食,视觉对味觉有增强作用,再比如冷色系、暖色系是视觉唤醒触觉。也就是说,如果负责传递一种感官信号的神经元被激活,它们可能会触发负责传递另一种感官信号的神经元的自发交叉激活,脑神经网络发挥重要作用。

通过类比,摄像头、激光雷达射频雷达、通信设备等是机器的感官系统,通过AI人工神经网络实现与人类联觉同样的作用。程翔表示,总结来说,机器联觉是面向任务的AI原生通信与多模态感知智能融合。

基座模型赋能机器联觉系统设计

对于机器联觉的系统设计,程翔介绍,现有AI赋能的机器联觉系统设计以任务专用模型/AI小模型为主,面临着大规模高质量数据集稀缺、建模能力不足、数据泛化性受限和任务通用性缺乏等问题。

近年来,基座模型的兴起推动了深度学习范式的变革,通过在海量数据上进行大规模自监督预训练,基座模型可以在多种下游任务中展现出卓越的推理能力和泛化能力。目前基座模型在自然语言处理等领域取得一系列成果,但其在机器联觉相关领域的应用仍有疑问。

为此,团队系统调研并首次提出基座模型赋能机器联觉的两种新范式。范式一:基于预训练LLM(通用基座模型),通过微调等方式,利用LLM的通用知识赋能机器联觉任务;范式二:基于无线基座模型(专用基座模型)在海量通信与多模态感知混合数据集上进行大规模预训练,完成后可少样本甚至零样本应用于多种机器联觉任务和系统配置,实现推理和泛化能力的飞跃。

程翔表示,范式一是站在巨人肩上,主要解决如何打破“领域鸿沟”问题,实现通用知识从自然语言域到无线通信域的高效迁移。

其优势在于,具备强大的语义理解以及语言数据生成能力,助力高质量语言类机器联觉数据集构建;依托上下文学习机制,展现出出色的少样本建模能力,降低模型对大量标签数据的依赖;借助语义通用知识,通过跨域特征适配,能够快速适应多变的无线通信场景;同样得益于语义通用知识,展现出高效的多任务学习能力,可灵活适配多种下游任务。

范式二是从无到有,从0到1构建专用无线基座模型,核心挑战是如何设计通信特征嵌入的专用基座模型网络架构与预训练方案。

优势在于,具备强大的跨模态数据生成能力,有效助力高质量多模态混合通感数据集构建;遵循尺度定律,大规模无线基座模型涌现出强大物理层建模能力,有效处理高难度机器联觉任务;挖掘异构数据分布下的无线通用表征,在新系统配置和新场景展现强大的少样本和零样本性能;具备强大的无线任务一模多用能力,同时掌握多种机器联觉任务,降低所需模型数量。

机器联觉的核心研究内容

对于机器联觉的研究内容,程翔表示,数据是基础,在多模态数据稀缺的背景下,团队历经两年时间,搭建首个时空一致的多模态通感仿真数据生成和采集平台,并构建了多样场景、多种场景条件、数据类型丰富的数据集,目前数据集已开源。

在此基础上进行通信与多模态感知联觉机理(映射关系)挖掘与建模,团队首次将大语言模型应用于多模态通感联觉机理挖掘与建模,同时提出了首个面向多模态通感映射联觉挖掘与建模的无线信道基座模型。

基于所构建的混合多模态通感数据集和所建立的映射机理,团队在机器联觉辅助增强的高效通信传输方案设计方面,引入多模态感知,实现物理空间与无线射频空间的可解释性智能融合,将多模态感知转化为导频等效替代,赋能通信传输全流程多任务。同时,首次将大语言模型应用于非语言形式的物理层任务,提出了首个基于预训练大语言模型的信道预测方案(LLM4CP)。进一步地,构建了首个面向信道预测的无线基座模型(WiFo),首次实现一个模型同时处理异构的信道预测任务和数据。

基于联觉特征高效传输的协同感知方案设计方面,面向协同感知任务,深度耦合受限通信(低带宽、强干扰、信道衰落)下物理层传输,实现通感融合的联觉特征协同感知,并进一步基于基座模型实现模态与任务泛化,赋能高效鲁棒的网联具身智能。

支撑机器联觉的通感存算一体化弹性网络研究方面,设计支撑通用复杂任务的网络异构资源弹性分配、资源规划方案,保证端到端时延约束,实现网络吞吐量最优,利用最小网络开销支撑复杂任务。利用人工神经网络提取网络拓扑、资源及任务需求表征,构建基座模型支撑多任务、多目标、可泛化的网络资源管理与优化。

值得一提的是,团队搭建了机器联觉软硬件平台,包括通信与多模态感知数据时空同步采集平台、映射机理挖掘平台、虚实结合数据生成泛化平台,实现快速真实通信与多模态感知数据同步采集,支撑机器联觉研究;基础模型赋能多模态感知增强的高带宽、低时延通信网络优化;机器联觉特征高效编码传输赋能的协同感知。团队搭建了首个无线基座模型赋能的无线传输系统硬件Demo,验证了无线基座模型在实际系统中优越的零样本信道预测和估计性能,在保障传输性能的同时大幅降低导频开销。此外,通过量化等技术加速模型推理,验证了其在端侧设备上实时部署的可行性。

据程翔介绍,目前机器联觉方案已经在自动驾驶乘用车、无人物流车、智能网联车路协同等室外场景,以及在物流/服务机器人教学、仓储/车间机器人应用等场景进行了实践验证,成效显著。

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销