近日,在计算机视觉领域顶级会议CVPR2025举办的国际挑战赛中,中兴通讯自研星云视觉大模型(Nebula-CV2.0)凭借出色的多模态感知能力和模型性能,从全球数十个参赛队伍中脱颖而出,一举夺得三项冠军:
· 跨域少样本目标检测挑战赛(NTIRE 2025 CD-FSOD Challenge)冠军
· 基础少样本目标检测挑战赛 (2025 Foundational FSOD Challenge)冠军
· 目标实例检测挑战赛(2025 Object Instance Detection Challenge)冠军
这三项挑战赛聚焦于模型在复杂场景下的开集目标检测能力,考察模型在开集(测试时会出现训练集中不存在的目标类别)、少样本、少标注条件下对目标识别性能极限,对模型泛化能力有极高的要求。挑战赛场景数据源于真实工业环境,模型需要根据用户描述或者视觉提示对特定目标进行精准识别,对模型的工业化应用具有关键意义。
星云视觉大模型
星云视觉系列大模型是中兴通讯自研的多模态视觉大模型。其中,开集目标检测与识别大模型Nebula-CV2.0的参数量仅为行业同类模型的60%,在BenchMark公开评测集MS COCO 2017上的性能却全面超越所有开源同级模型,这得益于多项核心技术创新:
· 模态编码器参数平衡策略:解决了多模态学习中常见的参数分布失衡和冗余问题,使得模型训练更高效,在更小参数量下实现了更卓越的性能。
· Visual Prompt区域图文对齐:通过引入视觉提示,使得图像和文本信息能够更精准地对应,显著提升了模型的目标定位性能。
· 中文Prompt模块:业内率先实现中文开集目标检测功能,支持中英文混合提示的开集目标定位,大大拓宽了模型的应用范围。
· 开集目标检测数据集质量评估和数据重标方法:独创的数据处理方法极大提升了开集目标检测数据集的质量,显著增强了模型性能和训练稳定性。
视觉(CV)多任务统一大模型NebulaCV-X整合了视觉应用场景中常见的开集目标检测、实例分割、人体关键点检测、目标Caption生成、OCR、Visual Prompt、自定义Prompt等多种功能,在满足高性能要求的同时,极大地简化了CV领域多任务需求场景下的模型部署,为客户提供了更加高效、便捷的解决方案。
目前,星云视觉系列大模型已经在交通、运输、安防等领域多个重要场景成功应用,为客户提供综合性的多模态视觉解决方案。