近日,在欧洲计算机视觉国际会议(European Conference on Computer Vision, ECCV)2022自动驾驶多目标跟踪挑战赛上,凭借业界领先的技术实力,联想集团研究院自动驾驶算法团队一举包揽了该领域全部四个竞赛的冠军。
这四个竞赛包括BDD100K多目标跟踪任务 (MOT, Multiple Object Tracking),多目标跟踪和分割任务(MOTS,Multiple Object Tracking and Segmentation),基于自监督学习的多目标跟踪任务(SSMOT,Self-supervised MOT),以及基于自监督学习的多目标跟踪和分割任务(SSMOTS,Self-supervised MOTS)。
欧洲计算机视觉国际会议(ECCV)与国际计算机视觉大会(ICCV)、计算机视觉和模式识别国际会议(CVPR)一起构成了国际计算机视觉的三大顶会。6月,在CVPR2022会议上举办的BDD100K多目标跟踪挑战赛上,联想研究院一举击败20多个国内外顶尖团队,夺得MOT冠军。至此,联想研究院已拿下该领域今年6项冠军中的5项。
BDD100K是业界知名自动驾驶数据集,其中MOT和MOTS数据集涵盖了各种驾驶场景。在复杂的路况模式下提供了高质量的实例分割(显示出每个物体的轮廓线),为真实场景中的跟踪和分割算法提供了可靠的训练数据,其难点在于视频帧率低,物体运动快、位移非常大。
针对这一特点,在今年ECCV自动驾驶论坛举办的BDD100K多目标跟踪挑战赛中,联想研究院的创新方案,ReIDTrack以多级检测网络CBNetV2作为检测基准方法,结合ByteTrack跟踪方法对检测结果进行时域关联。同时,ReIDTrack仅使用外观特征来关联对象,简单有效,可以在低帧速率下取得良好效果。
BDD100K MOT/MOTS数据集示例
此次挑战赛,除了常规MOT与MOTS竞赛,还增加了基于自监督学习的多目标跟踪比赛。该竞赛不提供跟踪标签,因此外观模型不能再使用传统的有监督学习方法进行训练。联想研究院自动驾驶算法团队通过对比学习的方法,在不使用跟踪标签情况下,训练了新的外观特征模型,不但满足了自监督学习的需求,而且提高了多目标跟踪的成绩。同时,引入在时间维度上的检测置信度权重来进行外观特征更新,增强了跟踪轨迹的抗干扰能力。
此外,联想研究团队为ReIDTrack框架添加了分割网络,使其支持多目标跟踪和分割任务(MOTS)。该方法采用两阶段训练的策略,首先使用大量的检测框标签数据进行MOT训练,然后将训练好的网络针对少量的分割标注数据进行微调,微调后的网络能更好地处理MOTS任务。
多目标跟踪技术的应用
多目标跟踪是计算机视觉领域的关键技术之一,在自动驾驶、智能监控、行为识别等领域应用非常广泛。在事先不了解目标数量的情况下,通过该技术,能够对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪。不同的目标拥有不同的ID,从而实现后续的轨迹预测、精准查找等工作。
在车计算领域,高效的多目标跟踪是实现高阶自动驾驶的关键技术之一。有了它,自动驾驶的车辆能够对路面的其他车辆和行人进行检测跟踪,基于它们的运动轨迹对接下来的车辆驾驶和行人行为进行预测,并据此规划自己的行驶轨迹,从而实现安全驾驶,减少碰撞事故的发生。
自动驾驶场景下的多目标跟踪技术是联想研究院技术研发的重点领域之一。多目标跟踪与分割任务是自动驾驶视觉感知的一项重要算法,具有广泛的应用价值。为了促进未来自动驾驶系统的发展,多目标跟踪与分割所需的视觉识别模型应该具备自我探索、自我训练和自我适应的能力,能够应对各种新出现的地理环境、街道、城市、天气状况、物体标签、视角或异常场景。为此,联想研究院自动驾驶算法团队在自监督学习、大规模预训练、弱监督学习和增量/持续学习方面做出了许多努力,以持续改善视觉感知系统,使其脱离传统的监督学习的路径,助力打造更好的自动驾驶解决方案。
此前,联想集团已经宣布进军车计算领域,致力于通过智能座舱、自动驾驶算法等技术,助力汽车行业的智能化发展。此次包揽ECCV自动驾驶多目标跟踪挑战赛四项冠军,有力地展示了联想在车计算领域的技术实力。