本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘要:由于新冠病毒存在14天以上的潜伏期且在潜伏期具有传染性,密切接触者的排查至关重要,而运营商大数据以其独特的优势在寻找隐性接触中发挥着重要作用。在传统k-means聚类算法的基础上,优化损失函数并提出基于多目标函数的簇头选择算法,形成多目标轨迹聚类优化算法。在此基础上,构建基于运营商大数据的新冠肺炎疫情防控的密切接触者排查方法体系,将该算法用于隐性密切接触者的排查。
关键词:多目标优化;鸟群觅食算法;数据挖掘;k-means;轨迹聚类
doi:10.12045/j.issn.1007-3043.2021.11.005
概述
2019年末,首例新型冠状病毒肺炎在湖北省武汉市出现,并随着2020年春运期间的大规模人群迁徙迅速传播。经过艰苦卓绝的努力,我国疫情防控阻击战取得重大战略成果,目前已进入常态化的防疫阶段。
针对抗疫阻击战,总书记多次作出重要批示指示,强调要运用大数据等手段,加强疫情溯源和监测。2020年,工业和信息化部多次召开疫情防控大数据专家会商会,传达国务院应对新型冠状病毒感染的肺炎疫情联防联控机制会议精神,研究部署大数据支撑服务疫情防控相关工作。
在疫情防控中,与感染者直接居住生活在一起、共同乘坐交通工具、乘电梯以及通过其他方式直接接触的人员被称为密切接触者。与显性密切接触者(共同居住生活或工作的人)相比,隐性密切接触者(无法通过现有实名制数据直接追溯到的接触者)难以追溯和排查却依然存在感染风险。例如2020年1月19日,重庆市一名公交车乘客因为与一名患者相隔16秒登上同辆公交车,而被确诊为新冠肺炎患者;2020年1月22日,湖南某城市一个感染者乘坐公交车同时传染了13个人。
随着疫情防控工作逐渐常态化,对隐性密切接触者排查的精准化需求逐渐提升。运用传统的排查方法难以定位隐性接触者,而运营商大数据以其独特的优势在寻找隐性接触者时可发挥重要作用。运营商是天然的大数据集中地,拥有百万级的基站资源、亿级出账用户数、PB级日均数据生成及采集量,运营商大数据具备用户规模巨大、覆盖空间广、时间连续性强的优势,可以全面立体地刻画用户特征,为找到隐性接触者提供一定支撑。寻找乘坐共同的公共交通工具的隐性接触者,可以抽象为轨迹聚类问题,现有轨迹聚类算法的核心思想是采用欧式距离作为损失函数,基于k-means或基于密度的聚类算法进行轨迹聚类,而没有充分地考虑各类噪声数据对聚类结果的影响。另一方面,现有聚类方法多侧重于数据清洗后的聚类算法实施过程,而没有针对运营商OSS域大数据从预处理到模型训练的完整过程。