本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘要:提出基于ERNIE序列标注的地址分级模型进行地址提取识别,将地址分级问题转换为一个序列标注的 NLP问题。首先将原始待分级地址文本输入到训练好的ERNIE命名实体识别算法训练模型中,得到11级地址的粗略分级;然后应用AC自动机算法,对地址的前5级地址进行补全或纠正,再通过正则化匹配对地址后4级进行纠正。提出的模型不仅可以提高地址解析的准确率,还可以对错误地址进行纠正,最后将模型用于真实数据集,验证了方法的有效性。
关键词:地址分级;地址提取;序列标注;ERNIE算法
doi:10.12045/j.issn.1007-3043.2023.02.017
前言
随着互联网技术的快速发展,地址分级提取被广泛应用于房地产管理、土地管理、城市规划、公安、邮政、税收、公共卫生、公共交通和物流等行业来确定用户定位,从而进行更加精准的服务,以提升用户的使用体验。未来地址分级还会应用到越来越多的行业中,应用场景十分广阔。
根据地址匹配算法的特征分类,现有的中文地址抽取算法主要有 3 类,分别是以地址要素层级模型为核心的地址匹配算法、以全文检索模型为核心的地址匹配算法和以正则表达式匹配为核心的地址匹配算法。这些方法的地址提取准确率都较低,而且适应性较差。
为了提升地址分级提取的准确率和高效性,本文将地址分级问题转换为一个序列标注的 NLP 问题。首先将数据进行序列标注以便于训练模型;然后将原始待分级地址文本输入到训练好的 ERNIE 命名实体识别算法训练模型中,得到 11 级地址的粗略分级;最后应用 AC 自动机算法,对前 5 级地址进行补全或纠正,通过正则化匹配实现对模型分级结果的后 4 级进行纠正。本文提出的模型不仅能够大大提升地址分级的准确率,还能纠正错误地址,使用户获得更好的体验。