C114通信网  |  通信人家园

专题
2023/3/16 14:50

基于ERNIE序列标注的地址分级模型应用

邮电设计技术  刘贤松,屠梓浩,高有利

本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部

摘要:提出基于ERNIE序列标注的地址分级模型进行地址提取识别,将地址分级问题转换为一个序列标注的 NLP问题。首先将原始待分级地址文本输入到训练好的ERNIE命名实体识别算法训练模型中,得到11级地址的粗略分级;然后应用AC自动机算法,对地址的前5级地址进行补全或纠正,再通过正则化匹配对地址后4级进行纠正。提出的模型不仅可以提高地址解析的准确率,还可以对错误地址进行纠正,最后将模型用于真实数据集,验证了方法的有效性。

关键词:地址分级;地址提取;序列标注;ERNIE算法

doi:10.12045/j.issn.1007-3043.2023.02.017

前言

随着互联网技术的快速发展,地址分级提取被广泛应用于房地产管理、土地管理、城市规划、公安、邮政、税收、公共卫生、公共交通和物流等行业来确定用户定位,从而进行更加精准的服务,以提升用户的使用体验。未来地址分级还会应用到越来越多的行业中,应用场景十分广阔。

根据地址匹配算法的特征分类,现有的中文地址抽取算法主要有 3 类,分别是以地址要素层级模型为核心的地址匹配算法、以全文检索模型为核心的地址匹配算法和以正则表达式匹配为核心的地址匹配算法。这些方法的地址提取准确率都较低,而且适应性较差。

为了提升地址分级提取的准确率和高效性,本文将地址分级问题转换为一个序列标注的 NLP 问题。首先将数据进行序列标注以便于训练模型;然后将原始待分级地址文本输入到训练好的 ERNIE 命名实体识别算法训练模型中,得到 11 级地址的粗略分级;最后应用 AC 自动机算法,对前 5 级地址进行补全或纠正,通过正则化匹配实现对模型分级结果的后 4 级进行纠正。本文提出的模型不仅能够大大提升地址分级的准确率,还能纠正错误地址,使用户获得更好的体验。

点击查看全文(PDF)>

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141