本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘 要:为优化AI问答效果,提出基于大语言模型命名实体识别的优化方法。首先,通过在多种分割方式中选取最优方案,结合词语划分概率判断结果,对语料库文本进行分词。其次,在预训练的BERT模型顶部添加线性层,并通过标注数据对预测实体类别进行微调,将预测的同类标签词组合得到命名实体。最后,通过上下文构建整合用户输入与识别结果,将整合结果输入模型生成回答,并结合用户反馈优化输出。结果表明,所提方法生成结果与参考文本之间的语义相似度较高,具备较为理想的问答效果。
关键词:大语言模型;BERT;命名实体识别;智能问答;分词
doi:10.12045/j.issn.1007-3043.2025.03.015
引言
命名实体识别技术通过从文本中抽取出具有实际含义的语义实体,从而有效理解文本的实际含义。这一技术不仅能够有效处理复杂多变的语言文本问题,还可以有效捕获文本之间的依赖关系。然而,随着文本分析技术应用场景的不断衍生,传统的命名实体识别方法已难以满足其高精度、高效率的需求,基于大语言模型的命名实体识别技术应运而生,成为当前研究的热点。在命名实体识别任务中,基于大语言模型的方法能够有效捕捉文本数据之间的特征表示,可通过微调的方式在特定数据集上实现高精度识别,有效解决了传统方法依赖人工特征和规则匹配带来的局限性。
目前,智能问答与优化技术已取得了一系列重要成果。例如,文献[2]探讨了使用检索增强生成技术、大模型微调与闭环知识图谱体系来提升政企营销知识智能问答的精度,可提高至92.36%,并通过vLLM加速、数据安全、模块化架构等技术优化系统性能与安全性,促进大模型在企业中的实际应用。但是该系统高度依赖高质量的训练数据和知识图谱的构建,需要定期更新这些数据以保持系统的准确性和时效性。文献[3]设计了一种基于深度学习语义匹配(利用Bert模型和Faiss向量搜索)的FAQ问答系统,旨在快速搭建特定领域的问答系统,减少人工依赖,实现高效语义匹配和秒级查询响应。系统需要能够处理大规模并发查询,这对系统的扩展性和性能提出了更高的要求。文献[4]构建了中医药循证指南知识图谱,并探索了以其为知识库搭建智能问答系统,旨在增强临床决策支持,同时提供中医药领域智能化信息服务的新思路和方法。但是,构建高质量的中医药循证指南知识图谱需要专家知识和大量数据,且过程复杂。此外,随着新研究成果的出现,知识图谱需要不断更新。文献[5]提出COBERT系统,利用检索器与阅读器双算法,通过搜索冠状病毒开放研究数据集挑战赛(CORD-19)的文献,回答复杂查询,以提供COVID-19最新研究成果的精确信息,辅助决策制定。用户可能提出复杂或模糊的查询,这要求系统能够准确理解用户意图并返回相关信息。然而,这在实际应用中可能是一个挑战。
本文选择BERT作为命名实体识别的基础模型,通过对其进行微调处理,并基于识别出的命名实体,生成准确、相关的回答。