用于大规模语料库建设的一种汉语语句切分方法

邮电设计技术吴树兴，张秀琴

本文版权为《邮电设计技术》所有，如需转载请联系《邮电设计技术》编辑部

摘要：

在语音识别和语音合成大规模语料库的构建中，需要把较长内容的语音文件切分成一定字数要求的语音数据文件和对应的文本文件。一种有效的自动切分方法是通过对单字占用时间的预测和元音主体数目的统计来评估切分点的位置,实现对语音数据的自动切分。实验表明，使用该方法进行切分的一次成功率可以达到92.8%，参数适当调整后的二次成功率为96.3%。整个切分过程中，进行人工调整的工作量很小，适合快速构建大规模语料库。

关键词：元音主体；切分；语音合成；能熵比法

doi：10.12045/j.issn.1007-3043.2019.08.015

引言

在语音识别和语音合成技术中，经常需要构建大规模训练语料库。人工进行录制是建设语料库的常用方法，但这种方法建设周期长、投入的人力巨大。近年来，许多学者尝试将语音识别技术引入到语料库建设中来，其建设周期大幅缩短，同时减少了人力，但在语料库数据量非常大时，对错误进行人工调整也是非常耗时的。随着互联网的发展，音频资源越来越丰富，同时获取也更加方便、快捷，例如各种评书故事资源、各种讲故事栏目资料，可以充分利用这些语音资源和文本资料来构建语料库，但需要对这些资源重新进行加工处理。其中，将大段语料分成多个句子在构建语料库中是必不可少的，实现自动、准确的切分，能够减小人工进行校正的工作量，缩短建设周期。

在大规模语料库的构建中，需要把较长内容的语音文件分割成一定字数要求的语音数据文件和对应的文本文件，关键是除了分别将语音文件和对应文本进行正确切分外，还能够将切分的语音文件与文本内容准确无误地相对应。下面将具体描述本文所提出的一种比较有效的汉语语句自动切分方法。

点击查看全文（PDF）>

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好