本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘 要:
在语音识别和语音合成大规模语料库的构建中,需要把较长内容的语音文件切分成一定字数要求的语音数据文件和对应的文本文件。一种有效的自动切分方法是通过对单字占用时间的预测和元音主体数目的统计来评估切分点的位置,实现对语音数据的自动切分。实验表明,使用该方法进行切分的一次成功率可以达到92.8%,参数适当调整后的二次成功率为96.3%。整个切分过程中,进行人工调整的工作量很小,适合快速构建大规模语料库。
关键词:元音主体;切分;语音合成;能熵比法
doi:10.12045/j.issn.1007-3043.2019.08.015
引言
在语音识别和语音合成技术中,经常需要构建大规模训练语料库。人工进行录制是建设语料库的常用方法,但这种方法建设周期长、投入的人力巨大。近年来,许多学者尝试将语音识别技术引入到语料库建设中来,其建设周期大幅缩短,同时减少了人力,但在语料库数据量非常大时,对错误进行人工调整也是非常耗时的。随着互联网的发展,音频资源越来越丰富,同时获取也更加方便、快捷,例如各种评书故事资源、各种讲故事栏目资料,可以充分利用这些语音资源和文本资料来构建语料库,但需要对这些资源重新进行加工处理。其中,将大段语料分成多个句子在构建语料库中是必不可少的,实现自动、准确的切分,能够减小人工进行校正的工作量,缩短建设周期。
在大规模语料库的构建中,需要把较长内容的语音文件分割成一定字数要求的语音数据文件和对应的文本文件,关键是除了分别将语音文件和对应文本进行正确切分外,还能够将切分的语音文件与文本内容准确无误地相对应。下面将具体描述本文所提出的一种比较有效的汉语语句自动切分方法。









































