专利一种信息预测模块的构建方法、信息预测方法及相关设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111679120.5 (22)申请日 2021.12.31 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新区望江西路666号 (72)发明人高丽　王瑾薇　胡亚军　江源　祖漪清　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人张丽娜 (51)Int.Cl. G10L 13/02(2013.01) G10L 13/08(2013.01) G10L 13/10(2013.01) G06F 16/35(2019.01)G06F 40/242(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种信息预测模块的构建方法、信息预测方法及相关设备 (57)摘要本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备，构建方法包括：以能获得文本单元在不同语境下的语义信息为目标，构建文本处理模块；基于文本处理模块和预设的多种语音合成前端信息预测任务构建多任务处理模块；对多任务处理模块进行处理，以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力，处理后的模块作为构建的信息预测模块。经由本申请提供的构建方法可构建出同时对多种语音合成前端信息进行预测的模块。在构建方法的基础上，本申请还提供了可同时预测多种语音合成前端信息的信息预测方法，在此基础上，本申请还提供了可同时预测出较为准确的韵律词边界和调核位置的信息预测方法。权利要求书4页说明书28页附图7页 CN 114333760 A 2022.04.12 CN 114333760 A 1.一种信息预测模块的构建方法，其特征在于，包括：以能够获得文本单元在不同语境下的语义信息为目标，构建文本处理模块；基于所述文本处理模块和预设的多种语音合成前端信息的预测任务，构建多任务处理模块；对所述多任务处理模块进行处理，以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力，处理后的多任务处理模块作为构建的信息预测模块。 2.根据权利要求1所述的信息预测模块的构建方法，其特征在于，所述以能够获得文本单元在不同语境下的语义信息为目标，构建文本处理模块，包括：以学习文本单元在不同语境下的语义信息为目标，对初始的语言模型进行预训练，得到预训练语言模型，作为构建的文本处理模块。 3.根据权利要求2所述的信息预测模块的构建方法，其特征在于，所述多种语音合成前端信息包括多音字信息；所述以学习文本单元在不同语境下的语义信息为目标，对初始的语言模型进行预训练，得到预训练语言模型，包括：以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标，对初始的语言模型进行预训练，得到预训练语言模型。 4.根据权利要求3所述的信息预测模块的构建方法，其特征在于，所述以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标，对初始的语言模型进行预训练，得到预训练语言模型，包括：以预测训练语料中隐藏的文本单元为任务，对初始的语言模型进行训练，得到一次训练后的语言模型；结合训练语料的分词及词性信息，以预测训练语料中隐藏的文本单元为任务，对一次训练后的语言模型进行训练，得到二次训练后的语言模型；结合多音字训练语料的分词及词性信息，以偏向预测多音字训练语料中隐藏的多音字文本单元为任务，对二次训练后的语言模型进行训练，得三次训练后的语言模型，作为预训练语言模型。 5.根据权利要求4所述的信息预测模块的构建方法，其特征在于，所述多音字训练语料为预先构建的多音字训练语料集中的训练语料，所述多音字训练语料集的构建过程包括：从训练语料库中筛选包含多音字的训练语料作为候选多音字训练语料，以得到若干候选多音字训练语料；根据每个候选多音字训练语料包含的各多音字分别对应的权重，确定每个候选多音字训练语料对应的多音字权重，其中，一多音字对应的权重根据该多音字的易错率设定；根据所述若干候选多音字训练语料分别对应的多音字权重，从所述若干候选多音字训练语料中筛选多音字训练语料，由筛选出的多音字训练语料构建多音字训练语料集。 6.根据权利要求2所述的信息预测模块的构建方法，其特征在于，所述基于所述文本处理模块和预设的多种语音合成前端信息的预测任务，构建多任务处理模块，包括：基于所述预训练语言模型构建用于处理预设的多种语音合成前端信息的预测任务的多任务联合模型，作为多任务处理模块；其中，所述多任务联合模型包括编码模块和共享所述编码模块的多个任务处理模块，权　利　要　求　书 1/4 页 2 CN 114333760 A 2所述编码模块采用所述预训练语言模型，每个任务处理模块用于预测一种语音合成前端信息；所述对所述多任务处理模块进行处理，包括：对所述多任务联合模型进行训练，训练后的多任务联合模型作为构建的信息预测模块。 7.根据权利要求6所述的信息预测模块的构建方法，其特征在于，所述多个任务处理模块包括：多音字预测模块、韵律预测模块和符号读法预测模块；所述对所述多任务联合模型进行训练，包括：对所述多音字预测模块和所述韵律预测模块进行交替训练，以得到训练后的多音字预测模块和训练后的韵律预测模块；固定所述编码模块、所述训练后的多音字预测模块以及所述训练后的韵律预测模块，对所述符号读法预测模块进行训练。 8.根据权利要求7所述的信息预测模块的构建方法，其特征在于，对所述多音字预测模块进行训练，包括：利用所述编码模块对训练语料进行编码，并将训练语料的分词和词性信息融入编码结果中，得到训练语料对应的融合有分词和词性信息的编码结果；利用所述多音字预测模块，以训练语料对应的融合有分词和词性信息的编码结果为依据，预测训练语料中多音字的读音为对应的候选读音集中各候选读音的概率，作为多音字预测结果，其中，所述候选读音集中包括对应多音字的所有读音；根据所述多音字预测结果和训练语料中多音字标注的读音，对所述多音字预测模块进行参数更新。 9.根据权利要求7所述的信息预测模块的构建方法，其特征在于，对所述韵律预测模块进行训练，包括：利用所述编码模块对训练语料进行编码，并将训练语料的分词和词性信息融入编码结果中，得到训练语料对应的融合有分词和词性信息的编码结果；利用所述韵律预测模块，以训练语料对应的融合有分词和词性信息的编码结果为依据，预测训练语料中各候选短停顿位置为短停顿位置的概率以及训练语料中各候选长停顿位置为长停顿位置的概率，作为韵律预测结果；根据所述韵律预测结果以及训练语料标注的短停顿位置和长停顿位置对所述韵律预测模块进行参数更新。 10.根据权利要求7所述的信息预测模块的构建方法，其特征在于，对所述符号读法预测模块进行训练，包括：利用所述编码模块对训练语料进行编码，并将训练语料的分词和词性信息融入编码结果中，得到训练语料对应的融合有分词和词性信息的编码结果；利用所述符号读法预测模块，以训练语料对应的融合有分词和词性信息的编码结果为依据，预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率，作为符号读法预测结果，其中，所述候选读法集包括对应符号的所有读法；根据所述符号读法预测结果和训练语料中符号标注的读法，对所述符号读法预测模块进行参数更新。权　利　要　求　书 2/4 页 3 CN 114333760 A 3

专利 一种信息预测模块的构建方法、信息预测方法及相关设备

专利一种信息预测模块的构建方法、信息预测方法及相关设备