专利语音合成方法、装置、设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210375899.X (22)申请日 2022.04.11 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人倪子凡　王健宗　程宁　 (74)专利代理机构深圳国新南方知识产权代理有限公司 4 4374 专利代理师李小东 (51)Int.Cl. G10L 13/10(2013.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称语音合成方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能技术领域，公开了一种语音合成方法、装置、设备及存储介质。该方法包括：获取用于合成目标语音的目标文本；基于预设的第一语言预测模型对目标文本进行语义特征提取，得到语义特征序列；基于预设的第二语言预测模型对目标文本进行韵律特征提取，得到韵律特征序列；对语义特征序列和韵律特征序列进行合并处理，得到用于合成目标语音的韵律情感信息；基于目标文本和韵律情感信息合成目标语音。通过上述方式，本发明能够提高拟合程度和合成语音的自然度，解决了仅考虑韵律或语义，导致拟合程度低，合成语音不逼真的问题。权利要求书2页说明书7页附图3页 CN 114694633 A 2022.07.01 CN 114694633 A 1.一种语音合成方法，其特征在于，包括：获取用于合成目标语音的目标文本；基于预设的第一语言预测模型对所述目标文本进行语义特征提取，得到语义特征序列；基于预设的第二语言预测模型对所述目标文本进行韵律特征提取，得到韵律特征序列；对所述语义特征序列和所述韵律特征序列进行合并处理，得到用于合成所述目标语音的韵律情感信息；基于所述目标文本和所述韵律情感信息合成所述目标语音。 2.根据权利要求1所述的语音合成方法，其特征在于，所述基于预设的第一语言预测模型对所述目标文本进行语义特征提取，得到语义特征序列包括：对所述目标文本进行分词处理，得到分词序列；将所述分词序列输入到所述第一语言预测模型中，对所述分词序列进行向量编码处理，得到编码向量序列，基于自注意力机制对所述编码向量序列进行语义增强处理，得到增强语义向量，对所述增强语义向量进行降维和拼接处理，得到所述语义特征序列。 3.根据权利要求1所述的语音合成方法，其特征在于，所述基于预设的第二语言预测模型对所述目标文本进行韵律特征提取，得到韵律特征序列包括：获取用于训练的样本文本，提取所述样本文本的韵律数据，利用所述韵律数据对所述样本文本进行标签处理，获得包含韵律标签的训练数据；基于所述训练数据和交叉熵损失函数对预设的第二语言预测模型进行训练，利用梯度下降法迭代优化所述第二语言预测模型，获得优化后的第二语言预测模型；将所述目标文本输入优化后的所述第二语言预测模型中，输出包含韵律标签的文本序列，基于所述韵律标签对所述文本序列进行韵律特征提取，得到所述韵律特征序列。 4.根据权利要求1所述的语音合成方法，其特征在于，所述对所述语义特征序列和所述韵律特征序列进行合并处理，得到用于合成所述目标语音的韵律情感信息包括：基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度；根据所述特征值和所述方差贡献度筛选出所有主要特征中的目标特征；根据所述目标特征确定合成所述目标语音的韵律情感信息。 5.根据权利要求4所述的语音合成方法，其特征在于，所述基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度之前，还包括：对所述语义特征序列和所述韵律特征序列进行相关系数校验，得到校验结果；判断所述校验结果是否通过；若所述校验结果通过，则执行基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度。 6.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述目标文本和所述韵律情感信息合成所述目标语音包括：权　利　要　求　书 1/2 页 2 CN 114694633 A 2将所述目标文本进行音节转换处理，得到音节序列；将所述音节序列和所述韵律情感信息输入预设的语音特征预测模型中进行语音特征分析，得到语音特征预测值；基于声码器根据所述语音特征值进行语音合成，得到所述目标语音。 7.根据权利要求6所述的语音合成方法，其特征在于，将所述音节序列和所述韵律情感信息输入预设的语音特征预测模型中进行语音特征分析，得到语音特征预测值包括：根据所述音节序列获取音节向量；根据所述音节向量获取所述目标文本的韵律隐特征；将所述韵律隐特征和所述韵律情感信息进行融合和特征提取，对特征提取结果进行特征增强和扩充处理，得到韵律特征；对所述韵律特征进行解码，得到所述语音特征预测值。 8.一种语音合成装置，其特征在于，包括：获取模块，用于获取用于合成目标语音的目标文本；语义提取模块，用于基于预设的第一语言预测模型对所述目标文本进行语义特征提取，得到语义特征序列；韵律提取模块，用于基于预设的第二语言预测模型对所述目标文本进行韵律特征提取，得到韵律特征序列；合并模块，用于对所述语义特征序列和所述韵律特征序列进行合并处理，得到用于合成所述目标语音的韵律情感信息；合成模块，用于基于所述目标文本和所述韵律情感信息合成所述目标语音。 9.一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1‑7任一项所述的语音合成方法。 10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的语音合成方法。权　利　要　求　书 2/2 页 3 CN 114694633 A 3

专利 语音合成方法、装置、设备及存储介质

专利语音合成方法、装置、设备及存储介质