(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375899.X (22)申请日 2022.04.11 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 倪子凡 王健宗 程宁  (74)专利代理 机构 深圳国新 南方知识产权代理 有限公司 4 4374 专利代理师 李小东 (51)Int.Cl. G10L 13/10(2013.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 语音合成方法、 装置、 设备及存 储介质 (57)摘要 本发明涉及人工智能技术领域, 公开了一种 语音合成方法、 装置、 设备及存储介质。 该方法包 括: 获取用于合成目标语音的目标文本; 基于预 设的第一语言预测模型对目标文本进行语义特 征提取, 得到语义特征序列; 基于预设的第二语 言预测模型对目标文本进行韵律特征提取, 得到 韵律特征序列; 对语义特征序列和韵律特征序列 进行合并处理, 得到用于合 成目标语音的韵律情 感信息; 基于目标文本和韵律情感信息合成目标 语音。 通过上述方式, 本发明能够提高拟合程度 和合成语音的自然度, 解决了仅考虑韵律或语 义, 导致拟合程度低, 合成语音不逼真的问题。 权利要求书2页 说明书7页 附图3页 CN 114694633 A 2022.07.01 CN 114694633 A 1.一种语音合成方法, 其特 征在于, 包括: 获取用于合成目标语音的目标文本; 基于预设的第一语言预测模型对所述目标文本进行语义特征提取, 得到语义特征序 列; 基于预设的第二语言预测模型对所述目标文本进行韵律特征提取, 得到韵律特征序 列; 对所述语义特征序列和所述韵律特征序列进行合并处理, 得到用于合成所述目标语音 的韵律情感信息; 基于所述目标文本和所述韵律情感信息合成所述目标语音。 2.根据权利要求1所述的语音合成方法, 其特征在于, 所述基于预设的第 一语言预测模 型对所述目标文本进行语义特 征提取, 得到语义特 征序列包括: 对所述目标文本进行分词处 理, 得到分词序列; 将所述分词序列输入到所述第一语言预测模型中, 对所述分词序列进行向量编码处 理, 得到编码向量序列, 基于自注意力机制对所述编码向量序列进 行语义增强处理, 得到增 强语义向量, 对所述增强语义向量进行降维和拼接处 理, 得到所述语义特 征序列。 3.根据权利要求1所述的语音合成方法, 其特征在于, 所述基于预设的第 二语言预测模 型对所述目标文本进行韵律特 征提取, 得到韵律特 征序列包括: 获取用于训练的样本文本, 提取所述样本文本的韵律数据, 利用所述韵律数据对所述 样本文本进行 标签处理, 获得包 含韵律标签的训练数据; 基于所述训练数据和交叉熵损失函数对预设的第 二语言预测模型进行训练, 利用梯度 下降法迭代优化所述第二语言预测模型, 获得优化后的第二语言预测模型; 将所述目标文本输入优化后的所述第 二语言预测模型中, 输出包含韵律标签的文本序 列, 基于所述韵律标签对所述文本序列进行韵律特 征提取, 得到所述韵律特 征序列。 4.根据权利要求1所述的语音合成方法, 其特征在于, 所述对所述语义特征序列和所述 韵律特征序列进行合并处 理, 得到用于合成所述目标语音的韵律情感信息包括: 基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析, 得到 至少一个主 要特征以及每 个主要特征的特征值以及方差贡献度; 根据所述特 征值和所述方差贡献度筛 选出所有主要特征中的目标 特征; 根据所述目标 特征确定合成所述目标语音的韵律情感信息 。 5.根据权利要求4所述的语音合成方法, 其特征在于, 所述基于相关性分析方法对所述 语义特征序列和所述韵律特征序列进 行相关性分析, 得到至少一个主要 特征以及每个主要 特征的特征值以及方差贡献度之前, 还 包括: 对所述语义特 征序列和所述韵律特 征序列进行相关系数 校验, 得到校验结果; 判断所述校验结果是否通过; 若所述校验结果通过, 则执行基于相关性分析方法对所述语义特征序列和所述韵律特 征序列进 行相关性分析, 得到至少一个主要 特征以及每个主要特征的特征值以及方差 贡献 度。 6.根据权利要求1所述的语音合成方法, 其特征在于, 所述基于所述目标文本和所述韵 律情感信息合成所述目标语音包括:权 利 要 求 书 1/2 页 2 CN 114694633 A 2将所述目标文本进行音节转换处 理, 得到音节序列; 将所述音节序列和所述韵律情感信息输入预设的语音特征预测模型中进行语音特征 分析, 得到语音特 征预测值; 基于声码器根据所述语音特 征值进行语音合成, 得到所述目标语音。 7.根据权利要求6所述的语音合成方法, 其特征在于, 将所述音节序列和所述韵律情感 信息输入预设的语音特 征预测模型中进行语音特 征分析, 得到语音特 征预测值包括: 根据所述音节序列获取音节向量; 根据所述音节向量获取 所述目标文本的韵律隐特 征; 将所述韵律隐特征和所述韵律情 感信息进行融合和特征提取, 对特征提取结果进行特 征增强和扩充处 理, 得到韵律特 征; 对所述韵律特 征进行解码, 得到所述语音特 征预测值。 8.一种语音合成装置, 其特 征在于, 包括: 获取模块, 用于获取用于合成目标语音的目标文本; 语义提取模块, 用于基于预设的第一语言预测模型对所述目标文本进行语义特征提 取, 得到语义特 征序列; 韵律提取模块, 用于基于预设的第二语言预测模型对所述目标文本进行韵律特征提 取, 得到韵律特 征序列; 合并模块, 用于对所述语义特征序列和所述韵律特征序列进行合并处理, 得到用于合 成所述目标语音的韵律情感信息; 合成模块, 用于基于所述目标文本和所述韵律情感信息合成所述目标语音。 9.一种计算机设备, 包括: 存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑7任一项所述 的语音合成方法。 10.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现如权利要求1 ‑7中任一项所述的语音合成方法。权 利 要 求 书 2/2 页 3 CN 114694633 A 3

.PDF文档 专利 语音合成方法、装置、设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音合成方法、装置、设备及存储介质 第 1 页 专利 语音合成方法、装置、设备及存储介质 第 2 页 专利 语音合成方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。