(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210870161.0 (22)申请日 2022.07.22 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 刘安平 张佳颖  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 王首峰 任默闻 (51)Int.Cl. G10L 13/08(2013.01) G10L 15/25(2013.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/40(2022.01)G06V 20/62(2022.01) G06V 30/19(2022.01) G06V 40/20(2022.01) (54)发明名称 一种语音合成信息生成方法及装置 (57)摘要 本发明提供一种语音合成信息生成方法及 装置, 涉及语音数据处理技术领域, 可用于金融 领域或其他技术领域。 所述方法包括: 获取目标 视频, 并根据所述目标视频提取人体 关节点特征 和唇语特征; 所述目标视频包含有语 言障碍客户 的实时影像; 融合所述人体关节 点特征和所述唇 语特征, 得到融合特征, 并对所述融合特征进行 文本识别, 得到文本词汇信息; 对所述文本词汇 信息进行语音合成, 得到语音合成信息。 所述装 置执行上述方法。 本发明实施例提供的语音合成 信息生成方法及装置, 能够准确和高效地识别语 言障碍客户想要表达的语音信息, 提高业务办理 效率。 权利要求书2页 说明书9页 附图2页 CN 115240637 A 2022.10.25 CN 115240637 A 1.一种语音合成信息生成方法, 其特 征在于, 包括: 获取目标视频, 并根据所述目标视频提取人体关节点特征和唇语特征; 所述目标视频 包含有语言障碍客户的实时影 像; 融合所述人体关节点特征和所述唇语特征, 得到融合特征, 并对所述融合特征进行文 本识别, 得到文本词汇信息; 对所述文本词汇信息进行语音合成, 得到语音合成信息 。 2.根据权利要求1所述的语音合成信 息生成方法, 其特征在于, 所述人体关节点特征包 括手指关节特 征; 相应的, 所述语音合成信息生成方法还 包括: 若基于所述手指关节特 征识别到手指 指向的目标物, 则提取目标物特 征; 融合所述人体关节点特 征、 所述唇语特 征和所述目标物特 征, 得到所述融合特 征。 3.根据权利要求1或2所述的语音合成信息生成方法, 其特征在于, 所述对所述融合特 征进行文本识别, 得到文本词汇信息, 包括: 基于预设特 征识别模型对所述融合特 征进行文本识别, 得到文本词汇信息; 其中, 所述预设特 征识别模型根据特 征识别样本数据训练神经网络得到 。 4.根据权利要求3所述的语音合成信 息生成方法, 其特征在于, 在所述基于预设特征识 别模型对所述融合特 征进行文本识别的步骤之前, 所述语音合成信息生成方法还 包括: 对所述目标视频进行断句检测, 得到断句节点, 以所述断句节点分割所述目标视频, 得 到各目标视频片段; 基于所述预设特 征识别模型对各目标视频片段中的融合特 征分别进行文本识别。 5.根据权利要求1所述的语音合成信 息生成方法, 其特征在于, 所述语音合成信 息生成 方法还包括: 融合所述文本词汇信息和所述目标视频, 得到综合融合信息; 对所述综合融合信息进行语音合成, 得到语音合成信息 。 6.根据权利要求5所述的语音合成信 息生成方法, 其特征在于, 所述对所述综合融合信 息进行语音合成, 得到语音合成信息, 包括: 基于预设语音合成模型对所述综合融合信息进行语音合成, 得到语音合成信息; 其中, 所述预设语音合成模型为可分别对视频内容和语言内容进行语音合成的多模态 模型。 7.根据权利要求1所述的语音合成信 息生成方法, 其特征在于, 在所述得到语音合成信 息的步骤之后, 所述语音合成信息生成方法还 包括: 通过扬声器输出 所述语音合成信息 。 8.一种语音合成信息生成装置, 其特 征在于, 包括: 获取单元, 用于获取目标视频, 并根据 所述目标视频提取人体关节点特征和唇语特征; 所述目标视频包 含有语言障碍客户的实时影 像; 融合单元, 用于 融合所述人体关节点特征和所述唇语特征, 得到 融合特征, 并对所述融 合特征进行文本识别, 得到文本词汇信息; 合成单元, 用于对所述文本词汇信息进行语音合成, 得到语音合成信息 。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述权 利 要 求 书 1/2 页 2 CN 115240637 A 2方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115240637 A 3

.PDF文档 专利 一种语音合成信息生成方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语音合成信息生成方法及装置 第 1 页 专利 一种语音合成信息生成方法及装置 第 2 页 专利 一种语音合成信息生成方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:28:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。