(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210285222.7
(22)申请日 2022.03.23
(65)同一申请的已公布的文献号
申请公布号 CN 114373444 A
(43)申请公布日 2022.04.19
(73)专利权人 广东电网有限责任公司佛山供电
局
地址 528000 广东省佛山市禅城区汾江南
路1号
(72)发明人 余勇 钟少恒 陈志刚 王翊
曹小冬 吴启明 蔡勇超 林承勋
吕华良 丁铖 林家树 郭泽豪
符春造 方美明 陈瑾 李鸿盛 (74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 黄忠
(51)Int.Cl.
G10L 13/033(2013.01)
G10L 13/08(2013.01)
G06F 40/137(2020.01)
G06F 40/30(2020.01)
(56)对比文件
WO 20210 60591 A1,2021.04.01
CN 110211563 A,2019.09.0 6
CN 111681641 A,2020.09.18
CN 111243571 A,2020.0 6.05
CN 111292715 A,2020.0 6.16
审查员 易晓莉
(54)发明名称
一种基于蒙太 奇的语音合 成方法、 系统及设
备
(57)摘要
本申请公开了一种基于蒙太奇的语音合成
方法、 系统及设备, 其中方法包括: 对待处理文本
已有的自然段落进行段落分段预处理后, 基于场
景类型、 情感层次类型将待处理文本分为若干个
实际段落; 计算若干个实际段落中相邻段落的场
景和情感层次的相关性; 设定待处理文本的语调
参数后, 根据相关性计算待处理文本的语调变化
比例和语调变化方向; 根据语调变化比例和语调
变化方向对待处理文本进行段落语音合成。 解决
了现有技术语音合成听起来十分生硬的技术问
题。
权利要求书2页 说明书5页 附图1页
CN 114373444 B
2022.05.27
CN 114373444 B
1.一种基于蒙太奇的语音合成方法, 其特 征在于, 包括:
对待处理文本已有的自然段落进行段落分段预处理后, 基于场景类型、 情感层次类型
将待处理文本分为若干个实际段落;
计算若干个所述实际段落中相邻段落的场景和情感层次的相关性;
设定待处理文本的语调参数后, 根据 所述相关性计算待处理文本的语调变化比例和语
调变化方向;
根据所述语调变化比例和所述语调变化方向对待处 理文本进行 段落语音合成。
2.根据权利要求1所述的基于蒙太奇的语音合成方法, 其特征在于, 所述对待处理文本
已有的自然段落进行段落分段预处理, 具体包括: 通过换行键对待处理文本已有的自然段
落进行段落划分处 理。
3.根据权利要求1所述的基于蒙太奇的语音合成方法, 其特征在于, 所述基于场景类
型、 情感层次类型将待处 理文本分为若干个实际段落, 具体包括:
将场景类型相同且情感层次类型相同的不同段落合并为同一段落, 将同一段落中场景
类型不同且情感层次类型不同的子段落相应划分为若干个段落。
4.根据权利要求1所述的基于蒙太奇的语音合成方法, 其特征在于, 所述计算若干个所
述实际段落中相邻段落的场景和情感层次的相关性, 具体包括:
通过人工对待处理文本进行场景和情感层次标注后进行相关性训练得到相关性计算
模型, 基于所述相关性计算模型计算若干个所述 实际段落中相邻段落的场景和情感层次的
相关性。
5.根据权利要求1所述的基于蒙太奇的语音合成方法, 其特征在于, 所述设定待处理文
本的语调参数后, 根据所述相关性计算待处理文本的语调变化比例和语调变化方向, 具体
包括:
设定待处理文本的总调值变化的比例范围、 基准语调和起调的上下限, 计算相邻段落
的语调变化比例, 以及计算所述总调值变化与所述相关性的比例和相 邻段落的语调的升降
并作为语调变化方向, 从而得到待处 理文本的语调变化比例和语调变化方向。
6.一种基于蒙太奇的语音合成系统, 其特 征在于, 包括:
划分单元, 用于对待处理文本已有的自然段落进行段落分段预处理后, 基于场景类型、
情感层次类型将待处 理文本分为若干个实际段落;
第一计算单元, 用于计算若干个所述实际段落中相邻段落的场景和情感层次的相关
性;
第二计算单元, 用于设定待处理文本的语调参数后, 根据所述相关性计算待处理文本
的语调变化比例和语调变化方向;
合成单元, 用于根据 所述语调变化比例和所述语调变化方向对待处理文本进行段落语
音合成。
7.根据权利要求6所述的基于蒙太奇的语音合成系统, 其特征在于, 所述划分单元, 具
体用于:
通过换行键对待处 理文本已有的自然段落进行 段落划分处 理;
将场景类型相同且情感层次类型相同的不同段落合并为同一段落, 将同一段落中场景
类型不同且情感层次类型不同的子段落相应划分为若干个段落。权 利 要 求 书 1/2 页
2
CN 114373444 B
28.根据权利要求6所述的基于蒙太奇的语音合成系统, 其特征在于, 所述第一计算单
元, 具体用于:
通过人工对待处理文本进行场景和情感层次标注后进行相关性训练得到相关性计算
模型, 基于所述相关性计算模型计算若干个所述 实际段落中相邻段落的场景和情感层次的
相关性。
9.根据权利要求6所述的基于蒙太奇的语音合成系统, 其特征在于, 所述第二计算单
元, 具体用于:
设定待处理文本的总调值变化的比例范围、 基准语调和起调的上下限, 计算相邻段落
的语调变化比例, 以及计算所述总调值变化与所述相关性的比例和相 邻段落的语调的升降
并作为语调变化方向, 从而得到待处 理文本的语调变化比例和语调变化方向。
10.一种基于蒙太奇的语音合成设备, 其特 征在于, 所述设备包括处 理器以及存 储器:
所述存储器用于存 储程序代码, 并将所述 程序代码传输给 所述处理器;
所述处理器用于根据 所述程序代码中的指令执行权利要求1 ‑5任一项所述的基于蒙太
奇的语音合成方法。权 利 要 求 书 2/2 页
3
CN 114373444 B
3
专利 一种基于蒙太奇的语音合成方法、系统及设备
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:50上传分享