(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210446890.3 (22)申请日 2022.04.26 (71)申请人 未鲲 (上海) 科技 服务有限公司 地址 200120 上海市浦东 新区自由贸易试 验区陆家嘴环路13 33号15楼 (72)发明人 余刚盛  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. H04N 21/2187(2011.01) H04N 21/482(2011.01) G10L 15/08(2006.01) G10L 19/02(2013.01) G10L 19/16(2013.01)G10L 25/24(2013.01) G10L 13/08(2013.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 16/33(2019.01) (54)发明名称 基于智能机器的网络直播方法、 装置、 设备 及存储介质 (57)摘要 本发明涉及语音语义领域, 揭露一种基于智 能机器的网络直播方法、 装置、 设备以及存储介 质, 包括: 接收直播指令及直播文本, 并基于 所述 直播指令创建直播间, 利用预设的语音合成模型 将所述直播文本转换为直播语音, 并通过智能机 器人在所述直播间输出所述直播语音, 解析所述 直播指令, 得到直播规则, 并根据所述直播规则, 在预设时间之后切换直播运作模式, 进入互动环 节, 在所述互动环节中, 读取所述直播间中的弹 幕信息, 利用预设的语义分析模 型及互动知 识库 对所述弹幕信息进行解析匹配, 生成回答内容, 利用所述语音合成模型将所述回答内容转换为 回复语音, 并通过所述智能机器人在所述直播间 输出所述回复语音。 本发明可以提高网络直播的 效率。 权利要求书2页 说明书12页 附图2页 CN 115002491 A 2022.09.02 CN 115002491 A 1.一种基于智能机器的网络直 播方法, 其特 征在于, 所述方法包括: 接收直播指令及直 播文本, 并基于所述 直播指令创建直 播间; 利用预设的语音合成模型将所述直播文本转换为直播语音, 并通过智能机器人在所述 直播间输出 所述直播语音; 解析所述直播指令, 得到直播规则, 并根据 所述直播规则, 在预设时间之后切换直播运 作模式, 进入互动环 节; 在所述互动环节中, 读取所述直播间中的弹幕信息, 利用预设的语义分析模型及互动 知识库对所述弹幕信息进行解析匹配, 生成回答内容; 利用所述语音合成模型将所述 回答内容转换为 回复语音, 并通过所述智能机器人在所 述直播间输出 所述回复语音。 2.如权利要求1所述的基于智能机器的网络直播方法, 其特征在于, 所述利用预设的语 音合成模型将所述 直播文本转换为 直播语音, 包括: 对所述直播文本进行音素转换, 得到音素序列; 利用所述语音合成模型的编码器、 解码器及残差网络依次对所述音素序列进行频谱处 理, 得到目标梅尔频谱; 利用所述语音合成模型的WaveGlow声码器对所述目标梅尔频谱进行并行音频转换, 得 到直播语音。 3.如权利要求2所述的基于智能机器的网络直播方法, 其特征在于, 所述对所述直播文 本进行音素转换, 得到音素序列, 包括: 对所述直播文本进行语句切分处 理, 得到切分语句文本; 根据预设的文本格式规则, 将所述切分语句文本中的非文字转 化为文字; 对所述切分语句文本进行分词处 理, 得到分词文本; 根据预设的文字音素映射词典, 对所述分词文本进行映射, 得到音素; 对所述音素进行向量 转化, 得到音素向量; 按照文本顺序对所述音素向量进行编码排序, 得到音素序列。 4.如权利要求2所述的基于智能机器的网络直播方法, 其特征在于, 所述利用所述语音 合成模型 的编码器、 解码器及残差网络依 次对所述音素序列进行频谱处理, 得到目标梅尔 频谱, 包括: 利用所述编码器对所述音素序列进行 上下文特征提取, 得到隐藏特 征矩阵; 根据所述 隐藏特征矩阵, 利用所述解码器对所述训练文本的梅尔频谱进行预测, 得到 预测梅尔频谱; 利用所述残差网络对所述预测梅尔频谱进行残差连接, 得到目标梅尔频谱。 5.如权利要求2所述的基于智能机器的网络直播方法, 其特征在于, 所述利用所述语音 合成模型的WaveGl ow声码器对所述目标梅尔频谱进行并行音频转换, 得到直 播语音, 包括: 利用所述WaveGlow声码器对所述目标梅尔频谱进行并行语音波形转换, 得到语音波 形; 对所述语音 波形进行音频转换, 得到直 播语音。 6.如权利要求1所述的基于智能机器的网络直播方法, 其特征在于, 所述基于所述直播 指令创建直 播间, 包括:权 利 要 求 书 1/2 页 2 CN 115002491 A 2解析所述直播指令, 得到直 播间创建方法参数及直 播间场景组件参数; 根据所述直播间场景组件参数, 构建所述直播指令的编程模块, 并获取所述编程模块 下所述直播间创建方法参数对应的函数; 利用所述 函数, 生成所述 直播指令对应的直 播间。 7.如权利要求1所述的基于智能机器的网络直播方法, 其特征在于, 所述利用预设的语 义分析模型及互动知识库对所述弹幕信息进行解析匹配, 生成回答内容, 包括: 利用所述语义分析模型对所述弹幕信息进行关键词提取, 得到弹幕关键词; 判断预构建的互动知识库中是否包 含所述弹幕关键词; 若所述互动知识库中不包含所述弹幕关键词, 则返回所述读取所述直播间中的弹幕信 息步骤, 直至所述互动知识库中包 含所述弹幕关键词; 若所述互动知识库中包含所述弹幕关键词, 则将所述弹幕关键词与 所述互动知识库进 行匹配, 并将匹配结果作为回答内容输出。 8.一种基于智能机器的网络直 播装置, 其特 征在于, 所述装置包括: 直播间创建模块, 用于接收管理人员输入的直播指令及直播文本, 并根据基于所述直 播指令生成创建直 播间; 直播内容输出模块, 用于利用预设的语音合成模型将所述直播文本转换为直播语音, 并通过智能机器人在所述 直播间输出 所述直播语音; 直播互动模块, 用于解析所述直播指令, 得到直播规则, 并根据所述直播规则, 在预设 时间之后切换直播运作模式, 进入互动环节, 在所述互动环节中, 读取所述直播间中的弹幕 信息, 利用预设的语义分析模型及互动知识库对所述弹幕信息进行解析匹配, 生成回答内 容, 利用所述语音合成模型将所述回答内容转换为回复语音, 并通过所述智能机器人在所 述直播间输出 所述回复语音。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序指令, 所述计算机程序 指令被所述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求1至7中任 一项所述的基于智能机器的网络直 播方法。 10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任一项所述的基于智能机器的网络直 播方法。权 利 要 求 书 2/2 页 3 CN 115002491 A 3

.PDF文档 专利 基于智能机器的网络直播方法、装置、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于智能机器的网络直播方法、装置、设备及存储介质 第 1 页 专利 基于智能机器的网络直播方法、装置、设备及存储介质 第 2 页 专利 基于智能机器的网络直播方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。