(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210356213.2 (22)申请日 2022.04.06 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 李正扬 王健宗 黄章成  (74)专利代理 机构 深圳众鼎专利商标代理事务 所(普通合伙) 44325 专利代理师 谭果林 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G10L 15/26(2006.01) (54)发明名称 基于通话录音的风险识别方法、 装置、 计算 机设备及 介质 (57)摘要 本发明适用于风险识别领域, 尤其涉及一种 基于通话录音的风险识别方法、 装置、 计算机设 备及介质。 该方法通过确定历史文本中各风险文 本和各非风险文本中的敏感词, 获得历史文本中 的敏感词以及标准敏感词集, 以及目标文本中的 若干个敏感词, 并在标准敏感词集中确定出与目 标文本中的各敏感词唯一匹配的标准敏感词, 得 到目标文本的标准敏感词组和各风险文本的标 准敏感词组, 最后根据目标文本的标准敏感词组 和各风险文本的标准敏 感词组之间的相似度, 确 定目标音频的风险程度。 通过从目标文本中准确 提取到标准敏感词组, 与已经判定为风险文本的 标准敏感词组进行比对, 能够准确识别出目标客 户的风险程度, 从而提高对客户进行风险识别的 准确率。 权利要求书2页 说明书11页 附图3页 CN 114722199 A 2022.07.08 CN 114722199 A 1.一种基于通 话录音的风险识别方法, 其特 征在于, 所述识别方法包括: 获取业务员与各个客户之间通话录音的N个历史音频, 获取业务员与当前客户之间通 话录音的目标音频, 将N个所述历史音频转换为N个历史文本, 将所述 目标音频转换为目标 文本, 所述历史文本分为 风险文本和非风险文本; 确定历史文本中的敏感词, 包括标准敏感词集中的敏感词, 和各非风险文本中的敏感 词; 所述标准敏感词集包括各风险文本中的各 敏感词; 根据所述历史文本中的敏感词确定目标文本中的若干个敏感词; 在所述标准敏感词集中, 确定出与目标文本中的各敏感词唯一匹配的标准敏感词, 根 据目标文本的标准敏感词的组合, 确定目标文本的标准敏感词组; 根据所述各风险文本中的各 敏感词的组合, 确定各风险文本的标准敏感词组; 根据所述目标文本的标准敏感词组和所述各风险文本的标准敏感词组之间的相似度, 确定所述目标音频的风险程度。 2.根据权利要求1所述的风险识别方法, 其特征在于, 确定所述标准敏感词集的过程包 括: 将各风险文本分割成若干个词或字; 根据预设的模糊正则表达式, 确定各风险文本对应的各个词或字中的敏感词, 得到风 险文本的标准敏感词集。 3.根据权利要求1所述的风险识别方法, 其特征在于, 确定所述历史文本 中的敏感词的 过程包括: 将各非风险文本分割成若干个词或字; 根据预设的模糊正则表达式, 确定各非风险文本对应的各个词或字中的敏感词, 与所 述各风险文本中的各个敏感词一 起作为历史文本中的敏感词。 4.根据权利要求1所述的风险识别方法, 其特征在于, 所述根据 所述历史文本中的敏感 词确定目标文本中的若干个敏感词, 包括: 提取目标文本 中的关键词, 确定目标文本中各个关键词的词向量和所述历史文本 中的 各个敏感词的词向量; 计算所述目标文本中各个关键词的词向量与所述历史文本中的各个敏感词的词向量 之间的第一相似度, 当第一相似度大于或等于第一相似度阈值时, 将目标文本中的对应关 键词作为目标文本中的敏感词, 确定目标文本中的若干个敏感词。 5.根据权利要求1所述的风险识别方法, 其特征在于, 所述在所述标准敏感词集中, 确 定出与目标文本中的各 敏感词唯一匹配的标准敏感词, 包括: 确定所述标准敏感词集中各敏感词的词向量, 确定所述目标文本 中的各敏感词的词向 量; 计算所述目标文本中的各敏感词的词向量和所述标准敏感词集中各敏感词的词向量 之间的第二相似度, 确定目标文本中的各敏感词的候选标准敏感词, 得到目标文本中的各 敏感词的候选标准敏感词集 合; 计算所述候选标准敏感词集合中各候选标准敏感词与其他候选标准敏感词之间的第 三相似度, 结合所述第二相似度, 在所述标准敏感词集中, 确定出与目标文本中的各敏感词 唯一匹配的标准敏感词。权 利 要 求 书 1/2 页 2 CN 114722199 A 26.根据权利要求1所述的风险识别方法, 其特征在于, 所述根据 所述各风险文本 中的各 敏感词的组合, 确定各风险文本的标准敏感词组, 包括: 根据所述各风险文本中的各敏感词在对应风险文本 中首次出现的先后顺序, 对各风险 文本中的各 敏感词进行排序组合, 确定各风险文本的标准敏感词组。 7.根据权利要求1所述的风险识别方法, 其特征在于, 所述根据 所述目标文本的标准敏 感词组和所述各风险文本的标准敏感词组之间的相似度, 确定所述 目标音频 的风险程度, 包括: 计算所述目标文本的标准敏感词组和所述各风险文本的标准敏感词组之间的第四相 似度, 得到所述第四相似度的最大值; 确定目标音频的风险程度, 所述目标音频的风险程度与 所述第四相似度的最大值和预 设第四相似度阈值之间的差值成正相关 关系。 8.一种基于通 话录音的风险识别装置, 其特 征在于, 所述 风险识别装置包括: 文本获取模块: 用于获取业务员与各个客户之间通话录音的N个历史音频, 获取业务员 与当前客户之间通话录音的目标音频, 将N个所述历史音频转换为N个历史文本, 将所述目 标音频转换为目标文本, 所述历史文本分为 风险文本和非风险文本; 第一敏感词确定模块: 用于确定历史文本 中的敏感词, 包括标准敏感词集中的敏感词, 和各非风险文本中的敏感词; 所述标准敏感词集包括各风险文本中的各 敏感词; 第二敏感词确定模块: 用于根据所述历史文本 中的敏感词确定目标文本 中的若干个敏 感词; 第一标准敏感词组确定模块: 用于在所述标准敏感词集中, 确定出与目标文本中的各 敏感词唯一匹配的标准敏感词, 根据目标文本的标准敏感词的组合, 确定目标文本的标准 敏感词组; 第二标准敏感词组确定模块: 用于根据所述各风险文本中的所有敏感词的组合, 确定 各风险文本的标准敏感词组; 风险程度确定模块: 用于根据 所述目标文本的标准敏感词组和所述各风险文本的标准 敏感词组之间的相似度, 确定所述目标音频的风险程度。 9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器、 存储器以及存储在所述 存储器中并可在所述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时实现 如权利要求1至7任一项所述的风险识别方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述的风险识别方法。权 利 要 求 书 2/2 页 3 CN 114722199 A 3

.PDF文档 专利 基于通话录音的风险识别方法、装置、计算机设备及介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于通话录音的风险识别方法、装置、计算机设备及介质 第 1 页 专利 基于通话录音的风险识别方法、装置、计算机设备及介质 第 2 页 专利 基于通话录音的风险识别方法、装置、计算机设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。