专利基于通话录音的风险识别方法、装置、计算机设备及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210356213.2 (22)申请日 2022.04.06 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人李正扬　王健宗　黄章成　 (74)专利代理机构深圳众鼎专利商标代理事务所(普通合伙) 44325 专利代理师谭果林 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G10L 15/26(2006.01) (54)发明名称基于通话录音的风险识别方法、装置、计算机设备及介质 (57)摘要本发明适用于风险识别领域，尤其涉及一种基于通话录音的风险识别方法、装置、计算机设备及介质。该方法通过确定历史文本中各风险文本和各非风险文本中的敏感词，获得历史文本中的敏感词以及标准敏感词集，以及目标文本中的若干个敏感词，并在标准敏感词集中确定出与目标文本中的各敏感词唯一匹配的标准敏感词，得到目标文本的标准敏感词组和各风险文本的标准敏感词组，最后根据目标文本的标准敏感词组和各风险文本的标准敏感词组之间的相似度，确定目标音频的风险程度。通过从目标文本中准确提取到标准敏感词组，与已经判定为风险文本的标准敏感词组进行比对，能够准确识别出目标客户的风险程度，从而提高对客户进行风险识别的准确率。权利要求书2页说明书11页附图3页 CN 114722199 A 2022.07.08 CN 114722199 A 1.一种基于通话录音的风险识别方法，其特征在于，所述识别方法包括：获取业务员与各个客户之间通话录音的N个历史音频，获取业务员与当前客户之间通话录音的目标音频，将N个所述历史音频转换为N个历史文本，将所述目标音频转换为目标文本，所述历史文本分为风险文本和非风险文本；确定历史文本中的敏感词，包括标准敏感词集中的敏感词，和各非风险文本中的敏感词；所述标准敏感词集包括各风险文本中的各敏感词；根据所述历史文本中的敏感词确定目标文本中的若干个敏感词；在所述标准敏感词集中，确定出与目标文本中的各敏感词唯一匹配的标准敏感词，根据目标文本的标准敏感词的组合，确定目标文本的标准敏感词组；根据所述各风险文本中的各敏感词的组合，确定各风险文本的标准敏感词组；根据所述目标文本的标准敏感词组和所述各风险文本的标准敏感词组之间的相似度，确定所述目标音频的风险程度。 2.根据权利要求1所述的风险识别方法，其特征在于，确定所述标准敏感词集的过程包括：将各风险文本分割成若干个词或字；根据预设的模糊正则表达式，确定各风险文本对应的各个词或字中的敏感词，得到风险文本的标准敏感词集。 3.根据权利要求1所述的风险识别方法，其特征在于，确定所述历史文本中的敏感词的过程包括：将各非风险文本分割成若干个词或字；根据预设的模糊正则表达式，确定各非风险文本对应的各个词或字中的敏感词，与所述各风险文本中的各个敏感词一起作为历史文本中的敏感词。 4.根据权利要求1所述的风险识别方法，其特征在于，所述根据所述历史文本中的敏感词确定目标文本中的若干个敏感词，包括：提取目标文本中的关键词，确定目标文本中各个关键词的词向量和所述历史文本中的各个敏感词的词向量；计算所述目标文本中各个关键词的词向量与所述历史文本中的各个敏感词的词向量之间的第一相似度，当第一相似度大于或等于第一相似度阈值时，将目标文本中的对应关键词作为目标文本中的敏感词，确定目标文本中的若干个敏感词。 5.根据权利要求1所述的风险识别方法，其特征在于，所述在所述标准敏感词集中，确定出与目标文本中的各敏感词唯一匹配的标准敏感词，包括：确定所述标准敏感词集中各敏感词的词向量，确定所述目标文本中的各敏感词的词向量；计算所述目标文本中的各敏感词的词向量和所述标准敏感词集中各敏感词的词向量之间的第二相似度，确定目标文本中的各敏感词的候选标准敏感词，得到目标文本中的各敏感词的候选标准敏感词集合；计算所述候选标准敏感词集合中各候选标准敏感词与其他候选标准敏感词之间的第三相似度，结合所述第二相似度，在所述标准敏感词集中，确定出与目标文本中的各敏感词唯一匹配的标准敏感词。权　利　要　求　书 1/2 页 2 CN 114722199 A 26.根据权利要求1所述的风险识别方法，其特征在于，所述根据所述各风险文本中的各敏感词的组合，确定各风险文本的标准敏感词组，包括：根据所述各风险文本中的各敏感词在对应风险文本中首次出现的先后顺序，对各风险文本中的各敏感词进行排序组合，确定各风险文本的标准敏感词组。 7.根据权利要求1所述的风险识别方法，其特征在于，所述根据所述目标文本的标准敏感词组和所述各风险文本的标准敏感词组之间的相似度，确定所述目标音频的风险程度，包括：计算所述目标文本的标准敏感词组和所述各风险文本的标准敏感词组之间的第四相似度，得到所述第四相似度的最大值；确定目标音频的风险程度，所述目标音频的风险程度与所述第四相似度的最大值和预设第四相似度阈值之间的差值成正相关关系。 8.一种基于通话录音的风险识别装置，其特征在于，所述风险识别装置包括：文本获取模块：用于获取业务员与各个客户之间通话录音的N个历史音频，获取业务员与当前客户之间通话录音的目标音频，将N个所述历史音频转换为N个历史文本，将所述目标音频转换为目标文本，所述历史文本分为风险文本和非风险文本；第一敏感词确定模块：用于确定历史文本中的敏感词，包括标准敏感词集中的敏感词，和各非风险文本中的敏感词；所述标准敏感词集包括各风险文本中的各敏感词；第二敏感词确定模块：用于根据所述历史文本中的敏感词确定目标文本中的若干个敏感词；第一标准敏感词组确定模块：用于在所述标准敏感词集中，确定出与目标文本中的各敏感词唯一匹配的标准敏感词，根据目标文本的标准敏感词的组合，确定目标文本的标准敏感词组；第二标准敏感词组确定模块：用于根据所述各风险文本中的所有敏感词的组合，确定各风险文本的标准敏感词组；风险程度确定模块：用于根据所述目标文本的标准敏感词组和所述各风险文本的标准敏感词组之间的相似度，确定所述目标音频的风险程度。 9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的风险识别方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的风险识别方法。权　利　要　求　书 2/2 页 3 CN 114722199 A 3

专利 基于通话录音的风险识别方法、装置、计算机设备及介质

专利基于通话录音的风险识别方法、装置、计算机设备及介质