专利一种基于语义理解处理的通话自动聚类方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210195462.8 (22)申请日 2022.03.01 (71)申请人科大国创云网科技有限公司地址 230000 安徽省合肥市高新区文曲路 355号办公楼4层 (72)发明人丁常坤　夏兵　程磊　周源　冯影　 (74)专利代理机构合肥昊晟德专利代理事务所 (普通合伙) 3415 3 专利代理师何梓秋 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于语义理解处理的通话自动聚类方法及系统 (57)摘要本发明公开了一种基于语义理解处理的通话自动聚类方法及系统，属于自然语言处理技术领域，包括以下步骤： S1：获取通话文本； S2：建立行业业务词库； S3：建立停用词库； S4：文本向量化； S5：文本聚类； S6：模型调优； S7：推送服务方案。本发明提供了一种能够自定义管理的词库，维护行业词库的权重占比，使聚类算法与业务相结合，提升电话聚类的准确性；通过可视化界面的管理方式进行电话聚类流程的运营操作，提升电话聚类运营管理的便捷性；适用于客服类电话文本自动聚类，有效提升客服运营管理效率，降低人工成本。权利要求书2页说明书8页附图2页 CN 114722191 A 2022.07.08 CN 114722191 A 1.一种基于语义理解处理的通话自动聚类方法，其特征在于，包括以下步骤： S1：获取通话文本根据实际业务需求，对接文本转换平台，获取原始通话文本内容； S2：建立行业业务词库建立客服行业业务词库，定义行业业务词和对应的权重信息； S3：建立停用词库进行文本预处理，过滤对聚类无价值的文本内容； S4：文本向量化结合建立的客服行业业务词库，使用分词算法统计分词权重，将文本中每个词语映射到一个固定大小的向量； S5：文本聚类采用K‑Means算法对文本向量计算，生成样本的类别； S6：模型调优人工质检打标聚类的标签，并标记聚类不准确的文本，进行模型调优、训练； S7：推送服务方案生成聚类用户群体特征，根据群体特征，预测发现通话聚类潜在影响用户，推送服务方案。 2.根据权利要求1所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S2中，定义行业业务词和对应的权重信息的计算公式为： 3.根据权利要求2所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S 3中，文本预处理的具体过程为：建立客服行业停用词库管理模块，支持对停用词库进行系统界面的增、删、改、查操作，将标点符号、语气助词、虚词加入到停用词库中，在文本分词时，过滤掉停用词，实现文本预处理。 4.根据权利要求3所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S4中，文本向量化时通过一个浅层的神经网络把字词转化为机器可识别的向量，即每个词语映射成一个固定维度的向量，再结合行业业务词和对应的权重信息将词向量生成句向量。 5.根据权利要求4所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：所述步骤S5的子步骤如下： S51：向量归一化将上述生成的句向量进行归一化，具体计算公式为 Xnew为归一化后的句向量，取值范围为[0,1]， Xi为原始句向量第i维的数值， Xmax、 Xmin分别为原始句向量中最大值和最小值； S52： PCA降维将向量维度降低到指定的维度； S53： K‑Means聚类权　利　要　求　书 1/2 页 2 CN 114722191 A 2首先随机选取K个点作为初始聚类中心，然后根据欧式距离计算公式，将距离聚类中心最近的数据对象，划分为一个簇，以此迭代，最后根据各类数据点平均值更新各簇的聚类中心，直至聚类中心不再变化； S54：分别提取K个类别的关键词文本，生成类别标题，实现事件发现，并实时监控热点事件变化趋势，辅助人工质检。 6.根据权利要求5所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：所述步骤S7的子步骤如下： S71：生成聚类用户群体特征，形成当前聚类标签用户的文本特征； S72：结合当前用户的其它大数据标签，形成行业用户特征标签，建立预测模型； S73：人工标记预测模型预测结果，进行模型调参、训练； S74：根据预测模型进行潜在用户的预测，提供潜在用户的主动服务方案。 7.根据权利要求6所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S72中，其它大数据标签包括来电次数、来电时间、用户年龄层。 8.一种基于语义理解处理的通话自动聚类系统，其特征在于，采用如权利要求1～7任一项所述的通话自动聚类方法对通话进行聚类，包括：通话文本获取模块，用于根据实际业务需求，对接文本转换平台，获取原始通话文本内容；业务词库建立模块，用于建立客服行业业务词库，定义行业业务词和对应的权重信息；停用词库建立模块，用于进行文本预处理，过滤对聚类没有价值的文本内容；文本向量化模块，用于结合建立的客服行业业务词库，使用分词算法统计分词权重，将文本中每个词语映射到一个固定大小的向量；文本聚类模块，用于采用K ‑Means算法对文本向量计算，生成样本的类别；模型调优模块，用于人工质检打标聚类的标签，并标记聚类不准确的文本，进行模型调优、训练；服务方案推送模块，用于生成聚类用户群体特征，根据群体特征，预测发现通话聚类潜在影响用户，推送服务方案；中央处理模块，用于向其他模块发出指令，完成相关动作；所述通话文本获取模块、业务词库建立模块、停用词库建立模块、文本向量化模块、文本聚类模块、模型调优模块、服务方案推送模块均与中央处理模块电连接。权　利　要　求　书 2/2 页 3 CN 114722191 A 3

专利 一种基于语义理解处理的通话自动聚类方法及系统

专利一种基于语义理解处理的通话自动聚类方法及系统