(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210195462.8
(22)申请日 2022.03.01
(71)申请人 科大国创云网科技有限公司
地址 230000 安徽省合肥市高新区文曲路
355号办公楼4层
(72)发明人 丁常坤 夏兵 程磊 周源 冯影
(74)专利代理 机构 合肥昊晟德专利代理事务所
(普通合伙) 3415 3
专利代理师 何梓秋
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于语义理解处理的通话自动聚类方
法及系统
(57)摘要
本发明公开了一种基于语义理解处理的通
话自动聚类方法及系统, 属于自然语 言处理技术
领域, 包括以下步骤: S1: 获取通话文本; S2: 建立
行业业务词库; S3: 建立停用词库; S4: 文本向量
化; S5: 文本聚类; S6: 模型调优; S7: 推送服务方
案。 本发明提供了一种能够自定义管理的词库,
维护行业词库的权重占比, 使聚类算法与业务相
结合, 提升电话聚类的准确性; 通过可视化界面
的管理方式进行电话聚类流程的运营操作, 提升
电话聚类运营管理的便捷性; 适用于客服类电话
文本自动聚类, 有效提升客服运营管理效率, 降
低人工成本 。
权利要求书2页 说明书8页 附图2页
CN 114722191 A
2022.07.08
CN 114722191 A
1.一种基于语义理解处 理的通话自动聚类方法, 其特 征在于, 包括以下步骤:
S1: 获取通 话文本
根据实际业 务需求, 对接文本转换平台, 获取原 始通话文本内容;
S2: 建立行业 业务词库
建立客服行业业务词库, 定义行业 业务词和对应的权 重信息;
S3: 建立停用词库
进行文本预处 理, 过滤对聚类无价 值的文本内容;
S4: 文本向量 化
结合建立的客服行业业务词库, 使用分词算法统计分词权重, 将文本中每个词语映射
到一个固定大小的向量;
S5: 文本聚类
采用K‑Means算法对文本向量计算, 生成样本的类别;
S6: 模型调优
人工质检打标聚类的标签, 并标记聚类不 准确的文本, 进行模型调优、 训练;
S7: 推送服 务方案
生成聚类用户群体特征, 根据群体特征, 预测发现通话聚类潜在影响用户, 推送服务方
案。
2.根据权利要求1所述的一种基于语义理解处理的通话自动聚类方法, 其特征在于: 在
所述步骤S2中, 定义行业 业务词和对应的权 重信息的计算公式为:
3.根据权利要求2所述的一种基于语义理解处理的通话自动聚类方法, 其特征在于: 在
所述步骤S 3中, 文本预 处理的具体过程为: 建立客服行业停用词 库管理模块, 支持对停用词
库进行系统界面的增、 删、 改、 查操作, 将标点符号、 语气助词、 虚词加入到停用词 库中, 在文
本分词时, 过 滤掉停用词, 实现文本预处 理。
4.根据权利要求3所述的一种基于语义理解处理的通话自动聚类方法, 其特征在于: 在
所述步骤S4中, 文本向量化时通过一个浅层的神经网络把字词转化为机器可识别的向量,
即每个词语映射成一个固定维度的向量, 再结合行业业务词和对应的权重信息将词向量生
成句向量。
5.根据权利要求4所述的一种基于语义理解处理的通话自动聚类方法, 其特征在于: 所
述步骤S5的子步骤如下:
S51: 向量归一 化
将上述生 成的句向量进 行归一化, 具体计算公 式为
Xnew为归一化后的
句向量, 取值范围为[0,1], Xi为原始句向量第i维的数值, Xmax、 Xmin分别为原始句向量中最
大值和最小值;
S52: PCA降维
将向量维度降低到指定的维度;
S53: K‑Means聚类权 利 要 求 书 1/2 页
2
CN 114722191 A
2首先随机选取K个点作为初始聚类 中心, 然后根据欧式距离计算公式, 将距离聚类中心
最近的数据对象, 划分为一个簇, 以此迭代, 最后根据各类数据点平均值更新各簇的聚类中
心, 直至聚类中心不再变化;
S54: 分别提取K个类别的关键词文本, 生成类别标题, 实现事件发现, 并实时监控热点
事件变化趋势, 辅助人工质检。
6.根据权利要求5所述的一种基于语义理解处理的通话自动聚类方法, 其特征在于: 所
述步骤S7的子步骤如下:
S71: 生成聚类用户群 体特征, 形成当前聚类标签用户的文本特 征;
S72: 结合当前用户的其它大 数据标签, 形成行业用户特 征标签, 建立预测模型;
S73: 人工标记预测模型 预测结果, 进行模型调参、 训练;
S74: 根据预测模型进行潜在用户的预测, 提供潜在用户的主动服 务方案。
7.根据权利要求6所述的一种基于语义理解处理的通话自动聚类方法, 其特征在于: 在
所述步骤S72中, 其它大 数据标签包括 来电次数、 来电时间、 用户年龄层。
8.一种基于语义理解处理的通话自动 聚类系统, 其特征在于, 采用 如权利要求1~7任
一项所述的通 话自动聚类方法对通 话进行聚类, 包括:
通话文本获取模块, 用于根据实际业务需求, 对接文本转换平台, 获取原始通话文本内
容;
业务词库建立模块, 用于建立 客服行业业务词库, 定义行业 业务词和对应的权 重信息;
停用词库建立模块, 用于进行文本预处 理, 过滤对聚类没有价 值的文本内容;
文本向量化模块, 用于结合建立的客服行业业务词库, 使用分词算法统计分词权重, 将
文本中每 个词语映射到一个固定大小的向量;
文本聚类模块, 用于采用K ‑Means算法对文本向量计算, 生成样本的类别;
模型调优模块, 用于人工质检打标聚类的标签, 并标记聚类不准确的文本, 进行模型调
优、 训练;
服务方案推送模块, 用于生成聚类用户群体特征, 根据群体特征, 预测发现通话聚类潜
在影响用户, 推送服 务方案;
中央处理模块, 用于向其 他模块发出指令, 完成相关动作;
所述通话文本获取模块、 业务词库建立模块、 停用词库建立模块、 文本向量化模块、 文
本聚类模块、 模型调优 模块、 服务方案推送模块均 与中央处 理模块电连接 。权 利 要 求 书 2/2 页
3
CN 114722191 A
3
专利 一种基于语义理解处理的通话自动聚类方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:56上传分享