(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210392110.1 (22)申请日 2022.04.14 (71)申请人 北京宝兰 德软件股份有限公司 地址 100020 北京市朝阳区东 三环北路19 号 (72)发明人 易存道  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 常芳 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 20/00(2019.01) (54)发明名称 工单数据 的聚类方法、 装置、 电子设备及存 储介质 (57)摘要 本发明提供一种工单数据的聚类方法、 装 置、 电子设备及存储介质, 所述方法包括: 获取工 单数据; 将所述工单数据输入至分层聚类模型 中, 得到所述工单数据的聚类结果; 其中, 所述分 层聚类模型包括分类层、 第一聚类层和第二聚类 层; 所述第二聚类层包括SimCSE子层和DEC聚类 子层, 其中所述Si mCSE子层是基于工 单样本和所 述工单样本的文本向量进行有监督的训练得到 的; 所述DEC聚类子层是基于所述工单样本的文 本向量和文本向量对应的工单数据的聚类结果 进行训练得到的。 本发明提高了大数据量的工单 数据的聚类 速度以及聚类效果。 权利要求书3页 说明书12页 附图7页 CN 114896392 A 2022.08.12 CN 114896392 A 1.一种工单 数据的聚类方法, 其特 征在于, 包括: 获取工单 数据; 将所述工单 数据输入至分层聚类模型中, 得到所述工单 数据的聚类结果; 其中, 所述分层聚类模型包括分类层、 第一聚类层和第二聚类层; 所述第二聚类层包括SimCSE子层和DEC聚类子层, 其中所述SimCSE子层是基于工单样 本和所述工单样本的文本向量进行有监 督的训练得到的; 所述DEC聚类子层是基于所述工单样本的文本向量和文本向量对应的工单数据的聚类 结果进行训练得到的。 2.根据权利要求1所述的工单数据的聚类方法, 其特征在于, 所述将所述工单数据输入 至分层聚类模型中, 得到所述工单 数据的聚类结果, 具体包括: 将所述工单 数据输入至分类层, 得到所述工单 数据的分类结果; 将所述分类结果输入至第一聚类层, 得到所述工单 数据的初步聚类结果; 将所述初步聚类结果输入至第二聚类层, 得到所述工单 数据的最终聚类结果。 3.根据权利要求2所述的工单数据的聚类方法, 其特征在于, 所述将所述初步 聚类结果 输入至第二聚类层, 得到所述工单 数据的最终聚类结果, 具体包括: 将所述初步聚类结果对应的工单数据输入至训练好的SimCSE子层中, 获取所述工单数 据的文本向量; 将所述文本向量输入训练好的DE C聚类子层中, 得到所述工单 数据的最终聚类结果。 4.根据权利要求2所述的工单数据的聚类方法, 其特征在于, 将所述工单数据输入至分 类层之前, 还 包括: 遍历领域字典, 得到所述领域字典的关键词, 并基于所述关键词建立统计规则; 基于所述关键词和统计规则, 得到对所述工单 数据进行分类的预设规则。 5.根据权利要求4所述的工单数据的聚类方法, 其特征在于, 所述将所述工单数据输入 至分类层, 得到所述工单 数据的分类结果, 具体包括: 将所述工单数据输入至分类层, 基于所述预设规则进行判断, 基于所述判断结果得到 所述工单 数据的分类结果; 若所述工单数据满足预设规则, 则将所述工单数据归类为与 所述预设规则对应的目标 类别; 若所述工单 数据不满足预设规则, 且不包 含关键词, 则将所述工单 数据作为 其他类别。 6.根据权利要求3所述的工单数据的聚类方法, 其特征在于, 所述将所述分类结果输入 至第一聚类层, 得到所述工单 数据的初步聚类结果, 具体包括: 将所述分类结果输入至第 一聚类层, 基于哈希函数将所述分类结果对应的工单数据转 换为SimHash签名; 获取所述SimHash签名之间 的汉明距离, 将所述汉明距离满足预设阈值的SimHash签名 聚类为一族, 得到所述工单 数据的初步聚类结果。 7.根据权利 要求1所述的工单数据的聚类方法, 其特征在于, 所述SimCSE子层的训练方 法包括: 获取工单样本; 建立待训练的SimCSE 子层;权 利 要 求 书 1/3 页 2 CN 114896392 A 2将所述工单样本输入至SimCSE子层中, 基于损失函数获取所述文本向量与所述工单样 本之间的第一损失值, 利用所述第一损失值对SimCSE子层反复进行参数调整, 直至所述第 一损失值小于第一预设阈值, 停止训练。 8.根据权利要求7所述的工单数据的聚类方法, 其特征在于, 所述DEC聚类子层的训练 方法包括: 建立待训练的DEC聚类子层, 将所述工单样本的文本向量输入至DEC聚类子层, 得到所 述工单样本的聚类结果; 基于所述损失函数获取所述 聚类结果与 所述文本向量之间的第 二损失值, 利用所述第 二损失值对DE C聚类子层进行参数调整, 直至所述第二损失值小于第二预设阈值。 9.根据权利要求7所述的工单数据的聚类方法, 其特征在于, 所述将所述工单样本输入 至SimCSE 子层中, 获取 所述工单样本的文本向量, 具体包括: 将所述工单样本进行微调训练, 获取 所述工单样本的正例样本; 将所述正例样本基于BM25算法, 生成与所述 正例样本语义匹配的负例样本; 将所述正例样本和 负例样本输入至SimCSE子层中, 分别获取所述正例样本和 负例样本 的文本向量。 10.根据权利要求9所述的工单数据的聚类方法, 其特征在于, 将所述正例样本和负例 样本输入至SimCSE子层中, 分别获取所述正例样本和负例样本的文本向量之前, 所述方法 还包括: 获取中文 文本STS数据集; 将所述中文 文本STS数据集输入至SimCSE 子层中进行 预训练, 得到SimCSE预训练子层; 所述将所述正例样本和 负例样本输入至SimCSE子层中, 分别获取所述正例样本和 负例 样本的文本向量, 具体包括: 将所述正例样本和 负例样本输入至所述SimCSE预训练子层中, 分别获取所述正例样本 和负例样本的文本向量。 11.根据权利要求9所述的工单数据的聚类方法, 其特征在于, 将所述工单样本进行微 调训练, 获取 所述工单样本的正例样本之前, 所述方法还 包括: 对所述工单样本进行近义词替换以及词序调整, 获取语料增强样本; 所述将所述工单样本进行微调训练, 获取 所述工单样本的正例样本, 具体包括: 将所述语料增强样本进行微调训练, 获取 所述语料增强样本的正例样本 。 12.根据权利要求8所述的工单数据的聚类方法, 其特征在于, 所述DEC聚类子层包括自 动编码层以及聚类层; 所述将所述文本向量输入至DE C聚类子层, 得到所述工单样本的聚类结果, 具体包括: 将所述文本向量输入至自动 编码层, 获取 所述文本向量的特 征向量; 将所述特 征向量输入至聚类层, 得到所述特 征向量对应工单样本的聚类结果。 13.根据权利要求8所述的工单 数据的聚类方法, 其特 征在于, 还 包括: 设置距离阈值, 并基于所述距离阈值调整聚类个数; 其中所述聚类结果与所述聚类个 数相对应。 14.一种工单 数据的聚类装置, 其特 征在于, 包括: 获取模块, 用于获取工单 数据;权 利 要 求 书 2/3 页 3 CN 114896392 A 3

.PDF文档 专利 工单数据的聚类方法、装置、电子设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 工单数据的聚类方法、装置、电子设备及存储介质 第 1 页 专利 工单数据的聚类方法、装置、电子设备及存储介质 第 2 页 专利 工单数据的聚类方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。