(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210457826.5 (22)申请日 2022.04.28 (71)申请人 北京明朝万达科技股份有限公司 地址 100142 北京市海淀区阜外亮甲店1号 恩济西园产业园16号楼B座 (72)发明人 谢少飞 闫晶 喻波 王志海  安鹏  (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/194(2020.01) (54)发明名称 一种基于词义相似度的智能数据治理方法 和系统 (57)摘要 本发明提出一种基于词义相似度的智能数 据治理方法和系统。 其中, 方法包括: 中文分词: 将一个词语或语句进行分词处理; 词性标注: 在 中文分词的基础上, 对分词之后的词语或语句进 行词性的标注; 关键字提取: 基于词性标注之后 的结果, 根据所需要的词性划分, 进行关键字提 取; 相识度判断: 对关键字提取之后的词语或语 句与分类分级模 版中的相关词语进行比较, 给出 相似度。 本发明提出的方案, 帮助提高数据治理 过程中数据的分类以及匹配的自动化 以及准确 度。 平台通过集成自然语义分析等技术手段, 实 现数据安全基础元数据与分类分级的自动智能 匹配, 通过匹配的过程不断的完善语料库, 实现 平台自我学习的过程, 从而提高匹配的效率和准 确度。 权利要求书2页 说明书6页 附图3页 CN 114936551 A 2022.08.23 CN 114936551 A 1.一种基于词义相似度的智能数据治理方法, 其特 征在于, 所述方法包括: 步骤S1、 中文分词: 将一个词语或语句进行分词处 理; 步骤S2、 词性标注: 在所述中文分词的基础上, 对分词之后的词语或语句进行词性的标 注; 步骤S3、 关键字提取: 基于所述词性的标注之后的结果, 根据所需要的词性划分, 进行 关键字提取; 步骤S4、 相识度判断: 对关键字提取之后的词语或语句与分类分级模版中的相关词语 进行比较, 给 出相似度。 2.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S1中, 中文分词的模型有六种, 分别为: CRF分词、 N ‑最短路径分词、 NLP分词、 极速字 典分词、 标准分词和深度学习分词。 3.根据权利要求2所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S1 中, 根据六种所述模 型的精准率、 召回率、 F1值、 新词召回率和正确召回率, 选择所 述六种模型中的一种对词语或语句进行分词处 理。 4.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S2 中, 所述词性标注有四种: HMM词性标注、 CRF词性标注、 感知机词性标注和深度学 习词性标注。 5.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S3中, 所述 根据所需要的词性划分, 进行关键 字提取的具体方法包括: 提取名词以及含有特殊含义的词性, 将助词、 副词和动词去除。 6.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S4中, 所述对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比 较, 给出相似度的具体方法包括: 对关键字提取之后的词语或语句与 所述分类分级模版中的相关词语进行比较, 给通过 词向量方式给 出相似度的分数。 7.根据权利要求6所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S4中, 所述相似度的分数在(0 ‑1]的闭包之中, 越接近1则相似度越高, 越接近0则相 似度越低。 8.一种用于基于词义相似度的智能数据治理系统, 其特 征在于, 所述系统包括: 第一处理模块, 被 配置为, 中文分词: 将一个词语或语句进行分词处 理; 第二处理模块, 被配置为, 词性标注: 在中文分词的基础上, 对分词之后的词语或语句 进行词性的标注; 第三处理模块, 被配置为, 关键字提取: 基于词性标注之后的结果, 根据所需要的词性 划分, 进行关键 字提取; 第四处理模块, 被配置为, 相识度判断: 对关键字提取之后的词语或语句与分类分级模 版中的相关词语进行比较, 给 出相似度。 9.一种电子设备, 其特征在于, 所述电子设备包括存储器和处理器, 所述存储器存储有 计算机程序, 所述处理器执行所述计算机程序时, 实现权利要求1至7中任一项所述的一种 基于词义相似度的智能数据治理方法中的步骤。权 利 要 求 书 1/2 页 2 CN 114936551 A 210.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时, 实现权利要求1至7中任一项所述的一种基于词义 相似度的智能数据治理方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114936551 A 3

.PDF文档 专利 一种基于词义相似度的智能数据治理方法和系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于词义相似度的智能数据治理方法和系统 第 1 页 专利 一种基于词义相似度的智能数据治理方法和系统 第 2 页 专利 一种基于词义相似度的智能数据治理方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。