国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210457826.5 (22)申请日 2022.04.28 (71)申请人 北京明朝万达科技股份有限公司 地址 100142 北京市海淀区阜外亮甲店1号 恩济西园产业园16号楼B座 (72)发明人 谢少飞 闫晶 喻波 王志海 安鹏 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/194(2020.01) (54)发明名称 一种基于词义相似度的智能数据治理方法 和系统 (57)摘要 本发明提出一种基于词义相似度的智能数 据治理方法和系统。 其中, 方法包括: 中文分词: 将一个词语或语句进行分词处理; 词性标注: 在 中文分词的基础上, 对分词之后的词语或语句进 行词性的标注; 关键字提取: 基于词性标注之后 的结果, 根据所需要的词性划分, 进行关键字提 取; 相识度判断: 对关键字提取之后的词语或语 句与分类分级模 版中的相关词语进行比较, 给出 相似度。 本发明提出的方案, 帮助提高数据治理 过程中数据的分类以及匹配的自动化 以及准确 度。 平台通过集成自然语义分析等技术手段, 实 现数据安全基础元数据与分类分级的自动智能 匹配, 通过匹配的过程不断的完善语料库, 实现 平台自我学习的过程, 从而提高匹配的效率和准 确度。 权利要求书2页 说明书6页 附图3页 CN 114936551 A 2022.08.23 CN 114936551 A 1.一种基于词义相似度的智能数据治理方法, 其特 征在于, 所述方法包括: 步骤S1、 中文分词: 将一个词语或语句进行分词处 理; 步骤S2、 词性标注: 在所述中文分词的基础上, 对分词之后的词语或语句进行词性的标 注; 步骤S3、 关键字提取: 基于所述词性的标注之后的结果, 根据所需要的词性划分, 进行 关键字提取; 步骤S4、 相识度判断: 对关键字提取之后的词语或语句与分类分级模版中的相关词语 进行比较, 给 出相似度。 2.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S1中, 中文分词的模型有六种, 分别为: CRF分词、 N ‑最短路径分词、 NLP分词、 极速字 典分词、 标准分词和深度学习分词。 3.根据权利要求2所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S1 中, 根据六种所述模 型的精准率、 召回率、 F1值、 新词召回率和正确召回率, 选择所 述六种模型中的一种对词语或语句进行分词处 理。 4.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S2 中, 所述词性标注有四种: HMM词性标注、 CRF词性标注、 感知机词性标注和深度学 习词性标注。 5.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S3中, 所述 根据所需要的词性划分, 进行关键 字提取的具体方法包括: 提取名词以及含有特殊含义的词性, 将助词、 副词和动词去除。 6.根据权利要求1所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S4中, 所述对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比 较, 给出相似度的具体方法包括: 对关键字提取之后的词语或语句与 所述分类分级模版中的相关词语进行比较, 给通过 词向量方式给 出相似度的分数。 7.根据权利要求6所述的一种基于词义相似度的智能数据治理方法, 其特征在于, 在所 述步骤S4中, 所述相似度的分数在(0 ‑1]的闭包之中, 越接近1则相似度越高, 越接近0则相 似度越低。 8.一种用于基于词义相似度的智能数据治理系统, 其特 征在于, 所述系统包括: 第一处理模块, 被 配置为, 中文分词: 将一个词语或语句进行分词处 理; 第二处理模块, 被配置为, 词性标注: 在中文分词的基础上, 对分词之后的词语或语句 进行词性的标注; 第三处理模块, 被配置为, 关键字提取: 基于词性标注之后的结果, 根据所需要的词性 划分, 进行关键 字提取; 第四处理模块, 被配置为, 相识度判断: 对关键字提取之后的词语或语句与分类分级模 版中的相关词语进行比较, 给 出相似度。 9.一种电子设备, 其特征在于, 所述电子设备包括存储器和处理器, 所述存储器存储有 计算机程序, 所述处理器执行所述计算机程序时, 实现权利要求1至7中任一项所述的一种 基于词义相似度的智能数据治理方法中的步骤。权 利 要 求 书 1/2 页 2 CN 114936551 A 210.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时, 实现权利要求1至7中任一项所述的一种基于词义 相似度的智能数据治理方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114936551 A 3
专利 一种基于词义相似度的智能数据治理方法和系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:45:52
上传分享
举报
下载
原文档
(528.4 KB)
分享
友情链接
POS终端 银行卡受理终端安全规范 第1部分销售点.pdf
JR-T 0083-2013 人身保险伤残评定标准及代码.pdf
T-ZZB 1236—2019 汽车减振器用轴承及其单元.pdf
GB-T 2428-1998 成年人头面部尺寸.pdf
GB-T 19392-2013 车载卫星导航设备通用规范.pdf
GB-T 30269.807-2018 信息技术 传感器网络 第807部分:测试:网络传输安全.pdf
GB-T 33483-2016 党政机关电子公文系统运行维护规范.pdf
之江实验室 - 2023.6.6 - 生成式大模型安全与隐私白皮书.pdf
GB-T 38408-2019 皮革 材质鉴别 显微镜法.pdf
GB 29415-2013 耐火电缆槽盒.pdf
GB-T 36960-2018 信息安全技术 鉴别与授权 访问控制中间件框架与接口.pdf
T-ZACA 010—2019 审核员服务行为规范.pdf
GB-T 18154-2000 监控式抑爆装置技术要求.pdf
GB 1589-2016 汽车、挂车及汽车列车外廓尺寸、 轴荷及质量限值.pdf
T-SDMT 0002—2022 高效节能智能化牵引变压器.pdf
民航 CTSO-C13f 救生衣.pdf
NY-T 4205-2022 农作物品种数字化管理数据描述规范.pdf
GB-T 22186-2016 信息安全技术 具有中央处理器的IC卡芯片安全技术要求.pdf
GB-T 19438.1-2004 禽流感病毒通用荧光 RT-PCR 检测方法.pdf
GB-T 42107-2022 国家科技重大专项文件归档与档案管理规范.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(528.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。