国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210283294.8 (22)申请日 2022.03.22 (71)申请人 杭州未名信科 科技有限公司 地址 311200 浙江省杭州市萧 山区宁围街 道钱江世纪 公园C区1幢101室 申请人 浙江省北 大信息技 术高等研究院 (72)发明人 潘帅 陈家银 张伟 陈曦 麻志毅 (74)专利代理 机构 北京辰权知识产权代理有限 公司 11619 专利代理师 付婧 (51)Int.Cl. G06F 40/268(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01)G06F 16/31(2019.01) G06F 16/33(2019.01) (54)发明名称 一种文本去重方法、 装置、 电子设备及存储 介质 (57)摘要 本发明公开了一种文本去重方法、 装置、 电 子设备及存储介质, 方法包括: 确定待去重文本 的标题中的代表性词; 判断由已去重文本的标题 构建的索引空间中的索引是否存在 代表性词; 若 不存在, 则确定待去重文本不是重复文本; 若存 在, 则基于标题词性方式判定待去重文本是否为 重复文本; 在确定待去重文本不是重复文本时, 以代表性词为索引, 以标题和词性标注结果为键 值添加到索引空间。 通过 获取文本的标题中最具 有影响力的代表性词去重, 可以进一步降低去重 复杂度, 提高去重效率, 并且基于相似语义文本 之间影响力最大的词相同的假设, 当判断这个代 表性词存在于由已去重文本的标题构建的索引 空间中时, 再基于标题词性方式进行去重, 从而 实现语义感知去重 。 权利要求书2页 说明书7页 附图2页 CN 114742042 A 2022.07.12 CN 114742042 A 1.一种文本去重方法, 其特 征在于, 所述方法包括: 确定待去重文本的标题中的代 表性词; 判断由已去重文本的标题构建的索引空间中的索引是否存在所述代 表性词; 若不存在, 则确定待 去重文本不是重复文本; 若存在, 则基于标题词性方式判定待 去重文本是否为重复文本; 在确定待去重文本不是重复文本时, 以所述代表性词为索引, 以所述标题和所述标题 的词性标注结果 为键值添加到所述索引空间。 2.根据权利要求1所述的方法, 其特征在于, 确定待去重文本的标题中的代表性词, 包 括: 对所述标题进行分词, 得到分词结果; 确定分词结果中每一分词的词频 ‑逆文档频率TF ‑IDF值; 将最大TF ‑IDF值对应的分词确定为代 表性词。 3.根据权利要求2所述的方法, 其特征在于, 确定分词结果中每一分词的词频 ‑逆文本 频率TF‑IDF值, 包括: 确定分词结果中每一分词的词频TF值; 从预设词汇 表中获取每一分词对应的逆文档频率 IDF值; 利用每一分词的TF值和IDF值确定该分词的TF ‑IDF值。 4.根据权利要求1所述的方法, 其特征在于, 基于标题词性方式判定待去重文本是否为 重复文本, 包括: 获取由索引空间中所述代 表性词对应的键值表示的已有标题; 比较已有标题与所述标题之间的不重复词; 若存在不重复词, 则根据不重复词的词性判定所述待 去重文本是否为重复文本; 若不存在不重复词, 则确定所述待 去重文本是重复文本 。 5.根据权利要求4所述的方法, 其特征在于, 根据不重复词的词性判定所述待去重文本 是否为重复文本, 包括: 判定不重复词的词性是否为预设词性; 若为预设词性, 则确定待 去重文本不是重复文本; 若不为预设词性, 则根据不重复词的数量相对所述标题的分词总量的占比判定所述待 去重文本是否为重复文本; 若所述占比超过 预设值, 则确定待 去重文本不是重复文本; 若所述占比未超过 预设值, 则确定待 去重文本是重复文本 。 6.根据权利要求5所述的方法, 其特 征在于, 所述预设词性包括名词、 英文、 数量词。 7.一种文本去重装置, 其特 征在于, 所述装置包括: 第一确定模块, 用于确定待 去重文本的标题中的代 表性词; 第一判断模块, 用于判断由已去重文本的标题构建的索引空间中的索引是否存在所述 代表性词; 第二确定模块, 用于在判断不存在所述代 表性词时, 确定待 去重文本不是重复文本; 第二判断模块, 用于在判断存在所述代表性词时, 基于标题词性方式判定待去重文本 是否为重复文本;权 利 要 求 书 1/2 页 2 CN 114742042 A 2空间添加模块, 用于在确定待去重文本不是重复文本时, 以所述代表性词为索引, 以所 述标题和所述标题的词性标注结果 为键值添加到所述索引空间。 8.根据权利要求7所述的装置, 其特征在于, 所述第二判断模块, 具体用于获取由索引 空间中所述代表性词对应的键值表示的已有标题; 比较已有标题与所述标题之 间的不重复 词; 若存在不重复词, 则根据不重复词的词性判定所述待去重文本是否为重复文本; 若不存 在不重复词, 则确定所述待 去重文本是重复文本 。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑6任一项所述方法的步 骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1 ‑6任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114742042 A 3
专利 一种文本去重方法、装置、电子设备及存储介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:46:30
上传分享
举报
下载
原文档
(483.1 KB)
分享
友情链接
T-CSAE 269—2022 智能网联汽车 自动驾驶地图动态信息数据交换格式.pdf
GB-T 17396-2022 液压支柱用热轧无缝钢管.pdf
深信服 aTrust零信任技术白皮书V1.4 2022.pdf
GB-T 42855-2023 氢燃料电池车辆加注协议技术要求.pdf
NB-T 10394-2020 光伏发电系统效能规范.pdf
GB-T 35279-2017 信息安全技术 云计算安全参考架构.pdf
CCSP认证考试大纲 中文版 2022.pdf
T-ZZB 2678—2022 高寿命汽车散热器电动风扇总成.pdf
GB-T 36624-2018 信息技术 安全技术 可鉴.pdf
T-CI 292—2024 医疗健康大数据安全要求.pdf
BPMN2.0标准规范(中文版).pdf
T-CDJC 003—2022 交联聚乙烯卷材浮筑楼板隔声保温系统应用技术标准.pdf
GB-T 42549-2023 海洋调查船舶实验室安全管理规范.pdf
GB-T 33133.1-2016 信息安全技术 祖冲之序列密码算法 第1部分:算法描述.pdf
GB-T 39155-2020 金属和合金的腐蚀 海港设施的阴极保护.pdf
GB-T 18607-2017 石油天然气工业 钻井和采油设备 往复式整筒抽油泵.pdf
ISO IEC 38505-1 中文版.pdf
GB-T 24105-2009 岩土工程仪器基本环境试验条件及方法.pdf
GB-T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第1部分:概念和模型.pdf
GA-T 460.2-2020 居民身份证卡体材料及打印薄膜技术规范 第2部分:制卡用印刷层白色PETG薄膜.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(483.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。