(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210283294.8 (22)申请日 2022.03.22 (71)申请人 杭州未名信科 科技有限公司 地址 311200 浙江省杭州市萧 山区宁围街 道钱江世纪 公园C区1幢101室 申请人 浙江省北 大信息技 术高等研究院 (72)发明人 潘帅 陈家银 张伟 陈曦  麻志毅  (74)专利代理 机构 北京辰权知识产权代理有限 公司 11619 专利代理师 付婧 (51)Int.Cl. G06F 40/268(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01)G06F 16/31(2019.01) G06F 16/33(2019.01) (54)发明名称 一种文本去重方法、 装置、 电子设备及存储 介质 (57)摘要 本发明公开了一种文本去重方法、 装置、 电 子设备及存储介质, 方法包括: 确定待去重文本 的标题中的代表性词; 判断由已去重文本的标题 构建的索引空间中的索引是否存在 代表性词; 若 不存在, 则确定待去重文本不是重复文本; 若存 在, 则基于标题词性方式判定待去重文本是否为 重复文本; 在确定待去重文本不是重复文本时, 以代表性词为索引, 以标题和词性标注结果为键 值添加到索引空间。 通过 获取文本的标题中最具 有影响力的代表性词去重, 可以进一步降低去重 复杂度, 提高去重效率, 并且基于相似语义文本 之间影响力最大的词相同的假设, 当判断这个代 表性词存在于由已去重文本的标题构建的索引 空间中时, 再基于标题词性方式进行去重, 从而 实现语义感知去重 。 权利要求书2页 说明书7页 附图2页 CN 114742042 A 2022.07.12 CN 114742042 A 1.一种文本去重方法, 其特 征在于, 所述方法包括: 确定待去重文本的标题中的代 表性词; 判断由已去重文本的标题构建的索引空间中的索引是否存在所述代 表性词; 若不存在, 则确定待 去重文本不是重复文本; 若存在, 则基于标题词性方式判定待 去重文本是否为重复文本; 在确定待去重文本不是重复文本时, 以所述代表性词为索引, 以所述标题和所述标题 的词性标注结果 为键值添加到所述索引空间。 2.根据权利要求1所述的方法, 其特征在于, 确定待去重文本的标题中的代表性词, 包 括: 对所述标题进行分词, 得到分词结果; 确定分词结果中每一分词的词频 ‑逆文档频率TF ‑IDF值; 将最大TF ‑IDF值对应的分词确定为代 表性词。 3.根据权利要求2所述的方法, 其特征在于, 确定分词结果中每一分词的词频 ‑逆文本 频率TF‑IDF值, 包括: 确定分词结果中每一分词的词频TF值; 从预设词汇 表中获取每一分词对应的逆文档频率 IDF值; 利用每一分词的TF值和IDF值确定该分词的TF ‑IDF值。 4.根据权利要求1所述的方法, 其特征在于, 基于标题词性方式判定待去重文本是否为 重复文本, 包括: 获取由索引空间中所述代 表性词对应的键值表示的已有标题; 比较已有标题与所述标题之间的不重复词; 若存在不重复词, 则根据不重复词的词性判定所述待 去重文本是否为重复文本; 若不存在不重复词, 则确定所述待 去重文本是重复文本 。 5.根据权利要求4所述的方法, 其特征在于, 根据不重复词的词性判定所述待去重文本 是否为重复文本, 包括: 判定不重复词的词性是否为预设词性; 若为预设词性, 则确定待 去重文本不是重复文本; 若不为预设词性, 则根据不重复词的数量相对所述标题的分词总量的占比判定所述待 去重文本是否为重复文本; 若所述占比超过 预设值, 则确定待 去重文本不是重复文本; 若所述占比未超过 预设值, 则确定待 去重文本是重复文本 。 6.根据权利要求5所述的方法, 其特 征在于, 所述预设词性包括名词、 英文、 数量词。 7.一种文本去重装置, 其特 征在于, 所述装置包括: 第一确定模块, 用于确定待 去重文本的标题中的代 表性词; 第一判断模块, 用于判断由已去重文本的标题构建的索引空间中的索引是否存在所述 代表性词; 第二确定模块, 用于在判断不存在所述代 表性词时, 确定待 去重文本不是重复文本; 第二判断模块, 用于在判断存在所述代表性词时, 基于标题词性方式判定待去重文本 是否为重复文本;权 利 要 求 书 1/2 页 2 CN 114742042 A 2空间添加模块, 用于在确定待去重文本不是重复文本时, 以所述代表性词为索引, 以所 述标题和所述标题的词性标注结果 为键值添加到所述索引空间。 8.根据权利要求7所述的装置, 其特征在于, 所述第二判断模块, 具体用于获取由索引 空间中所述代表性词对应的键值表示的已有标题; 比较已有标题与所述标题之 间的不重复 词; 若存在不重复词, 则根据不重复词的词性判定所述待去重文本是否为重复文本; 若不存 在不重复词, 则确定所述待 去重文本是重复文本 。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑6任一项所述方法的步 骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1 ‑6任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114742042 A 3

.PDF文档 专利 一种文本去重方法、装置、电子设备及存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本去重方法、装置、电子设备及存储介质 第 1 页 专利 一种文本去重方法、装置、电子设备及存储介质 第 2 页 专利 一种文本去重方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。