(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210410434.3
(22)申请日 2022.04.19
(71)申请人 北京金山数字 娱乐科技有限公司
地址 100085 北京市海淀区西二 旗中路33
号院5号楼1 1层002号
(72)发明人 弓源 李长亮
(74)专利代理 机构 北京柏杉松知识产权代理事
务所(普通 合伙) 11413
专利代理师 孙翠贤 孟维娜
(51)Int.Cl.
G06F 16/953(2019.01)
G06F 40/194(2020.01)
G06F 40/258(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种相似文档搜索方法、 装置、 电子设备及
存储介质
(57)摘要
本发明实施例提供了一种相似文档搜索方
法、 装置、 电子设备及存储介质, 涉及数据处理领
域, 尤其涉及 文档检索技术领域。 具体方案为: 确
定待进行相似文档搜索的目标文档; 利用所述目
标文档, 从文档库召回多个候选文档; 针对每一
候选文档, 计算该候选文档与所述目标文档在多
种粒度下的相似度, 并对计算得到的相似度进行
融合处理, 得到该候选文档与所述目标文档之间
的文档相似度; 其中, 所述多种粒度包括字符级、
句子级和语义级中的至少两种; 基于所确定出的
文档相似度, 从所述多个候选文档中选取所述目
标文档的相似文档。 通过本方案可以提高相似文
档搜索的准确率。
权利要求书4页 说明书18页 附图4页
CN 114756733 A
2022.07.15
CN 114756733 A
1.一种相似文档搜索方法, 其特 征在于, 所述方法包括:
利用待进行相似文档搜索的目标文档, 从文档库召回多个候选文档;
针对每一候选文档, 计算该候选文档与所述目标文档在多种粒度下的相似度, 并对计
算得到的相似度进 行融合处理, 得到该候选文档对应的文档相似度; 其中, 所述多种粒度包
括字符级、 句子级和语义级中的至少两种;
按照所确定出的文档相似度, 对所述多个候选文档进行排序;
基于排序结果, 选取 所述目标文档的相似文档。
2.根据权利要求1所述的方法, 其特征在于, 所述针对每一候选文档, 计算该候选文档
与所述目标文档在多种粒度下的相似度, 包括:
针对每一候选文档, 按照与多种粒度中的每一粒度相匹配的相似度计算方式, 分别计
算该候选文档与所述目标文档在所述多种粒度下的相似度;
其中, 与字符级相匹配的相似度计算方式为基于关键词的相似度计算方式, 与句子级
相匹配的相似度计算方式为基于文本内容的相似度计算方式, 与语义级相匹配的相似度计
算方式为基于语义分析的相似度计算方式。
3.根据权利要求2所述的方法, 其特征在于, 所述与字符级相匹配的相似度计算方式,
包括:
确定在多个维度 下该候选文档的关键词, 以及在所述多个维度 下所述目标文档的关键
词; 其中, 所述多个维度包括文档标题维度和文档内容维度;
针对每一维度, 计算在该维度 下该候选文档的关键词与 所述目标文档的关键词的交并
比;
基于计算得到的交并比, 确定该候选文档与所述目标文档在字符级的相似度。
4.根据权利要求2所述的方法, 其特征在于, 所述与句子级相匹配的相似度计算方式,
包括:
针对多个维度中的每一维度, 计算在该维度 下该候选文档与 所述目标文档的文本 内容
相似度; 其中, 所述多个维度包括文档标题维度和文档内容维度;
基于计算得到的文本内容相似度, 确定该候选文档与所述目标文档在句子级的相似
度。
5.根据权利要求2所述的方法, 其特征在于, 所述与语义级相匹配的相似度计算方式包
括:
针对多个维度中的每一维度, 计算在该维度 下该候选文档与 所述目标文档的语义相似
度; 其中, 所述多个维度包括文档标题维度和文档内容维度;
基于计算得到的语义相似度, 确定该候选文档与所述目标文档在语义级的相似度。
6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述对计算得到的相似度进行融
合处理, 得到该候选文档对应的文档相似度, 包括:
通过加权融合的方式, 对计算得到的相似度进行融合处理, 得到该候选文档对应的文
档相似度。
7.根据权利要求6所述的方法, 其特征在于, 所述通过加权融合的方式, 对计算得到的
相似度进行融合处 理, 得到该候选文档对应的文档相似度, 包括:
若该候选文档与所述目标文档在每一粒度的相似度的数量为一个, 利用每一粒度对应权 利 要 求 书 1/4 页
2
CN 114756733 A
2的预设权 重, 将计算得到的相似度进行加权求和, 得到该候选文档对应的文档相似度;
若该候选文档与所述目标文档在每一粒度的相似度的数量为多个且每个相似度为针
对多个维度中一维度下 的相似度, 则针对所述多个维度中的每一维度, 按照每一粒度对应
的预设权重, 将 针对该维度下的相似度进 行加权求和, 得到该维度对应的第一结果; 并按照
所述多个维度对应的预设权重, 对每一维度对应的第一结果进行加权求和, 得到该候选文
档对应的文档相似度;
其中, 所述多个维度包括文档标题维度和文档内容维度。
8.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述利用待进行相似文档搜索的
目标文档, 从文档库召回多个候选文档, 包括:
利用待进行相似文档搜索的目标文档, 按照第 一召回方式和/或第二召回方式, 从文档
库召回多个候选文档;
其中, 所述第 一召回方式为: 利用所述目标文档的第 一指定维度 下的文本 内容, 以及预
先构建的第一数据库, 召回文档的方式, 其中, 所述第一数据库为基于文档库中的文档的所
述第一指定维度下 的文本内容所构建的; 所述第一指定维度包括文档标题维度和/或文档
内容维度;
所述第二召回方式为: 利用所述目标文档的第二指定维度下的文本向量, 以及预先构
建的第二数据库, 召回文档的方式, 其中, 所述第二数据库为基于文档库中的文档的所述第
二指定维度下 的文本向量所构建的; 所述第二指定维度包括文档标题维度和/或文档内容
维度。
9.一种相似文档搜索装置, 其特 征在于, 所述装置包括:
召回模块, 用于利用待 进行相似文档搜索的目标文档, 从文档库召回多个候选文档;
计算模块, 用于针对每一候选文档, 计算该候选文档与所述目标文档在多种粒度下的
相似度, 并对计算得到的相似度进行融合处理, 得到该候选文档对应的文档相似度; 其中,
所述多种粒度包括字符级、 句子级和语义级中的至少两种;
排序模块, 用于按照所确定出的文档相似度, 对所述多个候选文档进行排序;
选取模块, 用于基于排序结果, 选取 所述目标文档的相似文档。
10.根据权利要求9所述的装置, 其特征在于, 所述计算模块针对每一候选文档, 计算该
候选文档与所述目标文档在多种粒度下的相似度, 包括:
针对每一候选文档, 按照与多种粒度中的每一粒度相匹配的相似度计算方式, 分别计
算该候选文档与所述目标文档在所述多种粒度下的相似度;
其中, 与字符级相匹配的相似度计算方式为基于关键词的相似度计算方式, 与句子级
相匹配的相似度计算方式为基于文本内容的相似度计算方式, 与语义级相匹配的相似度计
算方式为基于语义分析的相似度计算方式。
11.根据权利要求10所述的装置, 其特征在于, 所述与字符级相匹配的相似度计算方
式, 包括:
确定在多个维度 下该候选文档的关键词, 以及在所述多个维度 下所述目标文档的关键
词; 其中, 所述多个维度包括文档标题维度和文档内容维度;
针对每一维度, 计算在该维度 下该候选文档的关键词与 所述目标文档的关键词的交并
比;权 利 要 求 书 2/4 页
3
CN 114756733 A
3
专利 一种相似文档搜索方法、装置、电子设备及存储介质
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:02上传分享