(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210381734.3 (22)申请日 2022.04.12 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市江干区下沙高 教园区 (72)发明人 王俊美  (74)专利代理 机构 杭州杭诚专利事务所有限公 司 33109 专利代理师 谢庆飞 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/30(2020.01) (54)发明名称 基于ConceptNet的信息 检索查询扩 展方法 (57)摘要 本发明公开了基于ConceptNet 的信息检索 查询扩展方法, 包 括以下步骤: S1: 使用BM2 5进行 检索, 得到反馈文档和词项的集合; S2: 从 ConceptNet中取词项的语义扩展 集合, 得到词项 语义描述集合; S3: 衡量候选扩展词项和查询的 语义相关性; S4: 得到候选扩展词项 的权重; S5: 构造新的查询, 并进行二次检索。 本发明的有益 效果是: 能优化查询扩展以提高检索结果的平均 正确率。 权利要求书2页 说明书6页 附图1页 CN 114840639 A 2022.08.02 CN 114840639 A 1.基于ConceptNet的信息检索查询扩展方法, 其特 征在于, 包括以下步骤: S1: 使用BM25进行检索, 得到反馈文档和词项的集 合E; S2: 从ConceptNet中取词项的语义扩展集 合D, 得到词项的语义描述 集合C; S3: 衡量候选扩展词项和查询的语义相关性; S4: 计算所述 候选扩展词项的权 重; S5: 构造新的查询, 并进行二次检索。 2.根据权利要求1所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 步骤 S1中, 文档的得分计算 算式如下: 上式中, Score(Q,d)为文档得分, TF为文档长度的正则化表示, avdl为文档的平均长 度, k1和k3为常数, qtf为查询词项q的频率, b为调节因子, dl为文档长度, N ′为索引中所有文 档的数量, dft为在所有文档中包含词项t的文档篇数, IDF(t)为t在反馈文档中的重要程 度。 3.根据权利要求2所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 步骤 S1中, 集合E为文档得分最高的10篇文档中所有词项构成候选伪相关词项集 合。 4.根据权利要求1所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 取以 查询词项为头结点或者尾结点的所有关系三元组, 并将关系三元组的所有头尾结点构成集 合D, 集合C为集合D和集合E的交集。 5.根据权利要求2所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 步骤 S3中, 衡量 候选扩展词项和查询的语义相关性匹配得分计算 算式如下: S(t,Q)=sim(t,Q) ×IDF(t); 上式中, S(t,Q)为语义相关性匹配得分, sim(t,Q)为t和Q之间的语义相似度, ID F(t)为 t在反馈文档中的重要程度, 表示分别为以词项t为头结点和词项q为头结点的词向量, μt为查询Q中所有查询词与词t的语义相似度的均值, σ 表示查询 Q中所有查询词与词项t语 义相似度的方差 。 6.根据权利要求5所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 所述 词向量的维度为3 00。 7.根据权利要求1所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 步骤 S4中, 所述 候选扩展词项的权 重计算算式如下:权 利 要 求 书 1/2 页 2 CN 114840639 A 2λ∈{0,0.1,0.2,. ..,1.0}; 上式中, tf(t,d)为在文档d中, 词项t的数量, N为 反馈文档篇数, λ为平 衡因子, wt候选扩 展词项的权 重。 8.根据权利要求7所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 对相 关性匹配方法和词项间语义匹配方法的值进 行归一化处理, 平衡因子用于调整两部 分的贡 献, 对候选扩展词项排序。 9.根据权利要求1所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 步骤 S5中, 新的查询计算 算式如下: Q′=(1‑α )×Q+α×Q1; α ∈{0,0.1,0.2,. ..,1.0}; |Tf|∈{10,20,3 0,50}; 上式中, α 为平衡因子, Q1为权重最大的前|Tf|个扩展词项组成 的向量, Q为原始查询向 量, Q′为Q1和Q构成新的查询向量。 10.根据权利要求1或9所述的基于ConceptNet的信息检索查询扩展方法, 其特征在于, 使用新的查询向量进行二次检索, 计算文档得分, 按照文档得分的大小排序并显示文档排 序的结果。权 利 要 求 书 2/2 页 3 CN 114840639 A 3

.PDF文档 专利 基于ConceptNet的信息检索查询扩展方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ConceptNet的信息检索查询扩展方法 第 1 页 专利 基于ConceptNet的信息检索查询扩展方法 第 2 页 专利 基于ConceptNet的信息检索查询扩展方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。