(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210275049.2 (22)申请日 2022.03.21 (71)申请人 南京航空航天大 学 地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人 陈一鸣 严丽  (74)专利代理 机构 南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师 马玉雯 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 一种RDF数据冗余语义的检测方法 (57)摘要 本发明公开了一种RDF数据冗余语义的检测 方法。 RDF是知识图谱的一种表示模型, 为实现对 以RDF表示的知识图谱进行冗余语义的检测, 本 发明在总结和分析现有的RDF冗余语义检测方法 的基础上, 改进了RDF相似度算法, 对不同语义信 息对相似度的贡献做出了权值设计, 且权值设置 是领域独立的和自动化的。 并且 该算法在语义信 息的表示中还设计了剪枝技术, 有效提高了相似 性计算的速度。 此外在相似度算法的基础上, 本 发明还提出了一种筛选候选对象的选择方法, 用 于寻找数据集中近似的候选数据。 该方法是基于 局部敏感哈希 算法的, 该算法能有效解决大规模 RDF数据线性搜索带来的时间复杂度高的问题, 具有良好的时间性能。 权利要求书2页 说明书8页 附图1页 CN 114692646 A 2022.07.01 CN 114692646 A 1.一种RDF 数据冗余语义的检测方法, 其特 征在于, 包括如下步骤: (1)设计了RDF节点语义信息表示方法; (2)提出了RDF语义信息中路径的权重设计; 对于RDF节点, 其路径的集合构成其语义信 息; 为了计算相似度, 在相似度计算中还需要设计 每条路径的权 重; (3)结合RDF语义信息和权重设计, 提出了RDF节点相似度 算法; 通过对比两个节点语义 信息中的路径相似度来综合得 出相似度评分; (4)基于局部敏感哈希算法, 提出RDF 数据聚类方法, 用于提高冗余搜索效率。 2.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(1) 中设计了RDF节点语义信息表示方法, 具体规则分为以下步骤: (1.1)找到一个子图, 该子图以目标节点为中心, 以指定的距离为半径; 通过构造一组 路径来表示子图, 并将子图视为无向图; 所述子图表示目标节点的语义信息; (1.2)然后构造一组从目标节点到其 他节点的路径, 其长度为指定的距离; (1.3)构造 完成后, 再将子图中边的方向添加到步骤(1.2)所述路径中的谓词中。 3.根据权利2要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 具有三元组 的RDF数据模 型可以看作是有向图, 其中主语和宾语是顶点, 所述谓词是主语顶点到宾语顶 点的边。 4.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(2) 中设计的RDF语义信息中路径的权 重, 为计算RDF相似度增 加了准确性, 详细步骤如下: (2.1)RDF语义信息中的权 重由路径的权 重决定; (2.2)路径的权 重由路径中的三元组决定; (2.3)分类能力强的三元组具有更大的权重, 能够很好地区分相似的节点; 三元组权重 与谓词的分类能力呈正相关; 而三元组的权重通过三元组中谓词的分类能力来计算; 对于 谓词, 它所链接的值的类型越多样, 分类就越强; 计算方法如等式(1)所示 其中“Per”表示谓词pi的分类能力。 5.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(3) 中提出的基于语义信息计算的RDF相似度算法, 详细步骤如下: (3.1)让节点uri1和uri2成为计算相似性 的两个资源; 首先需要获得节点uri1和uri2 的上下文信息表示, 所述上下文信息表示分别由paths1和paths2表示; 然后, 对于paths1 中 的每个路径, 进一 步确定以下情况: (3.1.1)当path1的最后一个元素的类型为Literal; 此时, 在paths2中搜索能够与 path1进行比较的所有可能路径; 然后计算path1和path2之间的相似性, 这是通过计算它们 最后元素之间的文本相似性来 实现的; 从所有相似性中, 最 终选择一个相似性最高的, 其中 对应的path2被视为与path1匹配; 最后将匹配项的相似性得分添加到path_score中, 并计 算两条匹配路径的权 重, 这两条匹配路径被添加到path_weight中; (3.1.2)当p ath1的最后一个元素具有URI类型; 然后, 在p aths2中搜索可能的路径, 该 路径能够与path1进行比较; 然后比较path2的最后一个元素是否与path1的最后一个元素权 利 要 求 书 1/2 页 2 CN 114692646 A 2相同; 如果它们相同, 则最后一个元素相同的path2被视为与path1匹配项; 接着将匹配项的 相似性得分添加到path_score中, 并计算两条匹配路径的权重, 这两条匹配路径被添加 到 path_weight中; 最后, total_score等于所有匹配对的相似性之和乘以相应的权 重; (3.2)当步骤(3.1.2)所述两条匹配路径深度相同, 且路径中对应位置的谓词具有可比 性时, 认为这两条路径具有可比性; 谓词的可比性意味着两个谓词 具有相同的值和相同的 方向; 如果两个谓词具有不同的值, 但其中一个谓词是本体模 型中另一个谓词的祖先, 则认 为这两个谓词具有可比性。 6.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(4) 中设计的适用于RDF冗余检测的聚类算法, 具体步骤如下: (4.1)选择以RDF资源所在三元组的主语或宾语作为资源的特征, 对RDF节点特征集进 行分词, 构造特 征矩阵; (4.2)选择维度n, 在特征矩阵上计算n行Minhash, 构造Minhash签名矩阵; 其中n为哈希 函数个数; (4.3)选择波段b和行 数r, 其中, b*r= n, 并设置一个阈值t; (4.4)签名矩阵采用LSH, 将资源划分为桶, 构造候选对; (4.5)检查每 个候选对的签名, 并确定组件的分数 是否至少为t; (4.6)对于具有相似签名的候选对, 检查 其相似度以证明它 们是否是重复资源。权 利 要 求 书 2/2 页 3 CN 114692646 A 3

.PDF文档 专利 一种RDF数据冗余语义的检测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种RDF数据冗余语义的检测方法 第 1 页 专利 一种RDF数据冗余语义的检测方法 第 2 页 专利 一种RDF数据冗余语义的检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。