(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210275049.2
(22)申请日 2022.03.21
(71)申请人 南京航空航天大 学
地址 210016 江苏省南京市秦淮区御道街
29号
(72)发明人 陈一鸣 严丽
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 马玉雯
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种RDF数据冗余语义的检测方法
(57)摘要
本发明公开了一种RDF数据冗余语义的检测
方法。 RDF是知识图谱的一种表示模型, 为实现对
以RDF表示的知识图谱进行冗余语义的检测, 本
发明在总结和分析现有的RDF冗余语义检测方法
的基础上, 改进了RDF相似度算法, 对不同语义信
息对相似度的贡献做出了权值设计, 且权值设置
是领域独立的和自动化的。 并且 该算法在语义信
息的表示中还设计了剪枝技术, 有效提高了相似
性计算的速度。 此外在相似度算法的基础上, 本
发明还提出了一种筛选候选对象的选择方法, 用
于寻找数据集中近似的候选数据。 该方法是基于
局部敏感哈希 算法的, 该算法能有效解决大规模
RDF数据线性搜索带来的时间复杂度高的问题,
具有良好的时间性能。
权利要求书2页 说明书8页 附图1页
CN 114692646 A
2022.07.01
CN 114692646 A
1.一种RDF 数据冗余语义的检测方法, 其特 征在于, 包括如下步骤:
(1)设计了RDF节点语义信息表示方法;
(2)提出了RDF语义信息中路径的权重设计; 对于RDF节点, 其路径的集合构成其语义信
息; 为了计算相似度, 在相似度计算中还需要设计 每条路径的权 重;
(3)结合RDF语义信息和权重设计, 提出了RDF节点相似度 算法; 通过对比两个节点语义
信息中的路径相似度来综合得 出相似度评分;
(4)基于局部敏感哈希算法, 提出RDF 数据聚类方法, 用于提高冗余搜索效率。
2.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(1)
中设计了RDF节点语义信息表示方法, 具体规则分为以下步骤:
(1.1)找到一个子图, 该子图以目标节点为中心, 以指定的距离为半径; 通过构造一组
路径来表示子图, 并将子图视为无向图; 所述子图表示目标节点的语义信息;
(1.2)然后构造一组从目标节点到其 他节点的路径, 其长度为指定的距离;
(1.3)构造 完成后, 再将子图中边的方向添加到步骤(1.2)所述路径中的谓词中。
3.根据权利2要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 具有三元组
的RDF数据模 型可以看作是有向图, 其中主语和宾语是顶点, 所述谓词是主语顶点到宾语顶
点的边。
4.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(2)
中设计的RDF语义信息中路径的权 重, 为计算RDF相似度增 加了准确性, 详细步骤如下:
(2.1)RDF语义信息中的权 重由路径的权 重决定;
(2.2)路径的权 重由路径中的三元组决定;
(2.3)分类能力强的三元组具有更大的权重, 能够很好地区分相似的节点; 三元组权重
与谓词的分类能力呈正相关; 而三元组的权重通过三元组中谓词的分类能力来计算; 对于
谓词, 它所链接的值的类型越多样, 分类就越强; 计算方法如等式(1)所示
其中“Per”表示谓词pi的分类能力。
5.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(3)
中提出的基于语义信息计算的RDF相似度算法, 详细步骤如下:
(3.1)让节点uri1和uri2成为计算相似性 的两个资源; 首先需要获得节点uri1和uri2
的上下文信息表示, 所述上下文信息表示分别由paths1和paths2表示; 然后, 对于paths1 中
的每个路径, 进一 步确定以下情况:
(3.1.1)当path1的最后一个元素的类型为Literal; 此时, 在paths2中搜索能够与
path1进行比较的所有可能路径; 然后计算path1和path2之间的相似性, 这是通过计算它们
最后元素之间的文本相似性来 实现的; 从所有相似性中, 最 终选择一个相似性最高的, 其中
对应的path2被视为与path1匹配; 最后将匹配项的相似性得分添加到path_score中, 并计
算两条匹配路径的权 重, 这两条匹配路径被添加到path_weight中;
(3.1.2)当p ath1的最后一个元素具有URI类型; 然后, 在p aths2中搜索可能的路径, 该
路径能够与path1进行比较; 然后比较path2的最后一个元素是否与path1的最后一个元素权 利 要 求 书 1/2 页
2
CN 114692646 A
2相同; 如果它们相同, 则最后一个元素相同的path2被视为与path1匹配项; 接着将匹配项的
相似性得分添加到path_score中, 并计算两条匹配路径的权重, 这两条匹配路径被添加 到
path_weight中; 最后, total_score等于所有匹配对的相似性之和乘以相应的权 重;
(3.2)当步骤(3.1.2)所述两条匹配路径深度相同, 且路径中对应位置的谓词具有可比
性时, 认为这两条路径具有可比性; 谓词的可比性意味着两个谓词 具有相同的值和相同的
方向; 如果两个谓词具有不同的值, 但其中一个谓词是本体模 型中另一个谓词的祖先, 则认
为这两个谓词具有可比性。
6.根据权利1要求所述的一种RDF数据冗余语义的检测方法, 其特征在于, 所述步骤(4)
中设计的适用于RDF冗余检测的聚类算法, 具体步骤如下:
(4.1)选择以RDF资源所在三元组的主语或宾语作为资源的特征, 对RDF节点特征集进
行分词, 构造特 征矩阵;
(4.2)选择维度n, 在特征矩阵上计算n行Minhash, 构造Minhash签名矩阵; 其中n为哈希
函数个数;
(4.3)选择波段b和行 数r, 其中, b*r= n, 并设置一个阈值t;
(4.4)签名矩阵采用LSH, 将资源划分为桶, 构造候选对;
(4.5)检查每 个候选对的签名, 并确定组件的分数 是否至少为t;
(4.6)对于具有相似签名的候选对, 检查 其相似度以证明它 们是否是重复资源。权 利 要 求 书 2/2 页
3
CN 114692646 A
3
专利 一种RDF数据冗余语义的检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:10上传分享