专利一种RDF数据冗余语义的检测方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210275049.2 (22)申请日 2022.03.21 (71)申请人南京航空航天大学地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人陈一鸣　严丽　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师马玉雯 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称一种RDF数据冗余语义的检测方法 (57)摘要本发明公开了一种RDF数据冗余语义的检测方法。 RDF是知识图谱的一种表示模型，为实现对以RDF表示的知识图谱进行冗余语义的检测，本发明在总结和分析现有的RDF冗余语义检测方法的基础上，改进了RDF相似度算法，对不同语义信息对相似度的贡献做出了权值设计，且权值设置是领域独立的和自动化的。并且该算法在语义信息的表示中还设计了剪枝技术，有效提高了相似性计算的速度。此外在相似度算法的基础上，本发明还提出了一种筛选候选对象的选择方法，用于寻找数据集中近似的候选数据。该方法是基于局部敏感哈希算法的，该算法能有效解决大规模 RDF数据线性搜索带来的时间复杂度高的问题，具有良好的时间性能。权利要求书2页说明书8页附图1页 CN 114692646 A 2022.07.01 CN 114692646 A 1.一种RDF 数据冗余语义的检测方法，其特征在于，包括如下步骤： (1)设计了RDF节点语义信息表示方法； (2)提出了RDF语义信息中路径的权重设计；对于RDF节点，其路径的集合构成其语义信息；为了计算相似度，在相似度计算中还需要设计每条路径的权重； (3)结合RDF语义信息和权重设计，提出了RDF节点相似度算法；通过对比两个节点语义信息中的路径相似度来综合得出相似度评分； (4)基于局部敏感哈希算法，提出RDF 数据聚类方法，用于提高冗余搜索效率。 2.根据权利1要求所述的一种RDF数据冗余语义的检测方法，其特征在于，所述步骤(1) 中设计了RDF节点语义信息表示方法，具体规则分为以下步骤： (1.1)找到一个子图，该子图以目标节点为中心，以指定的距离为半径；通过构造一组路径来表示子图，并将子图视为无向图；所述子图表示目标节点的语义信息； (1.2)然后构造一组从目标节点到其他节点的路径，其长度为指定的距离； (1.3)构造完成后，再将子图中边的方向添加到步骤(1.2)所述路径中的谓词中。 3.根据权利2要求所述的一种RDF数据冗余语义的检测方法，其特征在于，具有三元组的RDF数据模型可以看作是有向图，其中主语和宾语是顶点，所述谓词是主语顶点到宾语顶点的边。 4.根据权利1要求所述的一种RDF数据冗余语义的检测方法，其特征在于，所述步骤(2) 中设计的RDF语义信息中路径的权重，为计算RDF相似度增加了准确性，详细步骤如下： (2.1)RDF语义信息中的权重由路径的权重决定； (2.2)路径的权重由路径中的三元组决定； (2.3)分类能力强的三元组具有更大的权重，能够很好地区分相似的节点；三元组权重与谓词的分类能力呈正相关；而三元组的权重通过三元组中谓词的分类能力来计算；对于谓词，它所链接的值的类型越多样，分类就越强；计算方法如等式(1)所示其中“Per”表示谓词pi的分类能力。 5.根据权利1要求所述的一种RDF数据冗余语义的检测方法，其特征在于，所述步骤(3) 中提出的基于语义信息计算的RDF相似度算法，详细步骤如下： (3.1)让节点uri1和uri2成为计算相似性的两个资源；首先需要获得节点uri1和uri2 的上下文信息表示，所述上下文信息表示分别由paths1和paths2表示；然后，对于paths1 中的每个路径，进一步确定以下情况： (3.1.1)当path1的最后一个元素的类型为Literal；此时，在paths2中搜索能够与 path1进行比较的所有可能路径；然后计算path1和path2之间的相似性，这是通过计算它们最后元素之间的文本相似性来实现的；从所有相似性中，最终选择一个相似性最高的，其中对应的path2被视为与path1匹配；最后将匹配项的相似性得分添加到path_score中，并计算两条匹配路径的权重，这两条匹配路径被添加到path_weight中； (3.1.2)当p ath1的最后一个元素具有URI类型；然后，在p aths2中搜索可能的路径，该路径能够与path1进行比较；然后比较path2的最后一个元素是否与path1的最后一个元素权　利　要　求　书 1/2 页 2 CN 114692646 A 2相同；如果它们相同，则最后一个元素相同的path2被视为与path1匹配项；接着将匹配项的相似性得分添加到path_score中，并计算两条匹配路径的权重，这两条匹配路径被添加到 path_weight中；最后， total_score等于所有匹配对的相似性之和乘以相应的权重； (3.2)当步骤(3.1.2)所述两条匹配路径深度相同，且路径中对应位置的谓词具有可比性时，认为这两条路径具有可比性；谓词的可比性意味着两个谓词具有相同的值和相同的方向；如果两个谓词具有不同的值，但其中一个谓词是本体模型中另一个谓词的祖先，则认为这两个谓词具有可比性。 6.根据权利1要求所述的一种RDF数据冗余语义的检测方法，其特征在于，所述步骤(4) 中设计的适用于RDF冗余检测的聚类算法，具体步骤如下： (4.1)选择以RDF资源所在三元组的主语或宾语作为资源的特征，对RDF节点特征集进行分词，构造特征矩阵； (4.2)选择维度n，在特征矩阵上计算n行Minhash，构造Minhash签名矩阵；其中n为哈希函数个数； (4.3)选择波段b和行数r，其中， b*r＝ n，并设置一个阈值t； (4.4)签名矩阵采用LSH，将资源划分为桶，构造候选对； (4.5)检查每个候选对的签名，并确定组件的分数是否至少为t； (4.6)对于具有相似签名的候选对，检查其相似度以证明它们是否是重复资源。权　利　要　求　书 2/2 页 3 CN 114692646 A 3

专利 一种RDF数据冗余语义的检测方法

专利一种RDF数据冗余语义的检测方法