专利基于深度学习的多源POI语义匹配方法、装置及其存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210388468.7 (22)申请日 2022.04.14 (65)同一申请的已公布的文献号申请公布号 CN 114461943 A (43)申请公布日 2022.05.10 (73)专利权人中国测绘科学研究院地址 100036 北京市海淀区莲花池西路28 号 (72)发明人罗安　李朋朋　王勇　徐胜华　车向红　 (74)专利代理机构北京棘龙知识产权代理有限公司 11740 专利代理师李改平 (51)Int.Cl. G06F 16/9537(2019.01) G06F 16/29(2019.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (56)对比文件 CN 113326267 A,2021.08.31 CN 113592037 A,2021.1 1.02 CN 111444700 A,2020.07.24 CN 112148894 A,2020.12.2 9 US 20210183 32 A1,2021.01.21 Tessio Novack等.Graph -based matc hing of Points-of-i nterest from co llaborative geo-datasets. 《I nternati onal Journal of Geo-Informati on》 .2018, 审查员轩海珍 (54)发明名称基于深度学习的多源POI语义匹配方法、装置及其存储介质 (57)摘要一种基于深度学习的多源POI语义匹配方法、装置及其存储介质，该方法在于：通过使用不同的中文分词方法对POI的文本属性进行分词，并利用分词结果来训练Word2vec模型生成相应的词向量；然后，使用Text ‑CNN和MLP模型分别提取文本属性和空间属性的特征，并生成其相应的特征向量表示；最后，使用ESIM对待匹配POI对进行局部推理和推理组合，以确定它们是否匹配，很大程度上提升了多源POI匹配效率。本发明通过Word2Vec、 Text ‑CNN和MLP模型很好的提取了 POI属性的文本语义特征和地理空间特征；基于 Bi‑LSTM和注意力机制解决了POI属性之间相互孤立的问题；将POI语义匹配计算转化为信息二分类问题，解决了由于相似性阈值设置所导致了匹配准确率低等问题。权利要求书3页说明书10页附图3页 CN 114461943 B 2022.08.26 CN 114461943 B 1.一种基于深度学习的多源POI语义匹配方法，其特征在于，包括如下步骤：待匹配POI属性选取步骤S1 10：针对不同数据源中数据属性之间的类型差异，对待匹配数据集中的POI属性进行筛选，即筛选出不同数据源中地理空间实体的相同属性，所述相同属性包括文本属性和地理坐标属性，具体包括：名称、地址、类型和经纬度；获取文本属性词向量步骤S120：针对所述相同属性中具体不同的文本属性，采用不同的文本分词方法进行分词，然后利用中文分词结果训练W ord2Vec模型生成其对应的词向量表示；提取属性特征向量步骤S130：对于文本属性，包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络，对于地理坐标属性，包括经纬度属性，采用多层感知器模型进行了语义特征和地理空间特征提取，并生成其相应的特征向量表示；基于ESIM的多源POI匹配步骤S140：对于上述步骤所提取的特征向量，使用增强序列推理模型来对POI的相同属性进行局部推理和推理组合，实现POI对的匹配任务；所述增强序列推理模型包括，模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层；具体的，所述步骤S110包括如下子步骤 S111：从待匹配的多种数据源中任意选择一个数据源作为参考数据源，并选取该数据源中的一个属性作为参考属性； S112：判断该参考属性在其他剩余的所有待匹配数据源中是否都存在； S113：如果存在，则将该参考属性作为相同属性进行保存； S114：选取参考数据源中的下一个属性重复进行S111 ‑S113的步骤，直到参考数据源中所有属性遍历完为止；所述步骤S120包括如下子步骤： S121:对于名称属性，采用结巴分词的精确模式进行名称属性的中文分词； S122：对于地址属性，首先基于中文地址表达模型和地址要素组成特征，构建了地址要素的特征词库和表达规则，然后，基于该特征词库和规则进行了中文的地址要素的切分； S123：对于类型属性，首先，基于各POI数据源开放API获取各自POI的分类体系，构建相应的分类体系库，然后，基于该分类体系库利用双向最大匹配方法进行类型属性的分词； S124：对通过步骤S121 ‑S123的中文分词结果生成文本训练语料库，利用所述文本训练语料库对Word2Vec模型进行训练，获取文本属性中词与词之间的语义关系，及其相应的词向量表示；所述步骤S130包括如下子步骤： S131：对于文本属性，预先通过Word2vec模型生成文本属性中每个词 cl的词向量表示，，n表示通过步骤S121 ‑S123生成所有词去重后的总数，将这些词向量进行堆叠构建文本属性词向量查找表，d表示词向量的维度， R表示实数； S132：对所述文本属性词向量查找表 D采用一维卷积，卷积操作中使用区域大小为h的权　利　要　求　书 1/3 页 2 CN 114461943 B 2过滤器与所述文本属性词向量查找表 D的子矩阵进行点积操作，生成新的特征图；然后，对卷积结果的特征图采用最大池化方法进行池化操作，使其变成固定长度的向量；最后，将这些特征进行拼接，并通过全连接的tanh层将其扩展为特定维度的向量，从而提取文本属性的语义特征，并得到其特征向量； S133：将地理坐标属性视为二维向量，输入多层感知器模型，所述多层感知器模型至少包含输入层、隐藏层和输出层三层节点，每一层中的任何节点都会全连接到下一层中的所有节点，其中所述隐藏层有两个，第一个隐藏层将输入的经纬度进行扩维操作，使其输出维度是文本属性特征向量维度的4倍；第二个隐藏层对上一层的输出进行降维操作，使其输出维度等于文本属性特征向量的维度，所述输出层输出的特征向量为地理空间属性的地理空间特征向量；所述步骤S140包括：任取一对待匹配的POIa和POIb，通过步骤S110 ‑S130得到 POIa和POIb相同属性的特征向量表示，分别记为a1、a2……am和b1、b2……bm，其中， m表示 POIa和POIb相同属性的个数，增强序列推理模型每一层详细的匹配过程如下： S141：对于模型输入编码层，利用双向长短时记忆神经网络（Bi ‑LSTM）对POI相同属性进行编码，首先，将POI相同属性的特征向量 ai和bj，其中，作为网络输入；然后，使用所述双向长短时记忆神经网络对输入的特征向量进行编码，提取每个属性与其相邻属性之间的依赖信息，以获取更高级别的特征表示，最后，将所述双向长短时记忆神经网络的隐藏层状态和输出，作为下一层的输入； S142：对于属性特征局部推理层，使用注意力机制模型来获取 POIa和POIb之间的局部相关性，即相同属性之间的相关性；首先，将两个POI的隐藏层状态和进行点积操作，得到注意力权重矩阵eij；然后，基于该矩阵求得每个属性对应的新向量和，是由属性序列通过加权求和得到，是由属性序列通过加权求和得到；最后，将和，和进行差和点积操作，并对它们进行拼接； S143：对于属性特征推理组合层，使用所述双向长短时记忆神经网络来整合局部推理信息；首先，采用所述双向长短时记忆神经网络提取局部推理信息和及其相邻信息；然后，同时使用最大池化方法和平均池化方法进行池化操作，并将两个池化结果进行拼接，生成向量； S144：对于匹配结果输出层，使用MLP预测对拼接向量 v进行二分类操作，并通过 softmax函数进行激活；最终输出的预测结果是1或0，当结果为1时，表示 POIa和POIb是匹配的，当结果为0时，表示 POIa和POIb是不匹配的。 2.一种存储介质，用于存储计算机可执行指令，其特征在于：权　利　要　求　书 2/3 页 3 CN 114461943 B 3

专利 基于深度学习的多源POI语义匹配方法、装置及其存储介质

专利基于深度学习的多源POI语义匹配方法、装置及其存储介质