(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210388468.7 (22)申请日 2022.04.14 (65)同一申请的已公布的文献号 申请公布号 CN 114461943 A (43)申请公布日 2022.05.10 (73)专利权人 中国测绘科 学研究院 地址 100036 北京市海淀区莲 花池西路28 号 (72)发明人 罗安 李朋朋 王勇 徐胜华  车向红  (74)专利代理 机构 北京棘龙知识产权代理有限 公司 11740 专利代理师 李改平 (51)Int.Cl. G06F 16/9537(2019.01) G06F 16/29(2019.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (56)对比文件 CN 113326267 A,2021.08.31 CN 113592037 A,2021.1 1.02 CN 111444700 A,2020.07.24 CN 112148894 A,2020.12.2 9 US 20210183 32 A1,2021.01.21 Tessio Novack等.Graph -based matc hing of Points-of-i nterest from co llaborative geo-datasets. 《I nternati onal Journal of Geo-Informati on》 .2018, 审查员 轩海珍 (54)发明名称 基于深度学习的多源POI语义匹配方法、 装 置及其存 储介质 (57)摘要 一种基于深度学习的多源POI语义匹配方 法、 装置及其存储介质, 该方法在于: 通过使用不 同的中文分词方法对POI的文本属性进行分词, 并利用分词结果来训练Word2vec模型生成相应 的词向量; 然后, 使用Text ‑CNN和MLP模型分别提 取文本属性和空间属性的特征, 并生成其相应的 特征向量表示; 最后, 使用ESIM对待匹配POI对进 行局部推理和推理组合, 以确定它们是否匹配, 很大程度上提升了多源POI匹配效率。 本发明通 过Word2Vec、 Text ‑CNN和MLP模型很好的提取了 POI属性的文本语义特征和地理空间特征; 基于 Bi‑LSTM和注意力机制解决了POI属性之间相互 孤立的问题; 将POI语义匹配计算转化为信息二 分类问题, 解决了由于相似性阈值设置所导致了 匹配准确率低等问题。 权利要求书3页 说明书10页 附图3页 CN 114461943 B 2022.08.26 CN 114461943 B 1.一种基于深度学习的多源POI语义匹配方法, 其特 征在于, 包括如下步骤: 待匹配POI属性选取步骤S1 10: 针对不同数据源中数据属性之间的类型差异, 对待匹配数据集中的POI属性进行筛选, 即筛选出不同数据源中地理空间实体的相同属性, 所述相同属性包括文本属性和地理坐标 属性, 具体包括: 名称、 地址、 类型和经纬度; 获取文本属性词向量 步骤S120: 针对所述相同属性中具体不同的文本属性, 采用不同的文本分词方法进行分词, 然后 利用中文分词结果训练W ord2Vec模型生成其对应的词向量表示; 提取属性特 征向量步骤S130: 对于文本属性, 包括名称属性、 地址属性、 类型属性采用了基于文本卷积神经网络, 对 于地理坐标属 性, 包括经纬度属性, 采用多层感知器模型进行了语义特征和 地理空间特征 提取, 并生成其相应的特 征向量表示; 基于ESIM的多源POI匹配步骤S140: 对于上述步骤所提取的特征向量, 使用增强序列推理模型来对POI的相同属性进行局 部推理和推理组合, 实现POI对的匹配任务; 所述增强序列推理模型包括, 模型输入编码层、 属性特征局部推理层、 属性特 征推理组合层和匹配结果输出层; 具体的, 所述步骤S110包括如下子步骤 S111: 从待匹配的多种数据源中任意选择一个数据源作为参考数据源, 并选取该数据 源中的一个属性作为 参考属性; S112: 判断该参 考属性在其 他剩余的所有 待匹配数据源中是否都存在; S113: 如果存在, 则将该参 考属性作为相同属性进行保存; S114: 选取参考数据源中的下一个属性重复进行S111 ‑S113的步骤, 直到参考数据源中 所有属性遍历完为止; 所述步骤S120包括如下子步骤: S121:对于名称属性, 采用结巴分词的精确模式进行名称属性的中文分词; S122: 对于地址属性, 首先基于中文地址表达模型和地址要素组成特征, 构 建了地址要 素的特征词库和表达规则, 然后, 基于该 特征词库和规则进行了中文的地址要素的切分; S123: 对于类型属性, 首先, 基于各POI数据源开放API获取各自POI的分类体系, 构建相 应的分类 体系库, 然后, 基于该分类 体系库利用双向最大匹配方法进行类型属性的分词; S124: 对通过步骤S121 ‑S123的中文分词结果生成文本训练语料库, 利用所述文本训练 语料库对Word2Vec模型进行训练, 获取文本属性中词与词之间的语义关系, 及其相应的词 向量表示; 所述步骤S130包括如下子步骤: S131: 对于文本属性, 预先通过Word2vec模型生成文本属性中每个词  cl的词向量表示, ,n表示通过步骤S121 ‑S123生成所有词去重后的总数, 将 这些词向量进行堆叠构 建文本属性词向量 查找表 ,d表示词向量的维度, R表示实数; S132: 对所述文本属性词向量查找表 D采用一维卷积, 卷积操作中使用区域大小为h的权 利 要 求 书 1/3 页 2 CN 114461943 B 2过滤器 与所述文本属性词向量查找表 D的子矩阵进行点积操作, 生成新的特 征图; 然后, 对卷积结果的特征图采用最大池化方法进 行池化操作, 使其变成 固定长度的向 量; 最后, 将这些特征进行拼接, 并通过全连接的tanh层将其扩展为特定维度的向量, 从而 提取文本属性的语义特 征, 并得到其特 征向量; S133: 将地理坐标属性视为二维向量, 输入多层感知器模型, 所述多层感知器模型至少 包含输入层、 隐藏层和输出层三层节点, 每一层中的任何节点都会全连接到下一层中的所 有节点, 其中所述隐藏层 有两个, 第一个隐藏层将输入的经纬度进 行扩维操作, 使其输出维 度是文本属性特征向量 维度的4倍; 第二个隐藏层 对上一层的输出进 行降维操作, 使其输出 维度等于文本属性特征向量的维度, 所述输出层输出的特征向量为地理空间属性的地理空 间特征向量; 所述步骤S140包括: 任取一对待 匹配的POIa和POIb, 通过步骤S110 ‑S130得到 POIa和POIb相同属性的特征向 量表示, 分别 记为a1、a2……am和b1、b2……bm, 其中, m表示 POIa和POIb相同属性的个数, 增强 序列推理模型每一层详细的匹配过程如下: S141: 对于模型输入编码层, 利用双向长短时记忆神经网络 (Bi ‑LSTM) 对POI相同属性 进行编码, 首先, 将POI相同属性的特征向量 ai和bj, 其中 , 作为网络输入; 然后, 使用所述双向长短时记忆神经网络对输入的特征向量进行编码, 提取每个属 性与其 相邻属性之间的依赖信息, 以获取更高级别的特征表示, 最后, 将所述双向长短时记忆神经 网络的隐藏层状态 和 输出, 作为下一层的输入; S142: 对于属性特征局部推理层, 使用注意力机制模型来获取 POIa和POIb之间的局部相 关性, 即相同属性之间的相关性; 首先, 将两个POI的隐藏层状态 和 进行点积操作, 得 到注意力权 重矩阵eij; 然后, 基于该矩阵求得每个属性对应的新向量 和 , 是由 属性序列通过加权求和得到, 是由 属性序列通过加权求和得到; 最后, 将 和 , 和 进行差和点积 操作, 并对它 们进行拼接; S143: 对于属性特征推理组合层, 使用所述双向长短时记忆神经网络来整合局部推理 信息; 首先, 采用所述双向长短时记忆神经网络提取局部推理信息 和 及其相邻信息; 然后, 同时使用最大池化方法和平均池化方 法进行池化操作, 并将两个池化结果进行拼接, 生成向量 ; S144: 对于匹配结果输出层, 使用MLP预测对拼接向量 v进行二分类操作, 并通过 softmax函数进行激活; 最终输出的预测结果是1或0, 当结果为1时, 表示 POIa和POIb是匹配 的, 当结果 为0时, 表示 POIa和POIb是不匹配的。 2.一种存 储介质, 用于存 储计算机可 执行指令, 其特 征在于:权 利 要 求 书 2/3 页 3 CN 114461943 B 3

.PDF文档 专利 基于深度学习的多源POI语义匹配方法、装置及其存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度学习的多源POI语义匹配方法、装置及其存储介质 第 1 页 专利 基于深度学习的多源POI语义匹配方法、装置及其存储介质 第 2 页 专利 基于深度学习的多源POI语义匹配方法、装置及其存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。