(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210388468.7
(22)申请日 2022.04.14
(65)同一申请的已公布的文献号
申请公布号 CN 114461943 A
(43)申请公布日 2022.05.10
(73)专利权人 中国测绘科 学研究院
地址 100036 北京市海淀区莲 花池西路28
号
(72)发明人 罗安 李朋朋 王勇 徐胜华
车向红
(74)专利代理 机构 北京棘龙知识产权代理有限
公司 11740
专利代理师 李改平
(51)Int.Cl.
G06F 16/9537(2019.01)
G06F 16/29(2019.01)G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/04(2006.01)
(56)对比文件
CN 113326267 A,2021.08.31
CN 113592037 A,2021.1 1.02
CN 111444700 A,2020.07.24
CN 112148894 A,2020.12.2 9
US 20210183 32 A1,2021.01.21
Tessio Novack等.Graph -based matc hing
of Points-of-i nterest from co llaborative
geo-datasets. 《I nternati onal Journal of
Geo-Informati on》 .2018,
审查员 轩海珍
(54)发明名称
基于深度学习的多源POI语义匹配方法、 装
置及其存 储介质
(57)摘要
一种基于深度学习的多源POI语义匹配方
法、 装置及其存储介质, 该方法在于: 通过使用不
同的中文分词方法对POI的文本属性进行分词,
并利用分词结果来训练Word2vec模型生成相应
的词向量; 然后, 使用Text ‑CNN和MLP模型分别提
取文本属性和空间属性的特征, 并生成其相应的
特征向量表示; 最后, 使用ESIM对待匹配POI对进
行局部推理和推理组合, 以确定它们是否匹配,
很大程度上提升了多源POI匹配效率。 本发明通
过Word2Vec、 Text ‑CNN和MLP模型很好的提取了
POI属性的文本语义特征和地理空间特征; 基于
Bi‑LSTM和注意力机制解决了POI属性之间相互
孤立的问题; 将POI语义匹配计算转化为信息二
分类问题, 解决了由于相似性阈值设置所导致了
匹配准确率低等问题。
权利要求书3页 说明书10页 附图3页
CN 114461943 B
2022.08.26
CN 114461943 B
1.一种基于深度学习的多源POI语义匹配方法, 其特 征在于, 包括如下步骤:
待匹配POI属性选取步骤S1 10:
针对不同数据源中数据属性之间的类型差异, 对待匹配数据集中的POI属性进行筛选,
即筛选出不同数据源中地理空间实体的相同属性, 所述相同属性包括文本属性和地理坐标
属性, 具体包括: 名称、 地址、 类型和经纬度;
获取文本属性词向量 步骤S120:
针对所述相同属性中具体不同的文本属性, 采用不同的文本分词方法进行分词, 然后
利用中文分词结果训练W ord2Vec模型生成其对应的词向量表示;
提取属性特 征向量步骤S130:
对于文本属性, 包括名称属性、 地址属性、 类型属性采用了基于文本卷积神经网络, 对
于地理坐标属 性, 包括经纬度属性, 采用多层感知器模型进行了语义特征和 地理空间特征
提取, 并生成其相应的特 征向量表示;
基于ESIM的多源POI匹配步骤S140:
对于上述步骤所提取的特征向量, 使用增强序列推理模型来对POI的相同属性进行局
部推理和推理组合, 实现POI对的匹配任务; 所述增强序列推理模型包括, 模型输入编码层、
属性特征局部推理层、 属性特 征推理组合层和匹配结果输出层;
具体的,
所述步骤S110包括如下子步骤
S111: 从待匹配的多种数据源中任意选择一个数据源作为参考数据源, 并选取该数据
源中的一个属性作为 参考属性;
S112: 判断该参 考属性在其 他剩余的所有 待匹配数据源中是否都存在;
S113: 如果存在, 则将该参 考属性作为相同属性进行保存;
S114: 选取参考数据源中的下一个属性重复进行S111 ‑S113的步骤, 直到参考数据源中
所有属性遍历完为止;
所述步骤S120包括如下子步骤:
S121:对于名称属性, 采用结巴分词的精确模式进行名称属性的中文分词;
S122: 对于地址属性, 首先基于中文地址表达模型和地址要素组成特征, 构 建了地址要
素的特征词库和表达规则, 然后, 基于该 特征词库和规则进行了中文的地址要素的切分;
S123: 对于类型属性, 首先, 基于各POI数据源开放API获取各自POI的分类体系, 构建相
应的分类 体系库, 然后, 基于该分类 体系库利用双向最大匹配方法进行类型属性的分词;
S124: 对通过步骤S121 ‑S123的中文分词结果生成文本训练语料库, 利用所述文本训练
语料库对Word2Vec模型进行训练, 获取文本属性中词与词之间的语义关系, 及其相应的词
向量表示;
所述步骤S130包括如下子步骤:
S131: 对于文本属性, 预先通过Word2vec模型生成文本属性中每个词 cl的词向量表示,
,n表示通过步骤S121 ‑S123生成所有词去重后的总数, 将 这些词向量进行堆叠构
建文本属性词向量 查找表
,d表示词向量的维度, R表示实数;
S132: 对所述文本属性词向量查找表 D采用一维卷积, 卷积操作中使用区域大小为h的权 利 要 求 书 1/3 页
2
CN 114461943 B
2过滤器
与所述文本属性词向量查找表 D的子矩阵进行点积操作, 生成新的特
征图; 然后, 对卷积结果的特征图采用最大池化方法进 行池化操作, 使其变成 固定长度的向
量; 最后, 将这些特征进行拼接, 并通过全连接的tanh层将其扩展为特定维度的向量, 从而
提取文本属性的语义特 征, 并得到其特 征向量;
S133: 将地理坐标属性视为二维向量, 输入多层感知器模型, 所述多层感知器模型至少
包含输入层、 隐藏层和输出层三层节点, 每一层中的任何节点都会全连接到下一层中的所
有节点, 其中所述隐藏层 有两个, 第一个隐藏层将输入的经纬度进 行扩维操作, 使其输出维
度是文本属性特征向量 维度的4倍; 第二个隐藏层 对上一层的输出进 行降维操作, 使其输出
维度等于文本属性特征向量的维度, 所述输出层输出的特征向量为地理空间属性的地理空
间特征向量;
所述步骤S140包括:
任取一对待 匹配的POIa和POIb, 通过步骤S110 ‑S130得到 POIa和POIb相同属性的特征向
量表示, 分别 记为a1、a2……am和b1、b2……bm, 其中, m表示 POIa和POIb相同属性的个数, 增强
序列推理模型每一层详细的匹配过程如下:
S141: 对于模型输入编码层, 利用双向长短时记忆神经网络 (Bi ‑LSTM) 对POI相同属性
进行编码, 首先, 将POI相同属性的特征向量 ai和bj, 其中
, 作为网络输入;
然后, 使用所述双向长短时记忆神经网络对输入的特征向量进行编码, 提取每个属 性与其
相邻属性之间的依赖信息, 以获取更高级别的特征表示, 最后, 将所述双向长短时记忆神经
网络的隐藏层状态
和
输出, 作为下一层的输入;
S142: 对于属性特征局部推理层, 使用注意力机制模型来获取 POIa和POIb之间的局部相
关性, 即相同属性之间的相关性; 首先, 将两个POI的隐藏层状态
和
进行点积操作, 得
到注意力权 重矩阵eij; 然后, 基于该矩阵求得每个属性对应的新向量
和
,
是由
属性序列通过加权求和得到,
是由
属性序列通过加权求和得到; 最后, 将
和
,
和
进行差和点积 操作, 并对它 们进行拼接;
S143: 对于属性特征推理组合层, 使用所述双向长短时记忆神经网络来整合局部推理
信息; 首先, 采用所述双向长短时记忆神经网络提取局部推理信息
和
及其相邻信息; 然后, 同时使用最大池化方法和平均池化方
法进行池化操作, 并将两个池化结果进行拼接, 生成向量
;
S144: 对于匹配结果输出层, 使用MLP预测对拼接向量 v进行二分类操作, 并通过
softmax函数进行激活; 最终输出的预测结果是1或0, 当结果为1时, 表示 POIa和POIb是匹配
的, 当结果 为0时, 表示 POIa和POIb是不匹配的。
2.一种存 储介质, 用于存 储计算机可 执行指令, 其特 征在于:权 利 要 求 书 2/3 页
3
CN 114461943 B
3
专利 基于深度学习的多源POI语义匹配方法、装置及其存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:35上传分享