(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210336298.8
(22)申请日 2022.03.31
(71)申请人 浙江科技学院
地址 310023 浙江省杭州市西湖区留和路
318号
(72)发明人 万健 翟正伟 张蕾 黄杰
张丽娟 邵霭
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
专利代理师 孙孟辉
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06N 3/04(2006.01)G06N 5/04(2006.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于图注意力机制的深度学习 问答推
理方法及装置
(57)摘要
本发明公开了一种基于图注意力机制的深
度学习问答推理方法及装置。 本发 明提出了一种
基于图点乘注意力算法的推理模型AGTF, 针对问
答中的多跳问题, 提出了融合ALBERT与图注意力
机制(GAT)的混合模型, 该模型包含了编解码层
和图神经网络预测层, 经过实验结果表明, 与现
有的多跳问答推理算法相比, AGTF模型有效的提
高了多跳问答的推理能力。
权利要求书2页 说明书7页 附图2页
CN 114706983 A
2022.07.05
CN 114706983 A
1.一种基于图注意力机制的深度学习问答推理方法, 其特 征在于包括以下步骤:
步骤1、 对数据进行表征抽取;
表征抽取部分输入问题Q和相关的段落P, 输出对应问题Q和段落的词向量P, 以及从中
提取出的语义向量; 首先, 将问题[Q1,Q2...Qn]和段落[P1,P2...Pm]输入模型; 然后, ALBERT
基于词元、 类别和位置的嵌入为每个词元生成表示, 输出的表示Q=[q1,q2...qn]∈Rm×d,P=
[p1,p2...pm]∈Rn×d, 同时语义向量 也随表示输出;
步骤2、 提取输入句子的实体;
通过ALBERT获取到表征之后, 使用斯坦福科伦普工具包从Q和P中识别命名实体, 提取
的实体的数量表示为N; 实体嵌入Et‑1=[et‑1,1,...,Et‑1,N]。 ET‑1的大小为2d×N, 其中N是 实
体的数量, d是维度, 此模块 为T2G;
步骤3、 进行实体 计算推理过程;
用图神经网络将结点信 息传播到每一个邻结点; 采用动态的图注意力 机制来实现推理
过程;
步骤4、 在动态图中传播信息, 得到信息更新后的实体E(t)=(e1(t)…eN(t));
步骤5、 进行 结果预测:
5‑1使用Graph2Doc模块来保持信息从实体流回到上下文中的向量, 与答案有关的文本
在上下文中定位到;
5‑2使用四个输出维度的预测层结构框架, 包括支持句, 答案的开始位置, 答案的结束
位置, 答案的类型; 使用连续的结构来保证输出结果的相关联性, 其中四个LSTM Fi是逐层
相关联的; 融合块的上下文表 示被发送到第一LSTM F0; 每个Fi输出Logit O∈Rm×D2, 并计
算Logit上的交叉熵损失, 最后输出 预测的结果。
2.如权利要求1所述的一种基于图注意力 机制的问答推理方法, 其特征在于步骤3 中通
过在实体上关联问题来查询相关的节点, 使用查询问题嵌入和实体嵌入之间的联系, 把问
题的输出表示和实体表示相结合, 再乘以抽取出的语义向量, 其目的是表示第t个推理步骤
中的开始实体E(t‑1)
Q′(t‑1)=MeanPo oling(Q(t‑1))#(1)
E′(t‑1)=[Q′(t‑1)ei(t‑1)s…Q′(t‑1)eN(t‑1)s]#(2)
其中Q(t‑1)是问题表示, ei(t‑1)是第i个实体表示。 通过将问题表示Q(t‑1)和初实体表示ei
(t‑1)以及语义向量s嵌入相乘。
3.如权利要求1或2所述的一种基于 图注意力机制的问答推理模型, 其特征在于步骤4
中通过以下公式计算实体间的关联程度βi,j:
hi(t)=Utei′(t‑1)+bt#(3)
ai,j(t)=(Wthit‑1)TWthjt‑1#(4)
Ut、 Wt是线性参数。 这里, β 的第i行表示将被分配给实体i的邻居的信息的比例; 在点乘
图注意力机制中, 每个结点通过与邻结点相关联, 求邻结点信息的加权和, 与邻结点相关联
的信息会更新到结点;权 利 要 求 书 1/2 页
2
CN 114706983 A
2接着就能得到信息更新后的实体E(t)=(e1(t)…eN(t))。
4.一种基于图注意力机制的问答推理装置, 包括ALBERT表征抽取模块、 2T2G模块、 点乘
注意力机制的GAT模块、 Graph2Doc模块, 其特 征在于:
所述ALBERT表征抽取模块, 用于对数据 集进行表征抽取, ALBERT基于词元、 类别和位置
的嵌入为每个词元生成表示, 输出的表示Q=[q1,q2...qn]∈Rm×d,P=[p1,p2...pm]∈Rn×d,
同时语义向量 也随表示输出;
2T2G模块, 使用斯坦福科伦普工具包从Q和P中识别命名实体, 提取的实体的数量表示
为N, 实体嵌入Et‑1=[et‑1,1,...,Et‑1,N], ET‑1的大小为2 d×N, 其中N是实体的数量, d是维
度;
点乘注意力机制的GAT模块, 采用动态的图注意力 机制来实现推理过程; 通过在实体上
关联问题来查询相关的节点, 使用查询问题嵌入和实体嵌入之间的联系, 把问题的输出表
示和实体表示相结合, 再乘以抽取出的语义向量, 其目的是表示第t个推理步骤中的开始实
体E(t‑1);
Graph2Doc模块, 用于结果预测, 保持信息从实体流回到上 下文中的向量。
5.一种计算机可读存储介质, 其特征在于其上存储计算机程序, 当上述程序在计算机
中执行时, 令计算机执 行权利要求1 ‑4任一所述的方法。
6.一种计算设备, 其特征在于包括存储器和处理器, 所述存储器中存储有代码, 所述处
理器执行上述代码时, 实现权利要求1 ‑4任一所述的方法。权 利 要 求 书 2/2 页
3
CN 114706983 A
3
专利 一种基于图注意力机制的深度学习问答推理方法及装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:02上传分享