专利一种基于图注意力机制的深度学习问答推理方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210336298.8 (22)申请日 2022.03.31 (71)申请人浙江科技学院地址 310023 浙江省杭州市西湖区留和路 318号 (72)发明人万健　翟正伟　张蕾　黄杰　张丽娟　邵霭　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师孙孟辉 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/332(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01)G06N 5/04(2006.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于图注意力机制的深度学习问答推理方法及装置 (57)摘要本发明公开了一种基于图注意力机制的深度学习问答推理方法及装置。本发明提出了一种基于图点乘注意力算法的推理模型AGTF，针对问答中的多跳问题，提出了融合ALBERT与图注意力机制(GAT)的混合模型，该模型包含了编解码层和图神经网络预测层，经过实验结果表明，与现有的多跳问答推理算法相比， AGTF模型有效的提高了多跳问答的推理能力。权利要求书2页说明书7页附图2页 CN 114706983 A 2022.07.05 CN 114706983 A 1.一种基于图注意力机制的深度学习问答推理方法，其特征在于包括以下步骤：步骤1、对数据进行表征抽取；表征抽取部分输入问题Q和相关的段落P，输出对应问题Q和段落的词向量P，以及从中提取出的语义向量；首先，将问题[Q1,Q2...Qn]和段落[P1,P2...Pm]输入模型；然后， ALBERT 基于词元、类别和位置的嵌入为每个词元生成表示，输出的表示Q＝[q1,q2...qn]∈Rm×d,P＝ [p1,p2...pm]∈Rn×d，同时语义向量也随表示输出；步骤2、提取输入句子的实体；通过ALBERT获取到表征之后，使用斯坦福科伦普工具包从Q和P中识别命名实体，提取的实体的数量表示为N；实体嵌入Et‑1＝[et‑1,1,...,Et‑1,N]。 ET‑1的大小为2d×N，其中N是实体的数量， d是维度，此模块为T2G；步骤3、进行实体计算推理过程；用图神经网络将结点信息传播到每一个邻结点；采用动态的图注意力机制来实现推理过程；步骤4、在动态图中传播信息，得到信息更新后的实体E(t)＝(e1(t)…eN(t))；步骤5、进行结果预测： 5‑1使用Graph2Doc模块来保持信息从实体流回到上下文中的向量，与答案有关的文本在上下文中定位到； 5‑2使用四个输出维度的预测层结构框架，包括支持句，答案的开始位置，答案的结束位置，答案的类型；使用连续的结构来保证输出结果的相关联性，其中四个LSTM Fi是逐层相关联的；融合块的上下文表示被发送到第一LSTM F0；每个Fi输出Logit O∈Rm×D2，并计算Logit上的交叉熵损失，最后输出预测的结果。 2.如权利要求1所述的一种基于图注意力机制的问答推理方法，其特征在于步骤3 中通过在实体上关联问题来查询相关的节点，使用查询问题嵌入和实体嵌入之间的联系，把问题的输出表示和实体表示相结合，再乘以抽取出的语义向量，其目的是表示第t个推理步骤中的开始实体E(t‑1) Q′(t‑1)＝MeanPo oling(Q(t‑1))#(1) E′(t‑1)＝[Q′(t‑1)ei(t‑1)s…Q′(t‑1)eN(t‑1)s]#(2) 其中Q(t‑1)是问题表示， ei(t‑1)是第i个实体表示。通过将问题表示Q(t‑1)和初实体表示ei (t‑1)以及语义向量s嵌入相乘。 3.如权利要求1或2所述的一种基于图注意力机制的问答推理模型，其特征在于步骤4 中通过以下公式计算实体间的关联程度βi,j： hi(t)＝Utei′(t‑1)+bt#(3) ai,j(t)＝(Wthit‑1)TWthjt‑1#(4) Ut、 Wt是线性参数。这里， β 的第i行表示将被分配给实体i的邻居的信息的比例；在点乘图注意力机制中，每个结点通过与邻结点相关联，求邻结点信息的加权和，与邻结点相关联的信息会更新到结点；权　利　要　求　书 1/2 页 2 CN 114706983 A 2接着就能得到信息更新后的实体E(t)＝(e1(t)…eN(t))。 4.一种基于图注意力机制的问答推理装置，包括ALBERT表征抽取模块、 2T2G模块、点乘注意力机制的GAT模块、 Graph2Doc模块，其特征在于：所述ALBERT表征抽取模块，用于对数据集进行表征抽取， ALBERT基于词元、类别和位置的嵌入为每个词元生成表示，输出的表示Q＝[q1,q2...qn]∈Rm×d,P＝[p1,p2...pm]∈Rn×d，同时语义向量也随表示输出； 2T2G模块，使用斯坦福科伦普工具包从Q和P中识别命名实体，提取的实体的数量表示为N，实体嵌入Et‑1＝[et‑1,1,...,Et‑1,N]， ET‑1的大小为2 d×N，其中N是实体的数量， d是维度；点乘注意力机制的GAT模块，采用动态的图注意力机制来实现推理过程；通过在实体上关联问题来查询相关的节点，使用查询问题嵌入和实体嵌入之间的联系，把问题的输出表示和实体表示相结合，再乘以抽取出的语义向量，其目的是表示第t个推理步骤中的开始实体E(t‑1)； Graph2Doc模块，用于结果预测，保持信息从实体流回到上下文中的向量。 5.一种计算机可读存储介质，其特征在于其上存储计算机程序，当上述程序在计算机中执行时，令计算机执行权利要求1 ‑4任一所述的方法。 6.一种计算设备，其特征在于包括存储器和处理器，所述存储器中存储有代码，所述处理器执行上述代码时，实现权利要求1 ‑4任一所述的方法。权　利　要　求　书 2/2 页 3 CN 114706983 A 3

专利 一种基于图注意力机制的深度学习问答推理方法及装置

专利一种基于图注意力机制的深度学习问答推理方法及装置