专利一种多粒度文本表示和图文融合的视觉问答方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210667045.9 (22)申请日 2022.06.14 (71)申请人齐鲁工业大学地址 250353 山东省济南市长清区大学路 3501号 (72)发明人王新刚　刘小玉　李晓敏　成洪路　刘广政　周金岩　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师闫圣娟 (51)Int.Cl. G06F 40/35(2020.01) G06F 16/583(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称一种多粒度文本表示和图文融合的视觉问答方法及系统 (57)摘要本发明涉及一种多粒度文本表示和图文融合的视觉问答方法及系统，包括以下步骤：获得图片和与图片对应的问题文本，得到图片特征；通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特征；将得到的图片特征和文本特征进行向量拼接后，经Transformer层融合不同模态的高阶特征得到自适应融合特征向量，经线性变换转换为候选答案维度，通过预测函数得到答案的预测结果。在文本特征表示中进行多层次的文本信息描述保留文本的多层次特征，使用图文自适应融合的方式融合不同模态的高阶特征向量，从多个层面准确的表达问题主题和含义，融合后能够动态的计算图像文本的注意力权重，以便更好的预测答案。权利要求书2页说明书8页附图5页 CN 114925703 A 2022.08.19 CN 114925703 A 1.一种多粒度文本表示和图文融合的视觉问答方法，其特征在于：包括以下步骤：获得图片和与图片对应的问题文本，得到图片特征；通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特征；将得到的图片特征和文本特征进行向量拼接后，经Transformer层融合不同模态的高阶特征得到自适应融合特征向量，经线性变换转换为候选答案维度，通过预测函数得到答案的预测结果。 2.如权利要求1所述的一种多粒度文本表示和图文融合的视觉问答方法，其特征在于：通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特征，具体为：利用层级扩张卷积网络获取问题文本的多粒度语义特征；设置逐步增大的扩张率r＝n， n＝1、 2、 3...n，分层堆叠扩展的卷积，卷积文本段的长度呈指数扩张，覆盖不同n元语法的语义特征；每个堆叠层L的输出被保存为特定粒度级别的文本的特征图：其中，给定句子的序列： d＝[x1,x2,......xN]，句子序列d转换成矩阵为d0＝[X1， X1， ......XN]， fs表示的为每层的过滤器的数量，如果有L层，多粒度的问题文本定义[d0, d1,......,dL]，层级扩张卷积网络从小扩张率的词和短语层面逐步获取词汇和语义特征。 3.如权利要求1所述的一种多粒度文本表示和图文融合的视觉问答方法，其特征在于：将得到的图片特征和文本特征进行向量拼接后，经Tr ansformer层融合不同模态的高阶特征得到自适应融合特征向量，包括：将得到的图片特征和文本特征传入协同注意网络，通过学习多模态之间的关系，得到更新后的文本和图片特征。 4.如权利要求3所述的一种多粒度文本表示和图文融合的视觉问答方法，其特征在于：将得到的图片特征和文本特征进行向量拼接后，经Tr ansformer层融合不同模态的高阶特征得到自适应融合特征向量，还包括：更新后的文本和图片特征进行向量拼接，将拼接的向量融合不同模态的高阶向量得到一个自适应融合特征向量，从自动融合的潜在向量中重建原始的连接向量。 5.如权利要求4所述的一种多粒度文本表示和图文融合的视觉问答方法，其特征在于：将得到的图片特征和文本特征进行向量拼接后，经Tr ansformer层融合不同模态的高阶特征得到自适应融合特征向量，还包括：最小化原始矢量和重构矢量之间的欧几里得度量，确保学习后的自融合向量不包含来自输入级联潜在向量的任意信号。 6.如权利要求3所述的一种多粒度文本表示和图文融合的视觉问答方法，其特征在于：协同注意网络包括至少一组连接在一起的自注意力单元和导向注意力单元。 7.如权利要求6所述的一种多粒度文本表示和图文融合的视觉问答方法，其特征在于：自注意力单元包括连接在一起的多头注意力层和测点前馈层，用于学习同一个模态内的各个样本之间的关系；导向注意力单元结构与自注意力单元相同，用一种模态来指导另一种模态，用于表示不同模态之间的特征关系。 8.一种多粒度文本表示和图文融合的视觉问答系统，其特征在于：包括：权　利　要　求　书 1/2 页 2 CN 114925703 A 2特征提取模块，配置为：获得图片和与图片对应的问题文本，得到图片特征；根据与图片对应的问题文本，通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特征；融合预测模块，配置为：将得到的图片特征和文本特征进行向量拼接后，经 Transformer层融合不同模态的高阶特征得到自适应融合特征向量，经线性变换转换为候选答案维度，通过预测函数得到答案的预测结果。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1 ‑7中任一项所述的一种多粒度文本表示和图文融合的视觉问答方法中的步骤。 10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑7中任一项所述的一种多粒度文本表示和图文融合的视觉问答方法中的步骤。权　利　要　求　书 2/2 页 3 CN 114925703 A 3

专利 一种多粒度文本表示和图文融合的视觉问答方法及系统

专利一种多粒度文本表示和图文融合的视觉问答方法及系统