(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210667045.9
(22)申请日 2022.06.14
(71)申请人 齐鲁工业大学
地址 250353 山东省济南市长清区大 学路
3501号
(72)发明人 王新刚 刘小玉 李晓敏 成洪路
刘广政 周金岩
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 闫圣娟
(51)Int.Cl.
G06F 40/35(2020.01)
G06F 16/583(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06V 10/764(2022.01)
G06V 10/80(2022.01)
(54)发明名称
一种多粒度文本表示和图文融合的视觉问
答方法及系统
(57)摘要
本发明涉及一种多粒度文本表示和图文融
合的视觉问答方法及系统, 包括以下步骤: 获得
图片和与图片对应的问题文本, 得到图片特征;
通过层级扩张卷积提取问题文本中不同级别的
句子信息 形成文本特征; 将得到的图片特征和文
本特征进行向量拼接后, 经Transformer层融合
不同模态的高阶特征得到自适应融合特征向量,
经线性变换转换为候选答案维度, 通过预测函数
得到答案的预测结果。 在文本特征表 示中进行多
层次的文本信息描述保留文本的多层次特征, 使
用图文自适应融合的方式融合不同模态的高阶
特征向量, 从多个层面准确的表达问题主题和含
义, 融合后能够动态的计算图像文本的注意力权
重, 以便更好的预测答案 。
权利要求书2页 说明书8页 附图5页
CN 114925703 A
2022.08.19
CN 114925703 A
1.一种多粒度文本表示和图文融合的视 觉问答方法, 其特 征在于: 包括以下步骤:
获得图片和与图片对应的问题文本, 得到图片特 征;
通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特 征;
将得到的图片特征和文本特征进行向量拼接后, 经Transformer层融合不同模态的高
阶特征得到 自适应融合特征向量, 经线性变换转换为候选答案维度, 通过预测函数得到答
案的预测结果。
2.如权利要求1所述的一种 多粒度文本表示和图文融合的视觉问答方法, 其特征在于:
通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特 征, 具体为:
利用层级扩张卷积网络获取问题文本的多粒度语义特 征;
设置逐步增大的扩张率r=n, n=1、 2、 3...n, 分层堆叠扩展的卷积, 卷积文本段的长度
呈指数扩张, 覆盖不同n元语法的语义特 征;
每个堆叠层L的输出被保存为特定粒度级别的文本的特 征图:
其中, 给定句子的序列: d=[x1,x2,......xN], 句子序列d转换成矩阵为d0=[X1,
X1, ......XN], fs表示的为每层的过滤器的数量, 如果有L层, 多粒度的问题文本定义[d0,
d1,......,dL], 层级扩张卷积网络从小扩张率的词和短语层面逐步获取词汇和语义特 征。
3.如权利要求1所述的一种 多粒度文本表示和图文融合的视觉问答方法, 其特征在于:
将得到的图片特征和文本特征进行向量拼接后, 经Tr ansformer层融合不同模态的高阶特
征得到自适应融合特 征向量, 包括:
将得到的图片特征和文本特征传入协同注意网络, 通过学习多模态之间的关系, 得到
更新后的文本和图片特 征。
4.如权利要求3所述的一种 多粒度文本表示和图文融合的视觉问答方法, 其特征在于:
将得到的图片特征和文本特征进行向量拼接后, 经Tr ansformer层融合不同模态的高阶特
征得到自适应融合特 征向量, 还 包括:
更新后的文本和图片特征进行向量拼接, 将拼接的向量融合不同模态的高阶向量得到
一个自适应融合特 征向量, 从自动融合的潜在向量中重建原 始的连接向量。
5.如权利要求4所述的一种 多粒度文本表示和图文融合的视觉问答方法, 其特征在于:
将得到的图片特征和文本特征进行向量拼接后, 经Tr ansformer层融合不同模态的高阶特
征得到自适应融合特 征向量, 还 包括:
最小化原始矢量和重构矢量之间的欧几里得度量, 确保学习后的自融合向量不包含来
自输入级联潜在向量的任意信号。
6.如权利要求3所述的一种 多粒度文本表示和图文融合的视觉问答方法, 其特征在于:
协同注意网络包括至少一组连接在一 起的自注意力单 元和导向注意力单 元。
7.如权利要求6所述的一种 多粒度文本表示和图文融合的视觉问答方法, 其特征在于:
自注意力单元包括连接在一起的多头注意力层和测点前馈层, 用于学习同一个模态内的各
个样本之间的关系; 导向注意力单元结构与自注意力单元相同, 用一种模态来指导另一种
模态, 用于表示 不同模态之间的特 征关系。
8.一种多粒度文本表示和图文融合的视 觉问答系统, 其特 征在于: 包括:权 利 要 求 书 1/2 页
2
CN 114925703 A
2特征提取模块, 配置为: 获得图片和与图片对应的问题文本, 得到图片特征; 根据与图
片对应的问题文本, 通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特
征;
融合预测模块, 配置为: 将得到的图片特征和文本特征进行向量拼接后, 经
Transformer层融合不同模态的高阶特征得到自适应融合特征向量, 经线性变换转换为候
选答案维度, 通过 预测函数 得到答案的预测结果。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执
行时实现如权利要求1 ‑7中任一项 所述的一种多 粒度文本表示和图文融合的视觉问答方法
中的步骤。
10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的一
种多粒度文本表示和图文融合的视 觉问答方法中的步骤。权 利 要 求 书 2/2 页
3
CN 114925703 A
3
专利 一种多粒度文本表示和图文融合的视觉问答方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:27:33上传分享