(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210369535.0 (22)申请日 2022.04.08 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 余宙 金子添 俞俊  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06F 16/532(2019.01) G06F 16/535(2019.01) G06F 16/9032(2019.01) G06F 16/9035(2019.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于双向可切分深度自注意力网络的轻量 化视觉问答方法 (57)摘要 本发明公开了一种基于双向可切分深度自 注意力网络的轻量化视觉问答方法, 提出了一种 双向可切分深度自注意力网络, 基于设计的宽 度、 深度均可切分的双向策略, 并采用 “深而窄” 的过滤原则进一步挑选合理的子模 型, 配合提出 的自蒸馏 算法, 使得网络中的各个子模型都具备 视觉问答任务的应用能力。 此双向可切分的深度 自注意力模型可以根据当下的计算资源动态选 择合适的子模 型预测答案, 取得精度和时延之间 的平衡, 在预测答案的准确率得到保证的同时使 得用户拥有良好的体验感。 权利要求书5页 说明书11页 附图1页 CN 114647752 A 2022.06.21 CN 114647752 A 1.基于双向可切分深度自注意力网络的轻量化视觉问答方法, 其特征在于, 包括如下 步骤: 步骤(1): 对数据集进行划分; 步骤(2): 构建图像的视 觉特征; 对于一张给定 图像, 使用现有训练好的目标检测网络检测出图像中的候选框个数m 以 及其位置; 针对每个候选框, 将候选框区域对应的图像再输入到该目标检测网络中, 并提取 输入到该网络分类层前的特征作为该候选框的特征; 随后将每个候选框提取出的特征拼 接, 形成给定图像的视觉特征; 为了使得图像特征维度匹配深度自注意力网络, 最后使用一 个可学习的线性变换对图像特 征做进一 步处理, 并映射到D维空间; 步骤(3): 构建问题的语义特 征; 对于给定的一个问题, 使用训练好的词向量模型对问题中的每个单词提取出语义特 征, 随后将提取出的单词语义特征做 拼接, 形成问题语义特征; 为了使 得问题语义特征维度 匹配深度自注意力网络, 最后使用一个可学习的线性变换对问题特征做进一步处理, 映射 到D维空间; 步骤(4): 构建深度自注意力网络; 深度自注意力网络由多个自注意力层堆叠而成, 每个自注意力层分为两部分: 多头注 意力模块和前馈层; 利用该深度自注意力网络构建出引导训练的教师网络和最终的双向可 切分深度自注意力网络; 为了使输入特征能够匹配双向可切分深度自注意力网络中的各个 子模型维度, 该网络接受维度为D的特征作为输入, 并通过一个线性投影变换, 将输入特征 映射到d维; 步骤(5): 设计宽度切分策略; 深度自注意力网络 中的每个自注意力层是由多个参数矩阵组成的, 为了适应不同维度 的输入特征, 需要对每个参数矩阵做切分, 以匹配不同维度的输入并输出合适维度的输出 特征; 针对维度为d的输入特征, 为了保持自注意力层的原始结构比例, 通过宽度切分策略 使得输出特征维度仍然为d; 值得注意的是, 对于拥有不同维度输入特征的不同子模型, 均 共享自注 意力层中的参数矩阵, 当d越小, 共享的参数量便越小; 当d等于原始输入维度D时, 参数矩阵不做切分; 步骤(6): 设计深度切分策略; 深度自注意力网络由多个自注意力层堆叠, 记层数为L, 当子模型的层数l<L时, 根据 深度切分策略选择 该深度自注意力网络中的l层, 并归属为子模型自身所拥有; 步骤(7): 结合两种切分策略、 设计过 滤原则; 通过步骤(5)(6)设计, 每个子模型拥有宽度d和深度l; 在相同的参数量、 计算下, 深而 窄的子模型会比浅而宽的子模型更高效、 结构更合理, 提出了一种 “深而窄”的过滤原则, 在 模型训练前就先挑选出一些层数多、 宽度低的子模 型, 而直接丢弃掉那些层数少、 宽度高的 子模型; 通过 此项过滤原则, 得到 筛选后的子模型 结构候选集 步骤(8): 设计自蒸馏训练算法并训练模型; 针对步骤(7)得到的子模型结构候选集 提出一种自蒸馏训练策略, 使得各个子模型 能够得到充分训练; 首先利用步骤(4)的深度自注意力网络训练一个教师网络, 并构建出一权 利 要 求 书 1/5 页 2 CN 114647752 A 2个双向可切分深度自注意力网络, 在训练双向可切分深度自注意力网络中的子模型时, 先 将图像和问题输入到教师网络中得到其预测向量, 称为软标签, 并通过子模型采样策略, 在 训练时采样出候选集 中的子模型, 将这个软标签作为采样出的子模型的监督标签进行训 练; 步骤(9): 模型部署及应用。 2.根据权利要求1所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法, 其特征在于, 步骤(1)所述的数据集的划分, 具体如下: 所述的数据集采用VQA ‑v2数据集, 针对VQA ‑v2数据集, 进一步划分为3个子集: 训练集、 验证集和测试集; 训练集用于训练模型, 验证集用于本地验证模型收敛情况, 测试集用于最 终的模型性能评估。 3.根据权利要求2所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法, 其特征在于, 步骤(2)所述的构建图像的视 觉特征, 具体如下: 对于一张给定图像, 使用现有训练好的Faster  R‑CNN目标检测网络推断出图像中的候 选框个数m以及其位置, 并将每个候选框对应的图像区域输入到该Faster  R‑CNN目标检测 网络中, 以提取出其视觉特征; 对 于第i个候选框, 其对应的视觉特征为 而整张图 像对应的视觉特征 由每个候选框对应的视觉特征拼接而成, 具体表示公 式如下: Ximage=[x1, x2, ..., xi, ..., xm]           (公式1) 随后, 使用一个可学习的线性变换 对图像特征Ximage做进一步处理, 映射到D维空间得到最终的图像视 觉特征 具体公式如下: Xinput=Linear(Ximage)              (公式2)。 4.根据权利要求3所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法, 其特征在于, 步骤(3)所述的构建问题的语义特 征, 具体如下: 对于给定的一个问题, 其包含n个单词, 将每个单词输入到预先训练好的GloVe词向量 模型中, 以提取出其语义特征; 对于第j个单词, 其对应的语义特征为 而整个问 题对应的语义特征 由每个单词对应的语义特征拼接而成, 具体表示公 式如下: Yquestion=[y1, y2, ..., yj, ..., yn]          (公式3) 随后, 使用一个可学习的线性变换 将问题语义特征Yquestion做进一步 处理, 映射到D维空间得到最终的问题语义特 征 具体公式如下: Yinput=Linear(Yquestion)           (公式4)。 5.根据权利要求4所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法, 其特征在于, 步骤(4)所述的构建深度自注意力网络, 具体如下: 深度自注意力网络由多个自注意力层堆叠而成, 每个自注意力层分为两部分: 多头注 意力模块和前馈层; 利用该深度自注意力网络构建出引导训练的教师网络和最终的双向可 切分深度自注意力网络, 所述的教师网络和双向可切分深度自注意力网络均采用相同结构权 利 要 求 书 2/5 页 3 CN 114647752 A 3

.PDF文档 专利 基于双向可切分深度自注意力网络的轻量化视觉问答方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于双向可切分深度自注意力网络的轻量化视觉问答方法 第 1 页 专利 基于双向可切分深度自注意力网络的轻量化视觉问答方法 第 2 页 专利 基于双向可切分深度自注意力网络的轻量化视觉问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。