(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210842566.3
(22)申请日 2022.07.18
(71)申请人 湖南大学
地址 410082 湖南省长 沙市岳麓区麓山 南
路1号
(72)发明人 刘芳 张默涵 郑宝莹 崔盛兰
杨博蔼
(74)专利代理 机构 长沙国科天河知识产权代理
有限公司 432 25
专利代理师 唐品利
(51)Int.Cl.
G06V 10/42(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/279(2020.01)G06V 10/20(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种融合多粒度多模态的艺术品图像描述
生成方法
(57)摘要
本申请涉及人工智能技术领域的一种融合
多粒度多模态的艺术品图像描述生成方法。 该方
法包括: 对待描述艺术品的多模态数据进行预处
理, 得到预处理的艺术品图像和文本; 采用多粒
度视觉特征编码器获取预处理图像的全局视觉
编码与隐喻视觉编码; 根据预处理文本和全局视
觉编码、 预处理文本和隐喻视觉编码, 采用对应
粒度文本 特征编码器, 得到粗粒度文本编码和细
粒度文本编码; 分别对全局视觉编码与粗粒度文
本编码、 隐喻视觉编码与细粒度文本编码分别进
行解码, 得到粗粒度文本描述和细粒度文本描
述; 将粗粒度文本描述和细粒度文本描述融合,
得到含有隐喻的多粒度艺术品描述。 采用本方法
可以在保证高准确率的情况下高效地生成含有
隐喻的艺 术品图像描述。
权利要求书2页 说明书10页 附图4页
CN 115082693 A
2022.09.20
CN 115082693 A
1.一种融合多粒度多模态的艺 术品图像描述 生成方法, 其特 征在于, 所述方法包括:
获取待描述的艺术品的多模态数据, 并对所述多模态数据进行预处理, 得到预处理数
据, 所述预处 理数据包括预处 理的艺术品图像和预处 理的文本数据;
采用基于卷积神经网络的多粒度视觉特征编码器对预处理的艺术品图像的全局视觉
表示与隐喻视 觉表示进行提取和编码, 得到全局视 觉编码与隐喻视 觉编码;
根据所述预处理的文本数据和所述全局视觉编码, 采用基于LSTM网络的粗粒度文本特
征编码器提取浅层语言特 征, 并进行编码, 得到粗粒度文本特 征编码;
根据所述全局视觉编码与 所述粗粒度文本特征编码, 采用粗粒度融合特征解码器进行
解码, 生成艺 术品的粗粒度文本描述;
根据所述预处理的文本数据和所述隐喻视觉编码, 采用基于LSTM网络的细粒度文本特
征编码器提取深层语言特 征, 并进行编码, 得到细粒度文本特 征编码;
根据所述隐喻视觉编码与 所述细粒度文本特征编码, 采用细粒度融合特征解码器进行
解码, 得到艺 术品的细粒度文本描述;
将所述粗粒度文本描述和所述细粒度文本描述进行融合, 得到含有隐喻的多粒度艺术
品描述。
2.根据权利要求1所述的方法, 其特征在于, 多粒度视觉特征编码器包括: 粗粒度视觉
特征编码器和细粒度视觉特征编码器; 所述粗粒度视觉特征编码器包括: 全局特征表示模
块、 由两个全连接层组成的粗粒度编码模块;
所述细粒度视觉特征编码器包括: 隐喻特征表示网络和编码模块; 所述 隐喻特征包括
文化背景特征和工艺技法特征; 所述隐喻特征表示网络包括: 文化背景特征表示模块和工
艺技法特征表示模块, 所述编码模块包括两个相连的全连接层;
所述全局特征表示模块、 所述文化背景特征表示模块以及所述工艺技法特征表示模块
为结构相同参数不共享的基于卷积神经网络的特 征表示模块;
采用基于卷积神经网络的多粒度视觉特征编码器对预处理的艺术品图像的全局视觉
表示与隐喻视 觉表示进行提取和编码, 得到全局视 觉编码与隐喻视 觉编码, 包括:
将所述预处理的艺术品图像分别输入到多粒度注意模块编码器的粗粒度视觉特征编
码器的全局特 征表示网络中, 得到全局视 觉表示;
将所述全局视觉表示输入到多粒度注意模块编码器的粗粒度视觉特征编码器的粗粒
度编码模块中, 得到全局视 觉编码;
将所述预处理的艺术品图像分别输入到多粒度注意模块编码器的细粒度视觉特征编
码器的文化背 景特征表示模块和工艺技法特征表 示模块中, 得到文化背 景特征与工艺技法
特征;
将所述文化背景特征与所述工艺技法特征输入到多粒度注意模块编码器的细粒度视
觉特征编码器的编码模块中, 得到隐喻视 觉编码。
3.根据权利要求2所述的方法, 其特征在于, 所述基于卷积神经网络的特征表示模块为
预训练的VG G16网络的头 部。
4.根据权利要求3所述的方法, 其特征在于, 所述预训练的VGG16网络头部的训练步骤
包括:
获取预训练样本, 所述预训练样本为 ImageNet数据集;权 利 要 求 书 1/2 页
2
CN 115082693 A
2采用所述预训练样本对VG G16网络进行训练, 得到训练好的VG G16网络;
将训练好的VGG16网络的密集层剥离, 只保留VGG16网络对于图像特征表示部分的结
构, 得到预训练的VG G16网络头部。
5.根据权利要求1所述的方法, 其特征在于, 粗粒度文本特征编码器包括: 词嵌入层、 非
线性变换层、 LSTM层;
根据所述预处理的文本数据和所述全局视觉编码, 采用基于LSTM网络的粗粒度文本特
征编码器提取浅层语言特 征, 并进行编码, 得到粗粒度文本特 征编码, 包括:
从所述预处理 的文本数据中提取与 所述全局视觉编码对应的文本, 并对得到的文本进
行分词和编码处 理, 得到编码后的单词;
将编码后的单词与 所述全局视觉编码输入到粗粒度文本特征编码器的词嵌入层中, 得
到编码序列;
将所述编码序列输入到所述粗粒度文本特征编码器的非线性变换层, 得到非线性变换
结果;
将所述非线性变换结果输入到所述粗粒度文本特征编码器的LSTM层, 得到粗粒度文本
特征编码。
6.根据权利要求5所述的方法, 其特征在于, 细粒度文本特征编码器是与粗粒度文本特
征编码器的网络结构相同, 参数不共享的网络, 所述细粒度文本特征编码器的参数是采用
图像数据集和细粒度文本描述进行训练, 并对参数进行微调得到的。
7.根据权利要求1所述的方法, 其特征在于, 粗粒度融合特征解码器包括粗粒度解码模
块; 所述粗粒度解码模块由两个全连接层组成;
根据所述全局视觉编码与 所述粗粒度文本特征编码, 采用粗粒度融合特征解码器进行
解码, 生成艺 术品的粗粒度文本描述, 包括:
将所述全局视觉编码和所述粗粒度文本特征编码的对应元素相加, 得到粗粒度混合特
征;
将所述粗粒度混合特 征输入到粗粒度解码模块中, 得到艺 术品的粗粒度文本描述。
8.根据权利要求1所述的方法, 其特征在于, 细粒度融合特征解码器包括细粒度解码模
块和Softmax激活函数; 所述细粒度解码模块由两个全连接层组成;
根据所述隐喻视觉编码与 所述细粒度文本特征编码, 采用细粒度融合特征解码器进行
解码, 得到艺 术品的细粒度文本描述, 包括:
将所述隐喻视觉表示和所述细粒度文本特征编码的对应元素相加, 得到细粒度混合特
征;
将所述细粒度混合特征输入到所述细粒度解码模块中, 将得到的输出结果采用
Softmax函数激活, 得到艺 术品的细粒度文本描述。
9.根据权利要求1所述的方法, 其特征在于, 将所述粗粒度文本描述和所述细粒度文本
描述进行融合, 得到含有隐喻的多粒度艺 术品描述, 包括:
将所述粗粒度文本描述和所述细粒度文本描述进行拼接, 得到含有隐喻的多粒度艺术
品描述。权 利 要 求 书 2/2 页
3
CN 115082693 A
3
专利 一种融合多粒度多模态的艺术品图像描述生成方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:28:14上传分享