专利一种融合多粒度多模态的艺术品图像描述生成方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210842566.3 (22)申请日 2022.07.18 (71)申请人湖南大学地址 410082 湖南省长沙市岳麓区麓山南路1号 (72)发明人刘芳　张默涵　郑宝莹　崔盛兰　杨博蔼　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师唐品利 (51)Int.Cl. G06V 10/42(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/279(2020.01)G06V 10/20(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种融合多粒度多模态的艺术品图像描述生成方法 (57)摘要本申请涉及人工智能技术领域的一种融合多粒度多模态的艺术品图像描述生成方法。该方法包括：对待描述艺术品的多模态数据进行预处理，得到预处理的艺术品图像和文本；采用多粒度视觉特征编码器获取预处理图像的全局视觉编码与隐喻视觉编码；根据预处理文本和全局视觉编码、预处理文本和隐喻视觉编码，采用对应粒度文本特征编码器，得到粗粒度文本编码和细粒度文本编码；分别对全局视觉编码与粗粒度文本编码、隐喻视觉编码与细粒度文本编码分别进行解码，得到粗粒度文本描述和细粒度文本描述；将粗粒度文本描述和细粒度文本描述融合，得到含有隐喻的多粒度艺术品描述。采用本方法可以在保证高准确率的情况下高效地生成含有隐喻的艺术品图像描述。权利要求书2页说明书10页附图4页 CN 115082693 A 2022.09.20 CN 115082693 A 1.一种融合多粒度多模态的艺术品图像描述生成方法，其特征在于，所述方法包括：获取待描述的艺术品的多模态数据，并对所述多模态数据进行预处理，得到预处理数据，所述预处理数据包括预处理的艺术品图像和预处理的文本数据；采用基于卷积神经网络的多粒度视觉特征编码器对预处理的艺术品图像的全局视觉表示与隐喻视觉表示进行提取和编码，得到全局视觉编码与隐喻视觉编码；根据所述预处理的文本数据和所述全局视觉编码，采用基于LSTM网络的粗粒度文本特征编码器提取浅层语言特征，并进行编码，得到粗粒度文本特征编码；根据所述全局视觉编码与所述粗粒度文本特征编码，采用粗粒度融合特征解码器进行解码，生成艺术品的粗粒度文本描述；根据所述预处理的文本数据和所述隐喻视觉编码，采用基于LSTM网络的细粒度文本特征编码器提取深层语言特征，并进行编码，得到细粒度文本特征编码；根据所述隐喻视觉编码与所述细粒度文本特征编码，采用细粒度融合特征解码器进行解码，得到艺术品的细粒度文本描述；将所述粗粒度文本描述和所述细粒度文本描述进行融合，得到含有隐喻的多粒度艺术品描述。 2.根据权利要求1所述的方法，其特征在于，多粒度视觉特征编码器包括：粗粒度视觉特征编码器和细粒度视觉特征编码器；所述粗粒度视觉特征编码器包括：全局特征表示模块、由两个全连接层组成的粗粒度编码模块；所述细粒度视觉特征编码器包括：隐喻特征表示网络和编码模块；所述隐喻特征包括文化背景特征和工艺技法特征；所述隐喻特征表示网络包括：文化背景特征表示模块和工艺技法特征表示模块，所述编码模块包括两个相连的全连接层；所述全局特征表示模块、所述文化背景特征表示模块以及所述工艺技法特征表示模块为结构相同参数不共享的基于卷积神经网络的特征表示模块；采用基于卷积神经网络的多粒度视觉特征编码器对预处理的艺术品图像的全局视觉表示与隐喻视觉表示进行提取和编码，得到全局视觉编码与隐喻视觉编码，包括：将所述预处理的艺术品图像分别输入到多粒度注意模块编码器的粗粒度视觉特征编码器的全局特征表示网络中，得到全局视觉表示；将所述全局视觉表示输入到多粒度注意模块编码器的粗粒度视觉特征编码器的粗粒度编码模块中，得到全局视觉编码；将所述预处理的艺术品图像分别输入到多粒度注意模块编码器的细粒度视觉特征编码器的文化背景特征表示模块和工艺技法特征表示模块中，得到文化背景特征与工艺技法特征；将所述文化背景特征与所述工艺技法特征输入到多粒度注意模块编码器的细粒度视觉特征编码器的编码模块中，得到隐喻视觉编码。 3.根据权利要求2所述的方法，其特征在于，所述基于卷积神经网络的特征表示模块为预训练的VG G16网络的头部。 4.根据权利要求3所述的方法，其特征在于，所述预训练的VGG16网络头部的训练步骤包括：获取预训练样本，所述预训练样本为 ImageNet数据集；权　利　要　求　书 1/2 页 2 CN 115082693 A 2采用所述预训练样本对VG G16网络进行训练，得到训练好的VG G16网络；将训练好的VGG16网络的密集层剥离，只保留VGG16网络对于图像特征表示部分的结构，得到预训练的VG G16网络头部。 5.根据权利要求1所述的方法，其特征在于，粗粒度文本特征编码器包括：词嵌入层、非线性变换层、 LSTM层；根据所述预处理的文本数据和所述全局视觉编码，采用基于LSTM网络的粗粒度文本特征编码器提取浅层语言特征，并进行编码，得到粗粒度文本特征编码，包括：从所述预处理的文本数据中提取与所述全局视觉编码对应的文本，并对得到的文本进行分词和编码处理，得到编码后的单词；将编码后的单词与所述全局视觉编码输入到粗粒度文本特征编码器的词嵌入层中，得到编码序列；将所述编码序列输入到所述粗粒度文本特征编码器的非线性变换层，得到非线性变换结果；将所述非线性变换结果输入到所述粗粒度文本特征编码器的LSTM层，得到粗粒度文本特征编码。 6.根据权利要求5所述的方法，其特征在于，细粒度文本特征编码器是与粗粒度文本特征编码器的网络结构相同，参数不共享的网络，所述细粒度文本特征编码器的参数是采用图像数据集和细粒度文本描述进行训练，并对参数进行微调得到的。 7.根据权利要求1所述的方法，其特征在于，粗粒度融合特征解码器包括粗粒度解码模块；所述粗粒度解码模块由两个全连接层组成；根据所述全局视觉编码与所述粗粒度文本特征编码，采用粗粒度融合特征解码器进行解码，生成艺术品的粗粒度文本描述，包括：将所述全局视觉编码和所述粗粒度文本特征编码的对应元素相加，得到粗粒度混合特征；将所述粗粒度混合特征输入到粗粒度解码模块中，得到艺术品的粗粒度文本描述。 8.根据权利要求1所述的方法，其特征在于，细粒度融合特征解码器包括细粒度解码模块和Softmax激活函数；所述细粒度解码模块由两个全连接层组成；根据所述隐喻视觉编码与所述细粒度文本特征编码，采用细粒度融合特征解码器进行解码，得到艺术品的细粒度文本描述，包括：将所述隐喻视觉表示和所述细粒度文本特征编码的对应元素相加，得到细粒度混合特征；将所述细粒度混合特征输入到所述细粒度解码模块中，将得到的输出结果采用 Softmax函数激活，得到艺术品的细粒度文本描述。 9.根据权利要求1所述的方法，其特征在于，将所述粗粒度文本描述和所述细粒度文本描述进行融合，得到含有隐喻的多粒度艺术品描述，包括：将所述粗粒度文本描述和所述细粒度文本描述进行拼接，得到含有隐喻的多粒度艺术品描述。权　利　要　求　书 2/2 页 3 CN 115082693 A 3

专利 一种融合多粒度多模态的艺术品图像描述生成方法

专利一种融合多粒度多模态的艺术品图像描述生成方法