(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210273907.X
(22)申请日 2022.03.19
(71)申请人 陕西师范大学
地址 710062 陕西省西安市长安 南路199号
(72)发明人 谈启雷 吴晓军 杨红红 张玉梅
(74)专利代理 机构 西安永生专利代理有限责任
公司 61201
专利代理师 申忠才
(51)Int.Cl.
G06F 40/166(2020.01)
G06F 40/30(2020.01)
G06V 10/40(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 16/951(2019.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于Faster R- 卷积神经网络检测模型的 图
像古诗生成方法
(57)摘要
一种基于Faster R‑卷积神经网络检测模型
的图像古诗生成方法, 由收集古诗意象词图片、
古诗意象词图片预处理、 构建古诗意象词图像数
据集、 输入用户图像、 提取图像关键字特征、 提取
视觉图像特征、 构建古诗文本生成模型、 判定古
诗情感倾向、 展示生成古诗步骤组成。 本发明通
过收集、 训练、 构建出古诗意象词图像数据集提
升了图像古诗生成时的图像检测的正确率和检
测速度以及生成速度。 在古诗生 成网络中结合了
图像关键词特征和图像视觉特征, 提升了图片和
古诗的主题 一致性。 在图像古诗生成中采用判定
生成古诗的情感倾向, 丰富了图像古诗生成功
能, 提升了图像古诗生成质量。 它具有生成速度
快、 图像和古诗主题一致性高等优点, 可用于图
像古诗生成技 术领域。
权利要求书3页 说明书9页 附图1页
CN 114662456 A
2022.06.24
CN 114662456 A
1.一种基于Faster R‑卷积神经网络检测模型的图像古诗生成方法, 其特征在于由下
述步骤组成:
(1)收集古 诗意象词图片
基于古诗常见的100个意象词, 采用爬虫方法从互联网图像数据中爬取意象词对应的
图片各10 0张, 得到古 诗意象词图片共10 000张;
(2)古诗意象词图片预处 理
对采集到的意象词图片进行尺寸统一化处理, 并采用分段线性灰度增强方法对图片进
行细节灰度级处 理, 增强图像对比度, 压缩不要的图像细节;
(3)构建古 诗意象词图像数据集
使用帕斯卡视觉对象类方法对预处理完的图片进行标注, 依次标记图片包含的意象词
标签, 输出为图片对应的可扩展标记语言文件, 对于采集到的10000张图片和10000个图像
相对应的可扩展 标记语言文件按8∶2的比例进行数据集切分; 采用Faster R‑卷积神经网络
网络训练获得 古诗图像数据集;
(4)输入用户图像
选定的需要作诗的单张图片作为用户输入, 图片尺寸大小无要求;
(5)提取图像关键 字特征
对用户的输入图片使用卷积神经网络网络提取图片中的高纬语义特征, 使用Softmax
函数预测图像标签的概 率分布, 按丅式确定预测的标签分布Π:
Π=Softmax(f(I) )
其中I表示输入的图片, f表示卷积神经网络计算, j表示Π中的第j个分量, πj(I)表示图
片I中含有的第j个标签的概率, fn(I)表示图片I经过卷积神 经网络计算后的第n个标签分
数, j的取值范围为0~ 9;
关键词提取网络的损失函数J为:
其中Ψ表示样本数量;
设定概率阈值, 选取概率阈值高的标签为样本的标签, 即图像的关键字, 关键词集合K
表示为:
K={k1,k2,……,kN}
其中N表示 提取出的关键词个数, N的取值范围是0~ 9;
(6)提取图像视 觉特征
从图片中提取的视觉特征向量的集合V, 每个向量包含了 图片不同位置的局部视觉编
码信息, 由不同的向量表示 生成古诗时每个字的权值;
通过卷积神经网络处理获得用户输入图片的视觉特征向量, 卷积神经网络卷积层按丅
式确定:权 利 要 求 书 1/3 页
2
CN 114662456 A
2其中n代表第n层卷积,
代表第n层卷积的输出, *代 表卷积操作, g代 表激活函数Relu;
按丅式提取视 觉特征向量V:
V={v1,v2,…,vB}
(7)构建古 诗文本生成模型
由关键词提取网络获得的N个关键词集合K, K∈{k1,k2,…,kN}, 结合用卷积神经网络的
视觉特征向量的集合V, V∈{ v1,v2,…,vB}, vj表示每个视觉特征向量包含的图片中的第j部
分信息, 逐句生成古诗, 在生成第i行古诗li时, 之前生成的所有行l1:i‑1∈{x1,x2,…,xC}、 K
和V均可作为模型的输入, 其中l1:i‑1表示第1行到第i行古诗连接的序列, xj表示第j个词的
向量表示, C为古诗序列的长度, 古诗的第一句由关键词 集合K和视觉特征向量集合V生成,
其他句按上面方法生成;
古诗生成网络的编码器选择双向门控循环单元, 将已生成的古诗序列l1:i‑1编码成隐藏
向量H, 正向门控循环单元负责正向编码序列l1:i‑1并获得前向语义隐藏向量
反向门控循
环单元负责反向编码序列l1:i‑1并获得反向语义隐藏向量
拼接
作为序列l1:i‑1中
第j个词的语义隐藏向量, 按下式确定前向语义隐藏向量
反向语义隐藏向量
编码向
量hj:
其中, GRU()为门控循环单元操作,
表示隐藏向量
和反向语义隐藏向量
的拼
接操作;
古诗生成网络的解码器选择单向门控循环单元, 通过对视觉特征信息V和前文编码信
息H解码获得下一句古诗li∈{y1,y2,…,yG}, 解码器门控循环单元循环更新 内部转态st, 用
于解码yt, st更新后用Softmax函数计算每个字的概率分布 yt, 选择概率最大的输出为yt, 即
下一个字, 逐字生成下一句古 诗;
(8)判定古 诗情感倾向
将生成的古诗诗句输出情感倾向判定网络, 通过查询情感字典, 依据情感强度赋予情
感词权值, 按下式确定加权求和判断古 诗情感倾向
其中, Np代表积极情感的词汇数目, Nn代表消极情感的词汇数目, wpi代表积极情感词的
权值, wpj代表情感词的权值;
以加权计 算结果为判断依据,
则生成的古诗是积极情感倾向,
则生成的古诗
是消极情感,
为0则无情感倾向;权 利 要 求 书 2/3 页
3
CN 114662456 A
3
专利 基于Faster R-卷积神经网络检测模型的图像古诗生成方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:37上传分享