(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210664690.5
(22)申请日 2022.06.14
(71)申请人 中山大学
地址 510006 广东省广州市海珠区新港西
路135号
(72)发明人 苏卓 官晖强 周凡 林格
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于Transformer的人体解析方法与系统
(57)摘要
本发明公开了一种基于Tran sformer的人体
解析方法。 包括: 使用DeepLabV 3+骨干网络, 提取
图片的低分辨率图像特征, 对低分辨率图像特征
进行上采样操作获取多尺度分辨率图像特征, 将
不同尺度图像特征通过像素级解码操作和
Transformer解码器, 分别获得像素级嵌入和嵌
入特征, 将像素级嵌入和嵌入特征进行内积得到
语义分割图, 将语义分割图融合获得人体解析
图。 本发明还公开了基于Transformer的人体解
析系统。 本发明采用基于Transformer的方式,
Transformer的注意力机制能够对长期依 赖进行
建模, 有效地捕获全局特征, 从而提高人体解析
的准确率, 且本发明没有引入人体的先验信息,
计算速度快、 模型复杂度较低, 能够进行实时人
体解析。
权利要求书3页 说明书6页 附图2页
CN 115063586 A
2022.09.16
CN 115063586 A
1.一种基于Transformer的人体解析 方法, 其特 征在于, 所述方法包括:
输入人体图片和解析图片, 对所输入的图片进行 数据增强, 并将其处 理成统一的尺寸;
使用DeepLabV3+骨干网络, 提取所述图片的低分辨率图像特征, 对低分辨率图像特征
进行多次上采样 操作, 得到1/ 32, 1/16, 1/8和1/4四种尺度的分辨 率图像特 征;
将1/4尺度的分辨 率图像特 征输入到像素级解码器中进行操作获得像素级嵌入;
输入所述1/32, 1/16, 1/8尺度的分辨率图像特征和 N个查询数目, 使用Transformer的
解码器从不同尺度的分辨率图像特征中计算出不同人体部位之间的注意力关系, 得到C*N
维的嵌入特 征, C为通道数, N是要分割的人体部位和衣物种类数量;
将所述嵌入特征和所述像素级嵌入进行内积, 得到N个H*W维的二进制语义分割图, H和
W分别表示所述二进制语义分割图的高度和宽度, 每个图代表一个人体部位的解析结果, 相
应部位像素值用1来表示, 其 他区域像素值用0来表示;
将N个二进制的语义分割图融合, 即将二进制图中的1用对应分割部位的标签进行替
换, 将N个替换后的图进行相加得到最终的人体解析 结果。
2.如权利要求1所述的基于Transformer的人体解析方法, 其特征在于, 所述输入人体
图片和解析图片, 对所输入的图片进行 数据增强, 并将其处 理成统一的尺寸, 具体为:
输入人体图片和人体解析图片, 人体图片是从网络上收集, 解析图片是由人工用不同
的颜色标注人体的不同部位和衣物的图片, 为了使得训练所得的模型具有鲁棒性, 对所述
图片进行随机 旋转、 水平镜像、 随机 裁剪的数据增强, 最后将所有的图片放缩到统一尺寸。
3.如权利要求1所述的基于Transformer的人体解析方法, 其特征在于, 所述使用
DeepLabV3+骨干网络, 提取所述图片的低分辨率图像特征, 对低 分辨率图像特征进行多次
上采样操作, 得到1/ 32, 1/16, 1/8和1/4四种尺度的分辨 率图像特 征, 具体为:
将所述图片输入到DeepLabV3+骨干网络中, DeepLabV3+骨干网络对所述图片进行1*1
的卷积, 3*3的比率为6, 12和18的空洞卷积和图像池化操作, 得到5个特征图, 将所述5个特
征图级联, 对其进行1*1的卷积操作, 得到低分辨率图像特征, 对低分辨率图像特征进行上
采样操作得到1/ 32, 1/16, 1/8, 和1/4四种尺度的分辨 率图像特 征。
4.如权利要求1所述的基于Transformer的人体解析方法, 其特征在于, 所述将1/4尺度
的分辨率图像特 征输入到像素级解码器中进行操作获得像素级嵌入, 具体为:
使用像素级别的解码器将所述1/4尺度的分辨率图像特征和原图像进行1*1卷积, 将所
述1/4尺度的分辨率图像特征连接起来, 随后通过反卷积操作不断进 行上采样操作, 从而获
得不同尺度的多分辨 率的图像特 征。
5.如权利要求1所述的基于Transformer的人体解析方法, 其特征在于, 所述输入所述
1/32, 1/16, 1/8尺度的分辨率图像特征和N个查询数目, 使用Transformer的解码器从不同
尺度的分辨率图像特征中计算出不同人体部位之 间的注意力关系, 得到C*N 维的嵌入特征,
C为通道数, N是要分割的人体部位和衣物种类数量, 具体为:
输入所述1/32, 1/16, 1/8尺度的分辨率图像特征和N个查询至Trans former解码器中, N
为需要分割的人体部位和衣物的种类, 首 先计算交叉注意力:
Xl=softmax(QlKl)Vl+Xl‑1
其中, l是层数的下标, Xl是第l层的查询特征, Ql是第l层输入的查询, Vl和Kl是第l层输
入的图像特征通过两个不同的线性变换函数fV和fK所变换得到的矩阵, 随后对交叉注意力权 利 要 求 书 1/3 页
2
CN 115063586 A
2的结果进行归一化操作, 并通过一个 自注意力层, 自注意力层所计算出 的结果将会在归一
化之后通过 前馈层输出最终的查询特 征;
Transfor mer解码器对1/8, 1/16, 1/32三个尺度的分辨率图像特征进行解码操作, 三次
解码操作会重复L次, 即总共进行3L次解码, 解码后的图像将会通过一个多层感知机, 生成
一个C*N维的嵌入特 征, C是通道数, N是要分割的人体部位和衣物数量。
6.一种基于Transformer的人体解析系统, 其特 征在于, 所述系统包括:
图像预处理单元, 用于对输入的人体图片人体解析图片进行数据增强, 并处理成统一
尺寸;
多尺度分辨率图像特征单元, 用于使用DeepLabV3+骨干网络, 提取所述图片的低分辨
率图像特征, 对低分辨率图像特征进行多次上采样操作, 得到1/32, 1/16, 1/8和1/4四种尺
度的分辨 率图像特 征;
像素级解码单元, 用于将1/4尺度的分辨率图像特征输入到像素级解码器中进行操作
获得像素级嵌入;
Transformer解码单元, 用于输入所述1/32, 1/16, 1/8尺度的分辨率图像特征和N个查
询数目, 使用Transformer的解码器从不同尺度的分辨率图像特征中计算出不同人体部位
之间的注意力关系, 得到C*N维的嵌入特征, C为通道数, N是要分割的人体部位和衣物种类
数量;
语义分割图获取单元, 用于将所述嵌入特征和所述像素级嵌入进行内积, 得到N个H*W
维的二进制语义分割图, 每个图代表一个人体部位的解析结果, 相应部位像素值用1来表
示, 其他区域像素值用0来表示, H和W分别表示所述 二进制语义分割图的高度和宽度;
人体解析图单元, 用于将N个二进制的语义分割图融合, 即将二进制图中的1用对应分
割部位的标签进行替换, 将N个替换后的图进行相加得到最终的人体解析 结果。
7.如权利要求6所述的基于Transformer的人体解析系统, 其特征在于, 所述图像预处
理单元, 需要输入人体图片和人体解析图片, 人体图片是从网络上收集, 解析图片是由人工
用不同的颜色标注人体的不同部位和衣物的图片, 为了使得训练所得 的模型具有鲁棒性,
对所述图片进 行随机旋转、 水平镜像、 随机裁剪的数据增强, 最后将所有的图片放缩到统一
尺寸。
8.如权利要求6所述的基于Transformer的人体解析系统, 其特征在于, 所述多尺度分
辨率图像特征单元, 需要将所述图片输入到DeepLabV3+骨干网络中, DeepLabV3+骨干网络
对所述图片进行1*1的卷积, 3*3的比率为6, 12和18的空洞卷积和图像池化操作, 得到5个特
征图, 将所述5个特征图级联, 对其进行1*1的卷积操作, 得到低 分辨率图像特征, 对低分辨
率图像特 征进行上采样操作得到1/ 32, 1/16, 1/8, 和1/4四种尺度的分辨 率图像特 征。
9.如权利要求6所述的基于Transformer的人体解析系统, 其特征在于, 所述像素级解
码单元, 需要使用像素级别的解码器将所述 1/4尺度的分辨率图像特征和原图像进 行1*1卷
积, 将所述1/4尺度的分辨率图像特征连接起来, 随后通过反卷积操作不断进行上采样操
作, 从而获得不同尺度的多分辨 率的图像特 征。
10.如权利要求6所述的基于Transformer的人体解析系统, 其特征在于, 所述
Transformer解码单元, 需要输入所述1/32, 1/16, 1/8尺度的分辨率图像特征和N个查询至
Transformer解码器中, N 为需要分割的人体部位和衣物的种类, 首 先计算交叉注意力:权 利 要 求 书 2/3 页
3
CN 115063586 A
3
专利 基于Transformer的人体解析方法与系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:29:21上传分享