(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210851338.2
(22)申请日 2022.07.19
(71)申请人 电子科技大 学长三角研究院 (衢州)
地址 324003 浙江省衢州市柯 城区芹江东
路288号1幢18楼
(72)发明人 袁国慧 王卓然 张文超 黄崇君
(74)专利代理 机构 成都正煜知识产权代理事务
所(普通合伙) 51312
专利代理师 袁宇霞
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06V 10/80(2022.01)
(54)发明名称
基于融合图卷积网络与Tran sformer网络的
动作识别方法及系统
(57)摘要
一种基于融合图卷积网络与Tran sformer网
络的动作识别方法及系统, 属于计算机视觉等技
术领域, 解决现有技术只浅层 使用图卷积网络提
取空间特征, 其局部时空特征建模能力差的问
题。 本发明对获取的人体骨架序列数据进行预处
理, 并引入关节速度信息, 得到引入关节速度信
息的人体骨架序列; 基于引入关节速度信息的人
体骨架序列构建时空骨架图; 构建时空骨架图的
自适应时空图卷积单元模块并进行堆叠, 堆叠后
得到时空图卷积网络; 通过融合层将时空图卷积
网络和视觉Tran sformer网络进行融合得到动作
识别模型并进行训练; 将待预测的人体动作骨架
序列处理后送入训练好的动作识别模型进行预
测, 预测得到动作类别。 本发明用于动作识别。
权利要求书5页 说明书10页 附图5页
CN 115100574 A
2022.09.23
CN 115100574 A
1.一种基于融合图卷积网络与Transformer网络的动作识别方法, 其特征在于, 包括如
下步骤:
S1: 对获取的人体骨架序列数据进行预处理, 基于预处理后得到的结果引入关节速度
信息, 得到引入关节速度信息的人体骨架序列, 其中, 人体骨架序列数据即为骨架的帧序
列;
S2: 基于引入关节速度信息的人体骨架序列构建时空骨架图;
S3: 构建时空骨架图的自适应时空图卷积单元模块并进行堆叠, 堆叠后得到提取时空
骨架图的局部时空特 征的时空图卷积网络;
S4: 通过融合层将时空图卷积网络和对伪图像特征图进行长程 时间特征提取并进行动
作分类的视觉Transformer网络进 行融合, 对融合后得到的动作 识别模型进行训练, 得到训
练好的动作识别模型, 其中, 融合层基于局部时空特 征得到伪图像特 征图;
S5: 将待预测的人体动作骨架序列处理为 时间骨架图后送入训练好的动作识别模型进
行预测, 预测得到动作类别。
2.根据权利要求1所述的一种基于融合图卷积网络与Transformer网络的动作识别方
法, 其特征在于, 所述 步骤S1的具体步骤为:
S1.1: 基于BN层对获取的人体骨架序列进行归一 化处理;
S1.2: 将归一 化处理后得到的人体骨架序列随机 裁剪到大于64帧的长度;
S1.3: 使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上
进行上下采样操作, 将裁剪后得到的人体骨架序列缩放到64帧长度, 即得到缩放后的人体
骨架序列;
S1.4: 基于缩放后的人体骨架序列, 对各关节点前后帧进行差分运算得到关节点对应
的速度信息, 对于t帧中第i个关节点vti及该关节点在t+1 帧中对应的关节点v(t+l)i, 其空间
位置信息分别为(xti, yti, zti)和(x(t+1)i, y(t+1)i, z(t+1)i), 则对于t帧中关节点vti, 其速度信息
为(x(t+1)i‑xti, y(+l)i‑yti, z(t+1)i‑zti), 将位置信息和速度信息拼接, 即得到预处理后的人体
骨架序列, 拼接后的关节点vti的信息可表示为: (x(t+1)i, y(t+l)i, z(t+l)i, x(t+1)i‑xti, y(t+l)i‑
yti, z(t+1)i‑zti), x, y, z表示 三维坐标点。
3.根据权利要求2所述的一种基于融合图卷积网络与Transformer网络的动作识别方
法, 其特征在于, 所述 步骤S2的具体步骤为:
S2.1: 用无向图G=(V, E)表示预处理后的人体骨架序列, 其中, 人体骨架序列有T帧N个
关节点, 无向图G中的V 表示关节点的集 合, E表示 边的集合, 即骨骼连接的集 合;
S2.2: V={vti|t=1, L, T, i= 1, L, N}表示无向图G中所有关节点, t表示帧数索引标号, i
表示关节点索引标号, T表示总帧数, N表示总关节点数;
S2.3: 边的集合E由空间边的集合Es和时间边的集合Et两部分共同组成, 即E=(Es, Et),
子集Es={vtivtj|(i, j)∈ H}是每一帧空间维度上关节点之间的连接, 属于帧内连接, 其中, H
是空间中人体的关节点连接的集合, 子集Et={vtiv(t+1)i}是前后两帧之间同一关节点之间
的连接, 属于帧间连接;
S2.4: 以空间p处为中心点, 定义该点在该帧内空间上的邻点集合B(vti)={vtj|d(vtj,
vti)≤D}, d(vtj, vti)表示t帧中第j个关节点vtj到第i个关节点vti的最短距离, D 为给定的阈
值, 为1, 对 每个关节点的邻点集合进行标记, 定义图卷积过程中的索引顺序, 即将关节点vti权 利 要 求 书 1/5 页
2
CN 115100574 A
2的邻点集合B(vti)按照根节点子 集、 向心点子集、 离心点子 集划分为3个子 集, 划分规则和定
义的索引顺序如下:
其中, ri为关节点i到骨架重心的距离, 关节点i为邻点集合的中心关节点, 骨架重心是
单帧下整个人体骨架的所有关节点的坐标位置取均值后得到 的坐标位置, rj为关节点j到
骨架重心的距离;
划分、 且定义索引顺序后, 得到时空骨架图。
4.根据权利要求3所述的一种基于融合图卷积网络与Transformer网络的动作识别方
法, 其特征在于, 所述 步骤S3的具体步骤为:
S3.1: 根据3个子集, 使用自适应图结构设计单层自适应图卷积层, 计算公式如下:
其中, fin为空间图卷积层的输入, 空间图卷积层即指单层自适应图卷积层, fout为空间
图卷积层的输出, Wk为可训练的第k个子集的权重矩阵, 根节点子集、 向心点子集、 离心点子
集的分区数K为3, 即时空骨架图的归一化邻接矩阵
分为3个部分Ak, A1为单
位阵I,
为被分为两个不同的有向图A2和A3, A2指向人体骨架重心, A3远离人体骨架重心,
其中, 度矩阵
对于同一个数值k, 邻接矩阵Bk以Ak进行邻接矩阵
参数初始化, 在动 作识别模型训练的过程中对邻接矩阵Bk的参数进行更新, 邻接矩阵Ck依赖
于不同的人体骨架序列样本数据本身生成图结构信息, 使用归一化高斯嵌入函数来对两个
关节点之间的交互关系进行捕捉, 得出两个关节点之间的关联依赖性, 由于归一化高斯嵌
入与softmax操作是等 价的, 所以邻接矩阵Ck计算公式如下:
其中,
表示第k个子集的可训练的线性层θ 的参数矩阵的倒置, Wφk表示第k个子集的
可训练的线性层φ的参数矩阵,
与Wφk用于与fin相乘实现数据变换。
S3.2: 构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力
层, 即对空间图卷积网络输出的特征fout实施挤压操作Fsq(·), 特征fout通道数为c维, 得到c
维向量S, 将向量S送入两层全连接层进行激励操作Fex(·), 得到新的c维权重向量EE, 将向
量EE与空间图卷积层输出特征fout进行相乘之后再与空间图卷积层输出特征fout进行残差
连接, 相加得到最后的输出 特征f;
S3.3: 使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征, 卷积核
尺寸为1×Γ, 其中, Γ是时间卷积核跨越的帧数;
S3.4: 依次连接自适应图卷积层、 批标准化层、 残差通道注意力层、 ReLu激活函数层、 时
域卷积层、 批标准 化层和ReLu激活函数层构成自适应时空图卷积单 元模块;
S3.5: 依次连接3个自适应时空图卷积单元模块, 每个时间卷积层的时间卷积步长均设
为1, 得到基于堆叠后的自适应时空图卷积单 元模块, 即时空图卷积网络 。权 利 要 求 书 2/5 页
3
CN 115100574 A
3
专利 基于融合图卷积网络与Transformer网络的动作识别方法及系统
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:30:41上传分享