专利基于融合图卷积网络与Transformer网络的动作识别方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210851338.2 (22)申请日 2022.07.19 (71)申请人电子科技大学长三角研究院（衢州）地址 324003 浙江省衢州市柯城区芹江东路288号1幢18楼 (72)发明人袁国慧　王卓然　张文超　黄崇君　 (74)专利代理机构成都正煜知识产权代理事务所(普通合伙) 51312 专利代理师袁宇霞 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) (54)发明名称基于融合图卷积网络与Tran sformer网络的动作识别方法及系统 (57)摘要一种基于融合图卷积网络与Tran sformer网络的动作识别方法及系统，属于计算机视觉等技术领域，解决现有技术只浅层使用图卷积网络提取空间特征，其局部时空特征建模能力差的问题。本发明对获取的人体骨架序列数据进行预处理，并引入关节速度信息，得到引入关节速度信息的人体骨架序列；基于引入关节速度信息的人体骨架序列构建时空骨架图；构建时空骨架图的自适应时空图卷积单元模块并进行堆叠，堆叠后得到时空图卷积网络；通过融合层将时空图卷积网络和视觉Tran sformer网络进行融合得到动作识别模型并进行训练；将待预测的人体动作骨架序列处理后送入训练好的动作识别模型进行预测，预测得到动作类别。本发明用于动作识别。权利要求书5页说明书10页附图5页 CN 115100574 A 2022.09.23 CN 115100574 A 1.一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，包括如下步骤： S1：对获取的人体骨架序列数据进行预处理，基于预处理后得到的结果引入关节速度信息，得到引入关节速度信息的人体骨架序列，其中，人体骨架序列数据即为骨架的帧序列； S2：基于引入关节速度信息的人体骨架序列构建时空骨架图； S3：构建时空骨架图的自适应时空图卷积单元模块并进行堆叠，堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络； S4：通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合，对融合后得到的动作识别模型进行训练，得到训练好的动作识别模型，其中，融合层基于局部时空特征得到伪图像特征图； S5：将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测，预测得到动作类别。 2.根据权利要求1所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S1的具体步骤为： S1.1：基于BN层对获取的人体骨架序列进行归一化处理； S1.2：将归一化处理后得到的人体骨架序列随机裁剪到大于64帧的长度； S1.3：使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上进行上下采样操作，将裁剪后得到的人体骨架序列缩放到64帧长度，即得到缩放后的人体骨架序列； S1.4：基于缩放后的人体骨架序列，对各关节点前后帧进行差分运算得到关节点对应的速度信息，对于t帧中第i个关节点vti及该关节点在t+1 帧中对应的关节点v(t+l)i，其空间位置信息分别为(xti， yti， zti)和(x(t+1)i， y(t+1)i， z(t+1)i)，则对于t帧中关节点vti，其速度信息为(x(t+1)i‑xti， y(+l)i‑yti， z(t+1)i‑zti)，将位置信息和速度信息拼接，即得到预处理后的人体骨架序列，拼接后的关节点vti的信息可表示为： (x(t+1)i， y(t+l)i， z(t+l)i， x(t+1)i‑xti， y(t+l)i‑ yti， z(t+1)i‑zti)， x， y， z表示三维坐标点。 3.根据权利要求2所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S2的具体步骤为： S2.1：用无向图G＝(V， E)表示预处理后的人体骨架序列，其中，人体骨架序列有T帧N个关节点，无向图G中的V 表示关节点的集合， E表示边的集合，即骨骼连接的集合； S2.2： V＝{vti|t＝1， L， T， i＝ 1， L， N}表示无向图G中所有关节点， t表示帧数索引标号， i 表示关节点索引标号， T表示总帧数， N表示总关节点数； S2.3：边的集合E由空间边的集合Es和时间边的集合Et两部分共同组成，即E＝(Es， Et)，子集Es＝{vtivtj|(i， j)∈ H}是每一帧空间维度上关节点之间的连接，属于帧内连接，其中， H 是空间中人体的关节点连接的集合，子集Et＝{vtiv(t+1)i}是前后两帧之间同一关节点之间的连接，属于帧间连接； S2.4：以空间p处为中心点，定义该点在该帧内空间上的邻点集合B(vti)＝{vtj|d(vtj， vti)≤D}， d(vtj， vti)表示t帧中第j个关节点vtj到第i个关节点vti的最短距离， D 为给定的阈值，为1，对每个关节点的邻点集合进行标记，定义图卷积过程中的索引顺序，即将关节点vti权　利　要　求　书 1/5 页 2 CN 115100574 A 2的邻点集合B(vti)按照根节点子集、向心点子集、离心点子集划分为3个子集，划分规则和定义的索引顺序如下：其中， ri为关节点i到骨架重心的距离，关节点i为邻点集合的中心关节点，骨架重心是单帧下整个人体骨架的所有关节点的坐标位置取均值后得到的坐标位置， rj为关节点j到骨架重心的距离；划分、且定义索引顺序后，得到时空骨架图。 4.根据权利要求3所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S3的具体步骤为： S3.1：根据3个子集，使用自适应图结构设计单层自适应图卷积层，计算公式如下：其中， fin为空间图卷积层的输入，空间图卷积层即指单层自适应图卷积层， fout为空间图卷积层的输出， Wk为可训练的第k个子集的权重矩阵，根节点子集、向心点子集、离心点子集的分区数K为3，即时空骨架图的归一化邻接矩阵分为3个部分Ak， A1为单位阵I，为被分为两个不同的有向图A2和A3， A2指向人体骨架重心， A3远离人体骨架重心，其中，度矩阵对于同一个数值k，邻接矩阵Bk以Ak进行邻接矩阵参数初始化，在动作识别模型训练的过程中对邻接矩阵Bk的参数进行更新，邻接矩阵Ck依赖于不同的人体骨架序列样本数据本身生成图结构信息，使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉，得出两个关节点之间的关联依赖性，由于归一化高斯嵌入与softmax操作是等价的，所以邻接矩阵Ck计算公式如下：其中，表示第k个子集的可训练的线性层θ 的参数矩阵的倒置， Wφk表示第k个子集的可训练的线性层φ的参数矩阵，与Wφk用于与fin相乘实现数据变换。 S3.2：构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层，即对空间图卷积网络输出的特征fout实施挤压操作Fsq(·)，特征fout通道数为c维，得到c 维向量S，将向量S送入两层全连接层进行激励操作Fex(·)，得到新的c维权重向量EE，将向量EE与空间图卷积层输出特征fout进行相乘之后再与空间图卷积层输出特征fout进行残差连接，相加得到最后的输出特征f； S3.3：使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征，卷积核尺寸为1×Γ，其中， Γ是时间卷积核跨越的帧数； S3.4：依次连接自适应图卷积层、批标准化层、残差通道注意力层、 ReLu激活函数层、时域卷积层、批标准化层和ReLu激活函数层构成自适应时空图卷积单元模块； S3.5：依次连接3个自适应时空图卷积单元模块，每个时间卷积层的时间卷积步长均设为1，得到基于堆叠后的自适应时空图卷积单元模块，即时空图卷积网络。权　利　要　求　书 2/5 页 3 CN 115100574 A 3

专利 基于融合图卷积网络与Transformer网络的动作识别方法及系统

专利基于融合图卷积网络与Transformer网络的动作识别方法及系统