(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210717218.3 (22)申请日 2022.06.23 (71)申请人 山东科技大 学 地址 266590 山东省青岛市黄岛区前湾港 路579号 (72)发明人 曾庆田 宋戈 王通 段华  曲祥雯  (74)专利代理 机构 青岛锦佳专利代理事务所 (普通合伙) 37283 专利代理师 朱玉建 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/40(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) (54)发明名称 一种手势识别方法、 系统、 计算机设备以及 可读存储介质 (57)摘要 本发明属于人机交互技术领域, 具体公开了 一种手势识别方法、 系统、 计算机设备 以及可读 存储介质。 该方法通过创建一个基于MLP和CNN的 手势识别模 型, 便于使用手势图片以及手部关键 点特征数据作为混合输入, 使得机器学习模型能 够从手势 图片以及手部关键点数据中获取和识 别特征, 本发 明模型为通过输入手势图像和对应 手部关键点特征数据来识别手势的多输入融合 深度网络模型, 该手势识别模型充分结合了MLP 和CNN两种不同网络以及手势图片和手部关键点 特征数据两种数据的优点, 以提高手势识别网络 的整体性能, 有效地解决了当前手势识别中精度 低、 实时性差、 鲁棒性差的问题, 在模型中同时输 入手势图片和手部关键点特征数据, 获得了较高 的手势识别精度。 权利要求书4页 说明书11页 附图4页 CN 115223239 A 2022.10.21 CN 115223239 A 1.一种基于 MLP和CNN的多输入融合深度网络的手势 识别方法, 其特 征在于, 包括如下步骤: 步骤1.获取原 始手势图像数据, 并构建原 始手势图像数据集; 步骤2.对原始手势图像数据集中各幅原始手势图像数据进行预处理, 分别提取每幅原 始手势图像中所包 含的21个 手部关键点的特 征数据以及手势图片数据; 将从每幅原始手势图像 中提取到的21个手部关键点的特征数据和手势图片数据, 以及 每幅原始手势图像对应的标签, 共同组成一组样本数据; 将所有原始手势图像对应的样本数据组成样本数据集, 并分为训练数据集和测试数据 集; 步骤3.搭建多输入融合深度网络模型; 多输入融合深度网络包括特 征提取模块、 特 征融合模块以及分类模块; 所述特征提取模块包括两个分支网络, 分别是针对21个手部关键点特征提取的MLP分 支网络以及针对手势图片特 征提取的CN N分支网络; 两个分支网络的输出分别与特 征融合模块相连, 特 征融合模块与分类模块相连; 步骤4.训练及测试多输入融合深度网络模型; 利用步骤2中训练数据集中的样本数据训练多输入融合深度网络; 其中, MLP分支网络的输入为21个手部关键点的特征数据, MLP分支网络的输出为对应 于手部关键点的特 征数据的第一特 征向量; CNN分支网络的输入为手势图片, CN N分支网络的输出为第二特 征向量; 特征融合模块用于将第一、 第二特征向量组合起来, 并经过分类模块预测输出预测结 果; 利用测试 数据集中的样本数据对训练好的多输入融合深度网络进行测试; 步骤5.对于待识别的手势图像, 提取图像包含的21个手部关键点的特征数据以及手势 图片数据, 利用训练及测试好的多输入融合深度网络进行手势 识别, 得到识别结果。 2.根据权利要求1所述的多输入融合深度网络的手势 识别方法, 其特 征在于, 所述步骤1具体为: 获取不同光照强度以及不同背景下捕捉的手势图像, 剔除其中模糊不清的手势图像, 将收集好的手势图像进行分类打标签, 建立原 始手势图像数据集。 3.根据权利要求1所述的多输入融合深度网络的手势 识别方法, 其特 征在于, 所述步骤2中, 手部关键点的特 征数据的提取 方法如下: 首先利用目标检测框架从原 始手势图像中检测识别手部的21个 手部关键点像素坐标; 对原始数据集采用欧几里 得距离归一 化处理, 具体步骤如下: 定义手腕位置对应的手部关键点为基准手部关键点并将其设为原点, 其余20个手部关 键点与原点间的横、 纵轴方向的距离绝对值作为对应 手部关键点的新 坐标; 分别计算各个 手部关键点的新 坐标到原点 坐标的欧几里 得距离, 如公式(1)所示; 其中, i=0,1,…,19,20; ρi表示第i个 手部关键点的新 坐标(xi,yi)与原点坐标(x0,y0)之间的欧几里 得距离;权 利 要 求 书 1/4 页 2 CN 115223239 A 2根据公式(1)中得到的ρi, 由公式(2)进一 步归一化处理; ki=( ρi‑μ )/σ    (2) 其中, ki为手部第i个手部关键点经过欧几里得归一化处理后的数值, 即手部关键点特 征数据; μ、 σ 分别表示21个 手部关键点经欧式距离处 理后的均值和标准差; μ、 σ 的计算方式如公式(3)、 公式(4)所示; 其中, n取值 为20。 4.根据权利要求1所述的多输入融合深度网络的手势 识别方法, 其特 征在于, 所述步骤2中, 手势图片数据的提取 过程如下: 利用图像分割技术显示目标检测框架检测的手势关键点及轮廓, 然后进行膨胀操作, 接着去除杂乱背景, 并将图片调整为统一尺寸大小, 完成对原 始手势图像的预处 理。 5.根据权利要求1所述的多输入融合深度网络的手势 识别方法, 其特 征在于, 所述步骤3中, CN N分支网络的结构如下: CNN分支网络包含九层网络结构, 分别是一个输入层、 三个卷积层、 三个最大池化层以 及两个全连接层; 其中, 各层网络结构的连接结构分别如下: 定义三个卷积层分别为第一卷积层、 第二卷积层以及第三卷积层; 定义三个最大池化层分别为第一 最大池化层、 第二 最大池化层以及第三 最大池化层; 定义两个全连接层分别为第一全连接层以及第二全连接层; 其中, 输入层、 第一卷积层、 第一最大池化层、 第二卷积层、 第二最大池化层、 第三卷积 层、 第三最大池化层、 第一全连接层以及第二全连接层依次连接; 输入层的输入为预处 理后的手势图片, 输入尺寸大小为64 ×64×3; 第一卷积层、 第二卷积层以及第三卷积层分别包含16、 32、 64个滤波器, 第一卷积层、 第 二卷积层以及第三卷积层的卷积核的大小均为3 ×3; 第一最大池化层、 第二 最大池化层以及第三 最大池化层采用最大池化, 设置步长为2; 第一全连接层的神经 元个数为32, 第二全连接层的神经 元个数为类别的数量; 所述步骤3中, MLP分支网络的结构如下: MLP分支网络由三层全连接层构成; 定义三层全连接层分别为第三全连接层、 第 四全连接层以及第五全连接层; 则第三全 连接层、 第四全连接层以及第五全连接层依次连接; 第三全连接层作 为MLP分支网络的输入层, 包含2 1个神经元, 输入为预处理后得到的2 1 个手部关键点特 征数据; 第四全连接层为隐藏层, 包 含16个神经 元; 第五全连接层为MLP分支网络的输出层, 神经 元的个数设置为类别的数量。 6.根据权利要求5所述的多输入融合深度网络的手势 识别方法, 其特 征在于, 所述步骤3中, 定义第一特 征向量为Tout, 第二特征向量为Jout; 特征融合模块对两个分支网络提取的特征信息合理融合, 引入自适应的特征权重ω1、 ω2, 使模型根据数据的特征分布来自行决定权重参数, 在特征融合模块以不同的权重来融 合特征;权 利 要 求 书 2/4 页 3 CN 115223239 A 3

.PDF文档 专利 一种手势识别方法、系统、计算机设备以及可读存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种手势识别方法、系统、计算机设备以及可读存储介质 第 1 页 专利 一种手势识别方法、系统、计算机设备以及可读存储介质 第 2 页 专利 一种手势识别方法、系统、计算机设备以及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:27:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。