(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110637923.8 (22)申请日 2021.06.08 (65)同一申请的已公布的文献号 申请公布号 CN 113392584 A (43)申请公布日 2021.09.14 (73)专利权人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 毕盛 罗超 董敏 钟浩钊  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 冯炳辉 (51)Int.Cl. G06F 30/27(2020.01) G06V 10/44(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110750096 A,2020.02.04 CN 110632931 A,2019.12.31 US 20181740 38 A1,2018.0 6.21 CN 111243017 A,2020.0 6.05 CN 109992000 A,2019.07.09 CN 111413970 A,2020.07.14 US 2019378423 A1,2019.12.12 胡成纬等.基 于场景图知识融入与元 学习的 视觉语言导航. 《山西大 学学报》 .2021,第4 4卷 (第3期),第420 -427页. 审查员 余月好 (54)发明名称 基于深度强化学习和方向估计的视觉导航 方法 (57)摘要 本发明公开了一种基于深度强化学习和方 向估计的视觉导航方法, 包括步骤: 1)生成AI2 ‑ THOR仿真平台离线数据集; 2)对离线数据集的 RGB‑D图像, 提取 图像特征; 3)构建A3C深度强化 学习模型, 并将步骤2)中的特征作为模型的输 入, 进行模型的训练; 4)根据现实场景对步骤3) 训练好的模型进行迁移, 并对其进行微调, 提升 其泛化能力, 最后将微调好的模 型应用到该现实 场景的视觉导航中。 本发明使用三维几何方法, 通过方向估计方法计算导航到目标物体的位置 和方向, 为深度强化学习模型提供方向特征, 使 模型能够更快收敛并且泛化能力更 强, 实现精准 的视觉导航。 权利要求书3页 说明书6页 附图2页 CN 113392584 B 2022.12.16 CN 113392584 B 1.基于深度强化学习和方向估计的视 觉导航方法, 其特 征在于, 包括以下步骤: 1)生成AI2 ‑THOR仿真平台离线数据 集: 通过模拟仿真机器人移动的脚本将AI2 ‑THOR仿 真环境数据生成离线数据集, 离线数据集包含RGB ‑D图像和机器人位置信息, 其中RGB ‑D图 像中D表示的是深度图像, RGB ‑D图像包含RGB图像和深度图像; 2)对步骤1)中的离线数据集的RGB ‑D图像, 提取图像特征: 使用方向估计方法获取图像 中目标物体的方向特征, 将方向特征作为A3C深度强化学习模型的部 分输入, 采用动态图卷 积网络对离线数据集中每帧RGB图像中物体的二维空间关系进行编码, 并将编码特征作为 A3C深度强化学习模 型部分输入, 使用Resnet18骨干网络提取图像的视觉特征, 将 视觉特征 作为A3C深度强化学习模型的部分输入, 包括以下步骤: 2.1)通过三维几何方法将图像 中像素坐标与相机坐标系下的三维坐标作相互转换, 具 体转换公式如下: 式中, (x,y,z)是相机坐标系下的坐标, (u,v,1)是像素坐标系下的齐次坐标, fx,fy是相 机焦距参数, cx,cy是相机主点偏移值; 2.2)使用Faster ‑RCNN网络检测RGB图像中物体的位置信息, 并利用步骤2.1)的三维几 何方法计算对应深度图像中物体检测框的矩形中心的深度数值z, 并表征为N ×1维的词向 量作为A3C深度强化学习模型的一个输入, 其中N是整个数据集中能够检测到的物体种类 数, 使用Faster ‑RCNN网络的残差网络网络卷积层提取检测物体的512 ×1维特征向量; 2.3)使用步骤2.2)中残差网络网络卷积层提取出RGB图像中所有的物体512 ×1维特征 向量, 将RGB图像中检测到的物体的该特征向量拼接成N ×512维的物体视觉特征, 其中未检 测到的物体则全0表示; 2.4)使用Faster ‑RCNN网络提取RGB图像中物体的检测框、 置信度和标签信息, 并拼接 为N×5维的物体位置特 征; 2.5)使用动态图卷积网络进行空间信息编码, 以步骤2.4)中N ×5维的物体位置特征作 为网络第一层的输入, 具体公式如下: Hl+1=f(A·Hl·wl) 式中, A表示动态图卷积网络中的邻接矩阵, wl表示动态图卷积网络第l层的参数, Hl、 Hl +1分别表示网络 l层的空间编码和网络第l+1层的空 间编码, 最后一层H输出物体的空 间编码 特征, f表示Relu激活函数; 2.6)使用动态的邻接矩阵A,通过全连接层直接表征邻接矩阵, 在训练过程中自动收 敛; 2.7)使用方向估计方法, 计算目标物体的方向: 首先, 将看到的目标物体的中心图像坐 标(x,y)使用三 维几何方法进 行坐标转换至相机坐标系, 获得新的相机坐标系下的坐标(x, y,z), 将坐标投影到2D坐标系x,z轴上, 获得物体在水平面上的二维坐标; 2.8)当仿真机器人移动时, 能够计算出目标物体在仿真机器人移动后的具体位置, 计 算公式如下:权 利 要 求 书 1/3 页 2 CN 113392584 B 2式中, (xt,zt)指仿真机器人移动第t步时目标物体所在的坐标, (xt+1,zt+1)指t+1步的目 标物体的坐标, 其中 代表仿真机 器人移动的旋转矩阵, 代表仿真机 器人 移动的平 移矩阵; 2.9)通过目标物体的二维坐标, 推算出仿真机器人移动后目标物体的方向位置信息, 计算公式如下: 式中, (x,z)是当前时刻目标物体仿真机器人在相机坐标系下的坐标, θ是目标物体的 位置角度信息, 将角度转换为机器人第一视角方向, +45 °指目标物体在仿真机器人右侧 45°,‑45°指目标物体在仿真机器人左侧45 °, 将图像中的目标物体的位置信息以N ×1维的 词向量作为A3 C深度强化学习模型的部分输入; 2.10)使用Resnet18骨干网络提取离线数据集中RGB图像的视觉信息, 获得512 ×7×7 维的视觉特征, 将其作为A3 C深度强化学习模型的部分输入; 3)构建A3C深度强化学习模型, 并将步骤2)中的方向特征、 编码特征和视觉特征作为 A3C深度强化学习模型的输入, 进行模型的训练; 4)根据现实场景对步骤3)训练好的A3C深度强化学习模型进行迁移, 并对其进行微调, 提升其泛化能力, 最后将微调好的A3 C深度强化学习模型应用到该现实场景的视 觉导航中。 2.根据权利要求1所述的基于深度强化学习和方向估计的视觉导航方法, 其特征在于, 所述步骤1)包括以下步骤: 1.1)下载AI2 ‑THOR的python包, 使用相 应的命令下载AI2 ‑THOR的30个仿真场景, 取其 中25个仿真场景作为训练集, 剩余5个作为测试集; 1.2)使用python脚本将仿真环境作 栅格化处理, 将对应栅格点位置的坐标和仿真机器 人视角所看到的RGB ‑D图像进行绑定, 使用序列化文件将数据做关联保存, 生成离线数据 集。 3.根据权利要求1所述的基于深度强化学习和方向估计的视觉导航方法, 其特征在于, 所述步骤3)包括以下步骤: 3.1)将Resnet18骨干网络提取的视觉特征输入到512 ×64×1的卷积层得到64 ×7×7 的视觉特征层; 将N ×1维的方向特征、 N ×512维的物体特征向量、 N ×5维的物体位置特征以 及目标物体的N ×1维的词向量拼接成N ×517维度的特征向量, 经由一个全连接层转换为N ×7×7的特征层; 其中, N是整个数据集中能够检测到的物体种类数; 3.2)将机器人上一次移动的动作保存并转换为10 ×7×7维的动作特征向量, 将步骤 3.1)中64 ×7×7的视觉特征、 N ×7×7的特征层以及 10×7×7的动作特征 向量拼接成(76+ N)×7×7的特征层; 3.3)使用逐点卷积卷积层将步骤3.2)中(76+N) ×7×7的特征层转换为64 ×7×7的特权 利 要 求 书 2/3 页 3 CN 113392584 B 3

.PDF文档 专利 基于深度强化学习和方向估计的视觉导航方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习和方向估计的视觉导航方法 第 1 页 专利 基于深度强化学习和方向估计的视觉导航方法 第 2 页 专利 基于深度强化学习和方向估计的视觉导航方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:56:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。