(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110992812.9
(22)申请日 2021.08.27
(65)同一申请的已公布的文献号
申请公布号 CN 113609786 A
(43)申请公布日 2021.11.05
(73)专利权人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 方强 王熙童 徐昕 曾宇俊
(74)专利代理 机构 长沙国科天河知识产权代理
有限公司 432 25
专利代理师 邱轶
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06F 111/04(2020.01)
G06F 111/08(2020.01)
(56)对比文件
CN 111401556 A,2020.07.10
CN 113255936 A,2021.08.13
祁文凯等.基 于延迟策略的最大熵优势演员
评论家算法. 《小型微型计算机系统》 .2020,(第
08期),
许诺等.稀疏奖励下基 于MADDPG算法的多智
能体协同. 《现代计算机》 .2020,(第15期),
审查员 张一良
(54)发明名称
一种移动机器人导航方法、 装置、 计算机设
备和存储介质
(57)摘要
本申请涉及一种移动机器人导航方法、 装
置、 计算机设备和存储介质。 所述方法包括: 通过
特征提取模块对目标点图像和场景图像提取特
征得到当前状态的状态特征; 通过逆强化学习模
块解算预先给定的专家轨迹, 得到奖励函数; 通
过A3C强化学习网络中的策略网络输出机器人的
预测执行动作, 通过值网络得到预测值函数, 在
执行动作得到下一状态后, 根据当前状态、 下一
状态和执行动作计算TD误差, 得到第一损失函
数; 根据状态特征和权值参数, 得到专家奖励值,
根据网络奖励值和专家奖励值得到第二损失函
数; 对A3C强化学习网络和奖励网络进行训练, 得
到训练好的移动机器人导航模型用于导航。 本发
明可提高机器人室内导航的准确率和效率, 泛化
能力强。
权利要求书3页 说明书12页 附图3页
CN 113609786 B
2022.08.19
CN 113609786 B
1.一种移动机器人导 航方法, 其特 征在于, 所述方法包括:
获取机器人的目标点图像和当前采集的场景图像, 将所述目标点图像和所述场景图像
输入到移动机器人导航模型中; 所述移动机器人导航模型包括特征提取模块、 逆强化学习
模块、 奖励网络和A3 C强化学习网络; 所述A3 C强化学习网络包括策略网络和值网络;
通过所述特征提取模块对所述目标点图像和所述场景图像分别进行特征提取后混合
得到当前状态的状态特 征;
通过所述逆强化学习模块, 根据所述目标点图像和所述场景图像, 以奖励函数对应的
最优策略与次优策略的差距最大化为优化目标, 所述最优策略动作的值函数不低于其他任
一动作的值函数、 所述奖励函数的值在预设阈值内为约束条件, 构建线性规划模 型, 求解得
到所述奖励函数; 所述 最优策略为预 先给定的专 家轨迹, 所述奖励函数中包括权值 参数;
将所述状态特 征输入所述奖励网络, 得到网络奖励值;
将所述网络奖励值和所述状态特征输入所述A3C强化学习网络, 通过所述策略网络根
据所述状态特征输出机器人的预测执行动作, 通过所述值网络根据所述状态特征和所述预
测执行动作得到预测值函数, 在执行动作得到下一状态后, 根据所述当前状态、 所述下一状
态和所述预测执 行动作计算TD误差, 得到第一损失函数;
根据所述状态特征和所述权值参数, 得到专家奖励值, 根据所述网络奖励值和所述专
家奖励值得到第二损失函数;
根据所述第一损失函数对所述A3C强化学习网络进行训练, 根据所述第一损失函数和
所述第二损失函数对所述奖励网络进行训练, 得到训练好的移动机器人导 航模型;
通过训练好的移动机器人导 航模型进行移动机器人的导 航。
2.根据权利要求1所述的方法, 其特征在于, 通过所述特征提取模块对所述目标点图像
和所述场景图像分别进行 特征提取后混合得到当前状态的状态特 征包括:
所述特征提取模块包括两个ResNet ‑50网络层, 一个混合层和一个全连接层;
通过两个所述ResNet ‑50网络层分别对所述目标点图像和所述场景图像进行特征提
取;
将所述ResNet ‑50网络层输出的向量输入所述混合层, 通过所述混合层进行混合得到
混合向量;
将所述混合向量输入所述全连接层, 通过所述全连接层处理后得到当前状态的状态特
征。
3.根据权利要求1所述的方法, 其特征在于, 通过所述逆强化学习模块, 根据所述目标
点图像和所述场景图像, 以奖励函数对应的最优策略与次优策略的差距最大化为优化目
标, 所述最优策略动作的值函数不低于其他任一动作的值函数、 所述奖励函数 的值在预设
阈值内为约束条件, 构建线性 规划模型包括:
通过所述逆强化学习模块, 根据所述目标点图像和所述场景图像, 以奖励函数对应的
最优策略与次优策略的差距最大化为优化目标, 所述最优策略动作的值函数不低于其他任
一动作的值 函数、 所述奖励函数的值在预设阈值内为约束条件, 构建线性 规划模型为:
maxR[mina{(Ps, π*(s)‑Ps,a)(I‑γPπ*)R}‑λ|R|]
s.t.(Ps, π*(s)‑Ps,a)(I‑γPπ*)R≥0
|R|≤Rmax权 利 要 求 书 1/3 页
2
CN 113609786 B
2其中, R表示奖励函数; Ps,a表示由p(s ′|s,a)所组成的向量, p(s ′|s,a)表示在状态s下
采取动作a到达状态s ′的概率; π*表示所述最优策略; I为单位矩阵, I ‑γPπ*为中间变量, 是
值函数V的一部分; λ为预设的系数参数; Rmax为所述奖励函数的值的预设阈值。
4.根据权利要求3所述的方法, 其特征在于, 将所述状态特征输入所述奖励网络, 得到
网络奖励值包括:
将所述状态特 征输入所述奖励网络, 得到网络奖励值 为:
r(s)=(F(φ(s) )| θr)
其中, r(s)表示所述网络奖励值, φ(s)表示所述状态特征; θr表示奖励网络的参数; F
(·)表示将状态映射到奖励值的函数。
5.根据权利要求4所述的方法, 其特征在于, 根据所述状态特征和所述权值参数, 得到
专家奖励值包括:
根据所述状态特 征和所述权值 参数, 得到专 家奖励值 为:
re(s)=φ(s) ·w
其中, re(s)表示所述专 家奖励值; w表示所述权值 参数。
6.根据权利要求5所述的方法, 其特征在于, 根据 所述网络奖励值和所述专家奖励值得
到第二损失函数包括:
根据所述网络奖励值和所述专 家奖励值, 采用Huber损失计算得到第二损失函数。
7.根据权利要求1至6任一项所述的方法, 其特征在于, 所述奖励网络为一个三层神经
网络。
8.一种移动机器人导 航装置, 其特 征在于, 所述装置包括:
状态采集模块, 用于获取机器人的目标点图像和当前采集的场景图像, 将所述目标点
图像和所述场景图像输入到移动机器人导航模型中; 所述移动机器人导航模型包括特征提
取模块、 逆强化学习模块、 奖励网络和A3C强化学习网络; 所述A3C强化学习网络包括策略网
络和值网络;
特征提取模块, 用于通过所述特征提取模块对所述目标点图像和所述场景图像分别进
行特征提取后混合得到当前状态的状态特 征;
逆强化学习模块, 用于通过所述逆强化学习模块, 根据所述目标点图像和所述场景图
像, 以奖励函数对应的最优策略与次优策略的差距最大化为优化 目标, 所述最优策略动作
的值函数不低于其他任一动作的值函数、 所述奖励函数 的值在预设阈值内为约束条件, 构
建线性规划模型, 求解得到所述奖励函数; 所述最优策略为预先给定的专家轨迹, 所述奖励
函数中包括权值 参数;
奖励网络模块, 用于将所述状态特 征输入所述奖励网络, 得到网络奖励值;
A3C强化学习网络模块, 用于将所述网络奖励值和所述状态特征输入所述A3C强化学习
网络, 通过所述策略网络根据所述状态特征输出机器人 的预测执行动作, 通过所述值网络
根据所述状态特征和所述预测执行动作得到预测值函数, 在执行动作得到下一状态后, 根
据所述当前状态、 所述下一状态和所述预测执 行动作计算TD误差, 得到第一损失函数;
训练和使用模块, 用于根据 所述状态特征和所述权值参数, 得到专家奖励值, 根据 所述
网络奖励值和所述专家奖励值得到第二损失函数; 根据所述第一损失函数对所述A3C强化
学习网络进行训练, 根据所述第一损失函数和所述第二损失函数对所述奖励网络进行训权 利 要 求 书 2/3 页
3
CN 113609786 B
3
专利 一种移动机器人导航方法、装置、计算机设备和存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:55:27上传分享