专利一种移动机器人导航方法、装置、计算机设备和存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110992812.9 (22)申请日 2021.08.27 (65)同一申请的已公布的文献号申请公布号 CN 113609786 A (43)申请公布日 2021.11.05 (73)专利权人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人方强　王熙童　徐昕　曾宇俊　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师邱轶 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 111/04(2020.01) G06F 111/08(2020.01) (56)对比文件 CN 111401556 A,2020.07.10 CN 113255936 A,2021.08.13 祁文凯等.基于延迟策略的最大熵优势演员评论家算法. 《小型微型计算机系统》 .2020,(第 08期), 许诺等.稀疏奖励下基于MADDPG算法的多智能体协同. 《现代计算机》 .2020,(第15期), 审查员张一良 (54)发明名称一种移动机器人导航方法、装置、计算机设备和存储介质 (57)摘要本申请涉及一种移动机器人导航方法、装置、计算机设备和存储介质。所述方法包括：通过特征提取模块对目标点图像和场景图像提取特征得到当前状态的状态特征；通过逆强化学习模块解算预先给定的专家轨迹，得到奖励函数；通过A3C强化学习网络中的策略网络输出机器人的预测执行动作，通过值网络得到预测值函数，在执行动作得到下一状态后，根据当前状态、下一状态和执行动作计算TD误差，得到第一损失函数；根据状态特征和权值参数，得到专家奖励值，根据网络奖励值和专家奖励值得到第二损失函数；对A3C强化学习网络和奖励网络进行训练，得到训练好的移动机器人导航模型用于导航。本发明可提高机器人室内导航的准确率和效率，泛化能力强。权利要求书3页说明书12页附图3页 CN 113609786 B 2022.08.19 CN 113609786 B 1.一种移动机器人导航方法，其特征在于，所述方法包括：获取机器人的目标点图像和当前采集的场景图像，将所述目标点图像和所述场景图像输入到移动机器人导航模型中；所述移动机器人导航模型包括特征提取模块、逆强化学习模块、奖励网络和A3 C强化学习网络；所述A3 C强化学习网络包括策略网络和值网络；通过所述特征提取模块对所述目标点图像和所述场景图像分别进行特征提取后混合得到当前状态的状态特征；通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到所述奖励函数；所述最优策略为预先给定的专家轨迹，所述奖励函数中包括权值参数；将所述状态特征输入所述奖励网络，得到网络奖励值；将所述网络奖励值和所述状态特征输入所述A3C强化学习网络，通过所述策略网络根据所述状态特征输出机器人的预测执行动作，通过所述值网络根据所述状态特征和所述预测执行动作得到预测值函数，在执行动作得到下一状态后，根据所述当前状态、所述下一状态和所述预测执行动作计算TD误差，得到第一损失函数；根据所述状态特征和所述权值参数，得到专家奖励值，根据所述网络奖励值和所述专家奖励值得到第二损失函数；根据所述第一损失函数对所述A3C强化学习网络进行训练，根据所述第一损失函数和所述第二损失函数对所述奖励网络进行训练，得到训练好的移动机器人导航模型；通过训练好的移动机器人导航模型进行移动机器人的导航。 2.根据权利要求1所述的方法，其特征在于，通过所述特征提取模块对所述目标点图像和所述场景图像分别进行特征提取后混合得到当前状态的状态特征包括：所述特征提取模块包括两个ResNet ‑50网络层，一个混合层和一个全连接层；通过两个所述ResNet ‑50网络层分别对所述目标点图像和所述场景图像进行特征提取；将所述ResNet ‑50网络层输出的向量输入所述混合层，通过所述混合层进行混合得到混合向量；将所述混合向量输入所述全连接层，通过所述全连接层处理后得到当前状态的状态特征。 3.根据权利要求1所述的方法，其特征在于，通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型包括：通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型为： maxR[mina{(Ps, π*(s)‑Ps,a)(I‑γPπ*)R}‑λ|R|] s.t.(Ps, π*(s)‑Ps,a)(I‑γPπ*)R≥0 |R|≤Rmax权　利　要　求　书 1/3 页 2 CN 113609786 B 2其中， R表示奖励函数； Ps,a表示由p(s ′|s,a)所组成的向量， p(s ′|s,a)表示在状态s下采取动作a到达状态s ′的概率； π*表示所述最优策略； I为单位矩阵， I ‑γPπ*为中间变量，是值函数V的一部分； λ为预设的系数参数； Rmax为所述奖励函数的值的预设阈值。 4.根据权利要求3所述的方法，其特征在于，将所述状态特征输入所述奖励网络，得到网络奖励值包括：将所述状态特征输入所述奖励网络，得到网络奖励值为： r(s)＝(F(φ(s) )| θr) 其中， r(s)表示所述网络奖励值， φ(s)表示所述状态特征； θr表示奖励网络的参数； F (·)表示将状态映射到奖励值的函数。 5.根据权利要求4所述的方法，其特征在于，根据所述状态特征和所述权值参数，得到专家奖励值包括：根据所述状态特征和所述权值参数，得到专家奖励值为： re(s)＝φ(s) ·w 其中， re(s)表示所述专家奖励值； w表示所述权值参数。 6.根据权利要求5所述的方法，其特征在于，根据所述网络奖励值和所述专家奖励值得到第二损失函数包括：根据所述网络奖励值和所述专家奖励值，采用Huber损失计算得到第二损失函数。 7.根据权利要求1至6任一项所述的方法，其特征在于，所述奖励网络为一个三层神经网络。 8.一种移动机器人导航装置，其特征在于，所述装置包括：状态采集模块，用于获取机器人的目标点图像和当前采集的场景图像，将所述目标点图像和所述场景图像输入到移动机器人导航模型中；所述移动机器人导航模型包括特征提取模块、逆强化学习模块、奖励网络和A3C强化学习网络；所述A3C强化学习网络包括策略网络和值网络；特征提取模块，用于通过所述特征提取模块对所述目标点图像和所述场景图像分别进行特征提取后混合得到当前状态的状态特征；逆强化学习模块，用于通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到所述奖励函数；所述最优策略为预先给定的专家轨迹，所述奖励函数中包括权值参数；奖励网络模块，用于将所述状态特征输入所述奖励网络，得到网络奖励值； A3C强化学习网络模块，用于将所述网络奖励值和所述状态特征输入所述A3C强化学习网络，通过所述策略网络根据所述状态特征输出机器人的预测执行动作，通过所述值网络根据所述状态特征和所述预测执行动作得到预测值函数，在执行动作得到下一状态后，根据所述当前状态、所述下一状态和所述预测执行动作计算TD误差，得到第一损失函数；训练和使用模块，用于根据所述状态特征和所述权值参数，得到专家奖励值，根据所述网络奖励值和所述专家奖励值得到第二损失函数；根据所述第一损失函数对所述A3C强化学习网络进行训练，根据所述第一损失函数和所述第二损失函数对所述奖励网络进行训权　利　要　求　书 2/3 页 3 CN 113609786 B 3

专利 一种移动机器人导航方法、装置、计算机设备和存储介质

专利一种移动机器人导航方法、装置、计算机设备和存储介质