(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110676186.2 (22)申请日 2021.06.18 (65)同一申请的已公布的文献号 申请公布号 CN 113268933 A (43)申请公布日 2021.08.17 (73)专利权人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2号 (72)发明人 李特 刘海波 刘行健 崔文博  庹桂本 陈一同 王永青  (74)专利代理 机构 大连理工大 学专利中心 21200 代理人 关慧贞 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/08(2006.01)(56)对比文件 CN 10976 0046 A,2019.0 5.17 CN 112596515 A,2021.04.02 CN 110666793 A,2020.01.10 CN 110333739 A,2019.10.15 US 20170 32245 A1,2017.02.02 US 2017076201 A1,2017.0 3.16 刘建伟 等.基 于值函数和策略梯度的深度 强化学习综述. 《计算机学报》 .2019,第42卷(第6 期),第140 6-1438页. J. Chen 等.I nterpretable End-to- End Urban Auto nomous Drivi ng With Latent De ep Reinforcement Learn ing. 《IEEE Transacti ons on Intelligent Transportati on System s》 .2021,第1-1 1页. 审查员 左臣伟 (54)发明名称 基于强化学习的蛇形急救机器人结构参数 快速设计方法 (57)摘要 本发明基于深度强化学习的蛇形急救机器 人结构参数快速设计方法属于蛇形急救机器人 结构设计领域, 涉及一种用于灾害搜救、 基于深 度强化学习的蛇形急救机器人结构参数快速设 计方法。 该方法先构建蛇形急救机器人参数多目 标规划模型, 针对机器人结构参数多目标规划问 题进行马尔可夫建模。 根据规划问题分别建立状 态空间、 动作空间与奖励函数; 接着构建强化学 习架构。 最后对所构建的强化学习网络进行训 练, 实现蛇形急救机器人快速设计任务。 本发明 可以在保证完成任务指标的前提下, 快速、 高效 完成蛇形急救机器人结构参数快速设计任务, 从 而获得综合性能较优的轻量化蛇形急救机器人 结构参数。 权利要求书3页 说明书6页 附图3页 CN 113268933 B 2022.02.15 CN 113268933 B 1.一种基于强化学习的蛇形急救机器人结构参数快速设计方法, 其特征是, 该方法先 构建蛇形急救机器人参数多目标规划模型; 然后针对机器人结构参数多目标规划问题进 行 马尔可夫建模, 根据规划问题分别建立状态空间、 动作空间与奖励函数; 接着构建强化学习 架构; 最后对所构建的强化学习网络进 行训练, 实现蛇形急救机器人快速 设计任务; 方法的 具体步骤如下: 步骤1: 构建机器人参数多目标规划模型; 将蛇形急救机器 人结构参数化, 确定需要设计的变量为驱动模块长度l1, 核心模块长度 l2, 机器人高度h, 翻越台阶、 沟壑过程中机器人核心模块与水平面夹角 θ 这四个参数; 针对翻越台阶任务过程中的越障关键阶段, 建立障碍与所定义设计变量之间的关系 式; 该关系式定义 为: 其中, Hmax表示理论上在当前结构参数下机器人所能翻越的最大台阶高度, xG表示后驱 动模块与地面 呈垂直状态时机器人整体质心与后驱动模块中心 线的水平距离, mG1表示机器 人驱动模块质量, mG2为核心模块质量, mG为机器人总体质量; 针对跨越沟壑任务过程中的越障关键阶段, 建立障碍与所定义设计变量之间的关系 式; 该关系式定义 为: 结合机器人 轻量化、 便携性要求, 定义蛇形急救机器人质量约束条件: min{mG=2mG1+mG2}          (4) 步骤2: 针对机器人 结构参数多目标规划问题进行马尔可 夫建模; 针对机器人结构参数多目标规划问题, 智能体需要不断尝试各组结构参数, 通过观察 当前状态与奖励, 训练神经网络, 不断 向能获得最大期望奖励值的策略方向进行优化; 在t时刻状态S被定义 为: S(t)=[dH,dS,ms], (5) 其中, 各参数被定义 为: dH=Hmax‑Htarget           (6) dS=Smax‑Starget           (7) ms=2mG1+mG2                      (8) 其中, dH是爬坡能力指标项、 dS是翻越沟壑能力指标项, Smax表示理论上当前机器人所 能跨越的最大沟壑宽度, Htarget代表机器人翻越 台阶的任务需求高度, Starget代表机器人跨 越沟壑的任务需求长度; 在t时刻动作A被定义 为: a(t)=[Δl1,Δl2,Δh,Δθ ], (9) 该动作空间各项参数范围被定义为: Δl1∈(‑5mm,5mm); Δl2∈(‑5mm,5mm); Δh∈( ‑ 1mm,1mm); Δθ∈( ‑1°,1°); 其中, Δl1表示在一个时间步内驱动模块长度l1的改变量, Δl2表示在一个时间步 内核权 利 要 求 书 1/3 页 2 CN 113268933 B 2心模块长度l2的改变量, Δh表示在一个时间步内机器人 高度h的改变量, Δθ表示在一个时 间步内核心模块与水平面夹角 θ 的改变量; 在t时刻奖励r被定义 为: rm=2mG1+mG2                     (12) 其中, wm、 wh、 ws分别是质量惩罚项rm、 爬坡能力指标项dH、 翻越沟壑能力指标项dS的标准 化系数; 步骤3: 构建强化学习架构; 选用Soft ‑Actor‑Critic算法为基础框架; 在蛇形急救机器人结构参数快速设计任务 中SAC算法训练参数设置如下: 隐藏层层数为2层; 隐藏层神经元数量为256; 学习率为 0.0001; 经验池容量为500000; 温度系数设置为自动调节; 温度系数 学习率为0.0001; 经上述内容构建强化学习 网络, 智能体在结构参数设计任务过程中, 利用贝尔曼方程 计算预期评估值 Qsoft(st,at): 其中, Qsoft(st,at)表示智能体在t时刻st状态下采取动作at时的预期评估值, Qsoft(st+1, at+1)表示智能体在t时刻st+1状态下采取动作at+1时的预期评估值, α 为温度系数, logπ(st+1, at+1)为熵正则项; 根据公式(7)构建Q 值网络更新方程: 构建策略网络更新方程: 其中πφ(·|st)代表当前的策略分布, Qθ(st,·)表示当前根据采样估计到的Q值分布, Z (st)是派分函数, 作用是令Q 值分布标准 化; 构建温度系数 更新方程: 构建目标网络更新方程:权 利 要 求 书 2/3 页 3 CN 113268933 B 3

.PDF文档 专利 基于强化学习的蛇形急救机器人结构参数快速设计方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的蛇形急救机器人结构参数快速设计方法 第 1 页 专利 基于强化学习的蛇形急救机器人结构参数快速设计方法 第 2 页 专利 基于强化学习的蛇形急救机器人结构参数快速设计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:56:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。