(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110676186.2
(22)申请日 2021.06.18
(65)同一申请的已公布的文献号
申请公布号 CN 113268933 A
(43)申请公布日 2021.08.17
(73)专利权人 大连理工大 学
地址 116024 辽宁省大连市甘井 子区凌工
路2号
(72)发明人 李特 刘海波 刘行健 崔文博
庹桂本 陈一同 王永青
(74)专利代理 机构 大连理工大 学专利中心
21200
代理人 关慧贞
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/08(2006.01)(56)对比文件
CN 10976 0046 A,2019.0 5.17
CN 112596515 A,2021.04.02
CN 110666793 A,2020.01.10
CN 110333739 A,2019.10.15
US 20170 32245 A1,2017.02.02
US 2017076201 A1,2017.0 3.16
刘建伟 等.基 于值函数和策略梯度的深度
强化学习综述. 《计算机学报》 .2019,第42卷(第6
期),第140 6-1438页.
J. Chen 等.I nterpretable End-to- End
Urban Auto nomous Drivi ng With Latent De ep
Reinforcement Learn ing. 《IEEE Transacti ons
on Intelligent Transportati on System s》
.2021,第1-1 1页.
审查员 左臣伟
(54)发明名称
基于强化学习的蛇形急救机器人结构参数
快速设计方法
(57)摘要
本发明基于深度强化学习的蛇形急救机器
人结构参数快速设计方法属于蛇形急救机器人
结构设计领域, 涉及一种用于灾害搜救、 基于深
度强化学习的蛇形急救机器人结构参数快速设
计方法。 该方法先构建蛇形急救机器人参数多目
标规划模型, 针对机器人结构参数多目标规划问
题进行马尔可夫建模。 根据规划问题分别建立状
态空间、 动作空间与奖励函数; 接着构建强化学
习架构。 最后对所构建的强化学习网络进行训
练, 实现蛇形急救机器人快速设计任务。 本发明
可以在保证完成任务指标的前提下, 快速、 高效
完成蛇形急救机器人结构参数快速设计任务, 从
而获得综合性能较优的轻量化蛇形急救机器人
结构参数。
权利要求书3页 说明书6页 附图3页
CN 113268933 B
2022.02.15
CN 113268933 B
1.一种基于强化学习的蛇形急救机器人结构参数快速设计方法, 其特征是, 该方法先
构建蛇形急救机器人参数多目标规划模型; 然后针对机器人结构参数多目标规划问题进 行
马尔可夫建模, 根据规划问题分别建立状态空间、 动作空间与奖励函数; 接着构建强化学习
架构; 最后对所构建的强化学习网络进 行训练, 实现蛇形急救机器人快速 设计任务; 方法的
具体步骤如下:
步骤1: 构建机器人参数多目标规划模型;
将蛇形急救机器 人结构参数化, 确定需要设计的变量为驱动模块长度l1, 核心模块长度
l2, 机器人高度h, 翻越台阶、 沟壑过程中机器人核心模块与水平面夹角 θ 这四个参数;
针对翻越台阶任务过程中的越障关键阶段, 建立障碍与所定义设计变量之间的关系
式; 该关系式定义 为:
其中, Hmax表示理论上在当前结构参数下机器人所能翻越的最大台阶高度, xG表示后驱
动模块与地面 呈垂直状态时机器人整体质心与后驱动模块中心 线的水平距离, mG1表示机器
人驱动模块质量, mG2为核心模块质量, mG为机器人总体质量;
针对跨越沟壑任务过程中的越障关键阶段, 建立障碍与所定义设计变量之间的关系
式; 该关系式定义 为:
结合机器人 轻量化、 便携性要求, 定义蛇形急救机器人质量约束条件:
min{mG=2mG1+mG2} (4)
步骤2: 针对机器人 结构参数多目标规划问题进行马尔可 夫建模;
针对机器人结构参数多目标规划问题, 智能体需要不断尝试各组结构参数, 通过观察
当前状态与奖励, 训练神经网络, 不断 向能获得最大期望奖励值的策略方向进行优化;
在t时刻状态S被定义 为: S(t)=[dH,dS,ms], (5)
其中, 各参数被定义 为:
dH=Hmax‑Htarget (6)
dS=Smax‑Starget (7)
ms=2mG1+mG2 (8)
其中, dH是爬坡能力指标项、 dS是翻越沟壑能力指标项, Smax表示理论上当前机器人所
能跨越的最大沟壑宽度, Htarget代表机器人翻越 台阶的任务需求高度, Starget代表机器人跨
越沟壑的任务需求长度;
在t时刻动作A被定义 为: a(t)=[Δl1,Δl2,Δh,Δθ ], (9)
该动作空间各项参数范围被定义为: Δl1∈(‑5mm,5mm); Δl2∈(‑5mm,5mm); Δh∈( ‑
1mm,1mm); Δθ∈( ‑1°,1°);
其中, Δl1表示在一个时间步内驱动模块长度l1的改变量, Δl2表示在一个时间步 内核权 利 要 求 书 1/3 页
2
CN 113268933 B
2心模块长度l2的改变量, Δh表示在一个时间步内机器人 高度h的改变量, Δθ表示在一个时
间步内核心模块与水平面夹角 θ 的改变量;
在t时刻奖励r被定义 为:
rm=2mG1+mG2 (12)
其中, wm、 wh、 ws分别是质量惩罚项rm、 爬坡能力指标项dH、 翻越沟壑能力指标项dS的标准
化系数;
步骤3: 构建强化学习架构;
选用Soft ‑Actor‑Critic算法为基础框架; 在蛇形急救机器人结构参数快速设计任务
中SAC算法训练参数设置如下: 隐藏层层数为2层; 隐藏层神经元数量为256; 学习率为
0.0001; 经验池容量为500000; 温度系数设置为自动调节;
温度系数 学习率为0.0001;
经上述内容构建强化学习 网络, 智能体在结构参数设计任务过程中, 利用贝尔曼方程
计算预期评估值 Qsoft(st,at):
其中, Qsoft(st,at)表示智能体在t时刻st状态下采取动作at时的预期评估值, Qsoft(st+1,
at+1)表示智能体在t时刻st+1状态下采取动作at+1时的预期评估值, α 为温度系数, logπ(st+1,
at+1)为熵正则项;
根据公式(7)构建Q 值网络更新方程:
构建策略网络更新方程:
其中πφ(·|st)代表当前的策略分布, Qθ(st,·)表示当前根据采样估计到的Q值分布, Z
(st)是派分函数, 作用是令Q 值分布标准 化;
构建温度系数 更新方程:
构建目标网络更新方程:权 利 要 求 书 2/3 页
3
CN 113268933 B
3
专利 基于强化学习的蛇形急救机器人结构参数快速设计方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:56:35上传分享