(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111009089.4
(22)申请日 2021.08.31
(65)同一申请的已公布的文献号
申请公布号 CN 113706023 A
(43)申请公布日 2021.11.26
(73)专利权人 哈尔滨理工大 学
地址 150080 黑龙江省哈尔滨市南岗区学
府路52号哈尔滨理工大 学
(72)发明人 栾添添 付强 孙明晓 原张杰
张文玉 王万鹏 胡占永 谢春旺
(51)Int.Cl.
G06Q 10/06(2012.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
G06F 30/27(2020.01)G06F 30/15(2020.01)
(56)对比文件
CN 110781614 A,2020.02.1 1
CN 109934332 A,2019.0 6.25
CN 111786713 A,2020.10.16
赵冬梅.“基于多智能体深度确定策略梯度
算法的”. 《电工技 术学报》 .2021,第3 6卷(第9
期),
审查员 余汉鸣
(54)发明名称
基于深度强化学习的舰载机保障作业人员
调度方法
(57)摘要
本发明公开了一种基于深度强化学习的舰
载机保障作业人员调度方法, 包括以下步骤: 构
建舰载机保障过程的马尔可夫决策过程(Markov
Decision Process,MDP)模型, 作为智能体训练
环境; 根据保障作业流程, 确定智能体及其观测
空间与动作空间; 随后设计奖励函数、 经验抽取
机制和终止条件, 并基于此设计网络结构; 通过
设置主要参数初始化环境, 并采用多智能体深度
确定策略梯度算法(Multi Agent Deep
Deterministic Policy Gradient,MADDPG)训练
智能体; 最终使用完成训练智能体的决策辅助指
挥人员进行保障作业人员调度。 本发 明可用于人
员调度智能决策, 将各类保障小组设定为智能
体, 辅助指挥人员和保障人员进行决策, 提高保
障作业决策效率, 从而提高舰载机出动回收架次
率。
权利要求书2页 说明书7页 附图4页
CN 113706023 B
2022.07.12
CN 113706023 B
1.一种基于深度强化学习的舰载机保障作业人员调度方法, 其特征在于, 包括以下步
骤:
步骤1: 建立舰载机保障作业 流程的马尔科 夫决策过程模型, 为智能体训练搭建环境;
步骤2: 根据舰载机保障作业特点, 确定智能体、 智能体观测空间与智能体动作空间;
步骤3: 构建基于保障作业需求模型的奖励函数, 并将执行后一工序智能体的Q值引入
执行前一工序智能体的奖励函数中, 进一 步设计深度强化学习算法;
步骤4: 将智能体投入训练, 直至准确生成调度指令, 得到 完成训练的智能体;
步骤5: 将完成训练 的智能体应用于场景中引导保障人员进行保障作业, 此时智能体可
将真实数据存 储进经验 池, 以便空 闲时间可 再次学习;
所述步骤3的奖励函数确定过程如下:
奖励函数需满足两个条件:
(1)避免环境变为稀疏 奖励环境, 即多步都无 奖励, 导致智能体学习困难;
(2)奖励值需符合实际逻辑;
故可写出 奖励函数限制:
式中, rsta表示开始保障工序的即时奖励; rnop表示无动作的即时奖励; rmis表示误动作
的即时奖励; rdis为因移动距离得到的奖励; j表 示舰载机; J表 示舰载机集合; i表示工序i; b
表示工序i的紧前工序; pj,b表示舰载机j的保障工序i的紧前工序是否完成, 若完成则为1,
否则为0; pj,i表示舰载机j的保障工序i是否执行完毕, 若是则为1, 否则为0; bj,i表示舰载机
j是否正在进行保障工序i, 若是则为1, 否则为0; si表示保障小组是否正在进行保障作业,
若是则为1, 否则为0; k为权重系数, 是超参数; sm表示航母是否机动, 若是则为1, 否则为0;
remerg表示开始处理紧急情况的奖励;
将各个智能体通过自身动作获取的奖励与 执行该智能体 紧后工序的智能体的Q值的加
权和, 作为各个智能体单步获取的即时奖励, Q值即智能体的动作价值函数, 表示智能体未
来折扣奖励之和的期望值:
式中, ri为执行工序i所有保障小组单步所获奖励总和; μ、 λ都为权重系数, 且都是超参
数; Qh表示执行工序i紧后工序h的小组的Q值; ri,n为执行工序i编号为n的保障小组单步由
自身动作导 致环境转移获得的即时奖励, 其表达式如下:权 利 要 求 书 1/2 页
2
CN 113706023 B
2式中, msta表示开始工序的次数; mmis表示误动作的次数; mnop表示无动作的次数; memerg表
示开始处理紧急情况次数; Z为整数集;
所述步骤3的深度强化学习算法设计过程如下:
考虑该调度问题可承受容错率低, 在基于误差和奖励的双指标优先经验回放基础上增
加一个误操作数指标, 构成三指标优先经验回放机制; 再根据训练过程各阶段特性, 对各指
标设置相关参数, 并根据训练 次数进行自适应调整, 使 学习目的性更强, 增加收敛效果以达
到预期训练效果; 各 经验优先度计算如式4所示:
Pj=(a(n)·Qj+b(n)·lossj+c(n)·misj)λt (4)
式中, Pj表示经验j的优先度; a(n),b(n),c(n)为权重系数, 它们随训练步数n的变化而
变化; Qj为经验j的Q值; lossj为经验j的误差; misj为经验j的误操作数; λ为重复选中经验的
损失率, 其 值介于0~1, 为超参数; t为经验j被选中的次数;
若每次训练都计算整个经验池经验的优先度, 则会耗费太多算力, 且 效率不高, 故应用
时, 先采用随机抽样抽取n ·k条经验, 再计算出其优先度, 最终选出优先度最高的n条经验
进行学习。权 利 要 求 书 2/2 页
3
CN 113706023 B
3
专利 基于深度强化学习的舰载机保障作业人员调度方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:56:53上传分享