(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111009089.4 (22)申请日 2021.08.31 (65)同一申请的已公布的文献号 申请公布号 CN 113706023 A (43)申请公布日 2021.11.26 (73)专利权人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号哈尔滨理工大 学 (72)发明人 栾添添 付强 孙明晓 原张杰  张文玉 王万鹏 胡占永 谢春旺  (51)Int.Cl. G06Q 10/06(2012.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06F 30/27(2020.01)G06F 30/15(2020.01) (56)对比文件 CN 110781614 A,2020.02.1 1 CN 109934332 A,2019.0 6.25 CN 111786713 A,2020.10.16 赵冬梅.“基于多智能体深度确定策略梯度 算法的”. 《电工技 术学报》 .2021,第3 6卷(第9 期), 审查员 余汉鸣 (54)发明名称 基于深度强化学习的舰载机保障作业人员 调度方法 (57)摘要 本发明公开了一种基于深度强化学习的舰 载机保障作业人员调度方法, 包括以下步骤: 构 建舰载机保障过程的马尔可夫决策过程(Markov   Decision  Process,MDP)模型, 作为智能体训练 环境; 根据保障作业流程, 确定智能体及其观测 空间与动作空间; 随后设计奖励函数、 经验抽取 机制和终止条件, 并基于此设计网络结构; 通过 设置主要参数初始化环境, 并采用多智能体深度 确定策略梯度算法(Multi  Agent Deep  Deterministic  Policy Gradient,MADDPG)训练 智能体; 最终使用完成训练智能体的决策辅助指 挥人员进行保障作业人员调度。 本发 明可用于人 员调度智能决策, 将各类保障小组设定为智能 体, 辅助指挥人员和保障人员进行决策, 提高保 障作业决策效率, 从而提高舰载机出动回收架次 率。 权利要求书2页 说明书7页 附图4页 CN 113706023 B 2022.07.12 CN 113706023 B 1.一种基于深度强化学习的舰载机保障作业人员调度方法, 其特征在于, 包括以下步 骤: 步骤1: 建立舰载机保障作业 流程的马尔科 夫决策过程模型, 为智能体训练搭建环境; 步骤2: 根据舰载机保障作业特点, 确定智能体、 智能体观测空间与智能体动作空间; 步骤3: 构建基于保障作业需求模型的奖励函数, 并将执行后一工序智能体的Q值引入 执行前一工序智能体的奖励函数中, 进一 步设计深度强化学习算法; 步骤4: 将智能体投入训练, 直至准确生成调度指令, 得到 完成训练的智能体; 步骤5: 将完成训练 的智能体应用于场景中引导保障人员进行保障作业, 此时智能体可 将真实数据存 储进经验 池, 以便空 闲时间可 再次学习; 所述步骤3的奖励函数确定过程如下: 奖励函数需满足两个条件: (1)避免环境变为稀疏 奖励环境, 即多步都无 奖励, 导致智能体学习困难; (2)奖励值需符合实际逻辑; 故可写出 奖励函数限制: 式中, rsta表示开始保障工序的即时奖励; rnop表示无动作的即时奖励; rmis表示误动作 的即时奖励; rdis为因移动距离得到的奖励; j表 示舰载机; J表 示舰载机集合; i表示工序i; b 表示工序i的紧前工序; pj,b表示舰载机j的保障工序i的紧前工序是否完成, 若完成则为1, 否则为0; pj,i表示舰载机j的保障工序i是否执行完毕, 若是则为1, 否则为0; bj,i表示舰载机 j是否正在进行保障工序i, 若是则为1, 否则为0; si表示保障小组是否正在进行保障作业, 若是则为1, 否则为0; k为权重系数, 是超参数; sm表示航母是否机动, 若是则为1, 否则为0; remerg表示开始处理紧急情况的奖励; 将各个智能体通过自身动作获取的奖励与 执行该智能体 紧后工序的智能体的Q值的加 权和, 作为各个智能体单步获取的即时奖励, Q值即智能体的动作价值函数, 表示智能体未 来折扣奖励之和的期望值: 式中, ri为执行工序i所有保障小组单步所获奖励总和; μ、 λ都为权重系数, 且都是超参 数; Qh表示执行工序i紧后工序h的小组的Q值; ri,n为执行工序i编号为n的保障小组单步由 自身动作导 致环境转移获得的即时奖励, 其表达式如下:权 利 要 求 书 1/2 页 2 CN 113706023 B 2式中, msta表示开始工序的次数; mmis表示误动作的次数; mnop表示无动作的次数; memerg表 示开始处理紧急情况次数; Z为整数集; 所述步骤3的深度强化学习算法设计过程如下: 考虑该调度问题可承受容错率低, 在基于误差和奖励的双指标优先经验回放基础上增 加一个误操作数指标, 构成三指标优先经验回放机制; 再根据训练过程各阶段特性, 对各指 标设置相关参数, 并根据训练 次数进行自适应调整, 使 学习目的性更强, 增加收敛效果以达 到预期训练效果; 各 经验优先度计算如式4所示: Pj=(a(n)·Qj+b(n)·lossj+c(n)·misj)λt                (4) 式中, Pj表示经验j的优先度; a(n),b(n),c(n)为权重系数, 它们随训练步数n的变化而 变化; Qj为经验j的Q值; lossj为经验j的误差; misj为经验j的误操作数; λ为重复选中经验的 损失率, 其 值介于0~1, 为超参数; t为经验j被选中的次数; 若每次训练都计算整个经验池经验的优先度, 则会耗费太多算力, 且 效率不高, 故应用 时, 先采用随机抽样抽取n ·k条经验, 再计算出其优先度, 最终选出优先度最高的n条经验 进行学习。权 利 要 求 书 2/2 页 3 CN 113706023 B 3

.PDF文档 专利 基于深度强化学习的舰载机保障作业人员调度方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的舰载机保障作业人员调度方法 第 1 页 专利 基于深度强化学习的舰载机保障作业人员调度方法 第 2 页 专利 基于深度强化学习的舰载机保障作业人员调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:56:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。