(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211041521.2 (22)申请日 2022.08.29 (71)申请人 南京航空航天大 学 地址 211106 江苏省南京市江宁区将军大 道29号 (72)发明人 吴薇薇 俞嘉慧 张皓瑜 丁程锦  (74)专利代理 机构 南京佰腾智 信知识产权代理 事务所(普通 合伙) 32509 专利代理师 黄杭飞 (51)Int.Cl. G06F 30/20(2020.01) G06Q 50/30(2012.01) G06F 111/04(2020.01) G06F 119/02(2020.01) (54)发明名称 一种基于自适应强化学习的飞机维修路径 优化方法 (57)摘要 本发明公开了一种基于自适应强化学习的 飞机维修路径优化方法, 属于航空技术领域, 首 先考虑飞机运行中的飞行时间、 起降架次、 遍历 天数与机场容量四项维修约束, 构建四天为周期 的飞机维修路径模型以保证航班连接收入与飞 机维修成本差值最大化; 其次, 基于自适应变动 因子提出改进强化学习求解算法, 该算法以门特 卡罗决策为基本内核, 通过 “探索‑利用”不断迭 代的方式求解模 型; 最终基于航空公司真实航班 计划, 由小至大规模数据检验模 型与算法的实际 有效性能, 解决了为航空企业提供具有实际应用 价值的路径优化模型的技术问题, 基于民航运行 实际情况, 考虑四种维修约束, 构建改进连接网 络下的飞机维修路径模型, 兼顾 航班连接收益与 维修操作成本 。 权利要求书5页 说明书13页 附图4页 CN 115292959 A 2022.11.04 CN 115292959 A 1.一种基于自适应强化学习的飞机维修路径优化方法, 其特 征在于: 包括如下步骤: 步骤1: 通过数据采集服务器获取航空公司运行过程中的基础数据, 基础数据包括航班 信息、 计划时刻表和维修基地的信息, 数据采集 服务器将基础数据发送给模型构建服 务器; 步骤2: 模型构建服务器获取到基础数据后, 基于连接网络使用三种弧类型与两种节点 结构构建航班与机场等元素间的连接关系模型, 三种弧类型包括普通连接弧、 维修弧与辅 助弧, 两种节点结构包括 航班节点集与维修站 节点集; 步骤3: 模型构建服务器根据连接网络模型构建维修路径, 以反映飞机维修路径规划, 同时定义维修路径模型中的目标函数, 目标函数为提升航班衔接中的运行利润, 目标函数 通过以下公式计算得 出: 利润=航班连接总价 值收入‑飞机维修费用成本; 步骤4: 在模型构建服务器 中定义维修路径模型中的约束条件, 约束条件包括航班覆盖 约束、 维修路径模型中的流平衡与前后航班衔接约束、 维修路径模型中与维修机会相关的 连接和限制约束; 步骤5: 根据步骤3 中的目标函数和步骤4中的约束条件, 模型构建服务器最终形成完整 的飞机维修路径模型; 步骤6: 学习服务器从模型构建服务器中获取维修路径模型, 首先将 维修路径模型反映 出的飞机维修路径规划转 化为具有马尔科 夫决策性质序列决策; 然后再基于强化学习 原理对于马尔科夫决策中的状态集Sates、 动作集Action和奖励/ 惩罚回馈集Reward这三个基本元素进行定义说明: 状态集Sates中存储航班状态以作为学 习主体所需要的数据, 航班状态即为各个航班信息; 动作集Action中存储学习主体在与环 境交互过程中为各个航班状态分配执飞飞机的动作; 奖励/惩罚回馈集Reward中存储学习 主题在执 行各个动作后所产生的奖励/惩罚回馈值; 最后基于门特卡罗控制方法进行强化学习建模, 不断收集各个航班状态下的动作的奖 励/惩罚回馈值, 并进行累计; 步骤7: 学习服务器在基于门特卡罗控制 法在强化学习建模中构建自适应ε ‑greedy评 估函数, 预设算法迭代的回合数并完成进 行自适应评估行为, 具体包括从奖励/惩罚回馈集 Reward中获取累计奖励/惩罚回馈值, 门特卡罗控制法中的贪婪因子 ε依据各回合下的累计 奖励/惩罚回馈值进行下降更新, 以1 ‑ε为条件, 在动作集合中对某一状态下的执飞飞机的 动作进行选取; 步骤8: 在学习服务器 中进行环境模拟获取模拟数据, 并根据自适应评估行为所得的基 本结构, 基于门特卡罗控制方法, 训练得 出各航班状态下的维修路径规划方案; 步骤9: 对维修路径规划方案进行仿真, 生成最终的路径规划结果。 2.如权利要求1所述的一种基于自适应强化学习的飞机维修路径优化方法, 其特征在 于: 所述航班覆盖约束包括: 约束1: 每 个航班都必须有且仅有一架飞机执飞; 约束2: 确保飞机在源汇 节点的覆盖平衡; 所述流平衡与前后航班衔接约束包括: 约束3: 若飞机使用普通连接 弧或维修弧覆盖航班, 则必须使用普通连接 弧或辅助弧覆 盖下一次航班;权 利 要 求 书 1/5 页 2 CN 115292959 A 2约束4: 处于维修站的飞机必须保持维修弧与辅助弧的前后衔接, 即如果飞机覆盖航班 并使用维修弧访问维修站, 则飞机在离开维修站时必须使用辅助弧覆盖下一次航班; 约束5: 连接的时间约束, 即, 如果前序航班 的到达时间加上周转时间小于或等于后续 航班的后续 起飞时间, 则飞机能够覆盖前序航班和后续 航班这两个连续 航班; 约束6: 连接的地点约束, 如果前序航班的到达机场与后续航班 的出发机场相同, 则飞 机可以覆盖前序航班和后续 航班这两个连续 航班; 所述与维修机会相关的连接和限制约束包括: 约束7: 如果飞机执飞航班的到达机场与维修站的位置相同, 则飞机可以进行维修访 问; 约束8: 若该航段的起飞机场和维修站的位置相同, 则飞机在完成维修操作后可以覆该 航段; 约束9: 保证飞机在执行后续航段的开始时间大于等于飞机完成维修后重新用于飞行 的准备时间; 约束10: 保证两次维修间的起飞次数不超过最大起飞次数; 约束11: 制定维修操作间累积飞行时间的限制性约束; 约束12: 保证维修基地的每日的可用容 量约束; 约束13: 确保每架飞机在4天周期内的维修次数大于或等于1次, 以实现维修操作间最 大累计天数的限制约束。 3.如权利要求2所述的一种基于自适应强化学习的飞机维修路径优化方法, 其特征在 于: 在执行步骤6时, 各个航班信息包括航班出发机场、 出发时间、 到达机场、 到达时间和飞 行时间; 动作集Action中的动作需满足步骤4中的约束条件; 奖励/惩罚回馈集Reward中存 储的奖励/惩罚回馈值包括3个情况: 情况1: 学习主题在执 行的动作后产生关键连接, 则获得关键连接奖励; 情况2: 学习主题在执 行的动作后产生 不可行维修, 则获得不可 行维修惩罚; 情况3: 学习主题在执行的动作后不产生关键连接且不产生不可行维修, 则不获得任何 回馈。 4.如权利要求2所述的一种基于自适应强化学习的飞机维修路径优化方法, 其特征在 于: 在执行步骤6时, 通过以下公式进行 奖励/惩罚回馈值的累计 计算: Gt=(rt+γrt+1+γ2rt+2+......|st=s′); 其中, t表示某一时刻, Gt表示奖励/惩罚回馈值的累计值, γ表示累计 奖励/惩罚回馈过 程中的折扣因子, rt表示t时刻的奖励/惩罚回馈值, s ′为航班状态集合, st表示在t时刻的状 态。 5.如权利要求4所述的一种基于自适应强化学习的飞机维修路径优化方法, 其特征在 于: 在执行步骤 7时, 贪婪因子 ε依据各回合下的累计奖励/惩罚回馈值进 行下降更新的具体 公式如下: difference=Gepisode‑Gepisode‑1;权 利 要 求 书 2/5 页 3 CN 115292959 A 3

.PDF文档 专利 一种基于自适应强化学习的飞机维修路径优化方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自适应强化学习的飞机维修路径优化方法 第 1 页 专利 一种基于自适应强化学习的飞机维修路径优化方法 第 2 页 专利 一种基于自适应强化学习的飞机维修路径优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:39:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。