(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111079240.1 (22)申请日 2021.09.15 (71)申请人 兰州理工大 学 地址 730050 甘肃省兰州市七里河区兰工 坪路287号 (72)发明人 黄黛麟 马佳林 侯亮 陈作汉  曹洁  (74)专利代理 机构 北京棘龙知识产权代理有限 公司 11740 代理人 张开 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06Q 50/30(2012.01) (54)发明名称 一种基于强化学习的自适应轨道交通调度 方法、 系统、 终端 (57)摘要 本发明属于交通调度技术领域, 公开了一种 基于强化学习的自适应轨道交通调度方法、 系 统、 终端, 基于常发性客流量与偶发性客流量的 环境建模方法建立适用于强化学习的轨道列车 调度的马尔可夫决策模型; 确定从环 境中提取特 征的轨道交通调度方案, 进行轨道交通调度。 本 发明提供了一个基于强化学习的自适应轨道交 通调度方法, 可以根据乘客数目来调度轨道交通 车辆, 使得有关公司在保证乘客满意度的同时, 保证收益最大化。 本发明的基于深度强化学习方 法的列车调度方案有着自适应客流量的优点, 在 保证载客率的同时, 使 得运营成本与顾客等待时 间更低。 权利要求书2页 说明书11页 附图2页 CN 114117883 A 2022.03.01 CN 114117883 A 1.一种基于强化学习的自适应轨道交通调度方法, 其特征在于, 所述基于强化学习的 自适应轨道交通调度方法包括: 步骤一, 建立 适用于强化学习的轨道列车调度的马尔可 夫决策模型; 步骤二, 结合基于值函数的深度强化学习方法, 进行特征提取, 确定从环境中提取特征 的轨道交通调度方案, 进行轨道交通调度。 2.如权利要求1所述基于强化学习的自适应轨道 交通调度方法, 其特征在于, 所述建立 适用于强化学习的轨道列车调度的马尔可 夫决策模型包括: 基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车 调度的马尔可 夫决策模型。 3.如权利要求2所述基于强化学习的自适应轨道 交通调度方法, 其特征在于, 所述基于 常发性客流量与偶发性客流量的环境建模方法, 建立适用于强化学习的轨道列车调 度的马 尔可夫决策模型包括: 建立轨道列 车与待乘乘客之间的环境模型, 并基于建立的轨道列车与待乘乘客之间的 环境模型建立MD P模型; 通过分析常发性客流量和偶发性客流量的特点, 基于分析结果细化所述环境模型, 得 到适用于强化学习的轨道列车调度的马尔可 夫决策模型。 4.如权利要求1所述基于强化学习的自适应轨道 交通调度方法, 其特征在于, 所述确定 从环境中提取特征的轨道交通调度方案包括: 利用 Double DQN算法获得轨道交通调度方 案。 5.如权利要求1所述基于强化学习的自适应轨道 交通调度方法, 其特征在于, 所述利用 Double DQN算法获得轨道交通调度方案之前还需进行: 将顺序采集的数据存储在数据库中, 利用均匀随机采样的方法从数据库中抽取数据, 利用抽取的数据训练神经网络 。 6.如权利要求5所述基于强化学习的自适应轨道 交通调度方法, 其特征在于, 所述神经 网络损失函数如下: 7.如权利要求1所述基于强化学习的自适应轨道 交通调度方法, 其特征在于, 所述从环 境中提取 特征包括: 利用下式进行 特征信息的提取: 8.一种接收用户输入程序存储介质, 所存储的计算机程序使电子设备执行如权利要求 1‑7任意一项所述基于强化学习的自适应轨道交通调度方法, 包括下列步骤: 步骤一, 建立 适用于强化学习的轨道列车调度的马尔可 夫决策模型; 步骤二, 结合基于值函数的深度强化学习方法, 进行特征提取, 确定从环境中提取特征 的轨道交通调度方案, 进行轨道交通调度。 9.一种信息数据处理终端, 其特征在于, 所述信息数据处理终端用于实现如权利要求 1‑7任意一项所述基于强化学习的自适应轨道交通调度方法。权 利 要 求 书 1/2 页 2 CN 114117883 A 210.一种存储在计算机可读介质上的计算机程序产品, 包括计算机可读程序, 供于电子 装置上执行时, 提供用户输入接口以实施如权利要求1 ‑7任意一项所述基于强化学习的自 适应轨道交通调度方法。权 利 要 求 书 2/2 页 3 CN 114117883 A 3

.PDF文档 专利 一种基于强化学习的自适应轨道交通调度方法、系统、终端

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的自适应轨道交通调度方法、系统、终端 第 1 页 专利 一种基于强化学习的自适应轨道交通调度方法、系统、终端 第 2 页 专利 一种基于强化学习的自适应轨道交通调度方法、系统、终端 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:53:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。