专利一种基于强化学习的自适应轨道交通调度方法、系统、终端 -在线下载 -pdf文件-doc.720life.cn

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111079240.1 (22)申请日 2021.09.15 (71)申请人兰州理工大学地址 730050 甘肃省兰州市七里河区兰工坪路287号 (72)发明人黄黛麟　马佳林　侯亮　陈作汉　曹洁　 (74)专利代理机构北京棘龙知识产权代理有限公司 11740 代理人张开 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06Q 50/30(2012.01) (54)发明名称一种基于强化学习的自适应轨道交通调度方法、系统、终端 (57)摘要本发明属于交通调度技术领域，公开了一种基于强化学习的自适应轨道交通调度方法、系统、终端，基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型；确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。本发明提供了一个基于强化学习的自适应轨道交通调度方法，可以根据乘客数目来调度轨道交通车辆，使得有关公司在保证乘客满意度的同时，保证收益最大化。本发明的基于深度强化学习方法的列车调度方案有着自适应客流量的优点，在保证载客率的同时，使得运营成本与顾客等待时间更低。权利要求书2页说明书11页附图2页 CN 114117883 A 2022.03.01 CN 114117883 A 1.一种基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于强化学习的自适应轨道交通调度方法包括：步骤一，建立适用于强化学习的轨道列车调度的马尔可夫决策模型；步骤二，结合基于值函数的深度强化学习方法，进行特征提取，确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。 2.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。 3.如权利要求2所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于常发性客流量与偶发性客流量的环境建模方法，建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：建立轨道列车与待乘乘客之间的环境模型，并基于建立的轨道列车与待乘乘客之间的环境模型建立MD P模型；通过分析常发性客流量和偶发性客流量的特点，基于分析结果细化所述环境模型，得到适用于强化学习的轨道列车调度的马尔可夫决策模型。 4.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述确定从环境中提取特征的轨道交通调度方案包括：利用 Double DQN算法获得轨道交通调度方案。 5.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述利用 Double DQN算法获得轨道交通调度方案之前还需进行：将顺序采集的数据存储在数据库中，利用均匀随机采样的方法从数据库中抽取数据，利用抽取的数据训练神经网络。 6.如权利要求5所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述神经网络损失函数如下： 7.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述从环境中提取特征包括：利用下式进行特征信息的提取： 8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行如权利要求 1‑7任意一项所述基于强化学习的自适应轨道交通调度方法，包括下列步骤：步骤一，建立适用于强化学习的轨道列车调度的马尔可夫决策模型；步骤二，结合基于值函数的深度强化学习方法，进行特征提取，确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。 9.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求 1‑7任意一项所述基于强化学习的自适应轨道交通调度方法。权　利　要　求　书 1/2 页 2 CN 114117883 A 210.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1 ‑7任意一项所述基于强化学习的自适应轨道交通调度方法。权　利　要　求　书 2/2 页 3 CN 114117883 A 3

专利 一种基于强化学习的自适应轨道交通调度方法、系统、终端

专利一种基于强化学习的自适应轨道交通调度方法、系统、终端