(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110914300.0 (22)申请日 2021.08.10 (65)同一申请的已公布的文献号 申请公布号 CN 113628458 A (43)申请公布日 2021.11.09 (73)专利权人 四川易方智慧科技有限公司 地址 610200 四川省成 都市中国(四川)自 由贸易试验区成都市双流区怡心 街道 物联二路1号成都信息工程大学成都 研究院内 (72)发明人 刘双侨 王茂帆 郑皎凌  (74)专利代理 机构 成都嘉企源知识产权代理有 限公司 51246 专利代理师 吴宇(51)Int.Cl. G08G 1/081(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 112325897 A,2021.02.0 5 CN 112700664 A,2021.04.23 CN 112863206 A,2021.0 5.28 US 2021166131 A1,2021.0 6.03 US 20141 14885 A1,2014.04.24 审查员 强宇辰 (54)发明名称 基于群体智能强化学习的交通信号灯优化 方法 (57)摘要 本发明公开了一种基于群体智能强化学习 的交通信号灯优化方法, 包括以下步骤: S1、 共同 构成Actor ‑Criticglobal; S2、 初始化n个智能体的 参数; S3、 初 始化n个智能体对应的A ctor‑Critic 网络, 以及全局Actor ‑Criticglobal网络; S4、 基于 当前n个智能体的参数, 将S分别输入到各自 Actor网络中; 等。 在多交叉口环境下, 通过控制 交通信号灯设计一种模型, 借助了A ctor‑Critic 的算法框架, 同时使用了智能体 之间集中式学习 分散式执行的方法, 算法在收敛速度上得到了较 大的提升。 本发明使得交通状态得到改善, 为后 期群体智能强化学习的交通信号控制的应用奠 定了基础。 权利要求书4页 说明书8页 附图1页 CN 113628458 B 2022.10.04 CN 113628458 B 1.基于群 体智能强化学习的交通信号灯优化方法, 其特 征在于, 包括以下步骤: S1、 将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体; , ,…, 为智能体当前时刻对应的状态, , ,…,  为智能体 下一时刻对应的状态, , ,…, 为n个智能体对应的观察值, , ,…, 为智 能体对应的行为, , ,…, 为n个智能体对应的回报, , ,…, 为n个智能体构造的 本地网络, , ,…, 为 n个智能体的 本地网络对应的 本地网络, 共同构成 , ,…, ; 为全局 网络, 为全局 网络, 共同构成 ,下标1,2, …, n为智能体的编号; S2、 初始化 n个智能体的参数; 所述智能体的参数包括 、 行为 、 ; S为n个智能体当前时刻对应的状态, 用来衡量每次智能体完成行为 A后, 此行为从环境中获得的奖励 反馈与上 一次动作选择带来的奖励反馈之间的差距, 用来衡量 网络进行的动作选择是否更 合理有效; S3、 初始化n个智能体对应的 网络, 以及全局 网络; S4、 基于当前n个智能体的参 数, 将 分别输入 到各自 网络中; 各自 网络 分别选择对应智能体的行为 , 使环境根据该智能体的状态、 行为以及确定的回报函数给 出相应的回报 , 转移至下一个 状态 ; S5、 将S4步骤获得的 , , 作为 网络的输入, 计算获得 ; S6、 更新本地 网络的参数和权 重; S7、 更新全局 网络的参 合和权重;权 利 要 求 书 1/4 页 2 CN 113628458 B 2S8、 重复S4至S7步骤, 直到达到设置的回合次数或智能体完 成 网络所预设的训练目标, 得到训练完 善的交通信号灯优化模型; S9、 通过交通信号灯优化模型对当前交通信号灯方案进行优化, 获得优化后的交通信 号灯方案; 所述步骤S4中n个智能体分别进行 网络训练包括以下步骤: A1、 初始化状态 和动作A以及 ; A2、 将 , , 传导进入 网络中, 输出 , 因为 网 络基于概率分布选择动作, 即为当前 下, 进行所有行为选择的概率分布; 并且 将act_prob 概率分布进行如下 取对数转换, 利于更 快的达到收敛: A3:将由 网络传入的 与A2步骤计算得到的 进行如下计 算得到利益 导向损失值 ; 其中,reduce_mean 即为神经网络中求平均值; A4: 基于A2步骤下计算得到的 , 提取出具有最大概 率的行为 ; A5:将当前状态 以及A4步骤获取的状态 传入 网络中, 分别获得当前状 态价值 和下一状态 ; A6:利用从环境中获取的奖励值 , 以及从A5步骤获得的 , ,计算得到 Td_ error,计算公式如下: GAMMA: 在强化学习中表示学习率; A7:利用A6步骤得到的 反向传递给 网络, 用于更新智能体 网络的参数和权 重; A8:利用A4步骤的行为 以及状态 , A6步骤获取的 传递给 网 络, 利用梯度下降最大化利益导向损失值 , 训练并更新智能体 网络的参数 和权重。 2.如权利要求1所述的基于群体智能强化学习的交通信号灯优化方法, 其特征在于, 所权 利 要 求 书 2/4 页 3 CN 113628458 B 3

.PDF文档 专利 基于群体智能强化学习的交通信号灯优化方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于群体智能强化学习的交通信号灯优化方法 第 1 页 专利 基于群体智能强化学习的交通信号灯优化方法 第 2 页 专利 基于群体智能强化学习的交通信号灯优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:57:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。