(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110914300.0
(22)申请日 2021.08.10
(65)同一申请的已公布的文献号
申请公布号 CN 113628458 A
(43)申请公布日 2021.11.09
(73)专利权人 四川易方智慧科技有限公司
地址 610200 四川省成 都市中国(四川)自
由贸易试验区成都市双流区怡心 街道
物联二路1号成都信息工程大学成都
研究院内
(72)发明人 刘双侨 王茂帆 郑皎凌
(74)专利代理 机构 成都嘉企源知识产权代理有
限公司 51246
专利代理师 吴宇(51)Int.Cl.
G08G 1/081(2006.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 112325897 A,2021.02.0 5
CN 112700664 A,2021.04.23
CN 112863206 A,2021.0 5.28
US 2021166131 A1,2021.0 6.03
US 20141 14885 A1,2014.04.24
审查员 强宇辰
(54)发明名称
基于群体智能强化学习的交通信号灯优化
方法
(57)摘要
本发明公开了一种基于群体智能强化学习
的交通信号灯优化方法, 包括以下步骤: S1、 共同
构成Actor ‑Criticglobal; S2、 初始化n个智能体的
参数; S3、 初 始化n个智能体对应的A ctor‑Critic
网络, 以及全局Actor ‑Criticglobal网络; S4、 基于
当前n个智能体的参数, 将S分别输入到各自
Actor网络中; 等。 在多交叉口环境下, 通过控制
交通信号灯设计一种模型, 借助了A ctor‑Critic
的算法框架, 同时使用了智能体 之间集中式学习
分散式执行的方法, 算法在收敛速度上得到了较
大的提升。 本发明使得交通状态得到改善, 为后
期群体智能强化学习的交通信号控制的应用奠
定了基础。
权利要求书4页 说明书8页 附图1页
CN 113628458 B
2022.10.04
CN 113628458 B
1.基于群 体智能强化学习的交通信号灯优化方法, 其特 征在于, 包括以下步骤:
S1、 将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体;
,
,…,
为智能体当前时刻对应的状态,
,
,…,
为智能体
下一时刻对应的状态,
,
,…,
为n个智能体对应的观察值,
,
,…,
为智
能体对应的行为,
,
,…,
为n个智能体对应的回报,
,
,…,
为n个智能体构造的
本地网络,
,
,…,
为
n个智能体的
本地网络对应的
本地网络, 共同构成
,
,…,
;
为全局
网络,
为全局
网络, 共同构成
,下标1,2, …,
n为智能体的编号;
S2、 初始化 n个智能体的参数;
所述智能体的参数包括
、 行为
、
;
S为n个智能体当前时刻对应的状态,
用来衡量每次智能体完成行为 A后, 此行为从环境中获得的奖励 反馈与上
一次动作选择带来的奖励反馈之间的差距, 用来衡量
网络进行的动作选择是否更
合理有效;
S3、 初始化n个智能体对应的
网络, 以及全局
网络;
S4、 基于当前n个智能体的参 数, 将
分别输入 到各自
网络中; 各自
网络
分别选择对应智能体的行为
, 使环境根据该智能体的状态、 行为以及确定的回报函数给
出相应的回报
, 转移至下一个 状态
;
S5、 将S4步骤获得的
,
,
作为
网络的输入, 计算获得
;
S6、 更新本地
网络的参数和权 重;
S7、 更新全局
网络的参 合和权重;权 利 要 求 书 1/4 页
2
CN 113628458 B
2S8、 重复S4至S7步骤, 直到达到设置的回合次数或智能体完 成
网络所预设的训练目标, 得到训练完 善的交通信号灯优化模型;
S9、 通过交通信号灯优化模型对当前交通信号灯方案进行优化, 获得优化后的交通信
号灯方案;
所述步骤S4中n个智能体分别进行
网络训练包括以下步骤:
A1、 初始化状态
和动作A以及
;
A2、 将
,
,
传导进入
网络中, 输出
, 因为
网
络基于概率分布选择动作,
即为当前
下, 进行所有行为选择的概率分布; 并且
将act_prob 概率分布进行如下 取对数转换, 利于更 快的达到收敛:
A3:将由
网络传入的
与A2步骤计算得到的
进行如下计
算得到利益 导向损失值
;
其中,reduce_mean 即为神经网络中求平均值;
A4:
基于A2步骤下计算得到的
, 提取出具有最大概 率的行为
;
A5:将当前状态
以及A4步骤获取的状态
传入
网络中, 分别获得当前状
态价值
和下一状态
;
A6:利用从环境中获取的奖励值
, 以及从A5步骤获得的
,
,计算得到 Td_
error,计算公式如下:
GAMMA: 在强化学习中表示学习率;
A7:利用A6步骤得到的
反向传递给
网络, 用于更新智能体
网络的参数和权 重;
A8:利用A4步骤的行为
以及状态
, A6步骤获取的
传递给
网
络, 利用梯度下降最大化利益导向损失值
, 训练并更新智能体
网络的参数
和权重。
2.如权利要求1所述的基于群体智能强化学习的交通信号灯优化方法, 其特征在于, 所权 利 要 求 书 2/4 页
3
CN 113628458 B
3
专利 基于群体智能强化学习的交通信号灯优化方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:57:02上传分享