(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110568447.9
(22)申请日 2021.05.25
(65)同一申请的已公布的文献号
申请公布号 CN 113255998 A
(43)申请公布日 2021.08.13
(73)专利权人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 王美玲 陈思园 宋文杰 王凯
(74)专利代理 机构 北京理工大 学专利中心
11120
专利代理师 刘西云
(51)Int.Cl.
G06Q 10/04(2012.01)
G06F 30/27(2020.01)G06N 3/04(2006.01)
G06F 111/04(2020.01)
G06F 111/08(2020.01)
(56)对比文件
CN 112348201 A,2021.02.09
CN 112162555 A,2021.01.01
US 2021116935 A1,2021.04.2 2
US 202016 0168 A1,2020.0 5.21
王树凤等.基 于人工势场和虚拟领航 者的智
能车辆编队控制. 《上海交通大 学学报》 .2020,
(第03期),第89-95页.
曹雷 等.多智能体深度强化学习研究综述.
《计算机 工程与应用》 .2020,(第0 5期),第17-28
页.
审查员 吴媛媛
(54)发明名称
基于多智能体强化学习的高速道路无人驾
驶车辆编队方法
(57)摘要
本发明提供一种基于多智能体强化学习的
高速道路无人驾驶车辆编队方法, 把车辆编队问
题看作是一个多智能体协作问题, 每辆车都有独
立决策的能力, 能够实现安全快速行驶的前提下
灵活编队, 即在车流量大时安全避障, 不必保持
队形, 在车流量小时恢复队形; 从图像输入直接
映射到车辆控制量的端到端方式由于动作搜索
空间大从而训练难度大, 因此本发 明仅使用多智
能体强化学习方法习得换道策略, 再结合S ‑T图
轨迹优化方法, 计算出精确控制量, 增加了控制
约束, 尊崇运动学原理, 有 安全保障, 符合人类驾
驶习惯。
权利要求书2页 说明书8页 附图3页
CN 113255998 B
2022.06.03
CN 113255998 B
1.一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法, 其特征在于, 获取
环境信息作为观测输入训练好的Q ‑MIX网络中, 得到各无人车的动作决策, 实现编队, 其中,
由环境信息作为的观测包括局部观测 和全局观测, 其中, 所述局部观测的获取 方式为:
分别将各 无人车作为主车 执行以下步骤, 得到各 无人车对应的局部观测:
在Frenet坐标系下, 获取主车的位置信息;
将主车设定范围内的区域作为局部地图, 并对局部地图进行栅格化;
获取当前时刻主车的局部地图内其 他无人车相对于主车的距离和速度;
根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的局部地
图中的位置;
根据主车的位置信息、 当前时刻其他无人车相对于主车的距离、 未来1s内其他无人车
在主车的局部地图中的位置, 获取局部地图各栅格的占据概率, 并将局部地图各栅格的占
据概率作为主车对应的局部观测;
所述全局观测的获取 方式为:
将处于编队中心的任意 一个无人车作为主车;
在Frenet坐标系下, 获取主车的位置信息;
将主车设定范围内的区域作为全局地图, 并对全局地图进行栅格化; 其中, 全局地图的
范围大于局部地图的范围;
获取当前时刻主车的全局地图内其 他无人车相对于主车的距离和速度;
根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的全局地
图中的位置;
根据主车的位置信息、 当前时刻其他无人车相对于主车的距离、 未来1s内其他无人车
在主车的全局地图中的位置, 获取全局 地图各栅格的占据概率, 并将全局 地图各栅格的占
据概率作为主车对应的全局观测;
所述Q‑MIX网络由Q网络和MIX网络级联而成, 且Q ‑MIX网络的训练方法包括以下步骤:
S1: 初始化训练环境;
S2: 将训练环境的环境信息作为观测输入Q ‑MIX网络, 得到各无人车的动作决策, 具体
为:
将各无人车对应的局部观测作为Q网络的输入, 得到各无人车在当前局部观测下的可
能产生的各个动作对应的估计动作价 值;
将全局观测和各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价
值作为MIX网络的输入, 得到各无人车在当前全局观测下的对应的最优联合动作价值, 并将
该最优联合动作价 值对应的各 无人车的联合动作组合作为所述动作决策;
S3: 根据各无人车的动作决策进行航迹规划, 使得各无人车执行所述动作决策中的指
定动作, 并得到各无人车执行指定动作后对应的奖励值Ri, 其中, i=1,2,...,N, N为无人车
的数量, 所述根据各无人车 的动作决策进行航迹规划, 使得各无人车执行所述动作决策中
的指定动作具体为:
通过S‑T图优化方法求 解各无人车的纵向加速度;
采用比例控制器模型获取 各无人车的航向;
通过控制无 人车的纵向加速度和航向的使得 无人车执行指定动作;权 利 要 求 书 1/2 页
2
CN 113255998 B
2奖励值Ri的计算方法为: 判断任意两个无人车之间的距离是否大于设定阈值或者发生
碰撞, 若为是, 则各无人车对应的奖励 值Ri=‑1, 并重新执行步骤S1~S3; 若为否, 则各无人
车对应的奖励值Ri=Rvelo‑i+Rlnchan‑i+Rcor‑i, 并进入步骤S4, 其中:
其中, Rvelo‑i为加速因子, Rlnchan‑i为平稳行驶因子, Rcor‑i为协同因子, vi为第i个无人车
的速度,
为所有无人车的平均速度, vmax为所有无人车中的最大速度, α、 β、 γ均为设定比
例系数, si,i+1和di,i+1分别为当前编队中排在第i个无人车后面的无人车相对于第i个无人
车的横向位移和纵向位移, si‑1,i和di‑1,i分别为当前编队中排在第i个无人车前面的无人车
相对于第i个无 人车的横向位移和纵向位移;
S4: 根据各无人车对应的奖励值Ri的和值∑Ri构建均方差损失函数, 再根据均方差损失
函数更新Q‑MIX网络;
S5: 采用更新后的Q ‑MIX网络重新执行步骤S1~S3, 直到达到设定 的重复次数, 得到最
终的Q‑MIX网络。
2.如权利要求1所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方
法, 其特征在于, 当栅格被主 车占据时, 该栅格对应的占据概率为0.8, 当栅格被其他无人车
占据时, 该栅格对应的占据概率为主车与该栅格上 的无人车之间的安全碰撞 时间, 当栅格
未被占据时, 该栅格对应的占据概 率为1。
3.如权利要求1 ‑2任一权利要求所述的一种基于多智能体强化学习的高速道路无人驾
驶车辆编队方法, 其特征在于, 局部地图的范围是主 车的前60m、 后20 m以及左右 4m所围成的
区域, 全局地图的范围是主车的前5 0m、 后50m以及左右4m所围成的区域。权 利 要 求 书 2/2 页
3
CN 113255998 B
3
专利 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:56:28上传分享