(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110567571.3
(22)申请日 2021.05.24
(65)同一申请的已公布的文献号
申请公布号 CN 113283169 A
(43)申请公布日 2021.08.20
(73)专利权人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 刘驰 王昊 戴子彭
(74)专利代理 机构 北京中海智圣知识产权代理
有限公司 1 1282
代理人 杨树芬
(51)Int.Cl.
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 111432015 A,2020.07.17
CN 112512070 A,2021.0 3.16CN 110488861 A,2019.1 1.22
US 20202859 95 A1,2020.09.10
US 2004030571 A1,20 04.02.12
刘强等.基 于深度强化学习的群 体对抗策略
研究. 《智能计算机与应用》 .2020,(第0 5期),
程先峰等.基 于MAXQ分层强化学习的有人
机/无人机协同路径规划研究. 《信息化研究》
.2020,(第01期),
李湛等.跨传感器异步迁移学习的室内单目
无人机避障. 《宇 航学报》 .2020,(第0 6期),
Chi Harold Liu等.Multi-Task-Oriented
Vehicular Cro wdaensing:A Deep Learn ing
Approach. 《IEEE Conference o n Computer
Communications》 .2020,
Chi Harold Liu.Distributed and
energy-ef ficient mobi le crowdsensing with
charging stati ons by de ep reinforcement
learning. 《IEEE Transacti ons on Mobile
Computing》 .2019, (续)
审查员 周林
(54)发明名称
一种基于多头注意力异步强化学习的三维
群体探索方法
(57)摘要
本发明公开了一种基于多头注意力异步强
化学习的三维群体探索方法。 包括以下步骤: 步
骤1、 指挥中心主进程设立共享样本复用缓存并
初始化基准探索策略; 步骤2、 指挥中心开启子进
程; 步骤3、 指挥中心 基于共享样本复用缓存采用
像素控制算法优化无人机探索策略; 步骤4、 指挥
中心基于共享样本复用缓存采用信任域策略算
法获取无人机群体飞行轨迹; 步骤5、 反复执行步
骤2、 3、 4直至无人机群行动轨迹不再发生变化;
步骤6、 指挥中心向无人机群发送最优轨迹调动
指令。 本发 明解决了强化学习算法样本采样效率
低下的问题, 在使用同等数量的样 本进行学习时算法达到了更好的数据采集效果, 进一步得到最
大化数据采集的最优轨 迹。
[转续页]
权利要求书3页 说明书9页 附图9页
CN 113283169 B
2022.04.26
CN 113283169 B
(56)对比文件
Chi Harold Liu.Distributed Energy-
Efficient Multi-UA V Navigatrion for Long-
term Com munication Covera ge by De ep
Reinforcement Learn ing. 《IEEE Transacti ons
on Mobile Computi ng》 .2019,第19卷(第0 6期),Chi Harold Liu.Time-Aware L ocation
Predicti on by Convolutional Area-of-
Interest Model ing and Memory-Augmented
Attentive LSTM. 《IE EE Transacti ons on
Knowledge and Date Engi neering》 .2020,2/2 页
2[接上页]
CN 113283169 B1.一种基于多头注意力异步强化学习的三维群 体探索方法, 其特 征在于,
步骤1、 指挥中心初始化基准探索策略与环境参数, 无人机群根据感知环境变化进行数
据采集:
步骤1.1、 指挥中心主进程设立共享样本复用缓存并初始化基准探索策略, 在三维移动
群体感知场景中的指挥中心上建立一个空的共享样本复用缓存并初始化一个基准探索策
略;
步骤1.2、 建立多个子进程, 同步子进程的探索策略并初始化各子进程中的环境参数,
环境参数包括无人机群位置、 无人机群电量、 传感器位置和传感器数据初始 值, 建立一个三
维移动群体感知场景, 部署了N台无人机作为感知数据采集任务的执行者, 场景中存在P个
随机分布的多天线传感器节点和无 人机群应避开的随机分布的建筑障碍;
步骤1.3、 整个感知任务被划分为相等的T个离散的时间步, 每个时间步具有相同的时
长τtotal, 每个时间步内无人机群的活动分为终端移动与 数据采集两部分, 在每一个时间步
内, 每一个无人机u以固定速度 μm/s沿着极角
和方位角
的
方向移动距离
则无人机u移动所需时间为τt, um=ltu/ μ, 当前时间步内无人机u
还剩余τt, uc=τtotal‑τt, um长度的时间进行数据 采集任务, 在数据 采集任务时间内, 无人机以
轮询方式与周围最近的
个传感器节点进行 数据采集任务;
步骤1.4、 建立一个三维直角坐标系, 其中每个无人机u在t时刻的位置坐标表示为(xtu,
ytu, ztu), 每个传感器p在t时刻的位置坐标则使用(xtp, ytp, ztp)表示, 无人机u与传感器p之
间的距离l(u, p)使用欧式距离进行度量, 考虑到场景信道大尺度衰弱, 无人机u与传感器p
之间的信道衰弱由下式(1)进行计算:
公式(1)中, f为通信信道频率, c为光速, ΨNLoS,ΨLoS, α1和α2是根据群体感知环境变化
包括郊区、 市区、 山区的场景常量, l(u, p)和
代表无人机群u与传感器p间的距离和方
位角, 设定无人机群的信号发射功率与环境噪声功率恒定, 当前通信的信号信噪比表示为
snrtu, p=Ψtx‑ωtu, p‑Ψn, 当通信信噪比小于某一阈值snr0时, 认定此次通信传输失败, 无人
机群无法解码得到有效数据, 无人机等分τt, uc时间对周围
个节点以香农定理计算得到
的数据传输 速率进行 数据采集;
步骤2、 指挥中心开启子进程, 基于多头注意力机制收集当前轨迹数据并上传至共享样
本复用缓存:
步骤201、 指挥中心开启各子进程, 各子进程开启新一轮数据采集任务并监测维护自身
环境, 无人机群基于多头注意力机制对当前环境状态进行建模并根据自身当前探索策略做
出行动;
步骤202、 各子进程以异步执行的方式对各自环境中无人机群轨迹与传感器数据获取
的变化进 行模拟, 当某一轮数据采集任务检测到无人机群碰撞到障碍物或者耗尽能量的情
况, 则立即结束子进程 这一轮数据采集任务并重新初始化自身的环境 参数;
否则, 在当前时间t中, 无人机群观察当前环境状态st, 按照第一计算模型对环境状态st
进行建模, 第一计算模型如下公式(2):权 利 要 求 书 1/3 页
2
CN 113283169 B
3
专利 一种基于多头注意力异步强化学习的三维群体探索方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:53:47上传分享