专利一种基于多头注意力异步强化学习的三维群体探索方法 -在线下载 -pdf文件-doc.720life.cn

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110567571.3 (22)申请日 2021.05.24 (65)同一申请的已公布的文献号申请公布号 CN 113283169 A (43)申请公布日 2021.08.20 (73)专利权人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人刘驰　王昊　戴子彭　 (74)专利代理机构北京中海智圣知识产权代理有限公司 1 1282 代理人杨树芬 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111432015 A,2020.07.17 CN 112512070 A,2021.0 3.16CN 110488861 A,2019.1 1.22 US 20202859 95 A1,2020.09.10 US 2004030571 A1,20 04.02.12 刘强等.基于深度强化学习的群体对抗策略研究. 《智能计算机与应用》 .2020,(第0 5期), 程先峰等.基于MAXQ分层强化学习的有人机/无人机协同路径规划研究. 《信息化研究》 .2020,(第01期), 李湛等.跨传感器异步迁移学习的室内单目无人机避障. 《宇航学报》 .2020,(第0 6期), Chi Harold Liu等.Multi-Task-Oriented Vehicular Cro wdaensing:A Deep Learn ing Approach. 《IEEE Conference o n Computer Communications》 .2020, Chi Harold Liu.Distributed and energy-ef ficient mobi le crowdsensing with charging stati ons by de ep reinforcement learning. 《IEEE Transacti ons on Mobile Computing》 .2019, (续) 审查员周林 (54)发明名称一种基于多头注意力异步强化学习的三维群体探索方法 (57)摘要本发明公开了一种基于多头注意力异步强化学习的三维群体探索方法。包括以下步骤：步骤1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略；步骤2、指挥中心开启子进程；步骤3、指挥中心基于共享样本复用缓存采用像素控制算法优化无人机探索策略；步骤4、指挥中心基于共享样本复用缓存采用信任域策略算法获取无人机群体飞行轨迹；步骤5、反复执行步骤2、 3、 4直至无人机群行动轨迹不再发生变化；步骤6、指挥中心向无人机群发送最优轨迹调动指令。本发明解决了强化学习算法样本采样效率低下的问题，在使用同等数量的样本进行学习时算法达到了更好的数据采集效果，进一步得到最大化数据采集的最优轨迹。 [转续页] 权利要求书3页说明书9页附图9页 CN 113283169 B 2022.04.26 CN 113283169 B (56)对比文件 Chi Harold Liu.Distributed Energy- Efficient Multi-UA V Navigatrion for Long- term Com munication Covera ge by De ep Reinforcement Learn ing. 《IEEE Transacti ons on Mobile Computi ng》 .2019,第19卷(第0 6期),Chi Harold Liu.Time-Aware L ocation Predicti on by Convolutional Area-of- Interest Model ing and Memory-Augmented Attentive LSTM. 《IE EE Transacti ons on Knowledge and Date Engi neering》 .2020,2/2 页 2[接上页] CN 113283169 B1.一种基于多头注意力异步强化学习的三维群体探索方法，其特征在于，步骤1、指挥中心初始化基准探索策略与环境参数，无人机群根据感知环境变化进行数据采集：步骤1.1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略，在三维移动群体感知场景中的指挥中心上建立一个空的共享样本复用缓存并初始化一个基准探索策略；步骤1.2、建立多个子进程，同步子进程的探索策略并初始化各子进程中的环境参数，环境参数包括无人机群位置、无人机群电量、传感器位置和传感器数据初始值，建立一个三维移动群体感知场景，部署了N台无人机作为感知数据采集任务的执行者，场景中存在P个随机分布的多天线传感器节点和无人机群应避开的随机分布的建筑障碍；步骤1.3、整个感知任务被划分为相等的T个离散的时间步，每个时间步具有相同的时长τtotal，每个时间步内无人机群的活动分为终端移动与数据采集两部分，在每一个时间步内，每一个无人机u以固定速度 μm/s沿着极角和方位角的方向移动距离则无人机u移动所需时间为τt， um＝ltu/ μ，当前时间步内无人机u 还剩余τt， uc＝τtotal‑τt， um长度的时间进行数据采集任务，在数据采集任务时间内，无人机以轮询方式与周围最近的个传感器节点进行数据采集任务；步骤1.4、建立一个三维直角坐标系，其中每个无人机u在t时刻的位置坐标表示为(xtu， ytu， ztu)，每个传感器p在t时刻的位置坐标则使用(xtp， ytp， ztp)表示，无人机u与传感器p之间的距离l(u， p)使用欧式距离进行度量，考虑到场景信道大尺度衰弱，无人机u与传感器p 之间的信道衰弱由下式(1)进行计算：公式(1)中， f为通信信道频率， c为光速， ΨNLoS,ΨLoS, α1和α2是根据群体感知环境变化包括郊区、市区、山区的场景常量， l(u， p)和代表无人机群u与传感器p间的距离和方位角，设定无人机群的信号发射功率与环境噪声功率恒定，当前通信的信号信噪比表示为 snrtu， p＝Ψtx‑ωtu， p‑Ψn，当通信信噪比小于某一阈值snr0时，认定此次通信传输失败，无人机群无法解码得到有效数据，无人机等分τt， uc时间对周围个节点以香农定理计算得到的数据传输速率进行数据采集；步骤2、指挥中心开启子进程，基于多头注意力机制收集当前轨迹数据并上传至共享样本复用缓存：步骤201、指挥中心开启各子进程，各子进程开启新一轮数据采集任务并监测维护自身环境，无人机群基于多头注意力机制对当前环境状态进行建模并根据自身当前探索策略做出行动；步骤202、各子进程以异步执行的方式对各自环境中无人机群轨迹与传感器数据获取的变化进行模拟，当某一轮数据采集任务检测到无人机群碰撞到障碍物或者耗尽能量的情况，则立即结束子进程这一轮数据采集任务并重新初始化自身的环境参数；否则，在当前时间t中，无人机群观察当前环境状态st，按照第一计算模型对环境状态st 进行建模，第一计算模型如下公式(2)：权　利　要　求　书 1/3 页 2 CN 113283169 B 3

专利 一种基于多头注意力异步强化学习的三维群体探索方法

专利一种基于多头注意力异步强化学习的三维群体探索方法