(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110634237.5 (22)申请日 2021.06.07 (65)同一申请的已公布的文献号 申请公布号 CN 113505431 A (43)申请公布日 2021.10.15 (73)专利权人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 杨克巍 高盈盈 夏博远 陈刚  郭玙 杨清清 梁笑天 毛嘉慧  王星亮 王翔汉 熊伟涛 姜江  李博  (74)专利代理 机构 北京风雅颂专利代理有限公 司 11403 专利代理师 曾志鹏 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/25(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 111/08(2020.01) (56)对比文件 CN 111260031 A,2020.0 6.09 CN 110196605 A,2019.09.0 3 US 2021123741 A1,2021.04.2 9 赖俊等.深度强化学习在室内无 人机目标搜 索中的应用. 《计算机 工程与应用》 .2019,(第17 期), 向竹等.基 于双层稳定匹配的异构无 人机集 群“分布式”协同算法研究. 《控制与决策》 .2021, Xiao LongWei等.An Improved Method Based on Deep Reinforcement Learn ing for Target Searc hing. 《2019 4th I nternati onal Conference o n Robotics and Automati on Engineering》 .2019, Yu Guo.A Multi-Objective I NLP Model of Sustai nable Resource Al location for Long-Range Maritime Searc h and Rescue. 《sustai nability》 .2019, (续) 审查员 卢秋茹 (54)发明名称 基于ST-DQN海上无人机目标搜寻方法、 装 置、 设备和介质 (57)摘要 本公开提供一种基于ST ‑DQN的海上无人机 目标搜寻规划方法、 装置、 设备和介质, 其中的方 法包括: 基于已知的由漂流预测模 型得到的目标 包含概率的待搜寻区域, 构建海上搜寻地图模 型, 对无人机搜寻环境进行形式化描述, 对无人 机搜寻能力进行建模, 得到单机搜寻模型, 根据 搜寻理论和无人机搜寻代价构建奖惩函数, 并通 过训练ST‑DQN网络参数, 获得能够尽快覆 盖重点 区域的高效搜寻路径。 本公开能够实现针对已知 目标包含概率的海上目标搜寻场景快速得到优 化的无人机搜寻路径。 [转续页] 权利要求书3页 说明书18页 附图7页 CN 113505431 B 2022.05.06 CN 113505431 B (56)对比文件 Bernaro.The theory of searc h 3 the optimum dist ribution of searc hing effort. 《The journal of the operati ons researc h society of America》 .1957,Juan Gonzalo等.Deep Reinforcement Learning for Auto nomous Searc h and Rescue. 《IE EE National Aerospace and Electronics Conference》 .2018,2/2 页 2[接上页] CN 113505431 B1.一种基于 搜寻理论和深度值 函数网络ST ‑DQN的海上无人机目标搜寻方法, 包括: 构建海上搜寻 地图维护模型, 对无 人机搜寻环境进行 形式化描述, 包括: 以任务区域E划分成Lx×Ly个网格, 每个网格都是独立的, 将每个网格的中心点坐标作 为该网格的位置坐 标; 当初始先验信息已知, 每个 栅格(m,n)赋予初始POC 值pmn(k), 其中k表 示时刻, (m,n)的取值范围(m∈{1,2,3 …Lx},n∈{1,2,3 …Ly}); 当初始先验信息已知, 且已进行归一 化处理即满足以下公式: 对无人机搜寻能力进行建模, 包括: 执行任务的无人机以目标存在概率模型为指导, 在待搜寻的任务区域E内规划搜寻路 径, 当无人机在栅格内执 行搜寻任务, 基于 搜寻理论则无 人机的目标探测概 率函数为: 其中, vi为无人机i的飞行速度; zi为无人机i的飞行 时间; li为无人机i在时间内搜寻航 行的总路程; wi为无人机i 的探测宽度即扫海宽度; A为搜寻栅格单元的面积; j为搜寻单元 数(j=1,2, …,xy); 根据搜寻理论和无人机搜寻代价进行目标函数建模, 并通过ST ‑DQN算法寻找最快搜寻 覆盖重点区域的最优路径。 2.根据权利要求1所述的基于搜寻理论和深度值函数网络  ST‑DQN的海上无人机目标 搜寻方法, 其中, 根据搜寻理论和无人机搜寻代 价进行目标函数建模, 并通过ST ‑DQN算法寻 找最快搜寻覆盖 重点区域的最优路径, 包括: 基于所述公式 对每一个单元(m,n)都设置一个属性值r, r表示搜寻此 单元的搜寻代价值, rmn(k)表示k时刻无人机的路径信息, 若rmn(k)=‑1则表示此单元已被 无人机搜寻过, 若rmn(k)=1则表示当前无人机正处于此单元, rmn(k)=0则表示此海域从未 被搜寻过; 对无人机的动作空间进行定义, 确定无人机i的动作空间表示为 动作决策 变量 获取无人机每一步的即时奖惩和回合奖惩, 确定每一个无人机在每一个回合中每步的 总奖励, 将该种奖励机制应用于模型训练过程; 采用深度值函数网络, 通过使用经验回放策略和双神经网络策略使神经网络接受环境 状态并输出动作价 值, 环境状态包括目标包 含概率和无人机位置信息; 在深度值函数网络训练过程中, Q估计网络通过训练迭代来调整网络权值θt, 在第t次迭 代中, 每一序列的损失函数Lt( θt)改变为: Lt( θt)=Es,a,r,s'[(y‑Q(s,a; θt))2] 式中: s为当前时刻状态; s'为下一时刻状态; a为当前时刻动作。 3.根据权利要求2所述的基于搜寻理论和深度值函数网络  ST‑DQN的海上无人机目标权 利 要 求 书 1/3 页 2 CN 113505431 B 3

.PDF文档 专利 基于ST-DQN海上无人机目标搜寻方法、装置、设备和介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ST-DQN海上无人机目标搜寻方法、装置、设备和介质 第 1 页 专利 基于ST-DQN海上无人机目标搜寻方法、装置、设备和介质 第 2 页 专利 基于ST-DQN海上无人机目标搜寻方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:56:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。