(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110634237.5
(22)申请日 2021.06.07
(65)同一申请的已公布的文献号
申请公布号 CN 113505431 A
(43)申请公布日 2021.10.15
(73)专利权人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 杨克巍 高盈盈 夏博远 陈刚
郭玙 杨清清 梁笑天 毛嘉慧
王星亮 王翔汉 熊伟涛 姜江
李博
(74)专利代理 机构 北京风雅颂专利代理有限公
司 11403
专利代理师 曾志鹏
(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/25(2020.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 111/08(2020.01)
(56)对比文件
CN 111260031 A,2020.0 6.09
CN 110196605 A,2019.09.0 3
US 2021123741 A1,2021.04.2 9
赖俊等.深度强化学习在室内无 人机目标搜
索中的应用. 《计算机 工程与应用》 .2019,(第17
期),
向竹等.基 于双层稳定匹配的异构无 人机集
群“分布式”协同算法研究. 《控制与决策》 .2021,
Xiao LongWei等.An Improved Method
Based on Deep Reinforcement Learn ing for
Target Searc hing. 《2019 4th I nternati onal
Conference o n Robotics and Automati on
Engineering》 .2019,
Yu Guo.A Multi-Objective I NLP Model
of Sustai nable Resource Al location for
Long-Range Maritime Searc h and Rescue.
《sustai nability》 .2019, (续)
审查员 卢秋茹
(54)发明名称
基于ST-DQN海上无人机目标搜寻方法、 装
置、 设备和介质
(57)摘要
本公开提供一种基于ST ‑DQN的海上无人机
目标搜寻规划方法、 装置、 设备和介质, 其中的方
法包括: 基于已知的由漂流预测模 型得到的目标
包含概率的待搜寻区域, 构建海上搜寻地图模
型, 对无人机搜寻环境进行形式化描述, 对无人
机搜寻能力进行建模, 得到单机搜寻模型, 根据
搜寻理论和无人机搜寻代价构建奖惩函数, 并通
过训练ST‑DQN网络参数, 获得能够尽快覆 盖重点
区域的高效搜寻路径。 本公开能够实现针对已知
目标包含概率的海上目标搜寻场景快速得到优
化的无人机搜寻路径。
[转续页]
权利要求书3页 说明书18页 附图7页
CN 113505431 B
2022.05.06
CN 113505431 B
(56)对比文件
Bernaro.The theory of searc h 3 the
optimum dist ribution of searc hing effort.
《The journal of the operati ons researc h
society of America》 .1957,Juan Gonzalo等.Deep Reinforcement
Learning for Auto nomous Searc h and
Rescue. 《IE EE National Aerospace and
Electronics Conference》 .2018,2/2 页
2[接上页]
CN 113505431 B1.一种基于 搜寻理论和深度值 函数网络ST ‑DQN的海上无人机目标搜寻方法, 包括:
构建海上搜寻 地图维护模型, 对无 人机搜寻环境进行 形式化描述, 包括:
以任务区域E划分成Lx×Ly个网格, 每个网格都是独立的, 将每个网格的中心点坐标作
为该网格的位置坐 标; 当初始先验信息已知, 每个 栅格(m,n)赋予初始POC 值pmn(k), 其中k表
示时刻, (m,n)的取值范围(m∈{1,2,3 …Lx},n∈{1,2,3 …Ly});
当初始先验信息已知, 且已进行归一 化处理即满足以下公式:
对无人机搜寻能力进行建模, 包括:
执行任务的无人机以目标存在概率模型为指导, 在待搜寻的任务区域E内规划搜寻路
径, 当无人机在栅格内执 行搜寻任务, 基于 搜寻理论则无 人机的目标探测概 率函数为:
其中, vi为无人机i的飞行速度; zi为无人机i的飞行 时间; li为无人机i在时间内搜寻航
行的总路程; wi为无人机i 的探测宽度即扫海宽度; A为搜寻栅格单元的面积; j为搜寻单元
数(j=1,2, …,xy);
根据搜寻理论和无人机搜寻代价进行目标函数建模, 并通过ST ‑DQN算法寻找最快搜寻
覆盖重点区域的最优路径。
2.根据权利要求1所述的基于搜寻理论和深度值函数网络 ST‑DQN的海上无人机目标
搜寻方法, 其中, 根据搜寻理论和无人机搜寻代 价进行目标函数建模, 并通过ST ‑DQN算法寻
找最快搜寻覆盖 重点区域的最优路径, 包括:
基于所述公式
对每一个单元(m,n)都设置一个属性值r, r表示搜寻此
单元的搜寻代价值, rmn(k)表示k时刻无人机的路径信息, 若rmn(k)=‑1则表示此单元已被
无人机搜寻过, 若rmn(k)=1则表示当前无人机正处于此单元, rmn(k)=0则表示此海域从未
被搜寻过;
对无人机的动作空间进行定义, 确定无人机i的动作空间表示为
动作决策
变量
获取无人机每一步的即时奖惩和回合奖惩, 确定每一个无人机在每一个回合中每步的
总奖励, 将该种奖励机制应用于模型训练过程;
采用深度值函数网络, 通过使用经验回放策略和双神经网络策略使神经网络接受环境
状态并输出动作价 值, 环境状态包括目标包 含概率和无人机位置信息;
在深度值函数网络训练过程中, Q估计网络通过训练迭代来调整网络权值θt, 在第t次迭
代中, 每一序列的损失函数Lt( θt)改变为:
Lt( θt)=Es,a,r,s'[(y‑Q(s,a; θt))2]
式中: s为当前时刻状态; s'为下一时刻状态; a为当前时刻动作。
3.根据权利要求2所述的基于搜寻理论和深度值函数网络 ST‑DQN的海上无人机目标权 利 要 求 书 1/3 页
2
CN 113505431 B
3
专利 基于ST-DQN海上无人机目标搜寻方法、装置、设备和介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:56:13上传分享