国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110837137.2 (22)申请日 2021.07.23 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 申请人 中国航空工业 集团公司成 都飞机设 计研究所 (72)发明人 高阳 陈琳 聂勤 常惠 何少钦 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 韩世虹 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06F 119/14(2020.01)G06F 111/08(2020.01) (54)发明名称 无人机对抗策略优化方法及装置 (57)摘要 本发明提供一种无人机对抗策略优化方法 及装置, 所述方法包括: 根据策略网络参数生成 对抗策略, 利用PPO算法根据对抗策略生成动作 序列; 无人机在当前状态根据动作序列执行动作 并与环境交互, 得到下一状态和综合奖励值; 使 用梯度上升法更新策略网络参数, 使用梯度下降 法更新值网络参数; 重复执行上述过程, 直至达 到训练结束时机。 本发明提供的无人机对抗策略 优化方法及装置, 通过基于策略网络参数生成无 人机对抗策略, 并利用梯度上升法更新策略网络 参数, 同时借助无人机与环境交互得到的奖励值 对无人机对抗策略的优劣作出反馈, 基于此实现 了无人机基于环境信息进行实时的对抗策略的 优化更新, 提高了无人机在对抗过程中的自主决 策能力。 权利要求书3页 说明书19页 附图7页 CN 113962012 A 2022.01.21 CN 113962012 A 1.一种无 人机对抗策略优化方法, 其特 征在于, 包括: 根据策略网络参数生成对抗策略, 利用P PO算法根据所述对抗策略生成动作序列; 无人机在 当前状态根据 所述动作序列执行动作并与环境交互, 得到下一状态和综合奖 励值; 使用梯度上升法更新所述策略网络参数, 使用梯度下降法更新 值网络参数; 重复执行上述过程, 直至 达到训练结束时机 。 2.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 在所述根据 策略网络 参数生成对抗策略之前, 所述方法还 包括: 利用贝叶斯算法通过选择PPO超参数集来优化释放策略得分概率, 从而优化无人机的 武器释放时机 。 3.根据权利要求2所述的无人机对抗策略优化方法, 其特征在于, 所述释放策略得分概 率表示为: 其中, p(x|y)表示所述释放策略得分概率, x表示所述PPO超参数集, y表示所述贝叶斯 算法的第一目标函数, y*表 示所述第一目标函数的阈值, l(x)表 示所述PPO超参数集的第一 分布, g(x)表示所述P PO超参数集的第二分布。 4.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 所述使用梯度 上升法 更新所述策略网络参数的第二目标函数表示 为: 所述使用梯度下降法更新 值网络参数的第三目标函数表示 为: 其中, OPPO( θ )表示所述第二目标函数, LPPO(ω)表示所述第三目标函数, θ表示策略网络 参数, ω表示值网络参数, 表示估计优势函数, t、 t′表示时间, T表示无人机运行步数, rt( θ )表示新旧对抗策略的概率比, ε≥0是一个超参数, 表示新策略 和旧策略的最大差值; γ表示折扣因子, Rt′表示t′时刻的综合奖励值, St表示无人机在t时 刻的状态, Vω(St)表示St状态的值 函数。 5.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 所述动作序列中的动 作满足如下的运动模型 F:权 利 要 求 书 1/3 页 2 CN 113962012 A 2其中, x、 y、 z表示无人机在惯性坐标系中的位置, v表示无人机速度, α 表示轨迹倾斜角, β表示轨迹偏转角, θ表示绕速度矢量滚转角, kx表示切向过载, kz表示法向过载, 分别表示v在三个坐标轴方向的分量, g表示重力加速度。 6.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 所述综合奖励值表示 为: R=α1Ra+α2Rv+α3Rh 其中, α1、 α2、 α3表示权重系数, α1+α2+α3=1; Ra表示角度奖励 值, Rv表示速度奖励 值, Rh表 示高度奖励值; 其中, P表示偏离角, T表示脱离角, vr表示本机 的速度, vb表示敌机 的速度, vg表示本机 和敌机的最佳对抗速度, Δh表 示本机相对于 敌机的高度差, Δh ′为本机和敌机的最佳对抗 高度差。 7.根据权利要求1所述的无 人机对抗策略优化方法, 其特 征在于, 所述方法还 包括: 基于综合对抗优势函数构建无人机对抗态势评估模型对无人机的对抗态势进行评估, 基于对抗能力指数函数构建无 人机对抗能力评估 模型对无 人机的对抗能力进行评估; 所述综合对抗优势函数表示 为: f(fθ,fR, fv,fh)=ωθfθ+ωRfR+ωvfv+ωhfh权 利 要 求 书 2/3 页 3 CN 113962012 A 3
专利 无人机对抗策略优化方法及装置
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:57:25
上传分享
举报
下载
原文档
(1.4 MB)
分享
友情链接
GM-T 0106-2021 银行卡终端产品密码应用技术要求.pdf
中康科技 乙肝肝炎行业研究报告解读 2021 .pdf
GB-T 26855-2011 信息安全技术 公钥基础设施 证书策略与认证业务声明框架.pdf
DB42-T 1854-2022 咸鸭蛋加工技术规程 湖北省.pdf
极盾科技 数据安全内控产品 觅踪.pdf
GB-T 42859-2023 航天产品质量问题三个面向分析方法实施要求.pdf
T-CSTM 00790.4—2022 汽车用薄钢板 第4部分:双向拉伸试验十字形拉伸试样.pdf
T-CCSAS 026—2023 化工企业操作规程管理规范.pdf
JR-T0060-2021 证券期货业网络安全等级保护基本要求.pdf
T-ZZB 0604—2018 野营用户外折叠椅.pdf
GB-T 14227-2006 城市轨道交通车站站台声学要求和测量方法.pdf
DB1408-T005-2020 果园植保器械农药有效沉积率评价技术规程 运城市.pdf
T-CAS 673—2022 汽车用户投诉处理服务质量评价通则.pdf
DB11-T 1258-2015 清洁生产评价指标体系 洗衣业 北京市.pdf
NY-T 1240-2021 草原鼠荒地治理技术规范.pdf
DB5223-T 15-2021 新市民家庭经济困难学生资助、补助规范 黔西南布依族苗族自治州.pdf
案例-数据治理流程概述 .pdf
GB-T 41785-2022 磁光电混合存储系统通用规范.pdf
思度安全-DSMM-018 数据发布安全管理规范V1.0.pdf
NB-T 10639—2021 风电场工程场址选择技术规范.pdf
1
/
3
30
评价文档
赞助2.5元 点击下载(1.4 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。