(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110837137.2 (22)申请日 2021.07.23 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 申请人 中国航空工业 集团公司成 都飞机设 计研究所 (72)发明人 高阳 陈琳 聂勤 常惠 何少钦  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 韩世虹 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06F 119/14(2020.01)G06F 111/08(2020.01) (54)发明名称 无人机对抗策略优化方法及装置 (57)摘要 本发明提供一种无人机对抗策略优化方法 及装置, 所述方法包括: 根据策略网络参数生成 对抗策略, 利用PPO算法根据对抗策略生成动作 序列; 无人机在当前状态根据动作序列执行动作 并与环境交互, 得到下一状态和综合奖励值; 使 用梯度上升法更新策略网络参数, 使用梯度下降 法更新值网络参数; 重复执行上述过程, 直至达 到训练结束时机。 本发明提供的无人机对抗策略 优化方法及装置, 通过基于策略网络参数生成无 人机对抗策略, 并利用梯度上升法更新策略网络 参数, 同时借助无人机与环境交互得到的奖励值 对无人机对抗策略的优劣作出反馈, 基于此实现 了无人机基于环境信息进行实时的对抗策略的 优化更新, 提高了无人机在对抗过程中的自主决 策能力。 权利要求书3页 说明书19页 附图7页 CN 113962012 A 2022.01.21 CN 113962012 A 1.一种无 人机对抗策略优化方法, 其特 征在于, 包括: 根据策略网络参数生成对抗策略, 利用P PO算法根据所述对抗策略生成动作序列; 无人机在 当前状态根据 所述动作序列执行动作并与环境交互, 得到下一状态和综合奖 励值; 使用梯度上升法更新所述策略网络参数, 使用梯度下降法更新 值网络参数; 重复执行上述过程, 直至 达到训练结束时机 。 2.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 在所述根据 策略网络 参数生成对抗策略之前, 所述方法还 包括: 利用贝叶斯算法通过选择PPO超参数集来优化释放策略得分概率, 从而优化无人机的 武器释放时机 。 3.根据权利要求2所述的无人机对抗策略优化方法, 其特征在于, 所述释放策略得分概 率表示为: 其中, p(x|y)表示所述释放策略得分概率, x表示所述PPO超参数集, y表示所述贝叶斯 算法的第一目标函数, y*表 示所述第一目标函数的阈值, l(x)表 示所述PPO超参数集的第一 分布, g(x)表示所述P PO超参数集的第二分布。 4.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 所述使用梯度 上升法 更新所述策略网络参数的第二目标函数表示 为: 所述使用梯度下降法更新 值网络参数的第三目标函数表示 为: 其中, OPPO( θ )表示所述第二目标函数, LPPO(ω)表示所述第三目标函数, θ表示策略网络 参数, ω表示值网络参数, 表示估计优势函数, t、 t′表示时间, T表示无人机运行步数, rt( θ )表示新旧对抗策略的概率比, ε≥0是一个超参数, 表示新策略 和旧策略的最大差值; γ表示折扣因子, Rt′表示t′时刻的综合奖励值, St表示无人机在t时 刻的状态, Vω(St)表示St状态的值 函数。 5.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 所述动作序列中的动 作满足如下的运动模型 F:权 利 要 求 书 1/3 页 2 CN 113962012 A 2其中, x、 y、 z表示无人机在惯性坐标系中的位置, v表示无人机速度, α 表示轨迹倾斜角, β表示轨迹偏转角, θ表示绕速度矢量滚转角, kx表示切向过载, kz表示法向过载, 分别表示v在三个坐标轴方向的分量, g表示重力加速度。 6.根据权利要求1所述的无人机对抗策略优化方法, 其特征在于, 所述综合奖励值表示 为: R=α1Ra+α2Rv+α3Rh 其中, α1、 α2、 α3表示权重系数, α1+α2+α3=1; Ra表示角度奖励 值, Rv表示速度奖励 值, Rh表 示高度奖励值; 其中, P表示偏离角, T表示脱离角, vr表示本机 的速度, vb表示敌机 的速度, vg表示本机 和敌机的最佳对抗速度, Δh表 示本机相对于 敌机的高度差, Δh ′为本机和敌机的最佳对抗 高度差。 7.根据权利要求1所述的无 人机对抗策略优化方法, 其特 征在于, 所述方法还 包括: 基于综合对抗优势函数构建无人机对抗态势评估模型对无人机的对抗态势进行评估, 基于对抗能力指数函数构建无 人机对抗能力评估 模型对无 人机的对抗能力进行评估; 所述综合对抗优势函数表示 为: f(fθ,fR, fv,fh)=ωθfθ+ωRfR+ωvfv+ωhfh权 利 要 求 书 2/3 页 3 CN 113962012 A 3

.PDF文档 专利 无人机对抗策略优化方法及装置

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 无人机对抗策略优化方法及装置 第 1 页 专利 无人机对抗策略优化方法及装置 第 2 页 专利 无人机对抗策略优化方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:57:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。