专利无人机对抗策略优化方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202110837137.2 (22)申请日 2021.07.23 (71)申请人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号申请人中国航空工业集团公司成都飞机设计研究所 (72)发明人高阳　陈琳　聂勤　常惠　何少钦　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人韩世虹 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06F 119/14(2020.01)G06F 111/08(2020.01) (54)发明名称无人机对抗策略优化方法及装置 (57)摘要本发明提供一种无人机对抗策略优化方法及装置，所述方法包括：根据策略网络参数生成对抗策略，利用PPO算法根据对抗策略生成动作序列；无人机在当前状态根据动作序列执行动作并与环境交互，得到下一状态和综合奖励值；使用梯度上升法更新策略网络参数，使用梯度下降法更新值网络参数；重复执行上述过程，直至达到训练结束时机。本发明提供的无人机对抗策略优化方法及装置，通过基于策略网络参数生成无人机对抗策略，并利用梯度上升法更新策略网络参数，同时借助无人机与环境交互得到的奖励值对无人机对抗策略的优劣作出反馈，基于此实现了无人机基于环境信息进行实时的对抗策略的优化更新，提高了无人机在对抗过程中的自主决策能力。权利要求书3页说明书19页附图7页 CN 113962012 A 2022.01.21 CN 113962012 A 1.一种无人机对抗策略优化方法，其特征在于，包括：根据策略网络参数生成对抗策略，利用P PO算法根据所述对抗策略生成动作序列；无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；重复执行上述过程，直至达到训练结束时机。 2.根据权利要求1所述的无人机对抗策略优化方法，其特征在于，在所述根据策略网络参数生成对抗策略之前，所述方法还包括：利用贝叶斯算法通过选择PPO超参数集来优化释放策略得分概率，从而优化无人机的武器释放时机。 3.根据权利要求2所述的无人机对抗策略优化方法，其特征在于，所述释放策略得分概率表示为：其中， p(x|y)表示所述释放策略得分概率， x表示所述PPO超参数集， y表示所述贝叶斯算法的第一目标函数， y*表示所述第一目标函数的阈值， l(x)表示所述PPO超参数集的第一分布， g(x)表示所述P PO超参数集的第二分布。 4.根据权利要求1所述的无人机对抗策略优化方法，其特征在于，所述使用梯度上升法更新所述策略网络参数的第二目标函数表示为：所述使用梯度下降法更新值网络参数的第三目标函数表示为：其中， OPPO( θ )表示所述第二目标函数， LPPO(ω)表示所述第三目标函数， θ表示策略网络参数， ω表示值网络参数，表示估计优势函数， t、 t′表示时间， T表示无人机运行步数， rt( θ )表示新旧对抗策略的概率比， ε≥0是一个超参数，表示新策略和旧策略的最大差值； γ表示折扣因子， Rt′表示t′时刻的综合奖励值， St表示无人机在t时刻的状态， Vω(St)表示St状态的值函数。 5.根据权利要求1所述的无人机对抗策略优化方法，其特征在于，所述动作序列中的动作满足如下的运动模型 F：权　利　要　求　书 1/3 页 2 CN 113962012 A 2其中， x、 y、 z表示无人机在惯性坐标系中的位置， v表示无人机速度， α 表示轨迹倾斜角， β表示轨迹偏转角， θ表示绕速度矢量滚转角， kx表示切向过载， kz表示法向过载，分别表示v在三个坐标轴方向的分量， g表示重力加速度。 6.根据权利要求1所述的无人机对抗策略优化方法，其特征在于，所述综合奖励值表示为： R＝α1Ra+α2Rv+α3Rh 其中， α1、 α2、 α3表示权重系数， α1+α2+α3＝1； Ra表示角度奖励值， Rv表示速度奖励值， Rh表示高度奖励值；其中， P表示偏离角， T表示脱离角， vr表示本机的速度， vb表示敌机的速度， vg表示本机和敌机的最佳对抗速度， Δh表示本机相对于敌机的高度差， Δh ′为本机和敌机的最佳对抗高度差。 7.根据权利要求1所述的无人机对抗策略优化方法，其特征在于，所述方法还包括：基于综合对抗优势函数构建无人机对抗态势评估模型对无人机的对抗态势进行评估，基于对抗能力指数函数构建无人机对抗能力评估模型对无人机的对抗能力进行评估；所述综合对抗优势函数表示为： f(fθ,fR， fv,fh)＝ωθfθ+ωRfR+ωvfv+ωhfh权　利　要　求　书 2/3 页 3 CN 113962012 A 3

专利 无人机对抗策略优化方法及装置

专利无人机对抗策略优化方法及装置