(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111062054.7
(22)申请日 2021.09.10
(71)申请人 中国航空工业 集团公司沈阳飞机设
计研究所
地址 110035 辽宁省沈阳市皇姑区塔湾街
40号
(72)发明人 费思邈 徐芳芳 孙智孝 闫传博
管聪 王鹤 姚宗信 朴海音
白金鹏 王辉
(74)专利代理 机构 北京航信高科知识产权代理
事务所(普通 合伙) 11526
代理人 高原
(51)Int.Cl.
G06F 30/27(2020.01)
G06F 119/02(2020.01)
(54)发明名称
一种利用深度神经网络克隆运动学仿真模
型的方法
(57)摘要
本申请设计航空人工智能自主决策、 仿真建
模领域, 为一种利用深度神经网络克隆运动学仿
真模型的方法包括, 运行运动学仿真模型; 建立
深度神经网络的免模型的基本策略模 型, 根据基
本策略模型收集运动学数据, 建立或更新运动学
的数据集; 利用运行学的数据集生成状态转移函
数; 根据状态转移函数生成状态转移环境, 并选
择相应的算法优化基本策略模型; 运行基本策略
模型, 将新产生的数据加入数据集; 利用新的数
据集生成新的状态转移函数, 重复优化基本策略
模型, 直至状态转移函数的偏 差值在设定的阈值
范围内。 具有提高仿真模型的自动 决策水平、 提
高模型训练效率与质量的技 术效果。
权利要求书1页 说明书4页 附图2页
CN 113919209 A
2022.01.11
CN 113919209 A
1.一种利用深度神经网络克隆运动学仿真模型的方法, 其特 征在于: 包括,
运行运动学仿真模型;
建立深度神经网络的免模型的基本策略模型π0(at|st), 根据基本策略模型收集运动学
数据, 建立或更新 运动学的数据集D={(s,a,s')i};
利用运行 学的数据集 生成状态转移函数f(s,a);
根据状态转移函数f(s,a)生成状态转移 环境, 并选择相应的算法优化基本策略模型;
运行基本策略模型π0(at|st), 将新产生的数据加入数据集D={(s,a,s')i};
利用新的数据集生成新的状态转移函数f(s,a), 重复优化基本策略模型π0(at|st), 直
至状态转移函数f(s,a)的偏差值在设定的阈值范围内。
2.如权利要求1所述的利用深度神经网络克隆运动学仿真模型的方法, 其特征在于: 所
述状态转移函数f(s,a)满足偏差值 最小原则, 偏差值满足MSE最小。
3.如权利要求1所述的利用深度神经网络克隆运动学仿真模型的方法, 其特征在于: 采
用PPO算法对基本策略模型π0(at|st)进行优化。
4.如权利要求2所述的利用深度神经网络克隆运动学仿真模型的方法, 其特征在于: 所
述基本策略模型π0(at|st)的学习方法为,
将基本策略模型π0(at|st)迭代到运动学仿真模型中, 生成新的数据;
对比新的状态转移 环境与运动学模型在相同策略下的差异, 找出差异数据;
将差异数据再次迭代输入至状态转移函数f(s,a)中, 继续进行训练, 并根据偏差值最
小原则调整状态转移函数f(s,a)的网络模型参数, 生成训练后的模型文件;
将训练后的模型文件再次迭代输入至基本策略模型π0(at|st)中, 以进行 再次的优化。
5.一种利用深度神经网络克隆运动学仿真模型的系统, 其特 征在于: 包括,
策略模型 单元, 用于根据建立或运行基本策略模型π0(at|st);
数据存储单元, 用于运动学模型和基本策略模型π0(at|st)的运行数据建立数据集D=
{(s,a,s')i};
状态函数单元, 用于根据数据集生成状态转移函数f(s,a), 并根据状态转移函数f(s,
a)生成状态转移 环境;
模型优化单 元, 用于根据数据集D={(s,a,s')i}反复优化基本策略模型π0(at|st)。权 利 要 求 书 1/1 页
2
CN 113919209 A
2一种利用深度神经 网络克隆运动学 仿真模型的方 法
技术领域
[0001]本申请属于航空人工智能自主决策、 仿真建模领域, 特别涉及一种利用深度神经
网络克隆运动学仿真模型的方法。
背景技术
[0002]在自动驾驶或者类似的自主决策领域, 通常需要一套仿真系统在计算机环境中重
现自主决策场景, 在次基础上才能利用经验规则或者机器学习等技术研发相应的自主决策
模型。 因此, 一套高效、 精确、 稳定的仿 真系统对于自主决策来说非常必 要。 运动方程是描述
结构中力与位移(包括速度和加速度)关系的数学表达式。 对于自动 驾驶或者空战自主决策
来说, 仿真系统的核心模型是运动方程, 它 是相应自主决策动作, 并产生下一时刻位置、 速
度等关键信息的重要环 节。
[0003]现有仿真模型通常根据运动学方程等原理, 有程序开发人员利用编程语言编写并
编译而成, 在使用时当做一个黑盒。 控制量以及状态量等信息流入黑盒并转化为新的状态
量。 这对于自动 驾驶或其他应用来说, 只能单纯的应用黑 盒反馈来进 行决策, 很多跟趋势有
关的信息无法应用。 但如果仿真模型不是黑盒而是可以对仿真模型求各阶导数 的话, 对于
决策类应用来说, 可以利用的优质反馈信息将大幅提升, 更好地提升自主决策水平。 因此如
何更好地利用仿真模型、 提高自主决策 水平是一个需要解决的问题。
发明内容
[0004]本申请的目的是提供了一种利用深度神经网络克隆运动学仿真模型的方法, 以解
决现有技 术中通过黑盒方式对仿真模型进行控制而导 致的决策不够准确的问题。
[0005]本申请的技术方案是: 一种利用深度神经网络克隆运动学仿真模型的方法, 包括,
运行运动学仿真模型; 建立深度神经网络的免模型的基本策略模型π0(at|st), 根据基本策
略模型收集运动学数据, 建立或更新运动学的数据集D={(s,a,s')i}; 利用运行学的数据
集生成状态转移函数f(s,a); 根据状态转移函数f(s,a)生成状态转移环境, 并选择相应的
算法优化基本策略模型; 运行基本策略模 型π0(at|st), 将新产生的数据加入 数据集D={(s,
a,s')i}; 利用新的数据集生成新的状态转移函数f(s,a), 重复优化基本策略模型π0(at|
st), 直至状态转移函数f(s,a)的偏差值在设定的阈值范围内。
[0006]优选地, 所述状态转移函数f(s,a)满足偏差值 最小原则, 偏差值满足MSE最小。
[0007]优选地, 采用P PO算法对基本策略模型π0(at|st)进行优化。
[0008]优选地, 所述基本策 略模型π0(at|st)的学习方法为, 将基本策略模型π0(at|st)迭
代到运动学仿真模型中, 生成新的数据; 对比新的状态转移环境与运动学模型在相同策略
下的差异, 找出差异数据; 将 差异数据再次迭代输入至状态转移函数f(s,a)中, 继续进 行训
练, 并根据偏差值最小原则调整状态转移函数f(s,a)的网络模型参数, 生成训练后的模型
文件; 将训练后的模型文件再次迭代输入至基本策略模型π0(at|st)中, 以进行 再次的优化。
[0009]一种利用深度神经网络克隆运动学仿真模型的方法, 包括, 策略模型单元, 用于根说 明 书 1/4 页
3
CN 113919209 A
3
专利 一种利用深度神经网络克隆运动学仿真模型的方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:53:08上传分享