(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202110679697.X
(22)申请日 2021.06.18
(71)申请人 北京云量数盟科技有限公司
地址 100012 北京市朝阳区水岸南 街16号N
次方420
(72)发明人 辛苗
(74)专利代理 机构 北京方安思达知识产权代理
有限公司 1 1472
专利代理师 杨青 李彪
(51)Int.Cl.
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种针对面向强化学习奖励的逆向工程的
评估方法及系统
(57)摘要
本发明属于强化学习安全技术领域, 具体地
说, 涉及一种针对面向强化学习奖励的逆向工程
的评估方法, 该方法包括: 根据实时获取的真实
奖励聚类和逆强化学习得到的奖励聚类, 计算二
者之间的标准互信息; 根据预先设定的聚类个数
范围, 聚类排序范围和污染轨迹比例范围, 生成
标准互信息序列; 将标准互信息输入至预先建立
的四阶张量模型, 得到评估结果; 根据评估结果,
来评估逆强化学习得到的奖励聚类 。
权利要求书4页 说明书10页 附图2页
CN 115495972 A
2022.12.20
CN 115495972 A
1.一种针对面向强化学习奖励的逆向工程的评估方法, 该 方法包括:
根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类, 计算二者之间的标准互
信息;
根据预先设定的聚类个数范围, 聚类排序范围和污染轨迹比例范围, 生成标准互信息
序列;
将标准互信息 输入至预 先建立的四阶张量模型, 得到 评估结果;
根据评估结果, 来评估 逆强化学习得到的奖励聚类。
2.根据权利要求1所述的针对面向强化学习奖励的逆向工程的评估方法, 其特征在于,
所述根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类, 计算二者之 间的标准互
信息; 其具体过程 为:
根据实时获取的真实奖励聚类
和逆强化学习得到的奖励聚类
计算二者之间的
互信息
其中,
其中,
为
中的第σ 个 类别;
为
中的第 ε个 类别; S′为真实的状态空间;
根据计算得到的二者之间的互信息
计算二者之间的标准互信息
其中,
3.根据权利要求2所述的针对面向强化学习奖励的逆向工程的评估方法, 其特征在于,
所述真实奖励聚类的具体获取 过程为:
将奖励聚类初始化:
Ci={Ci; 1,...,Ci; |r|}={{r1},...,{r|r|}}
根据给定的真实奖励集合re={r1,r2,...,r|r|}和预先设定的聚类个数范围y={y1,
y2,...,y|y|}, 采用聚集嵌套算法, 对真实奖励集 合re={r1,r2,...,r|r|}进行聚类;
真实奖励集合re={r1,r2,...,r|r|}中的每一个元素视为一个类别, 在第i轮迭代中, 当
前所选择的聚类 个数为yi, 计算真实奖励集 合中任选的两个 类别间的距离
权 利 要 求 书 1/4 页
2
CN 115495972 A
2其中, d(rx,ry)是相邻两个真实奖励
与
之间的欧几里得距离;
为Ci中
的第x个类别;
为Ci中的第y个 类别;
遍历Ci中所有类别, 并计算任意两个类别之间的距离, 并按照从小到 大的顺序对计算的
多个距离进行排序;
选择类别距离
最小的两个类别进行合并, 得到本轮合并后的聚类子集合
New_C;
New_C=Cα∪Cβ
其中, Cα, Cβ为本轮中得到的距离Dal最小的两个类别; New_C为本轮合并后的聚类子集
合;
将New_C补入Ci中, 得到合并后的奖励集合, 再遍历该合并后的奖励集合中的所有类别,
计算任意两个 类别之间的距离, 并按照从小到大的顺序对计算的多个距离进行排序;
采用上述合并过程, 对类别距离最小的两个类别进行合并, 得到该轮合并后的聚类子
集合, 并将其补 入合并后的奖励集合, 重复上述过程, 直至合并后的真实奖励集合中的聚类
个数达到当前所选择的聚类 个数yi后, 聚类结束,
得到真实奖励聚类
4.根据权利要求2所述的针对面向强化学习奖励的逆向工程的评估方法, 其特征在于,
所述逆强化学习得到的奖励聚类的具体过程 为:
对实时获取的真实奖励聚类
按照每个元素的大小, 进行降序排序,
根据预先选择的top聚类个数oj, 获取选择后的奖励聚类集合
得到
对应的真实状态空间
根据污染比例mz={m1,m2,...,m|m|}, 利用逆强化学习算法得到对应的奖励聚类集合ru
,z, 在状态空间S ′中进行聚类;
具体地, 将奖励聚类初始化:
根据给定的逆强化学习得到的奖励集合
和预先设定的聚类个数yi,
采用聚集嵌套算法, 对给定的逆强化学习得到的奖励集 合
进行聚类;
逆强化学习得到的奖励集合
中的每一个元素视为一个类别, 在第i
轮迭代中, 当前所选择的聚类个数为yi, 计算逆奖励集合中任选的两个类别间的距离
权 利 要 求 书 2/4 页
3
CN 115495972 A
3
专利 一种针对面向强化学习奖励的逆向工程的评估方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:55:44上传分享