(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110679697.X (22)申请日 2021.06.18 (71)申请人 北京云量数盟科技有限公司 地址 100012 北京市朝阳区水岸南 街16号N 次方420 (72)发明人 辛苗  (74)专利代理 机构 北京方安思达知识产权代理 有限公司 1 1472 专利代理师 杨青 李彪 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种针对面向强化学习奖励的逆向工程的 评估方法及系统 (57)摘要 本发明属于强化学习安全技术领域, 具体地 说, 涉及一种针对面向强化学习奖励的逆向工程 的评估方法, 该方法包括: 根据实时获取的真实 奖励聚类和逆强化学习得到的奖励聚类, 计算二 者之间的标准互信息; 根据预先设定的聚类个数 范围, 聚类排序范围和污染轨迹比例范围, 生成 标准互信息序列; 将标准互信息输入至预先建立 的四阶张量模型, 得到评估结果; 根据评估结果, 来评估逆强化学习得到的奖励聚类 。 权利要求书4页 说明书10页 附图2页 CN 115495972 A 2022.12.20 CN 115495972 A 1.一种针对面向强化学习奖励的逆向工程的评估方法, 该 方法包括: 根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类, 计算二者之间的标准互 信息; 根据预先设定的聚类个数范围, 聚类排序范围和污染轨迹比例范围, 生成标准互信息 序列; 将标准互信息 输入至预 先建立的四阶张量模型, 得到 评估结果; 根据评估结果, 来评估 逆强化学习得到的奖励聚类。 2.根据权利要求1所述的针对面向强化学习奖励的逆向工程的评估方法, 其特征在于, 所述根据实时获取的真实奖励聚类和逆强化学习得到的奖励聚类, 计算二者之 间的标准互 信息; 其具体过程 为: 根据实时获取的真实奖励聚类 和逆强化学习得到的奖励聚类 计算二者之间的 互信息 其中, 其中, 为 中的第σ 个 类别; 为 中的第 ε个 类别; S′为真实的状态空间; 根据计算得到的二者之间的互信息 计算二者之间的标准互信息 其中, 3.根据权利要求2所述的针对面向强化学习奖励的逆向工程的评估方法, 其特征在于, 所述真实奖励聚类的具体获取 过程为: 将奖励聚类初始化: Ci={Ci; 1,...,Ci; |r|}={{r1},...,{r|r|}} 根据给定的真实奖励集合re={r1,r2,...,r|r|}和预先设定的聚类个数范围y={y1, y2,...,y|y|}, 采用聚集嵌套算法, 对真实奖励集 合re={r1,r2,...,r|r|}进行聚类; 真实奖励集合re={r1,r2,...,r|r|}中的每一个元素视为一个类别, 在第i轮迭代中, 当 前所选择的聚类 个数为yi, 计算真实奖励集 合中任选的两个 类别间的距离 权 利 要 求 书 1/4 页 2 CN 115495972 A 2其中, d(rx,ry)是相邻两个真实奖励 与 之间的欧几里得距离; 为Ci中 的第x个类别; 为Ci中的第y个 类别; 遍历Ci中所有类别, 并计算任意两个类别之间的距离, 并按照从小到 大的顺序对计算的 多个距离进行排序; 选择类别距离 最小的两个类别进行合并, 得到本轮合并后的聚类子集合 New_C; New_C=Cα∪Cβ 其中, Cα, Cβ为本轮中得到的距离Dal最小的两个类别; New_C为本轮合并后的聚类子集 合; 将New_C补入Ci中, 得到合并后的奖励集合, 再遍历该合并后的奖励集合中的所有类别, 计算任意两个 类别之间的距离, 并按照从小到大的顺序对计算的多个距离进行排序; 采用上述合并过程, 对类别距离最小的两个类别进行合并, 得到该轮合并后的聚类子 集合, 并将其补 入合并后的奖励集合, 重复上述过程, 直至合并后的真实奖励集合中的聚类 个数达到当前所选择的聚类 个数yi后, 聚类结束, 得到真实奖励聚类 4.根据权利要求2所述的针对面向强化学习奖励的逆向工程的评估方法, 其特征在于, 所述逆强化学习得到的奖励聚类的具体过程 为: 对实时获取的真实奖励聚类 按照每个元素的大小, 进行降序排序, 根据预先选择的top聚类个数oj, 获取选择后的奖励聚类集合 得到 对应的真实状态空间 根据污染比例mz={m1,m2,...,m|m|}, 利用逆强化学习算法得到对应的奖励聚类集合ru ,z, 在状态空间S ′中进行聚类; 具体地, 将奖励聚类初始化: 根据给定的逆强化学习得到的奖励集合 和预先设定的聚类个数yi, 采用聚集嵌套算法, 对给定的逆强化学习得到的奖励集 合 进行聚类; 逆强化学习得到的奖励集合 中的每一个元素视为一个类别, 在第i 轮迭代中, 当前所选择的聚类个数为yi, 计算逆奖励集合中任选的两个类别间的距离 权 利 要 求 书 2/4 页 3 CN 115495972 A 3

.PDF文档 专利 一种针对面向强化学习奖励的逆向工程的评估方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针对面向强化学习奖励的逆向工程的评估方法及系统 第 1 页 专利 一种针对面向强化学习奖励的逆向工程的评估方法及系统 第 2 页 专利 一种针对面向强化学习奖励的逆向工程的评估方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:55:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。