(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110654854.1
(22)申请日 2021.06.11
(65)同一申请的已公布的文献号
申请公布号 CN 113239634 A
(43)申请公布日 2021.08.10
(73)专利权人 上海交通大 学
地址 200240 上海市闵行区东川路80 0号
(72)发明人 杨正宇 张伟楠 丁宁 俞勇
(74)专利代理 机构 上海旭诚知识产权代理有限
公司 312 20
专利代理师 郑立
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 20/00(2019.01)(56)对比文件
CN 111861648 A,2020.10.3 0
CN 111488988 A,2020.08.04
CN 110390398 A,2019.10.2 9
CN 111130053 A,2020.0 5.08
CN 110059100 A,2019.07.26
WO 202019046 0 A1,2020.09.24
CN 108724182 A,2018.1 1.02
CN 10762 2311 A,2018.01.23
US 2019147582 A1,2019.0 5.16
AU 2010252 272 A1,201 1.12.22
US 2019228309 A1,2019.07.25
审查员 王轩
(54)发明名称
一种基于鲁棒模仿学习的模拟器建模方法
(57)摘要
本发明公开了一种基于鲁棒模仿学习的模
拟器建模方法, 涉及强化学习领域, 包括以下步
骤: 从策略分布
中采样出训练策略集 合Π和
测试策略集合Π ′; 令训练策略集合Π的策略π
与真实环境p*进行交互, 以获得真实数据集合
Bπ={(s, a, s ′)~(πp*); 每k步进行一次策略
筛选; 令策略π与学习到的模拟器
进行交
互, 并计算价值差异VD, 以衡量模拟器
在策略
π下的表现; 选取其中表现最差的∈%策略构成
集合Πc, 其对应的数据集记为Bc; 从Bc中采样数
据, 并利用Πc中的策略与当前模拟器
交互以
收集数据Dp, 用以优化生成对抗模仿学习中的判
别器Dω, 以及用以优化生成对抗模仿学习中的
生成器
重复上述步骤直到重复次数达到事
先设定的阈值。 该方法使 得学到的模 型具有更强
的鲁棒性。
权利要求书2页 说明书5页 附图1页
CN 113239634 B
2022.11.04
CN 113239634 B
1.一种基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特征在于, 包括以
下步骤:
步骤1、 从机器人策 略分布
中采样出训练机器人策略集合Π和测试机器人策略集
合Π′;
步骤2、 令 所述训练机器人策略集合Π的机器 人策略π与真实机器人p*进行交互, 以获得
真实数据集 合Bπ={(s, a, s ′)~( π, p*)};
其中s代表状态, a代表动作, s ’代表真实机器 人p*在给定s, a的前提下会转变到的状态,
所有机器人 策略收集到的数据集 合记为B={Bπ| π∈Π};
步骤3、 每k步进行一次机器人策略筛选; 令所述训练机器人策略集合Π中的机器人策
略π与学习到的模 仿机器人行为的模拟器
进行交互, 并计 算价值差异VD, 以衡 量模仿机器
人行为的模拟器
在机器人策略π下的表现; 选取其中表现最差的机器人策略构成集合
Πc, 其对应的数据集记为Bc={Bπ| π∈Πc};
其中模仿机器人行为 的模拟器
以动作状态对(s, a)作为输入, 并输出对于接下来 的
状态的预测, 即可以将模仿 机器人行为的模拟器 看作为一个假的环境;
步骤4、 从Bc中采样数据, 并利用Πc中的机器人策略与当前模仿机器人行为的模拟器
交互以收集数据, 收集到的数据记为
用以优化生成对
抗模仿学习中的判别器Dω;
其中s代表状态, a代 表动作, s ’代表
在给定s, a为输入的前提下的输出;
步骤5、 从Dp中采样数据, 并利用判别器Dω提供相应的奖励, 进而用以优 化生成模仿机器
人行为的模拟器
步骤6、 重复步骤3 ‑5直到重复次数达 到事先设定的阈值。
2.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 在机器人 策略筛选时采用所述 价值差异VD作为指标, 所述 价值差异VD为:
其中V(p, π )指的是机器人策略π在环境或者是模仿机器人行为的模拟器p上所获得的
累积奖励, VD的值越大, 代 表模仿机器人行为的模拟器
在机器人 策略π 上表现越差 。
3.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 所述判别器Dω根据Bc与Dp中的数据进行判别器优化, 而且判别器Dω以状态转移对
(s, a, s′)作为输入, 并输出一个实数。
4.如权利要求3所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 所述判别器优化的损失函数为:
其中p*,
分别代表真实机器人和模仿机器人行为的模拟器, |Πc|代表集合Πc中机器
人策略的数目, πi代表集合|Πc|中的第i个元素, Dω(s, a, s′)代表了判 别器对于状态转移对
(s, a, s′)的输出。
5.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特权 利 要 求 书 1/2 页
2
CN 113239634 B
2征在于, 所述模仿机器人行为的模拟器
根据Dp中的数据进 行模仿机器人行为的模拟器优
化。
6.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 所述模仿 机器人行为的模拟器优化包括以下步骤:
利用所述判别器Dω生成状态转移对(s, a, s ′)相应的奖励r;
采用强化学习中的演员 ‑评论家算法对所述模仿 机器人行为的模拟器
进行优化。
7.如权利要求6所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 所述演员 ‑评论家算法中包含模仿机器人行为的模拟器
和评论家qμ两部分, 模仿
机器人行为的模拟器
即为演员; 相应优化的损失函数包括:
其中, L( μ )是优化所述评论家qμ时的参数 μ的损失函数, y代表了qμ(s, a, s′)对应的优化
目标, y中的a ′是从机器人策略π在以状态s ′为输入时采样而 得, y中的s ″是从所述模仿机器
人行为的模拟器
在以动作状态对(s ′, a′)为输入时采样而得, y中的
是目标评论家网
络, 每隔d步,
和qμ同步一次, 即将
设置为和qμ一致; γ是折旧因子,
是优化所述模
仿机器人行为的模拟器
时的参数
的损失函数。
8.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 所述方法每次选择模仿机器人行为的模拟器预测得最差的机器人策略所对应的数
据来对模仿机器人行为的模拟器进行优化。
9.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 所述方法通过生成对抗模仿学习方法来对 模仿机器人行为的模拟器进行优化。
10.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法, 其特
征在于, 所述方法在数据收集完成后不再需要与真实机器人进行交 互。权 利 要 求 书 2/2 页
3
CN 113239634 B
3
专利 一种基于鲁棒模仿学习的模拟器建模方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:54:42上传分享