专利一种基于鲁棒模仿学习的模拟器建模方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110654854.1 (22)申请日 2021.06.11 (65)同一申请的已公布的文献号申请公布号 CN 113239634 A (43)申请公布日 2021.08.10 (73)专利权人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人杨正宇　张伟楠　丁宁　俞勇　 (74)专利代理机构上海旭诚知识产权代理有限公司 312 20 专利代理师郑立 (51)Int.Cl. G06F 30/27(2020.01) G06N 20/00(2019.01)(56)对比文件 CN 111861648 A,2020.10.3 0 CN 111488988 A,2020.08.04 CN 110390398 A,2019.10.2 9 CN 111130053 A,2020.0 5.08 CN 110059100 A,2019.07.26 WO 202019046 0 A1,2020.09.24 CN 108724182 A,2018.1 1.02 CN 10762 2311 A,2018.01.23 US 2019147582 A1,2019.0 5.16 AU 2010252 272 A1,201 1.12.22 US 2019228309 A1,2019.07.25 审查员王轩 (54)发明名称一种基于鲁棒模仿学习的模拟器建模方法 (57)摘要本发明公开了一种基于鲁棒模仿学习的模拟器建模方法，涉及强化学习领域，包括以下步骤：从策略分布中采样出训练策略集合Π和测试策略集合Π ′；令训练策略集合Π的策略π 与真实环境p*进行交互，以获得真实数据集合 Bπ＝{(s， a， s ′)～(πp*)；每k步进行一次策略筛选；令策略π与学习到的模拟器进行交互，并计算价值差异VD，以衡量模拟器在策略 π下的表现；选取其中表现最差的∈％策略构成集合Πc，其对应的数据集记为Bc；从Bc中采样数据，并利用Πc中的策略与当前模拟器交互以收集数据Dp，用以优化生成对抗模仿学习中的判别器Dω，以及用以优化生成对抗模仿学习中的生成器重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。权利要求书2页说明书5页附图1页 CN 113239634 B 2022.11.04 CN 113239634 B 1.一种基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，包括以下步骤：步骤1、从机器人策略分布中采样出训练机器人策略集合Π和测试机器人策略集合Π′；步骤2、令所述训练机器人策略集合Π的机器人策略π与真实机器人p*进行交互，以获得真实数据集合Bπ＝{(s， a， s ′)～( π， p*)}；其中s代表状态， a代表动作， s ’代表真实机器人p*在给定s， a的前提下会转变到的状态，所有机器人策略收集到的数据集合记为B＝{Bπ| π∈Π}；步骤3、每k步进行一次机器人策略筛选；令所述训练机器人策略集合Π中的机器人策略π与学习到的模仿机器人行为的模拟器进行交互，并计算价值差异VD，以衡量模仿机器人行为的模拟器在机器人策略π下的表现；选取其中表现最差的机器人策略构成集合 Πc，其对应的数据集记为Bc＝{Bπ| π∈Πc}；其中模仿机器人行为的模拟器以动作状态对(s， a)作为输入，并输出对于接下来的状态的预测，即可以将模仿机器人行为的模拟器看作为一个假的环境；步骤4、从Bc中采样数据，并利用Πc中的机器人策略与当前模仿机器人行为的模拟器交互以收集数据，收集到的数据记为用以优化生成对抗模仿学习中的判别器Dω；其中s代表状态， a代表动作， s ’代表在给定s， a为输入的前提下的输出；步骤5、从Dp中采样数据，并利用判别器Dω提供相应的奖励，进而用以优化生成模仿机器人行为的模拟器步骤6、重复步骤3 ‑5直到重复次数达到事先设定的阈值。 2.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，在机器人策略筛选时采用所述价值差异VD作为指标，所述价值差异VD为：其中V(p， π )指的是机器人策略π在环境或者是模仿机器人行为的模拟器p上所获得的累积奖励， VD的值越大，代表模仿机器人行为的模拟器在机器人策略π 上表现越差。 3.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，所述判别器Dω根据Bc与Dp中的数据进行判别器优化，而且判别器Dω以状态转移对 (s， a， s′)作为输入，并输出一个实数。 4.如权利要求3所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，所述判别器优化的损失函数为：其中p*，分别代表真实机器人和模仿机器人行为的模拟器， |Πc|代表集合Πc中机器人策略的数目， πi代表集合|Πc|中的第i个元素， Dω(s， a， s′)代表了判别器对于状态转移对 (s， a， s′)的输出。 5.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特权　利　要　求　书 1/2 页 2 CN 113239634 B 2征在于，所述模仿机器人行为的模拟器根据Dp中的数据进行模仿机器人行为的模拟器优化。 6.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，所述模仿机器人行为的模拟器优化包括以下步骤：利用所述判别器Dω生成状态转移对(s， a， s ′)相应的奖励r；采用强化学习中的演员 ‑评论家算法对所述模仿机器人行为的模拟器进行优化。 7.如权利要求6所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，所述演员 ‑评论家算法中包含模仿机器人行为的模拟器和评论家qμ两部分，模仿机器人行为的模拟器即为演员；相应优化的损失函数包括：其中， L( μ )是优化所述评论家qμ时的参数 μ的损失函数， y代表了qμ(s， a， s′)对应的优化目标， y中的a ′是从机器人策略π在以状态s ′为输入时采样而得， y中的s ″是从所述模仿机器人行为的模拟器在以动作状态对(s ′， a′)为输入时采样而得， y中的是目标评论家网络，每隔d步，和qμ同步一次，即将设置为和qμ一致； γ是折旧因子，是优化所述模仿机器人行为的模拟器时的参数的损失函数。 8.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，所述方法每次选择模仿机器人行为的模拟器预测得最差的机器人策略所对应的数据来对模仿机器人行为的模拟器进行优化。 9.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，所述方法通过生成对抗模仿学习方法来对模仿机器人行为的模拟器进行优化。 10.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法，其特征在于，所述方法在数据收集完成后不再需要与真实机器人进行交互。权　利　要　求　书 2/2 页 3 CN 113239634 B 3

专利 一种基于鲁棒模仿学习的模拟器建模方法

专利一种基于鲁棒模仿学习的模拟器建模方法