论文标题

在Atari游戏上使用生成的对抗网进行深入增强学习中的特征提取

Using Generative Adversarial Nets on Atari Games for Feature Extraction in Deep Reinforcement Learning

论文作者

Aydın, Ayberk, Surer, Elif

论文摘要

深度强化学习(DRL)已成功应用于机器人导航和自动化视频游戏等多个研究领域。但是,这些方法需要过度的计算和与环境相互作用,因此需要提高样品效率。造成此要求的主要原因是,稀疏和延迟的奖励不能为表示深度神经网络的表示提供有效的监督。在这项研究中,近端策略优化(PPO)算法通过生成的对抗网络(GAN)增强,以通过强制实施网络学习有效表示,而无需依赖于稀疏和延迟的奖励,以提高样本效率。结果表明,通过与GAN歧视者共同训练DRL代理可以获得提高的性能。 ----- Derin Pekistirmeli Ogrenme,机器人Navigasyonu ve Otomatiklestirilmis视频Oyunu Oynama Gibi Arastirma alanlarinda basariyla uygulanmaktadir。 Ancak,Kullanilan Yontemler Ortam Ile Fazla Miktarda Etkilesim ve Hesa​​plama gerektirmekte ve bu nedenle de ornek verimliligi yonunden yonunden iyilestirmelere ihtiyAc ihtiyac duyulmaktadir。 bu gereksinimin en emli nedeni,gecikmeli ve seyrek odul sinyallerinin derin yapay yapay sinir sinir aglarinin etkili etkimlemeler betimlemeler ogrenebilmesi icin yeterli yeterli yeterli yeterli yeterli bir bir denetim bir denetim saglayamamasidir。 Bu calismada, Proksimal Politika Optimizasyonu algoritmasi Uretici Cekismeli Aglar (UCA) ile desteklenerek derin yapay sinir aglarinin seyrek ve gecikmeli odul sinyallerine bagimli olmaksizin etkili betimlemeler ogrenmesi tesvik edilmektedir. Elde Edilen Sonuclar Onerilen algoritmanin Ornek Verimliliginde Artis Elde Ettigini Gostermektedir。

Deep Reinforcement Learning (DRL) has been successfully applied in several research domains such as robot navigation and automated video game playing. However, these methods require excessive computation and interaction with the environment, so enhancements on sample efficiency are required. The main reason for this requirement is that sparse and delayed rewards do not provide an effective supervision for representation learning of deep neural networks. In this study, Proximal Policy Optimization (PPO) algorithm is augmented with Generative Adversarial Networks (GANs) to increase the sample efficiency by enforcing the network to learn efficient representations without depending on sparse and delayed rewards as supervision. The results show that an increased performance can be obtained by jointly training a DRL agent with a GAN discriminator. ---- Derin Pekistirmeli Ogrenme, robot navigasyonu ve otomatiklestirilmis video oyunu oynama gibi arastirma alanlarinda basariyla uygulanmaktadir. Ancak, kullanilan yontemler ortam ile fazla miktarda etkilesim ve hesaplama gerektirmekte ve bu nedenle de ornek verimliligi yonunden iyilestirmelere ihtiyac duyulmaktadir. Bu gereksinimin en onemli nedeni, gecikmeli ve seyrek odul sinyallerinin derin yapay sinir aglarinin etkili betimlemeler ogrenebilmesi icin yeterli bir denetim saglayamamasidir. Bu calismada, Proksimal Politika Optimizasyonu algoritmasi Uretici Cekismeli Aglar (UCA) ile desteklenerek derin yapay sinir aglarinin seyrek ve gecikmeli odul sinyallerine bagimli olmaksizin etkili betimlemeler ogrenmesi tesvik edilmektedir. Elde edilen sonuclar onerilen algoritmanin ornek verimliliginde artis elde ettigini gostermektedir.

扫码加入交流群

加入微信交流群

微信交流群二维码

扫码加入学术交流群,获取更多资源