MPRG : 機械知覚&ロボティクスグループ／中部大学

16 Jan 2022

Critic-Attentionによる探索基準を用いた大規模環境における効率的な深層強化学習

Author: 村瀬卓也, 平川翼, 山下隆義, 藤吉弘亘
Publication: 人工知能学会全国大会, 2022.

Download: PDF (Japanese)

深層強化学習は，エージェントが未知の環境に対して試行錯誤を行い，獲得した報酬を頼りに最適な行動を学習する手法である．Atari2600やボードゲームなど，様々なゲームタスクにおいて，人間を凌駕する性能を発揮している．しかし，エージェントは報酬に辿り着くまで，探索基準が無い状態でランダムに行動をする．そのため，報酬を獲得する機会が少ない大規模で複雑な環境においては，適切な行動を獲得するまで膨大な試行回数が必要となる．そこで本研究では，Mask-Attention機構を導入したCriticモデルを事前学習し，それにより得られたAttention mapをPolicyモデルの探索基準とすることで，効率的な学習を可能とする．また，PolicyモデルをMaster Policyと複数のSub Policyに分割して階層化することで，さらに効率的な学習を実現する．Minecraftを用いた実験により，効率的に学習可能であることを示す．