TC12-3 上完全知覚状態をサブゴールとする階層型強化学習
○濱上知樹(横浜国立大学)
環境中に存在する複数の上完全知覚状態に基づき問題を適切に分割する階層型強化学習を提案する。まず,上完全知覚状態の影響を受けている観測の検出をエージェントの経験から得られた情報量エントロピによって行う。その後,検出した上完全知覚状態において行動価値の複素化することにより,上完全知覚状態にあってもその状態に応じた適切な行動価値を学習する。さらに,上完全知覚を検出することにより上完全知覚状態をサブゴールとする階層型強化学習手法を提案する。実験の結果,情報量エントロピを用いて上完全知覚の影響を受けている観測が検出可能であること,価値の複素化により上完全知覚状態での行動の改善が見られ,ゴール到達までのステップ数の向上が見られること,環境の階層化によってより規模の大きな環境においても学習が可能であることが確認された。