PS1-3 政策にLSモデルを用いたQ学習法の大車輪ロボット実験機による検討
◎アルアルワンアリー,松尾芳樹(東京工科大学),浦上大輔(日本大学)
人の認知バイアスを模した推論のモデルであるLS(Loosely Symetric)モデルを政策として用いたQ学習アルゴリズムについて,大車輪ロボットを例題にその有効性を検討している.本報告では,報酬決定法を大車輪ロボットでよく従来用いられている角度から角速度に変更し,改善することにより,実機実験に必要な学習効率の向上を図る.その上で,LSモデルに加えて,政策に条件付き確率モデルを用いた場合と,完全対象な論理的モデルを用いた場合のアルゴリズムを実装し,学習特性を比較検討する.