強化学習を用いて, エージェントに自作の迷路を解かせます.
学習によって行動価値がどのように変化するかを可視化しています.
- 黒・・・・・壁, エージェントはこのますに進むことができない.
- 緑・・・・・スタート地点, エージェントがepisodeの初めにいる場所
- 青・・・・・ゴール地点, エージェントがここに達すると迷路を解いたことになる.
- 赤・・・・・エージェントの現在地
- 黄・・・・・行動価値を可視化したもの, 色が濃いほど矢印方向の行動価値が高いことを示す.
$ git clone https://github.com/matsumotokoki/probrobotics2021.git
$ cd probrobotics2021
$ python <実行するアルゴリズム>.py
$ git clone https://github.com/matsumotokoki/probrobotics2021.git
$ cd probrobotics2021/jupyter
# 上記2つのコマンド実行後, jupyterディレクトリでjupyter notebookを起動し, 実行したいアルゴリズムを実行
- matplotlib
- numpy
- gym