第25回LSIデザインコンテスト・イン沖縄  設計仕様書 - 4

4. 深層強化学習を用いた迷路探索

以下のファイルは本例題をMatlabで記述したプログラムである.

Zip file(m file):Sample_program.zip
使い方:QL_Shortest_5x5フォルダのQ_Learning.mを実行すると,Qテーブルの更新状態が確認できる.

深層強化学習を用いた例題として,Fig 3のような3×3マスの迷路探索問題を扱う.

maze3-3

Fig 3 : 3×3マスの迷路


エージェント:人
状態:エージェントがS1〜S9の中のどのマスにいるか

行動:「→」,「↑」,「←」,「↓」のいずれかの方行に1マス進む
報酬:
       S5,S7,S8 : 負の報酬(悪魔)
       S9 : 正の報酬(お金)
       Else : 報酬無し

この迷路探索問題の場合,深層強化学習の目的はゴールした時(S9に到着した時)に最大限の報酬(お金)を得ることとなる.
 →悪魔のいるマスを経由しない.


<<Back                 Next>>