第24回LSIデザインコンテスト・イン沖縄  設計仕様書 - 4

4. 強化学習を用いた迷路探索

以下のファイルは本例題をMatlabで記述したプログラムである.

Zip file(m file):Sample_program.zip
使い方:QL_Shortest_5x5フォルダのQ_Learning.mを実行すると,Qテーブルの更新状態が確認できる.

強化学習を用いた例題として,図2のような5×5マスの迷路探索問題を扱う.

maze5-5

Fig 2 : 5×5マスの迷路


エージェント:人
状態:エージェントがS1〜S25の中のどのマスにいるか

行動:「→」,「↑」,「←」,「↓」のいずれかの方行に1マス進む
報酬:
       S5,S7,S8,S14,S17,S19,S20,S22 : 負の報酬(悪魔)
       S25 : 正の報酬(お金)
       Else : 報酬無し

この迷路探索問題の場合,強化学習の目的はゴールした時(S25に到着した時)に最大限の報酬(お金)を得ることとなる.
 →悪魔のいるマスを経由しない.


<<Back                 Next>>