| Japanese | English |
第24回LSIデザインコンテスト・イン沖縄 設計仕様書 - 4
4. 強化学習を用いた迷路探索
以下のファイルは本例題をMatlabで記述したプログラムである.
Zip file(m file):Sample_program.zip使い方:QL_Shortest_5x5フォルダのQ_Learning.mを実行すると,Qテーブルの更新状態が確認できる.
強化学習を用いた例題として,図2のような5×5マスの迷路探索問題を扱う.
Fig 2 : 5×5マスの迷路
エージェント:人
状態:エージェントがS1〜S25の中のどのマスにいるか
行動:「→」,「↑」,「←」,「↓」のいずれかの方行に1マス進む
報酬:
S5,S7,S8,S14,S17,S19,S20,S22 : 負の報酬(悪魔)
S25 : 正の報酬(お金)
Else : 報酬無し
この迷路探索問題の場合,強化学習の目的はゴールした時(S25に到着した時)に最大限の報酬(お金)を得ることとなる.
→悪魔のいるマスを経由しない.
Copyright (C) 2020-2021 LSI Design Contest. All Rights Reserved.