| Japanese | English |
第25回LSIデザインコンテスト・イン沖縄 設計仕様書 - 4
4. 深層強化学習を用いた迷路探索
以下のファイルは本例題をMatlabで記述したプログラムである.
Zip file(m file):DQN_sample.zip使い方:DQN_sampleフォルダのsw_Q_Learning.mを実行すると,Qテーブルの更新状態が確認できる.
深層強化学習を用いた例題として,Fig 3のような3×3マスの迷路探索問題を扱う.
Fig 3 : 3×3マスの迷路
エージェント:人
状態:エージェントがS1〜S9の中のどのマスにいるか
行動:「→」,「↑」,「←」,「↓」のいずれかの方行に1マス進む
報酬:
S5,S7,S8 : 負の報酬(悪魔)
S9 : 正の報酬(お金)
Else : 報酬無し
この迷路探索問題の場合,深層強化学習の目的はゴールした時(S9に到着した時)に最大限の報酬(お金)を得ることとなる.
→悪魔のいるマスを経由しない.
Copyright (C) 2021-2022 LSI Design Contest. All Rights Reserved.