設計仕様書

1. 目的
2. 設計環境
3. 強化学習とは
   3-1.強化学習の一連の流れ
4. 強化学習を用いた迷路探索
   4-1.Q値表
   4-2.Q - Learning
   4-3.学習結果
5. 課題

第24回LSIデザインコンテスト・イン沖縄設計仕様書 - 4

4. 強化学習を用いた迷路探索

以下のファイルは本例題をMatlabで記述したプログラムである．

Zip file(m file)：Sample_program.zip
使い方：QL_Shortest_5x5フォルダのQ_Learning.mを実行すると，Qテーブルの更新状態が確認できる．

強化学習を用いた例題として，図２のような５×５マスの迷路探索問題を扱う．

Fig 2 : ５×５マスの迷路

エージェント：人
状態：エージェントがS1～S25の中のどのマスにいるか

行動：「→」，「↑」，「←」，「↓」のいずれかの方行に１マス進む
報酬：
       S5,S7,S8,S14,S17,S19,S20,S22　：　負の報酬（悪魔）
       S25　：　正の報酬（お金）
       Else　：　報酬無し

この迷路探索問題の場合，強化学習の目的はゴールした時（S25に到着した時）に最大限の報酬（お金）を得ることとなる．
　→悪魔のいるマスを経由しない．

<<Back Next>>

Contents

設計仕様書

第24回LSIデザインコンテスト・イン沖縄 設計仕様書 - 4

4. 強化学習を用いた迷路探索

第24回LSIデザインコンテスト・イン沖縄設計仕様書 - 4