| Japanese | English |

Contents

設計仕様書

審査のポイント

審査結果

設計仕様書

1. 目的
2. 設計環境
3. 強化学習とは
   3-1.強化学習の一連の流れ
4. 強化学習を用いた迷路探索
   4-1.Q値表
   4-2.Q - Learning
   4-3.学習結果
5. 課題

第24回LSIデザインコンテスト・イン沖縄設計仕様書 - 4-2

4-2.Q - Learning

Q値の更新方法にはいくつか手法があるが，本例題ではその内の一つであるQ-Learning （以下：Q学習と表記）を扱う．Q学習におけるQ値更新の式を以下に示す．

Q-learning-eq1

上式においてα，γ，rはハイパーパラメータとなる．

Hyper parameter

実際の例を用いてQ値更新の流れを見ていく．
エージェントは，現在自分の状態がS1であることを把握する．
表１より，Q値の最も高い「↓」に進む行動を選択する．
遷移先はS6となるため，報酬として値0を受け取る．
報酬を元に，Q値を更新する．

Q-learning-eq2

Q-table-after

上記の1～5を繰り返すことで，Q値表が最適なものへと近づく．

<<Back Next>>

Copyright (C) 2020-2021 LSI Design Contest. All Rights Reserved.