第24回LSIデザインコンテスト・イン沖縄  設計仕様書 - 4-2

4-2.Q - Learning

Q値の更新方法にはいくつか手法があるが,本例題ではその内の一つであるQ-Learning (以下:Q学習と表記)を扱う.Q学習におけるQ値更新の式を以下に示す.

Q-learning-eq1

上式においてα,γ,rはハイパーパラメータとなる.


Hyper parameter

  1. 実際の例を用いてQ値更新の流れを見ていく.
  2. エージェントは,現在自分の状態がS1であることを把握する.
  3. 表1より,Q値の最も高い「↓」に進む行動を選択する.
  4. 遷移先はS6となるため,報酬として値0を受け取る.
  5. 報酬を元に,Q値を更新する.

Q-learning-eq2
Q-table-after

上記の1〜5を繰り返すことで,Q値表が最適なものへと近づく.

<<Back                 Next>>