第24回LSIデザインコンテスト・イン沖縄 設計仕様書 - 4-2
4-2.Q - Learning
Q値の更新方法にはいくつか手法があるが,本例題ではその内の一つであるQ-Learning (以下:Q学習と表記)を扱う.Q学習におけるQ値更新の式を以下に示す.
上式においてα,γ,rはハイパーパラメータとなる.
- 実際の例を用いてQ値更新の流れを見ていく.
- エージェントは,現在自分の状態がS1であることを把握する.
- 表1より,Q値の最も高い「↓」に進む行動を選択する.
- 遷移先はS6となるため,報酬として値0を受け取る.
- 報酬を元に,Q値を更新する.
上記の1〜5を繰り返すことで,Q値表が最適なものへと近づく.
Copyright (C) 2020-2021 LSI Design Contest. All Rights Reserved.