強化学習とは?

強化学習について学べるウェブリソースです。

  1. 強化学習 計算神経科学への招待脳の学習機構の理解を目指して第6 回 銅谷賢治 (PDF) :強化学習とは,学習エージェント(動物,人間,ロボット,プログラムなど)が,環境の状態s をモニターし,それに対して行動a を取り,その結果報酬r を受け取る,という状況において、報酬の期待値を最大化するような行動則P(a|s) を獲得することを目標とする学習である。
  2. 強化学習における報酬の分配に関する研究 植村渉 平成17 年 大阪市立大学大学院工学研究科(PDF105ページ):Q-Learning、Sarsa、Sarsa(λ)、Monte-Carlo、Profit Sharing、MarcoPolo他
  3. 強化学習 浅川伸一(PDF 5ページ):”強化学習者(エージェント) の目的は最終
    的に受け取る総報酬を最大化することです.”  “価値の推定値を最大とするような行動を選択することをグリーディgreedy な行動と呼びます.グリーディでない行動は探索を行なっていると言います”
  4. 強化学習-ReinforcementLearning-(http://www.eb.waseda.ac.jp/murata/mituhiro.seki/openhouse/RL_abs.php): 方策、報酬関数、価値関数(ある状態以後に得られる報酬の和)、エピソード、収益、TD(Temporal difference:時間差分)学習 、状態価値関数とBellman方程式、Markov Decision Process(MDP)
  5. 強化学習(http://www.murata.eb.waseda.ac.jp/ryotaro.nishino/openhouse/reinforce.php):”名前からして強化できそうな学習方法ですがそうではありません”  “エージェントは目の前ではなく全体で多くの報酬を得ようとします。” “例えば上のような状態(矢印の横の値は報酬)では下のルートの方が 目の前の報酬 が多いです。しかし合計で最大の報酬を得ようとするので上のルートを選びます。”