強化学習とは？ | Arts and Sciences

強化学習について学べるウェブリソースです。

強化学習　計算神経科学への招待脳の学習機構の理解を目指して第6 回　銅谷賢治　（ＰＤＦ）　：強化学習とは，学習エージェント（動物，人間，ロボット，プログラムなど）が，環境の状態s をモニターし，それに対して行動a を取り，その結果報酬r を受け取る，という状況において、報酬の期待値を最大化するような行動則P(a|s) を獲得することを目標とする学習である。
強化学習における報酬の分配に関する研究　植村渉　平成17 年大阪市立大学大学院工学研究科（ＰＤＦ105ページ）：Q-Learning、Sarsa、Sarsa(λ)、Monte-Carlo、Profit Sharing、MarcoPolo他
強化学習　浅川伸一（ＰＤＦ　5ページ）：”強化学習者(エージェント) の目的は最終
的に受け取る総報酬を最大化することです．” “価値の推定値を最大とするような行動を選択することをグリーディgreedy な行動と呼びます．グリーディでない行動は探索を行なっていると言います”
強化学習-ReinforcementLearning-(http://www.eb.waseda.ac.jp/murata/mituhiro.seki/openhouse/RL_abs.php)：　方策、報酬関数、価値関数（ある状態以後に得られる報酬の和）、エピソード、収益、TD(Temporal difference:時間差分)学習、状態価値関数とBellman方程式、Markov Decision Process(MDP)
強化学習（http://www.murata.eb.waseda.ac.jp/ryotaro.nishino/openhouse/reinforce.php）：”名前からして強化できそうな学習方法ですがそうではありません” “エージェントは目の前ではなく全体で多くの報酬を得ようとします。” “例えば上のような状態(矢印の横の値は報酬)では下のルートの方が目の前の報酬が多いです。しかし合計で最大の報酬を得ようとするので上のルートを選びます。”