強化学習の定番教科書

強化学習の定番教科書といえば、強化学習の生みの親であるリチャード・サットン(Richard S.Sutton)とアンドリュー・バルト(Andrew G.Barto)の二人によって書かれた「強化学習」でっ決まりです。学術論文で強化学習に言及されているときは、必ずこの本が引用されています。

 

強化学習は機械学習の一つです。ある環境においてエージェントがある行動を選択したときにそれに対して報酬を与えられる、という状況を仮定し、得られる報酬が最大になるような行動選択の規則をエージェントが学習する場合、これを強化学習と呼んでいます。(ウィキペディア

例としては、初めてブランコに乗った子供がブランコの漕ぎ方を覚えるというのが強化学習とみなせます。立ってこいでいるとして、ひざや体の動かし方をランダムにしていてもうまく漕げません。しかしたまたまうまい具合に体が使えたときブランコが高く上がります。ブランコの高さを報酬と考えると、子供はだんだんブランコがより高くまで行くように(=報酬が最大になるように)体の使い方を学んでいくわけです。

下の動画はわかりやすいデモになっています。ロボットに体の使い方を教えたわけではないのに、報酬がたくさん得られる(=より高く振れること)ような学習規則を与えただけで、体の使い方が見事に学習されていくのがとても不思議で面白いと思います。

Q学習を適用した大車輪運動の獲得

Q学習というのは、強化学習の一種です。

 

リチャード・サットン(Richard S.Sutton)とアンドリュー・バルト(Andrew G.Barto)の二人によって書かれた「強化学習」。

原書は、


Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning series)

下記のウェブ上でも同様の内容が公開されています(英語)。

Reinforcement Learning:An Introduction Richard S. Sutton and Andrew G. Barto (カナダのアルベルタ大学サットン教授のウェブサイト内)