詳細強化学習の発展と応用

詳細強化学習の発展と応用読みました。良かったので紹介します。

強化学習（第2版）とCourseraの強化学習コースをやったの続きになります。

JDLAのE資格でDQNまではなんなとなく勉強していたのでDQNからBCまでの間を埋めるような教材を探していてら、Courseraの強化学習のコースを見つけました。

もともとこういう気持ちでCouseraを始めたけどCouseraはちょっと違っていて、この本はまさにDQNからBCの隙間を埋める本でした。

内容は基本的なところからの説明に入り、re-parameterization trick、PPO、L2C2等のちょっと進んだテクニックの説明があります。既存のやり方では何が問題になっていて、どうやって解決しているのか、結果どうなのかというのが説明してありわかりやすかったです。

もやっとしていた世界モデルについても、Couseraのコースと合わせることで理解が進みました。強化学習ではモデルと意味合いが普通の機械学習とは違う事を意識しないと理解できない。

肝心のBCは模倣学習の所で登場しました。Behavioral Cloning(行動クローニング)は、エキスパートの行動を方策の初期値として使用する手法。手軽さと共にいくつかある課題について説明があり、読みたかったのはまさにこれでした。

強化学習の次の一歩にお勧めです。

ぱたへね