ぱたへね

はてなダイアリーはrustの色分けができないのでこっちに来た

生成Deep Learning 第2版

オライリーの生成Deep Learning 第2版を読みました。

www.oreilly.co.jp

広いトピックに何かしらの動くコードがあって、本を読んで勉強しながら動かして雰囲気がわかる内容になっています。全体が三部構成になっていて、解説の一つ一つがわかりやすいだけで無く、CNNを使った画像の識別からVAE、GAN、LSTM、Transformer、DALL-Eまでの多き流れを一気に知ることが出来ます。一度勉強した人も復習になるのでお勧めです。

第一部 生成Deep Learning入門

生成モデリングの考え方と、MLPから始まるDeep Learningのおさらいです。基本的な層や学習のパラメータの説明に加えて、勾配爆発や共変量シフトなどの説明もあります。ここでわからないところがあれば、生成モデルに進む前に復習した方が良いです。

CNNががっと盛り上がっていた時の説明では無く、今から見たCNNの説明なので余計な情報が無くよくまとまっているなと感心しました。

第二部 手法

ここでは、最終的な生成モデルを作るに当たっての各要素技術が説明されます。

最初はオートエンコーダから入り、VAEの説明があります。ここからそれなりに人の顔を生成したり、生成した画像を笑顔にしたりといった事が出来ています。潜在空間の雰囲気やそれらが連続であることの意味も説明されています。VAEすごいです。

次はGAN(DCGAN)の説明です。GAN固有の訓練の方法は簡単にまとまっていて、その後のどういう問題をどう解決したかの説明があります。最後はCGANまで説明があり、その後のStyleGAN等は第三部でもう一度説明があります。

次に自己回帰モデルのLSTMの説明から入り、それを画像に応用したPixelCNNの説明があります。確率モデルのライブラリであるTensorflow Probabilityが少し出てきます。

そしてVAEと自己回帰モデルを合わせた正規化フローモデルの説明、エネルギーベースモデルの説明があります。ここから数学が難しくなってきています。僕の中ではこの本のメインで、エネルギーベースモデルが強化学習につながっているので面白く読めました。

この部の最後は拡散モデルです。少ないページ数で正方向、逆方向の拡散過程、使われる層の説明とソース、わかりやすい画像、学習の工夫などがしっかりと説明されています。ここはゼロから作るDeep Learning⑤でしっかり勉強しても良いと思う。

第三部 応用

ここから応用に入り、動く結果だけを見たような技術が登場します。魔法のようなサービスの中身がどうなっているのかを知ることが出来ます。

まずはトランフォーマーからのGPT。少ないページでしっかり説明されています。

次が圧巻のGANの説明。ProGAN、StyleGAN、StyleGAN2、SAGAN、BigGAN, VQ-GAN, Vit VQ-GANと、GANの進化がについて説明があります。過去のGANが作る絵にどういう課題があって、どうやって解決していったのかが説明されてました。

音楽生成はあまり興味が無かったのでパス。

世界モデルの説明はこの本を買ってどうしても読みたかったところです。強化学習の説明から入り、世界モデルとは何かの説明があります。世界モデルは結構バズワードとして認識してましたが、この本を読んで考えを直しました。世界モデルはVMCモデルという実装に関しても定義されていることを知りました。買って良かった。世界モデルの考え方がわかった上で、VAEをどう使うのかが出てきて面白かったです。今のロボットの強化学習は、画像と同じようにVAEから発展した拡散モデルやエネルギーベースモデル学習等も出てきていてもっと難しいですが一歩ずつ進んでいける内容になってます。

あとはDELL-E,、Stable Diffusion等の流行の生成モデルの説明があってまとめです。

まとめ

MLP、CNNから始まって今の生成モデルまでを一冊で走りきる本です。生成モデルを今から勉強する人にとっては、この本で最短距離を走れると思います。範囲が広い分ここから更に別の形での勉強は必要ですが、全ての説明について主要となる論文は言及されているので、次の一歩が困ることはないと思います。翻訳も素晴らしく、本文に関しては全く翻訳されていると気がつかないレベルでした。翻訳に関わった方ありがとうございました。

感想を一言でまとめるとVAEすごい!です。