初心者が言語モデルを勉強するための本（2023年6月版）

流行のLLMを勉強したくて沢山本を読みました。この後もしばらくLLM（GPT）関係の出版が続きそうなので、現状の本でまとめてみました。

参考：

nowokay.hatenablog.com

まとめ。

Transformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門
言語モデルをデータセットを作る所からやってみたい人には、作ってわかる! 自然言語処理AI
とにかくすぐに動かしたい人には、機械学習エンジニアのためのTransformers
ビジネス的に何ができるのかを知りたい人はBERT入門

Vision Transformer入門

Vison Transformerになっていますが、Transformerの説明がとても詳しくお勧めです。実際に写経してパーツパーツで動かせるのはこの本だけ。Transformer一点突破なので、一般的な言語処理の説明は弱いのですが、それを差し引いてもTransformerの説明が一番分かりやすかったです。特にDeep Learningが画像から入った人には、CNNとの比較もありすごく分かりやすかったです。

後半は事例になっていて、実際にTransformerを記述するところはボリューム無いので動かして見るにはちょうど良いと思います。

言語モデルを動かさないと意味が無いって人には、次の作ってわかる! 自然言語処理AIがお勧め。

gihyo.jp

作ってわかる! 自然言語処理AI

写経してTransformerを理解した人にお勧め。word2vecとそれ以降の言語モデルの違い等、理論的な所もしっかり押さえてあります。自分でwikipediaのデータをダウンロードして学習して行きます。Transformerのアーキテクチャだけでなく、学習データの作り方までしっかりわかるのはこの本だけ。いろいろあるAttentionの違いがちゃんと説明してあるのもこの本だけでした。

自分で言語モデルを1から学習したい人にお勧めです。

www.c-r.com

機械学習エンジニアのためのTransformers

何か動かしたくて、一冊だけ買うならこの本です。Transformersはライブラリの名前です。複数形なので区別がつくはず。

Transformers（ライブラリ）の使い方、Transfsormersで解けるタスクの紹介と実際の動かし方、ONNXやプルーニングを使った高速化手法まで、盛りだくさんの内容になっています。

Transformer自体の説明もちゃんとあります。個々の説明が駆け足にも関わらず、要所要所で技術的な鋭い補足が入っています。

具体的にやりたいことがあって最短距離進みたいならこの本しか無いですね。

www.oreilly.co.jp

ディープラーニングによる自然言語処理

Transformerメインではなく、自然言語処理全般について書かれている本。 AllenNLPというライブラリを使っていて、取り扱っているトピックの割には本が薄めになっていて読みやすいです。最後はBERTまで。薄いながらも評価基準がしっかり書いてあって、しれっとoptunaも使っています。

LSTMの説明もしっかりしてあり、Transformerを動かすのではなく、Deep Learningを使った言語処理の研究をしたい人向けでした。

www.kyoritsu-pub.co.jp

BERT入門

言語モデルが解くべきタスクの説明や、データアセスメントについてよくまとまっていました。本格的に動かす前に、言語モデルが何できるのかを知りたいビジネス寄りの人にお勧め。実装に関しては、Vision Transformer入門 (Computer Vision Library) が分かりやすいと思う。

www.nttdata.com

深層学習からマルチモーダル情報処理

not for meだった本。深層学習について、誤差関数とか基本的な所から詳しく説明されています。ただ、JDLAのE資格もっていれば全部知っている内容でした。

また、期待していたマルチモーダル部分についてもあまり記載がなく残念でした。もう少し、マルチモーダル故の課題とか、解決策が載っていて欲しかった。

ぱたへね

はてなダイアリーはrustの色分けができないのでこっちに来た