ロボット業界で話題になっている基盤モデルとロボットの融合を読みました。
内容は、AIの専門家じゃない人向けに、ロボットで使われるAI技術をわかりやすく解説しています。今、ロボットのAIに取り組んでいる人、これから取り組む人全員にお勧めです。特に論文を読む前にポイントを押さえるには最適な本だと思います。
一章にSOTAな技術が紹介されていて、一章から最短距離でそこまで飛ばしていく本です。最新の技術に行くまでのCNN、VAE、TransformerといったDeep Learningの技術だけでなく、ランダムサンプリングを使ったプランニングや、Deep Learningを使わない画像特徴量、点群のマッチングまで、最新の論文を読むにあたって重要な技術がコンパクトにまとまっています。流石にこれ一冊で理解できないですが、知らないことがあればこの本を起点に勉強を広げていけます。
日経ロボティクスを毎月きっちり読んでいたりXで流れてくるロボットの話題を追っていると、流石に初めて聞いたというようなトピックはないのですが、逆に言うとこの一冊読めばそこまではたどりつけます。紹介されている各手法について、単に論文の画像をそのまま持ってくるのではなく、わかりやすく書き直されていています。地味だけど助かります。
それぞれの技術を紹介するときに、単にアーキテクチャだけでなく、その研究に至るまでの背景が簡単にまとまっているのがとても良いです。例えば、Octoではこのような説明から始まります。
Open-X Embodiment(OXE)データセットの登場や、それを活用したRT-Xの研究が公開されると、LLMやVLMと同様にロボット制御のための良い事前学習モデルがつくれるのではないかと期待が高まりました。OXEデータセットを活用した一気通貫のロボット制御モデルとして、比較的初期に公開されたのがOctoです。
RT-XとOXEがあってOctoが出てきたことがわかります。もちろん、論文を読めば先行研究は書いてありますが、ここまでわかりやすくなっていないのでとても助かります。
この本は最後の方を読んでいるとやはりデータセットが大事というのと、意外に拡散モデルが重要な位置を占めているのがわかります。基盤モデルというとChatGPTのようなLLMが主体かと思いがちですが、ロボットのアクションを作る部分には拡散モデルが重要なところで使われています。拡散モデルを使った模倣学習はもっとやってみたい。
ただこの本を読んで、じゃあ目の前のロボットで本で紹介されているπ-zeroを動かそうかというとそこには大きな壁があります。その壁をどう乗り越えるかは書いていないので、そこは自分でなんとかしたいなと思いました。