Twitter で気がついた佐藤さんのpdf読み上げシステムの動画を見ました。
Google I/Oが5/18 - 20にオンライン開催。私はpdf2audiobookデモ紹介とMLOps AMAで参加します! #gcpja https://t.co/tLpBgTB4Xo
— Kazunori Sato (@kazunori_279) 2021年4月7日
PDFをテキストにして読み上げサービスを使用して音声ファイルに変換しています。
このシステムで使用しているGoogleのテクノロジーです。ひとつひとつは聞いたことあります。
- Cloud functions
- Cloud Storage
- OCR with Vision API
- AutoML Table
- Text to Speech
ここで上手いなと思ったところがAutoML Tableによるtext(paragraph)の識別です。
20年くらい前に、FPGAのデータシートを読むのにPDFをテキストに変換してPDAで読むというのをやっていました。 ここで問題になるのが、各ページにはいるヘッダー、ページ番号、図表です。
最初は戸惑ったのですが、なれてくると自力で飛ばせるようになります。ヘッダーはほぼ同じ内容ですし、ページ番号は一定間隔で数字が出てきて、図表は改行だらけのテキストが来たら図表だなと自分で判断して飛ばすことが出来るようになります。今回、ここの部分をAutoML Tableで上手くやっているのが驚きのポイントですね。
自分が苦労しただけあって、あーここでDeep Learning使うんだという感動がありました。 社内のDX推進とかそういうのも良いけど、今の生活がちょっと良くなる技術の使い方はもっともっと可能性あると信じています。
詳しく知りたい人は今すぐGoogle I/Oに登録しましょう。