38 OCR をどうするか -- 文献の機械翻訳のために … Googleドキュメントなかなか良い?

OCR をどうするのか、悩んでいる。

以前は Adobe Acrobat (買い切り版) を使っていたが、 macOS が 32ビットアプリケーションをサポートしなくなって使えなくなった。

普段使っているスキャナーである ScanSnap には、 (以前は Acrobat が付属していたが) 最近は ABBYY Fine Reader for ScanSnap という OCR ソフトが付属している。 判読率は (もちろん) 及第点レベルであるが、 ScanSnap でスキャンして作成した PDF にしか使えないようにされている (なるほど)。

ネットから入手したPDF (論文とか) の中には、 テキスト情報が埋め込まれていないものがあり (コピペできない)、 それをどうやって OCR するかが問題となる。

この際、ABBYY Fine Reader を購入しようかとも考えたが、 保守費というのが怪しく悩ましい (一体いくらなのか? サイトを見ても分からない)。

PDF を扱うソフトは色々なものがあるようだけれど、 調べた限りでは、Mac に対応していなかったり、判読率に難があったり、 利用に色々な制限があったりする (OCRだけオンラインで実行するとか)。 色々なことを考えさせられた (Parallels Desktop で古い macOS を動かして、そこで古い Acrobat を使う、とか)。


Acrobat は、導入が何かと面倒なのだが (校費では勝手に購入できない)、 新しいバージョンに移行すべきなのだろうか。

この解決手段は個人的には問題ないけれど (少し面倒なだけ)、 人 (特に学生) に勧めにくいという問題がある。


OCR されていない PDF にテキスト情報を埋め込むのが、自分の希望だけれど、 単にテキスト情報を抽出するだけであれば (例えば論文を機械翻訳しようという場合はそれで何とかなる)、 Google ドキュメントを利用すれば良いことに気づいた。

Google ドキュメントにPDFファイルを読み込むと、 自動的にフォーマットを変換するけれど、 その際 (当然) OCR されることになる。とてもあっけない。

その変換というか、OCR の精度は非常に高い (普通の文字は間違えないという印象)。 たまに空白が入ったり間違えるけれど、 おかしなところは指摘してくれることもあるので、 発見して修正するのも簡単である。 一つの文書の中で似たようなことを間違える場合は (例えば何故か π を読み落とすとか)、検索・置換で解決できることも多かった。 実に快適である。

少しずつ便利になりつつある。


引き続き、PDF を OCR してテキスト情報を埋め込んでくれるソフトを探索中…


背に腹は代えられないので、古い MacBook (そういえば macOS を Mojave にできないのが何台もあるのだった) を引っ張り出してきて、 それにインストールしてある古い Acrobat で OCR 大会を行なった。 古くてもちゃんと動くのはさすが。 これで当面の需要を処理することにする。



桂田 祐史