(しばらく工事中かも)
最近はOCRが必要になる場面が多い。 例えば機械翻訳にかけようとすると必要になる。
以前は Acrobat を使っていたが、最近はライセンスが色々ややこしてく敬遠していた。 これは敬遠することができた、という面がある。 OCR と栞作成以外の PDF の扱いは、 Mac の Preview や Skim で済んでしまうし。 短い文書の OCR は、 スキャナー (ScanSnap) に付属していた ABBYY FineReader for ScanSnap で処理できたし。
少し前から、裁断機(PK-513LN)を買って、 分厚い資料の電子化をするようになってから、 そのやり方が破綻した。 厚いので分割して処理するのだが、PDF をまとめようとすると、 OCR の結果が壊れる。 これって ABBYY FineReader for ScanSnap の仕様なのか?? 回避する手段があるのかどうか。いずれにしてもセコイ仕様? (私が何か勘違いしている可能性はあるが)。
そういう訳で、OCRソフトを探し始めたのだけれど、 良さそうなのがない。特に Mac 用は選択肢がとても少ないみたい。 Windows マシンで処理しようかとも思ったが、 Windows マシンの置き場所を考え始めて (たまに使う必要が出て来るので、 一応は持っているのだけど、普段は仕舞い込んでいる)、なかなか悩ましく、 やはり極力 Mac でやるべきだ、と考えた。
そうすると選択肢は、Adobe Acrobat か ABBYY FindeReader PDF くらいしかない。 どちらにも微妙な感想を持っているので (濡れ衣なのかもしれないけれど「せこい」とか思ったやつだ)、 「究極の選択」のような気持ち。
まあ、でも仕方がない。仕事がはかどらないのは本末転倒だ。
ABBYY…の方は、1年税込9350円。処理結果が満足行くものであれば、 この値段は納得できる、ということで、Go サイン。 まずは無料版をインストールした。 100ページまでは処理できる。 早速、懸案のPDFファイルを処理したところ、結果には満足した。 まあ、これならば当面大丈夫そう、ということで、 すぐにネットでライセンスを購入して、登録。 結局、ABBYY の Web サイトに最初にアクセスしてから、 1時間未満で登録ユーザーとなった。 しばらくはこれでやってみて、 浮気心が出て来たら Adobe Acrobat も購入して比較してみよう。
(追記) 早速10冊分 (数千ページということになる) 処理した。 どちらかと言うと、もっと早く買ってどんどん電子化を進めれば良かった、 ということになりそうである。 今回は全部和書だが、 OCRの品質には満足している (これまでよりもずっと良い)。 英語、ドイツ語でどうなるかだが (日本語とは違うエンジンを使うという話)、 それについては定評があるみたいなので、楽しみにしている。
(2023/2/24追記) 一度お金を払うことを決心すると、少し緩くなって、 Wondershare PDFelement Pro というのも試してみることにした。 これは OCR も出来るが、しおりの編集が出来るのが利点。 まだ一つしか試していないが、 出来上がったPDFファイルのサイズがすごく大きくなった。 まだ良く理解できていないせいかもしれないが、 もしこのままであったら、OCR をこのソフトで行うことはなさそうだ (ABBYY FineReader を使うことにする)。 (たった一度やっただけでこういうことを書くのは良くないかもしれないが、 色々カンに触ることをやってくれたせいで(そのうち書くかもしれない)、 少し意地悪になっているかもしれない)
(2023/3/1追記) もしかすると、すごい勘違いをしていたのかもしれない (この後確認作業が必要だが「こうである(らしい)」という命題を書いておく)。 ScanSnap で普通にスキャンしたときも、一応 OCR はされている。 その後 ABBYY FineReader for ScanSnap を使うかどうか尋ねられて、 私は実行してきたけれど (なんとか.pdf なんとか_OCR.pdf と2つのファイルが出来る)。 ABBYY FineReader for ScanSnap を使わない場合も、 十分実用になる精度で OCR が出来ている。 そうして出来た PDF を編集しても OCR データは壊れないみたいだ。 というわけで、ScanSnap はそれ単体でちゃんと使える、みたい。 これが正しいとすると、 OCR のために別途ソフトが必要なのは、 自分でスキャンしていないPDFが OCR されていない場合に、 OCR したいだけ、ということになるのかな。