45 NDLOCR-Lite を試す

(しばらく工事中)

国立国会図書館が、OCR ソフトを公開しているとか。

国立国会図書館 NDL @NDLJP
https://x.com/NDLJP/status/2026167169676104100

NDLOCR-Liteを公開しました。ノートPC等の一般的な環境で動作する軽量なOCRです。 英活字や手書きにも試行的に対応しています。
マウス操作のみでお使いいただけるようWindows及びMacに対応したアプリもご用意しました。是非お試しください!
https://lab.ndl.go.jp/news/2025/2026-02-24/
使い方 https://lab.ndl.go.jp/data_set/ndlocrlite-usage/

Image HB5kTMHacAEfWYM

https://github.com/ndl-lab/ndlocr-lite/releasesに色々ファイルが置いてある。

Mac 用の GUI のアプリケーションとして、 ndlocr_lite_v1.1.0_macos_intel.tar.gz, ndlocr_lite_v1.1.0_macos_apple_silicon.tar.gz がある (名前を見れば意味が分かるだろう)。

tar xzf ndlocr_lite_v1.1.0_macos_intel.tar.gz
cd macos
sudo mv ndlocr-lite-gui.app /Applications

コマンドライン版というのもあるのか。 Source Code (tar.gz) とあるが、 現在 (2026/2/28) の時点で、 ndlocr-lite-1.1.0.tar.gz という名前のファイルである。
tar xzf ndlocr-lite-1.1.0.tar.gz
cd ndlocr-lite-1.1.0
この後どうするのかな? README.md を読むのか。

README.md には以下のように git clone しなさいと書いてある。
git clone https://github.com/ndl-lab/ndlocr-lite
cd ndlocr-lite
pip install -r requirements.txt
エラーで止まった。


tar xzf ndlocr-lite-1.1.0.tar.gz してできた ディレクトリィ ndlocr-lite-1.1.0 と、 git clone https://github.com/ndl-lab/ndlocr-lite してできた ディレクトリィ ndlocr-lite の内容は、ほとんど同じだった。

さて、pip install -r requirements.txt でエラーになったけれど、 これは私の Mac の Python 環境が複数あって混乱しているからのような匂いがある。

私のメインの Python 環境は、MacPorts でインストールしたものだ。 ChatGPT に尋ねたら、venv を使って仮想環境を作って作業しなさいと。

/opt/local/bin/python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
としたら通った。

これで例えば (そのディレクトリィで)
python src/ocr.py --sourcedir dir1 --output dir2
とすれば動くけれど、venv の中で実行していることに注意が必要である。


今のところ、次のようなスクリプトを使って色々試している。
なんちゃって ndlocr-lite
#!/bin/bash
DIR=${SOMEWHERE}/ndlocr-lite
"$DIR/venv/bin/python" "$DIR/src/ocr.py" "$@"

使い方
ndlocr-lite --sourceimg nantoka.jpg --output kantokadir

ndlocr-lite --sourcedir nantokadir --output kantokadir

一応動作している。


性能評価をしないと。 最近は Mac の Preview の機能 “テキスト選択” が実用的に使えているので、 それと比較することが必要であろう。


(テキストが埋め込まれていない、画像としての) PDF ファイルを pdftk でバラして、 なんらかの方法で画像フォーマットにして、 そういうファイルに連番の名前をつけてディレクトリに保存して、 ndlocr-lite でテキストファイルにして、最後にまとめる、 とかすると、それなりに意味のある仕事になるだろうか?



桂田 祐史