next up previous
: Namazu の紹介 : 日本語文書における検索 : grep の問題点

どうすればいいか?

このうち文字コードの問題だけは比較的簡単に解決できる 5。 日本語 EUC でも ISO-2022JP でも、 日本語データとしては同じと見なすような grep を作れば良い。 例えば 成田多良氏の作成した lgrep ( http://www.ff.iij4u.or.jp/~nrt/lv/ から入手した) は、この条件 (実はそれ以上の条件を満たしている素晴らしいソフトウェア である) を満たす。


\begin{itembox}[l]{grep は EUC しか検索できない, lgrep は何でも OK}
\footnotesiz...
...ine{\tt grep なぎなた *}
& ← これはうまく行かない。
\end{tabular}\end{itembox}

しかし、たとえ、 そういう (文字コードの問題を解決した) grep を作ったとしても、 (1) の問題は残ったままである。 これは日本語の文書を処理するには、 grep という made in USA の (行単位で検索する) ソフトはもうあきらめて、 日本語文書のためのソフトを作るべきだ、ということだろう (少し飛躍の ある主張?)。



Masashi Katsurada 平成13年6月18日