 
 
 
 
 
   
 : 脱線: KAKASI と ChaSen
 : 日本語文書における検索
 : どうすればいいか?
  実は、
当初 WWW の検索エンジンとして開発された Namazu5 という
日本語全文検索システムが、
今ではかなり汎用目的に使えるように改良されていて、
多くの検索用途にかなり手軽かつ便利に使える。
それを紹介しておこう。
 
例を二つほどあげる。
- Namazu 本来 (元来) の使い方の例として、数学科の WWW ページの検索用ページ
(これはまだ試験段階で、そのうち公式公開する予定のページなので、
URL などは変更される可能性が大きい。)
- 桂田個人の使用例だが、MH のメイル・ボックス  /Mail 内の
保存メッセージを Namazu を使って検索できるようにしてある。
 ![\begin{itembox}[l]{oyabun 上のユーザー mk の環境で --- 桂田以外は試せません}
{\tt oyabun\% }\underline{\tt namazu 千葉 .search-Mail}
\end{itembox}](img5.png)  
 
 Mail の下にあるファイル (ほとんど全ては MH によるメイル・メッセージ) の
容量は約 100 MB 程度で (結構多い)、
日本語 EUC と ISO-2022JP の二つのコードのファイルが混在しているが、
瞬時にほぼ完全な検索ができる。
Namazu を利用するには、
事前にインデックス (index, 索引) を作る作業がいるので、
一度だけちょっと調べたくなったような用途には向かないが、
その分、高速に検索ができるし、
何よりも (1), (2) の問題をクリアしていて、
かなり満足の行く (漏れのない) 検索ができる。
 
![\begin{itembox}[l]
{(1), (2) の問題をクリアしていることの確認 --- これは誰でも試...
...\\
{\tt waltz12\% }\underline{\tt namazu 桂田 index}
\end{tabular}\end{itembox}](img6.png) 
 
この  index はインデックス・ファイルを納めてあるディレクトリィで、
 mkdir index; mknmz -O index search-test として作成した。
Masashi Katsurada
平成12年6月30日