Next: 1.5 脱線: KAKASI と
Up: 1 日本語文書における検索
Previous: 1.3 どうすればいいか?
実は、
当初 WWW の検索エンジンとして開発された Namazu8 という
日本語全文検索システムが、
今ではかなり汎用目的に使えるように改良されていて、
多くの検索用途にかなり手軽かつ便利に使える。
それを紹介しておこう。
例を二つほどあげる。
- Namazu 本来 (元来) の使い方の例として、数学科の WWW ページの検索用ページ
をあげておく (あまり手入れはしていません…)。
- 桂田個人の使用例だが、MH のメイル・ボックス ~/Mail 内の
保存メッセージを Namazu を使って検索できるようにしてある。
[ |
l]oyabun 上のユーザー mk の環境で -- 桂田以外は試せません
oyabun% namazu 千葉 .Mail
|
Mail の下にあるファイル (ほとんど全ては MH によるメイル・メッセージ) の
容量は約 100 MB 程度で (結構多い)、
日本語 EUC と ISO-2022JP の二つのコードのファイルが混在しているが、
瞬時にほぼ完全な検索ができる。
Namazu を利用するには、
事前にインデックス (index, 索引) を作る作業がいるので、
一度だけちょっと調べたくなったような用途には向かないが、
その分、高速に検索ができるし、
何よりも (1), (2) の問題をクリアしていて、
かなり満足の行く (漏れのない) 検索ができる。
[ |
l]
(1), (2) の問題を解決してることの確認 -- これは誰でも試せ…
今年度は Namazu がない!
isc-xas06% cd ~re00018 |
|
isc-xas06% namazu 桂田 index
|
← この結果は見てのお楽しみ。 |
isc-xas06% namazu なぎなた index
|
← 同上。 |
|
この index は索引ファイル (インデックス・ファイル) を納めてある
ディレクトリィで、
mkdir index; mknmz -O index nihongo-text として作成した。
Next: 1.5 脱線: KAKASI と
Up: 1 日本語文書における検索
Previous: 1.3 どうすればいいか?
Masashi Katsurada
平成20年10月18日