KAKASI
(http://kakasi.namazu.org/
) は元々、
普通の日本語の文書 (仮名と漢字が混在している) を入力として受取り、
それを仮名、またはローマ字の文書に変換するためのソフトウェアであるが、
内部で文章を形態素に分解する (ことに相当する) 操作をしていることに注目され、
「分かち書き」をするように拡張され、それが Namazu でも利用されるようになった。
( ~re00018/syori2/bin/romaji,
~re00018/syori2/bin/hiragana
はシェルスクリプトである。 cat 等で中身を見ると、
kakasi を呼び出していることが分かる。)
最近では茶筌 ( http://cactus.aist-nara.ac.jp/lab/nlt/chasen.html) という「日本語形態素解析器」を使うこともある (例えば情報科学センターにインストールされている Namazu は、 デフォールトでは kakasi ではなく ChaSen を用いているらしい)。