しかし、grep (正確には日本語対応 grep) は日本語の文書に用いるには、 今一つなところがある。大きな問題点を二つほど説明しよう。
弁慶がな ぎなたを |
I am Katsurada. |
以上のことと少し関係するが3、 英語では単語の境界が空白というもので明らか (機械的に判明する) であるが、 日本語ではそのようになっていない。 日本語の文章を 「形態素4」に分解することは、英文ほど単純にはできない。
例えば (厳密には単語への分解とは違うが)、前回紹介した
cat alice29.txt | /usr/ucb/tr -cs A-Za-z '\012' |