 
 
 
 
 
   
しかし、grep (正確には日本語対応 grep) は日本語の文書に用いるには、 今一つなところがある。大きな問題点を二つほど説明しよう。
| 弁慶がな ぎなたを | 
| I am Katsurada. | 
以上のことと少し関係するが3、 英語では単語の境界が空白というもので明らか (機械的に判明する) であるが、 日本語ではそのようになっていない。 日本語の文章を 「形態素4」に分解することは、英文ほど単純にはできない。
例えば (厳密には単語への分解とは違うが)、前回紹介した
| cat alice29.txt | /usr/ucb/tr -cs A-Za-z '\012' | 
![\begin{itembox}[l]{多分うまく検索できない}\footnotesize {\tt waltz12\% }\underline{\tt grep 日本語文字列 Mail/inbox/*}
\end{itembox}](img3.png)