 
 
 
 
 
   
しかし、grep (正確には日本語対応 grep) は日本語の文書に用いるには、 今一つ不十分なところがある。大きな問題点を二つほど説明しよう。
| 弁慶がな ぎなたを | 
| I am Katsurada. | 
以上のことと少し関係するが3、 英語では単語の境界が空白というもので明らか (機械的に 判明する) であるが、 日本語ではそのようになっていない。 日本語の文章を 「形態素4」に分解することは、英文ほど単純にはできない。
例えば (厳密には単語への分解とは違うが)、前回紹介した
| cat alice29.txt | /usr/ucb/tr -cs A-Za-z '\012' | 
 というファイル
 -- これは受信したままの状態でコードの変換等は一切行われていない)
に対して grep をかけてもまともな検索はできない。
さらに、これは結構深刻なことだが、
情報科学センターにインストールされている日本語 MH の設定では、
メイルの文字コードを ISO-2022JP のままで保存する。
だから、
情報科学センターのシステムをデフォールトの設定のままで使っていると
 というファイル
 -- これは受信したままの状態でコードの変換等は一切行われていない)
に対して grep をかけてもまともな検索はできない。
さらに、これは結構深刻なことだが、
情報科学センターにインストールされている日本語 MH の設定では、
メイルの文字コードを ISO-2022JP のままで保存する。
だから、
情報科学センターのシステムをデフォールトの設定のままで使っていると
| [ | 
| l]多分うまく検索できないisc-xas06% grep 日本語文字列 Mail/inbox/* | 
 
 
 
 
