1.2 フィルター

Next: 1.3 awk Up: 1. UNIX のテキスト・ファイル処理 Previous: 1.1 標準入出力のリダイレクション、パイプ

1.2 フィルター

まず以下の準備をしてから、その後の操作をしよう。 (tcsh の設定がまだの人は、tcsh とタイプして、 tcsh を起動してから実習を始めて下さい。)

isc-xas06% cd ← ホームディレクトリィに移動する。

isc-xas06% tcsh ← tcsh を実行する。

isc-xas06% mkdir filter ← filter という名前のディレクトリィを作る。

isc-xas06% cd filter ← filter に移動する。

isc-xas06% ln -s ~re00018/gutenberg/* . ← ~re00018/gutenberg にあるファイルにシンボリック・

リンクを張る。

isc-xas06% ls ← どういうファイルがあるか、確認する。

→ alice29.txt などのファイル名が見えるはず。

isc-xas06% cat LIST ← LIST の中身を見る。

今回配布したファイル (以下では Gutenberg テキストと呼ぶことにする) の出所については、付録 A. 「古典 (文書) の電子化」を参照してほしい。

UNIX システムでは、標準入出力のリダイレクション、パイプ機能を活用するため、

標準入力から入力し、標準出力に出力し、他の入出力は使わないで済む

というコマンドが多い。このようなプログラムをフィルターと呼ぶ。フィルターは簡単な機能しか持たないものが多いが

複数のフィルターをパイプで接続して複雑な仕事が出来る

ようになっている³。

以下、UNIX の代表的なフィルターをいくつか紹介する。

grep

テキスト・ファイルから指定した文字列を検索して、それを含む行を表示する。
　検索に用いるパターンの指定には、 正規表現 (regular expression⁴) と呼ばれる形式が利用できる (grep の名前の由来は global/regular-expression/print)。

grep パターン検索したいファイル名が基本的な使い方。
$\begin{itembox}[l]{grep で指定したパターンを含む行の表示} \footnotesize\begin{ta... ...ttt{ee-list} から \\ & ee080, ee980 を含む行を探す。 \end{tabular}\end{itembox}$
-v とすると、パターンを含まない行を表示する。
$\begin{itembox}[l]{grep -v で指定したパターンを含まない行を表示} \footnotesize\b... ...xttt{ee-list} から \texttt{tcsh} を含まない行を探す。 \end{tabular}\end{itembox}$
-i とすると、大文字・小文字を区別しないで検索する。
$\begin{itembox}[l]{grep -i で大文字小文字を区別しない検索}\footnotesize\begin{ta... ...魎泙\\ & ファイルを探す (大・小文字の違いは無視)。 \end{tabular}\end{itembox}$

sort

テキストファイルを行単位で、順序付けて(通常はアルファベット順に)並べ変える。

-r 逆順に並べる。
-n 数値としての大小で並べ変える。
+ ( は整数) 第フィールドの要素の大小で並べる。

例えば、
$\begin{itembox}[l] {ホームディレクトリィにあるファイルを、サイズが大きい順にリス... ...% }\underline{\texttt{ls -l \textasciitilde\ \vert sort +4 -n -r}} \end{itembox}$
(ここでは ls -l ~ の出力の第5フィールドはファイルのサイズである、と仮定している。)

wc

テキスト・ファイル中の行数、単語数、文字数を数える。
$\begin{itembox}[l]{wc で行数、単語数、文字数を数える} \footnotesize\texttt{isc-xas06\% }\underline{\texttt{wc alice29.txt}} \end{itembox}$

uniq

連続する同じ内容の行を1つにまとめる。
-c とすると、同じ行が何行続いたか表示する。次の例は、今回のハイライトとも言える凝った例である。
$\begin{itembox}[l]{呪文のように見えるかもしれませんが…}\footnotesize\texttt{isc... ...e{\texttt{cat alice-words \vert sort \vert uniq -c \vert sort -n}} \end{itembox}$

一体何をやっているのか? 一段一段確認しながらチェックしよう。
長いコマンドはシェル・スクリプト⁵ にすると便利である。
$\begin{itembox}[l]{シェルスクリプトの利用}\footnotesize\begin{tabular}{ll} \text... ...isc-xas06\% }\underline{\texttt{./top20 alice-words}} \end{tabular}\end{itembox}$

/usr/ucb/tr

文字単位の置換、削除を行う。
/usr/ucb/tr [-cds] [文字列1 [文字列2]]

-d は削除することを表す。
-s は同じ字が連続した場合、一字に置換することを表す。
-c はパターンに含まれない文字を対象にする。

パターンには文字コードを 8 進数で指定できる (以下の例を参照) ⁶ 。また文字の範囲を - で指定できる。 A-Z で `A' から `Z' までの文字 (つまり英大文字) を表す。

以下で /usr/ucb/tr と長く打つのが面倒と思う人は、最初に set path=(/usr/ucb $path) としておくと、以下は単に tr とすることができる。
$\begin{itembox}[l]{BSD UNIX の tr (\texttt{/usr/ucb/tr})}\footnotesize\begin{tab... ...\\ & 改行に変換。\\ & → 一行一単語に分解する。 \end{tabular}\end{itembox}$
上記の alice-words というファイルは次のようにして作った (つまりアルファベット以外の文字の連なりを改行に変換した)。
$\begin{itembox}[l]{\texttt{alice-words} はこうして作った}\footnotesize\texttt{is... ... \vert /usr/ucb/tr -cs A-Za-z '\textbackslash012' > alice-words}} \end{itembox}$

だから、単語の出現頻度表を得るために、次のようにすることもできる。
isc-xas06% cat alice29.txt | /usr/ucb/tr -cs A-Za-z '\012' | sort | uniq -c | sort -n
(こんなに長いコマンドは打つ気になれない？いざとなったらシェル・スクリプト！)

head