英文中のアルファベットの出現頻度は `e' が一番高く、その次は、、、な
どと言われ、古典的な推理小説の暗号の話の種になったりしている。
Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業では
なく、なるべくコンピューターにやらせること。テキストごとに大きな違いが
あるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読するこ
との可能性について考えよ (要するに他の文字の出現頻度はどの程度まで一定
しているのか調べる)。なお、文字の頻度を調べる hindo.c というプロ
グラムを用意した。(このプログラムは文字の出現頻度順には表示しないが、
sort を使えば簡単に頻度順に並べられる。どうすればいいか?今回
説明した話の簡単な応用である。)
cc -o hindo hindo.c
cat hindo.c | hindo
テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思
われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャ
ロルとマークトウェインの書いたものにどの程度の差があるか?
また、できれば ~re00018/gutenberg/
にあるテキスト・ファイ
ル以外のテキストを探して入手し (その方法も説明せよ)、同じような解析を
行なえ。