next up previous
: 古典 (文書) の電子化 : 情報処理II 第7回 情報の電子化 (2) : awk

レポート課題4

〆切は 6 月末日。

課題4
英文中のアルファベットの出現頻度は `e' が一番高く、 その次は… などと言われ、 古典的な推理小説の暗号の話の種になったりしている。 Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業では なく、なるべくコンピューターにやらせること。テキストごとに大きな違いが あるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読するこ との可能性について考えよ (要するに他の文字の出現頻度はどの程度まで一定 しているのか調べる -- 実際に試してみると良いのだけど)。 なお、文字の頻度を調べる hindo.c というプロ グラムを用意した。(このプログラムは文字の出現頻度順には表示しないが、 sort を使えば簡単に頻度順に並べられる。どうすればいいか?今回 説明した話の簡単な応用である。)
waltz21% cc -o hindo hindo.c
waltz21% cat hindo.c | ./hindo
テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思 われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャ ロルとマークトウェインの書いたものにどの程度の差があるか?

また、できれば ~re00018/gutenberg/ に あるテキスト・ファイル以外のテキストを探して入手し (その方法も説明せよ)、 同じような解析を行なえ。



Masashi Katsurada 平成13年6月7日