Next: 4 研究課題 (換字暗号解読) Up: 情報処理II 第7回情報の電子化 (2) Previous: 2.3 awk

3 レポート課題4

〆切は 6 月29日 (水曜)。 Subject は「情報処理II課題4」とすること。

課題4

英文中のアルファベットの出現頻度は `e' が一番高く、その次は… などと言われ、古典的な推理小説¹¹の暗号¹²の話の種になったりしている¹³。 Gutenberg Project の中のテキストで、そのことを確かめて見よ(各テキスト毎に使用頻度の上位がどうなっているか記録をとって、それを自分のことばでまとめなさい、ということ)。手作業ではなく、なるべくコンピューターにやらせること。テキストごとに大きな違いがあるか？文字が別の記号に置き換えられた場合、出現頻度情報から解読することの可能性について論ぜよ (要するに他の文字の出現頻度はどの程度まで一定しているのか調べる -- 実際に試してみると良いのだけど)。なお、文字の頻度を調べる hindo.c というプログラムを用意した¹⁴。(このプログラムは文字の出現頻度順には表示しないが、 sort を使えば簡単に頻度順に並べられる。どうすればいいか？今回説明した話の簡単な応用である。)

hindo.c のコンパイルと使用例

`a308-06%` `gcc -o hindo hindo.c`
`a308-06%` `cat hindo.c \| ./hindo`

テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思われるが、そのことを Gutenberg テキストで実際に調べてみよ。例えばルイス・キャロルとマークトウェインの書いたものにどの程度の差があるか？

また、できれば ~re00018/gutenberg/ にあるテキスト・ファイル以外のテキストを探して入手し (その方法も説明せよ)、同じような解析を行なえ。

Next: 4 研究課題 (換字暗号解読) Up: 情報処理II 第7回情報の電子化 (2) Previous: 2.3 awk

Masashi Katsurada
平成20年10月18日