:
古典 (文書) の電子化
:
情報処理II 第7回 情報の電子化 (2)
:
awk
レポート課題4
〆切は 6 月末日。
課題4
英文中のアルファベットの出現頻度は `e' が一番高く、 その次は… などと言われ、 古典的な推理小説の暗号の話の種になったりしている。 Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業では なく、なるべくコンピューターにやらせること。テキストごとに大きな違いが あるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読するこ との可能性について考えよ (要するに他の文字の出現頻度はどの程度まで一定 しているのか調べる -- 実際に試してみると良いのだけど)。 なお、文字の頻度を調べる
hindo.c
というプロ グラムを用意した。(このプログラムは文字の出現頻度順には表示しないが、
sort
を使えば簡単に頻度順に並べられる。どうすればいいか?今回 説明した話の簡単な応用である。)
waltz21%
cc -o hindo hindo.c
waltz21%
cat hindo.c | ./hindo
テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思 われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャ ロルとマークトウェインの書いたものにどの程度の差があるか?
また、できれば
~re00018/gutenberg/
に あるテキスト・ファイル以外のテキストを探して入手し (その方法も説明せよ)、 同じような解析を行なえ。
Masashi Katsurada 平成13年6月7日