next up previous
Next: A. 古典 (文書) の電子化 Up: 情報処理II 第6回 情報の電子化 (2) Previous: 1.3 awk

2. レポート課題5

〆切は 6 月末日。

課題5
英文中のアルファベットの出現頻度は `e' が一番高く、 その次は… などと言われ、 古典的な推理小説9の暗号10の話の種になったりしている。 Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業では なく、なるべくコンピューターにやらせること。テキストごとに大きな違いが あるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読するこ との可能性について考えよ (要するに他の文字の出現頻度はどの程度まで一定 しているのか調べる -- 実際に試してみると良いのだけど)。 なお、文字の頻度を調べる hindo.c というプロ グラムを用意した。(このプログラムは文字の出現頻度順には表示しないが、 sort を使えば簡単に頻度順に並べられる。どうすればいいか?今回 説明した話の簡単な応用である。)
\begin{itembox}[l]{\texttt{hindo.c} のコンパイルと使用例}\footnotesize\begin{tab...
...s06\% }\underline{\texttt{cat hindo.c \vert ./hindo}}
\end{tabular}\end{itembox}

テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思 われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャ ロルとマークトウェインの書いたものにどの程度の差があるか?

また、できれば ~re00018/gutenberg/ に あるテキスト・ファイル以外のテキストを探して入手し (その方法も説明せよ)、 同じような解析を行なえ。


next up previous
Next: A. 古典 (文書) の電子化 Up: 情報処理II 第6回 情報の電子化 (2) Previous: 1.3 awk
Masashi Katsurada
平成14年5月30日