next up previous
Next: 本日の問題 Up: 1998年度情報処理II     第6回 テキスト・ファイルの概念、テキスト・エディター、 UNIX Previous: awk

問題

研究課題
~re00018/syori2/text2/ にある電子テキスト以外のテキスト(なる べくならフリー19のも のが良い)を探して入手し、その方法を説明する。
研究課題
英文中のアルファベットの出現頻度は `e' が一番高く、その次は、、、な どと言われ、古典的な推理小説の暗号の話の種になったりしている。 Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業では なく、なるべくコンピューターにやらせること。テキストごとに大きな違いが あるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読するこ との可能性について考えよ。なお、文字の頻度を調べる hindo.c とい うプログラムを用意した。
        cc -o hindo hindo.c
        cat hindo.c | hindo
研究課題
テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思 われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャ ロルとマークトウェインの書いたものにどの程度の差があるか?
研究課題
今回はすべて英語のテキストであった。日本語のテキスト処理にはどういう 問題があるだろうか。



Masashi Katsurada 平成10年7月2日