Next: この文書について... Up: 広い意味の実験・測定を含む課題への注意 Previous: 良くあるミス

2 課題4について

文字の頻度を調べるのだが、 hindo コマンドをただ使うだけでは結果が読み取りづらい。授業中に言ったように sort コマンドなどを使って加工する。どうやるか書く。

文字の出現頻度ランキングがテキスト・ファイルごとに出て来るか、それを互いに比較して、何か言えるか？例えば上位番目まではいつも同じだとか、どこかはテキスト・ファイルごとに入れ替わるとか。場合によっては、平均とか分散などの統計処理をするべきかも (それをするには少しテキストの数が少ないかもしれないが)。

文字の出現頻度の上位部分のみに注目した分析をする (書く) ならば、結果の提示もそれに合せて上位部分のみ抜き出すのが良いかもしれない (hindo の出力結果は長たらしいから)。

考察の結果、文字の出現頻度について仮説が立てられるかもしれない。その場合、それを確かめるために、新たな実験 (新しくテキストを入手して試す) をすると良いかもしれない (この辺は余裕と興味がある人のみチャレンジすればよい)。

Next: この文書について... Up: 広い意味の実験・測定を含む課題への注意 Previous: 良くあるミス

Masashi Katsurada
平成15年6月12日