next up previous
Next: 2 どのように暮せばよいか Up: 文字コード Previous: 文字コード

1 概観 -- 日本人の立場から

以下、文字コードについて概観するが、 筆者に歴史的しがらみに満ちた複雑怪奇な世界を簡潔に説明する技量はないので、 かなり不正確な説明になることはご了承下さい。

具体的詳細については、例えば 「日本語と文字コード」 などを見るとよい。 あるいは、加藤弘一, 図解雑学 文字コード, ナツメ社 (2002) などの書籍もある。


利用したい文字の集合を選び、 各文字に (他と識別可能にするための) 数値を割り振ることによって、 文字列を数列で表すことが可能になる。 この時、各文字に割り振られた数のことをその文字の文字コードという。

タイプライターに装備されていたような、 英語のアルファベットや最小限の記号のための文字コードとしては、 ASCII (アスキーと読む) が有名である。

日本語の文字の文字コードとしては、JIS 規格がいくつかある。 当初は ASCII に「半角カタカナ」 (これは俗称で「JIS X201仮名」と 呼ぶべきであるとか) を加えたものが使われていたが、 約 7000 文字の漢字 (仮名や記号、いくつかの西洋語アルファベットを含む) を 加えた「JIS第1水準, 第2水準」 (これも複数バージョンがある) が普及していた。

最近は歴史的しがらみを断ち切って単一の文字コードで 世界中の文字を扱おう として考案された Unicode が普及しつつある。

以上は文字のコードしか説明していないが、 文字列を数列に変換 (符号化, コード化, encode) するに際しては その他のルールも決める必要があり、 例えば同じ JIS 第1水準, 第2水準の文字を使っていても、 以下のような色々なやり方がある。

  1. ISO 2022JP (通称「JIS漢字」, 電子メール等通信の世界で利用されてきた)
  2. シフトジス (パソコンの世界で利用されてきた)
  3. 日本語EUC (UNIX の世界で利用されてきた)
現在、日本の一般ユーザーがコンピューターを利用する場合、 この3つに加えて、次のものが重要である。
  1. UTF-8 (Unicode を基礎に作られている。将来は本流?)


next up previous
Next: 2 どのように暮せばよいか Up: 文字コード Previous: 文字コード
Masashi Katsurada
平成18年4月26日