: 参考
: 情報処理II 第6回 情報の電子化 (1)
: 日本語の文字コードの変換
コンピューター上で色々な日本語文字が使えるようになっていて、テキスト・
ファイルを作ることが出来るが、インターネット (電子メイル、WWW ページ、ネッ
トニュースなど) で用いる場合、すべての文字を使えるわけではない。
- 電子メイル、ネットニュースでは、ISO-2022-JP と
呼ばれる文字コードが使える。
インターネットの作法である RFC で定義されている。
→
http://www.noge.com/koba/network/RFC/rfc1468.html
元々は日本のインターネットのルーツである JUNET で利用されて来たもの。
ASCII, JIS X 0201-1976, JIS X 0208-1978, JIS X 0208-1983 という 4 種
類の文字コードをエスケープ・シーケンスというバイト列でスイッチする。
- ASCII はアメリカの規格 (キーボードから直接打ち込める英数字・記号)。
- JIS X 0201 はその日本版 (円記号とバックスラッシュなど ASCII と異なる)。
- JIS X 0208 はいわゆる JIS 第一、第二水準の漢字、ひらがな、
カタカナ、その他記号。
- 「外字」は使えない (論外)。
(外字については後述。)
- 機種依存文字も使ってはいけない。
(コンピューターやソフトウェアのメーカーが作った文字。普通の人には、
JIS で正式に定義された文字と見分けがつきにくいかも知れない。
丸つき数字などが有名。)
- JIS X201 の右半面 (俗称「半角カナ10」) は RFC に違反しているので、
メイルやネットニュースでは使用してはいけない。WWW ページでは、
ルールがまとまる前になしくずしに使われてしまった (そのおかげで
化けるページを根絶できないなどの弊害が残った)。
Masashi Katsurada
平成13年6月6日