Next: B. インターネットで使って良い文字悪い文字 (日本語) Up: 情報処理II 第5回情報の電子化 (1) Previous: 5 レポート課題3

A. 日本語の文字コードの変換

UNIX 上のコマンドには自動的に文字コードを判別して必要な処理をしてくれるものがあるが (emacs, less 等)、時にはユーザーが意識的に変換することが必要になる。

それほど難しい作業でもないのでフリーソフトがある。二つほど紹介する。

nkf

(Network Kanji code conversion Filter) UNIX では定番。
nkf -e ファイル名 で日本語 EUC に変換したものを標準出力に書き出す。
nkf -j ファイル名 で JIS 漢字コードに変換したものを標準出力に書き出す。
nkf -s ファイル名 で MS 漢字コードに変換したものを標準出力に書き出す。
電子メールで使われる MIME のデコードもできる。
nkf -v でオプションの一覧が表示される。

kanji.txt を JIS 漢字に変換した kanji-jis.txt を作る

isc-xas06% nkf -j kanji.txt > kanji-jis.txt

qkc

(Quick KANJI code Converter) Windows 版もある。行末の変換もしてくれる。
qkc -eu ファイル名 で日本語 EUC, 行末を UNIX 形式に変換する。
qkc -ms ファイル名 で MS 漢字, 行末を MS-DOS (Windows?) 形式に変換する。

kanji.txt を MS 漢字に変換した kanji-ms.txt を作る

isc-xas06% cp kanji.txt kanji-ms.txt
isc-xas06% qkc -ms kanji-ms.txt

Next: B. インターネットで使って良い文字悪い文字 (日本語) Up: 情報処理II 第5回情報の電子化 (1) Previous: 5 レポート課題3

Masashi Katsurada
平成20年10月18日