next up previous
Next: B. インターネットで使って良い文字悪い文字 (日本語) Up: 情報処理II 第5回 情報の電子化 (1) Previous: 4 レポート課題3


A. 日本語の文字コードの変換

UNIX 上のコマンドには自動的に文字コードを判別して必要な処理をしてく れるものがあるが (emacs, less 等)、時にはユーザーが意識的に変換すること が必要になる。

それほど難しい作業でもないのでフリーソフトがある。二つほど紹介する。

nkf
(Network Kanji code conversion Filter) UNIX では定番。
nkf -e ファイル名 で日本語 EUC に変換したものを標準出力に書き出す。
nkf -j ファイル名 で JIS 漢字コードに変換したものを標準出力に書き出す。
nkf -s ファイル名 で MS 漢字コードに変換したものを標準出力に書き出す。
電子メールで使われる MIME のデコードもできる。
nkf -v でオプションの一覧が表示される。
kanji.txt を JIS 漢字に変換した kanji-jis.txt を作る
isc-xas06% nkf -j kanji.txt > kanji-jis.txt
qkc
(Quick KANJI code Converter) Windows 版もある。行末の変換もしてくれる。
qkc -eu ファイル名 で日本語 EUC, 行末を UNIX 形式に変換する。
qkc -ms ファイル名 で MS 漢字, 行末を MS-DOS (Windows?) 形式に変換する。
kanji.txt を MS 漢字に変換した kanji-ms.txt を作る
isc-xas06% cp kanji.txt kanji-ms.txt
isc-xas06% qkc -ms kanji-ms.txt


next up previous
Next: B. インターネットで使って良い文字悪い文字 (日本語) Up: 情報処理II 第5回 情報の電子化 (1) Previous: 4 レポート課題3
Masashi Katsurada
平成20年10月18日