next up previous
Next: 日本語の古典のテキスト・ファイル Up: 古典テキストの電子化について Previous: Gutenberg プロジェクト

英語以外の言語 (特に日本語) の電子テキスト化の問題

日本にも既に著作権の切れた古典はたくさんある。そういう意味で、電子化 できる素材はたくさんあるのだが、案外難しいのが、文字コードの問題である。 JIS 規格でコードが決められた文字はせいぜい1万数千であり、これは日常現 れるほとんどのテキストの表現にはそれほど困らないが (それでも自分の名前 がワープロで正しく印刷出来ない人は結構いる。少し前の細川首相の名前も確 か JIS 規格になかったはず)、古典テキストの表現に十分であるとは言い難い。

例えば、「新潮文庫の100冊」という CD-ROM タイトルがある。この種のソ フトでは JIS 規格にない文字は、JIS でない文字コードセットを使ったり、 文字パターンを独自に用意したり (こういう扱いをする文字のことを外字と呼 ぶ)、特別扱いしている。



Masashi Katsurada 平成10年7月2日