next up previous
Next: この文書について... Up: 情報処理II 第7回 情報の電子化 (3) Previous: B. 数学版 Gutenberg プロジェクトができないか…

C. データ・フォーマットの選択についての注意 -- 文書を例として

この節の内容は、 「日本語文書における検索」が済んでいないと話がしづらい?

文書を電子化するための形式 (データ・フォーマット) として、 テキスト・ファイルを紹介したが、それは非常に単純なもので、 文書の中にどういう文字がどういう順番で現れるかだけしか表現できない。

一方で世の中で実際に使われている (印刷された、あるいは手で書かれた) 文書には、レイアウトや、文字の大きさ、色なども重要な要素である場合があ る。さらには図、写真などが含まれる文書も多い。これらの文書を電子化する には、テキスト・ファイルでは不十分であることは明らかであろう。

そのため、このような文書を扱うソフト (ワードプロセッサー、DTP ソフト、 WWW ブラウザー、TEX のような文書整形システム, etc.) では、独自のデー タ・フォーマットが採用されている。

独自形式のデータ・フォーマットで電子化された文書は、それを読むために もそれに対応したソフトを必要とする。そのため次のような問題が生じうる。

自分が入手・作成するデータのフォーマットとして何を選択するか、慎重に 考える必要がときどき生じる。

ソフトを作るのは企業である場合が多く、企業の利益を守るために、データの フォーマットを非公開にしたりするなど、必ずしもユーザーの利益優先では考 えてくれないことを肝に命じておこう。

きれいに見栄え良く表示・印刷できることは気持の良いことで、時には最も 重要なことであるが (少し考えれば例はいくらでも見つかる)、ものによって は、多くの人が手軽に利用できること、また長期にわたって保存できることの 方が重要な場合もある。そういうわけでテキスト・ファイルもかなり役立つこ とがある17


next up previous
Next: この文書について... Up: 情報処理II 第7回 情報の電子化 (3) Previous: B. 数学版 Gutenberg プロジェクトができないか…
Masashi Katsurada
平成20年10月18日