ハイパーテキストの発展形 98.9.1…99.7.16…99.10.3…00.2.12


ハイパーテキストの発展形

ハイパーテキストの利点

 文書の情報化は、デジタル化、ハイパーテキスト化、アーカイブ化、ネットワーク化をすすめていくことで、有効なものとなっていきます(文書にはマルチメディア情報も含まれます)。情報化は、内部的に、ツール的に使われるばかりでなく、例えばCD-ROM(あるいはその他のメディア)やWebにおいて、電子文書をパブリッシュしていくことが期待されているわけです。

 電子文書の起源は(直接的には)コンピュータ関連の技術文書の電子化であったようです。電子文書の標準規格であるSGMLは、IBMの社内用の電子文書記述言語であったGMLを原型としています。インターネットに関わる技術のほとんどは、その技術自身を記述することをメインに、発達してきたようなところがあります。

 いずれにせよ、こうした技術のおかげで、例えば、巨大で複雑な技術的製品のために、紙に印刷すれば数十トンにもなるような操作マニュアルではなく、ハイパーテキスト化された電子マニュアルが利用できるようになりました。情報の軽量化、検索性、閲覧性は、劇的な効果があるようです。こうした電子化のメリットは、理系分野ばかりでなく、文系分野においても、享受できるはずです。

 この種のマークアップ言語(SGML〜HTML〜XML)は、(1)徹底的にテキストベースであること、(2)規格が完全にオープンであること、の2点を特徴とします。こうした点から、将来にわたる互換性が強く保証されているといえます。アプリケーションのオリジナルフォーマットなど、クローズドなフォーマットでは、ややもすると解読不能になってしまいます。

 PDFはAdobe Systemsの規格ですが、規格自体は公開されており、規格の利用は一切無償です(PDF処理アプリケーションはIBMなどからも出ています)。この点は、ポストスクリプトがかなり高価であるのとは、だいぶ異なります。PDFは、欧米では既に電子文書の一方のデファクトスタンダードになっており(もう一方はML系)、他のポータブルドキュメント規格(書式が再現される電子文書)の追随を許さない状況になっています。PDFのバージョンが上がっても、PDFの互換性は非常に高く確保されています。またAcrobat 4からは、プリプレス(商業印刷向きの版下作成)への対応性がさらに増し、DTPのプロセスにPDFが利用される可能性が高くなっています。こうしたAdobeの戦略を考えると、PDFの利用可能性が将来にわたって損なわれることはありえない気がします。たしかに、ML系のスタイルシートの機能が上がり、それらを有効活用するようなアプリケーションが開発されれば、Acrobatのお株を奪ってしまう可能性はあります。もっとも、PDFはPGMLないしSVGによってXML化し、両者は融合していくのかもしれません。フォントのアンチエイリアス処理にしても、最近はOS自体が対応する方向にありますから、アプリケーションが対応する時代ではないかもしれません。ただ、最悪のケースを考えても、Acrobat作成用アプリケーションが、オープンソース化される結末にしかならないでしょう。

高機能化するハイパーテキスト

 いわゆるダイナミックHTMLは、Webにおけるインタラクティヴィティを、必ずしもサーバと連絡をとることなく、クライアント側で実現してしまう手法の総称といっていいでしょう(実体はJavaScriptおよびCSSですが)。確かに、JavaScriptを上手く使うことで、データをクライアント側でソートしたり、抽出したり、といったデータベース的操作をすることが可能になっています。

 データの操作という点では、これからはXMLが注目されるところです。XMLとは、SGMLを、ネットワーク時代にふさわしく改良したものといってよいでしょう(XMLはSGMLのサブセットです)。XMLは、文書というよりも、データベースと見た方がいいかもしれません。そのメリットの第一は、ネットワークベースの高機能なデータ交換用フォーマットでしょう(応用は無限です)。XMLでは、文書内の個々の要素が、データベースのフィールドのように扱われます。またXMLで注目されるのは、リンク概念の拡張かもしれません(拡張リンクおよび拡張リンクグループ、等々)。ただしこれらの機能を生かすのは、アプリケーション次第ですが...

 こうした技術によって、電子文書は、リジッドな存在から、フルイドあるいはリキッド(液体)な存在に変わろうとしています。おそらく、XMLによって可能となる、高機能な検索や抽出が、電子文書にある種の本質的な変化をもたらすと考えられます。

 これまでに実用化されてきたハイパーテキストやデータベースに見られるように、格納してあった文書を(リンクされた文書、あるいは検索されたデータを)、リクエストに応じてクライアントに提供する、というパラダイムは、既に行き詰まり、止揚されているような気がします。これはつまり、ハイパーテキスト概念が拡張されるということではないでしょうか(正しくは、理論上のハイパーテキストが、ようやく実現されるということなんですが...)。

次世代のオーサリング

 実はHTMLベースでも、様々な機能が用意されています。物理的書式に対して、CSSの活用は無論のこと、タグに固有の意味を持たせるにも、classとidが使えます。HTML全体が、形式を整えてXML化していく流れにありますから、両者の区別にどれほどの意味があるのか時々分らなくなりますが...

 いずれにせよ、こうしたML系の技術の進歩によって、論理的構成、意味的構造、物理的書式を、オープンな形で実現していくことができます。それは拡張されたハイパーテキストの実現ばかりでなく、データベースとDTPの革新にもつながるでしょう。おそらく個々のエレメントは、特にグループ化されることなく準備され、それらをある基準で並べた状態を、DTPのための元データとして利用することになるでしょう。異なる基準で並べたものもリアルタイムに生成できるでしょうが、それはユーザに任されています。それは、シミュレーション分析のようなものになるでしょう。そして選択されたひとつの並びが、スタイルシートによって、自動的にDTPデータに変換されるはずです(ちなみにCSS2では、ページ区切りも導入されました)。

 無論、定着された著作物としての文書は必要です(少なくとも文献参照の対象として)。それを補佐するものとして、ここで述べたような、固定されたレイアウトを持たない「電子資料集」があるわけです。

文書の構造化とは

 文書の電子化は、文書の構造化を前提とします。これはML系電子文書の根本理念となっています。構造化には二つの側面があります。

  1. コンテンツ(文)とスタイル(書式)の分離
  2. 意味のある「まとまり」を明確化する

構造化・第1の側面

 まずコンテンツ(文)とスタイル(書式)の分離です。この場合、コンテンツとは純粋な文(テキスト)それ自体のことで、スタイルとは文字書式・行書式・段落書式などを指します。スタイルには、本文・見出し・注といった論理的(意味的)なカテゴリもありますが、これらは一括して段落書式の一種と考えることもできます。

 文と書式が分離するということは、両者が独立に変更できるということです。これは、広い意味では、オブジェクト化やモジュール化の問題です。同じテキストの集合に対して、異なる書式を適用することで、異なるレイアウトを実現することができます。その逆に、一つの書式設定に対して、異なるテキストを適用することもできるわけです。

 これは当たり前みたいで、決して当たり前ではありません(既に実現されているというのは、ワープロがその機能を備えているからです)。例えば本文中のあるフレーズを取り出して見出しにしたい時、そのフレーズを一つの段落にし、文字書式等を見出しのものに設定しなおす必要があります。見出し書式が、あらかじめ設定されてあれば、それを適用するだけで、複雑な文字書式(罫線等も含め)を実現できます。H1というタグを適用するだけで、H1に適用される文字書式等が、自動的に適用されるわけです。ML系の構造化は、各社のワープロが持っているような機能を、業界横断的に汎用的な方式で(オープンに)実現しようということです。

 最近では、本(もと)の文書をXML化し、それを必要に応じてHTML化したり、PDF化したりする、という方向性が見えてきています(もっとも、XMLを直接記述するのは大変なので、実際には、Adobeの FrameMaker+SGML などがいいかもしれません...)。

構造化・第2の側面

 意味のある「まとまり」を明確化するというのは、HTMLではHnやP、あるいはADREESSぐらいしかありませんが、本来は文章による情報伝達性の向上ということです。これについては、ぜひ『インフォメーションマッピング』の勉強をお薦めします。

 文献 アデプト社 松原光治訳 1991『ハイパーテキスト情報整理学』日経BP出版センター(新装版 1995)[原著]Robert E Horn (1989) Mapping Hypertext

 簡単にいうと、文章をだらだらと続けるな、ということです(実際、考古学関係では、これが結構多いパターンなのです)。適宜文章を分かち、小見出しをつけるなりして、メッセージのまとまりや、メッセージの本質が、読み手に伝わりやすいように工夫せよ、ということです。これは、文章作法の問題であり、「情報デザイン」という分野の問題でもあります。

 ちなみに、見出しには階層性がありますが、HTMLでは、例えばH1の次にH2ではなくH3が来ても構いません。本来、文書の構造を考えると、プロローグ、本編、エピローグといった構成に始まり、章・節・注といった構造があるはずで、それらの関係は厳密なはずです。実際、文書のXML化を考える人の多くは、その種の構造をタグで表現しようとします。原則的にいって文書の構造化において重要なのは、実際の運用上、意味のある「まとまり」に対してタグを設定することです。文書の制作者・閲覧者の双方にとって、何らかの具体的な利用価値がある場合に、設定されるべきなのでしょう。

 無論、意味のある「まとまり」は、検索や抽出の単位としても有効です。これは検索や抽出をやりやすくするためで、具体的にいうと、文書アプリケーション(文書データベース)の開発を容易にする、ということです。


HOME > index