報告書の電子化

考古学及び埋文関連文書の電子化と公開について

[考古学ジャーナル418,1997年6月号,pp.37-39]

  1. デジタル化の特質
  2. 文書の構造化指向
  3. 電子報告書の要件
  4. ウェブ情報の構成
  5. アーキオグラフィ


●1.デジタル化の特質

○メリット

 情報をデジタル化してあつかう技術としてコンピュータを見た場合、そのメリットをどこに見いだすべきでしょうか。筆者ならば、情報の軽量化、検索性、アクセス性(入手性)の向上、長期的トータルコストの低減、大容量性、情報の緻密性といった点をあげます。

 情報の軽量化は、情報の保存媒体が物理的に軽くなること、また伝送系を利用すれば、物理的輸送から開放されるといったことを意味します。フロッピーディスク1枚ですら、文字だけなら数百頁の書籍に匹敵し、CD−ROMならば、画像を含めても一般の報告書の二千〜三千頁に匹敵するでしょう[Web註:画像の量や解像度設定によって異なりますが、1万頁MAXと思われます]。軽量化によって、紙消費の問題ばかりでなく、保管コストや輸送コストも下げられ、多面的に環境コストを下げることにつながります。
 テキスト情報の検索性は、コンピュータの能力としては最も顕著なものがあります。軽量化と検索性は、うまく利用することで、情報の入手性やアクセス性の向上に役立てることができます。

 こうしたデジタル情報技術の特質を生かし、コンピュータをメディアとして利用する路線は、元来パーソナルコンピュータ発明の動機でもあったのですが、インターネットの普及によって再発見されたようです。

○問題点

 メディア路線には、いくつかの問題点が残っています(方法やフォーマットについては後述)。

 例えばコードに存在しない文字の扱いがあります。汎用性を考えると、今のところエレガントな解決策はありません。現実的には、簡単な代字を使うか、正しい字形を画像として文中に挿入してしまう方法があります。[Web註:XMLでエレガントに解決できるようです…文字コードに頼る必然性はありません]

 またディスプレイで読書する、という行為自体も問題となります。この点については、表示文字サイズを大きくする、高解像度で高品位のディスプレイを使用するといった対策がとれます。将来的には、高画質な液晶などの平面ディスプレイが本命となるでしょう。なお、電子出版物であっても、必要な部分だけプリント可能にはできます。

 現在の電子出版物は、一般に印刷本に較べて高価です。これは制作・編集コスト、プレス枚数の少なさ、著作権料の問題から生じているようです。しかし、埋文関係ではもともと(値段をつけるとしても)直接印刷経費が報告書の値段のはずですから、市販の電子出版物と同じコスト構造で考える必要はないはずです。CD−ROMは千枚単位で作れば、1枚あたり300円弱で作れます[Web註:業者によって異なりますが、およそ200〜300円]。
 著作権は重要な問題ですが、公共的見地で公共的費用で作成された情報は、原則的に無料で提供されるべきもので(頒布のための純粋な実費は別として)、埋文関係では、著作権を電子出版に関する阻害要因にしてはならないと考えます。



●2.文書の構造化指向

 情報がデジタル化されることの本質は、データの一回性からの解放にあります。ただ、データが発生現場でとどまることなく、グローバルに(時代も越えて)再利用されるためには、データの互換性、検索性、アクセス等の諸問題に真剣に取り組む必要があります。

 そもそも、デジタル文書作成の基本的な作法が普及していません。例えばスペースで書式を整えるやり方は、いまだに跡を絶ちません(インデントやタブ設定を使うべきです)。表でも同様で、データと、見かけの書式は、元来分離して考えるべきです。データベースの分野ではデータの正規化が必須ですが、埋文関係の報告書を見ると、書式的に複雑すぎる表が多すぎます。

 文書の互換性や再利用性を考慮した汎用文書規格としては、SGML(Standard Generalized Markup Language)が究極の存在です。しかし、書式の構造ではなく、もっぱら論理的構造の記述に重点を置く規格ですから、文書の構造化指向が希薄な日本では、何か基本的な前提が欠けているようです。ちなみにウェブ(=WWW:ワールドワイドウェブ−通常インターネットというとこれを指す)の規格であるHTMLは、SGMLをベースに作られたサブセットです[Web註:HTML2.0以降のHTMLはSGMLのアプリケーションとされています。ちなみにXMLはSGMLのサブセットです]。
 これらの規格は、ごく単純化していえば段落書式です。ワープロやDTPで、意識して段落書式(スタイル)を利用している向きであれば、移行は比較的たやすいと思われます。

 文書の構造化を根本的に勉強するならば、インフォメーション・マッピングが良い指針となります(文献1)。また文書が単体で存在するのでなく、ある事業や目的で作成される文書と考えれば、複数の文書間の構造も意識する必要があります。この意味では、ISO9000シリーズ規格の考え方をぜひ参考にすべきです(文献2)。こうした情報整理のための指針は、特に埋文関係では本来必須のものであり、情報のデジタル化を図っていく上でも、基本的な前提となると考えます。



●3.電子報告書の要件


○具体案

 具体的な電子報告書の要件を考察すると、以下の4点が必須の要素としてあげられます。

  1. 印刷本のレイアウトを再現するフォーマット
  2. ハイパーウェア
  3. ブラウザを前提としないその他のデータ
  4. インデックス用データ

 1は、印刷本の頁のレイアウトを完全に再現します。これによって初めて、印刷本を所蔵する必要性を否定できます(マイクロフィルム化も不要になります)。頁全体のイメージも見れるし、拡大表示もできます。無論、検索やハイパーリンクも可能で、どの頁でもプリントできます。
 この種のフォーマットはいくつか提案されており、アドビのPDFが最有力のようです。

 2は、従来の印刷本のレイアウトにとらわれない電子時代のレイアウトを指向したものです。この場合、概報的側面や、従来なら省略してしまうような多量の情報収録という側面もありえます。
 この種のフォーマットは、HTML、640×480ピクセルの画面に制限された伝統的なマルチメディア系ハイパーウェア、データベースの発展形の3つが考えられます。
 データの汎用性やブラウザ添付不要という意味では、HTMLが最も便利でしょう。また制作コストも最小限に抑えられます。ただ、初心者の存在を考えると、インストールの手間がかからないハイパーウェアも考慮すべきかもしれません。

 3は、汎用性、互換性(Web註:及び再利用性)の高い、サービス的な生データのことです。
 あくまで一つの案ですが、表データはエクセルver.4形式、高品位カラー写真はJPEG形式の高画質低圧縮、線画系2値画像はTIFF形式LZW圧縮、ベクター画像はアドビのイラストレータ形式があげられます。

 4は、検索用のインデックスデータです。いわゆる抄録(名称としては遺跡要覧の方が妥当)に加え、もう少し詳細な内容を盛り込んだもの、文献データベース登録用データ、その他の索引データを、何らかのフォームで用意し、データベース登録に利用できるようにします。最近では、データベースとウェブが連携するシステムが流行ですから、データ登録をウェブ経由で行うことも考えられます。

 各要件が満たされていれば、それぞれ別個、あるいは統合して実現されているかは問いません。

○物理的メディア

 ウェブは、即時性や対話性では究極のメディアですが、現時点では通信コストの関係で大量の情報収録には向きません。その点はパッケージ系のディスクメディアが有利です。
 フロッピーディスクは手軽ですが、容量が不足します。また保存性ではMO(光磁気ディスク)やCD系が圧倒的に有利です。MOは128MBクラスで市価600円程度ですから[Web註:最近は230MBで500円くらい]、案外有力なメディアです[Web註:今なら1枚200円位に下がったCD-Rの方がおすすめでしょう]。大量複製にはやはり通常のCDでしょう。8cmCDも一考の価値があります[Web註:縦置のドライブで問題があるようなので最早おすすめできません]。
 なお、通常の印刷本の必要性を否定するつもりはありません。ただし必要最小限の部数でよく、あとはCD−ROMや、MOで逐次配布すればよいと考えます。少部数印刷では、いわゆるオンデマンド印刷の利用も考慮されます。配布先にアンケートを取り、印刷本のみ、印刷本+電子本、電子本のみ、といった三択も考えられます。



●4.ウェブ情報の構成

○分散型データベース

 HTMLの要は、ハイパーリンクにあります。基本的なタグは<A HREF=" ">であり、" "の間にファイル名、ファイルの中の特定個所、あるいはURL(グローバルにファイルの所在を特定できる住所のようなもの)を記入することで、統一的なハイパーテキスト環境が作れるわけです。
 この簡単なリンクの仕組みによって、一般的な意味でデータを集中させる意味が消えたといえます。今やデータベースはどの部分から作り始めてもよいし、後からリンクすれば実際のデータの所在とは無関係に、無限大の大規模データベースの構築が可能です。これが分散型データベース環境というわけです。[Web註:本来の意味で分散型データベースといっているわけではありません(言葉の綾で使っています)。また現実には、情報デザイン・全体構想・データベース設計など、慎重な配慮と連繋プレーが必要になるでしょう…その要はXMLになるでしょう]

○具体案

 分散型データベースの具体案として、市区町村単位ないし埋文センター単位で整備され、無料で公開されるべきものとして、ISEKIDASを提案します。

ISEKIDAS
Inventory of Sites by Excavation and Kinds of Implements ; Documents for Archaeology Service
(発掘調査と遺物種別による遺跡目録;考古学的活動のための公開文書)

 発掘による目録と断るのは、周知の遺跡台帳では必ずしも遺跡が網羅されないし、遺跡としては一つでも、調査次単位に分けないと情報が錯綜してしまうからです(周知の遺跡は明示する)。Archaeology Serviceは日本的表現ではありませんが、公共的意味の考古学的活動ないし埋蔵文化財保護行政の実施というほどの意味になります。
 全体は三階層の構成とします。無論、それぞれの階層はリンクによって有機的に結ばれている必要があります。

第1層:概要データベース
いわゆる遺跡台帳。表に加え、GIS(地理情報システム)によって地図とリンクさせたものが必要です。座標は平面座標系を基準とします。
第2層:詳細データベース
遺跡毎の項目的な詳細情報を収録します。一般的イメージの遺跡データベースに近いものです。
第3層:文書データベース
報告書全内容ばかりでなく、報告書に記載できなかった多くの情報まで、コンピュータの機能を生かして広く収録したいところです。


●5.アーキオグラフィ

 文書の構造化や電子化を考えていくと、ロゴスとしてのアーキオロジー(=考古学)に拘泥していては、メディアとしてのデジタル情報技術は見えてこないような気がします。アーキオグラフィ(=考古誌学)は発掘資料/考古学的知見の記述自体を目的とし、アーキオロジーと補完的な関係ですが、自ずと別の分野と考えられます。これは、エスノロジーに対するエスノグラフィの関係と同様です。


文献1.アデプト社 松原光治訳 1991『ハイパーテキスト情報整理学』日経BP出版センター(新装版 1995)[原著]Robert E Horn (1989) Mapping Hypertext
文献2.アデプト社 松原光治訳 1995『わかりやすいISO9000 第2版』日経BP出版センター[原著]Information Mapping, inc (1992) Demystifying ISO 9000 (Second Edition)

<WebSiteTop 最終Web註:00.1.28