基本的な考え方
電子文書は、ともすれば、そのファイルが何であったかという情報が抜け落ちた状態で流通しがちである。たとえば、データベースに電子文書ファイルが格納されてメタデータを付与されて閲覧・検索できる状態になっていた場合に、電子文書ファイルにメタデータが含まれていなかったとしたら、その電子文書ファイルだけで受け渡しが行なわれると、それが何であったかわからなくなってしまう場合がある。そのような状況を避けるためには、その文書がどういうものであるか、ということについての情報を明示的に記述しておくことが安全である。
人文学におけるテキストデータでは、TEIガイドラインがこの問題に長く取り組んできており、様々な状況に対応可能な記述手法を提示している。基本的な事柄については前章に書いたとおりである。さらに詳細な対応については、TEIガイドライン本体第二章の日本語訳を参照(https://www.dh.ku-orcas.kansai-u.ac.jp/?p=791)されたい。
また、研究者や組織によっては、既に書誌情報を相当程度蓄積していることもあるだろう。その場合には、共有・保存しやすいフォーマットに変換しておくことが望ましい。そのような時にこそ、TEIガイドラインを参照されることで国際的に広く共有されるデータとされたい。(参照: 『古典籍テキストデータTEI/XMLマークアップ方針作成のための指針にむけて』 1. 書誌情報の記述)
構造化の状態に関する記述
(EAJガイドラインにおける独自拡張(TEIガイドラインとは矛盾しない))
構造化テキストデータには、構造化の深さについての情報と、それに加えて、どのような用途に向けて構造化したか、という情報が本来は必要である。そうでなければ、利用者側が適切な利用方法を調べるにあたって相当な手間と時間がかかってしまうからである。
どのように構造化したのか、ということに関しては、TEIガイドラインでは、基本的には
構造化の深さを示す記述手法
言語や地域にかかわらず、選択した構造化の深さについてはある程度までは機械可読形式で扱えると処理が効率的になる。そこで、Best Practices for TEI in Librariesでは、以下のような記述方法を提示している。基本的にはこれに沿って構造化することが望ましい。
例:Best Practices for TEI in Librariesのレベル1の場合
<schemaRef url="bptl:L1-v4.0.0"/>
例:Best Practices for TEI in Librariesのレベル2の場合
<schemaRef url="bptl:L1-v4.0.0"/>
構造化の目的や利用者を指し示す記述手法
テキストデータの構造化は、たとえ深く構造化を行なったとしても、それが研究者向けなのか一般向けなのか、あるいは、研究者といってもどういう研究者向けかということは、プロジェクトごとに様々である。そこで、それを明示するための記述の仕方として、以下の記述ルールを
初心者向けの例:
<ab type="target">Beginner</ab>
一般向けの例:
<ab type="target">Public</ab>
言語学者向けの例:
<ab type="target">Linguist</ab>
文献学者向けの例:
<ab type="target">Philologist</ab>