構造化の対象となるテキストデータ
ここで構造化の対象となるテキストデータとは、人文学の研究対象としての文献資料に書かれた文字をテキストデータとして文字起こししたものや、元々デジタルデータとして作成されたものを指す。後者の場合は、文字をデジタル化する際の課題は存在しないが、前者については、様々な課題がある。日本を含む東アジアの文献資料では、文字は手書きされるだけでなく木版印刷のものがあり、さらに活版印刷やDTP(デスクトップ・パブリッシング)もある。いずれの場合にも、それらの文字は十分な標準化が行なわれているわけではなく様々なバリエーションがあり、そのままデジタル媒体へと引き写すことが容易ではない場合もある。
これは西洋においても同種の問題が存在するため(参照: Medieval Unicode Font Initiative)、東アジア固有の課題というわけではないが、いずれにしても、この課題への対応が必要となる。すなわち、どこまで元の文字・字形に沿った形で転写するのか、そして、どこから現代の標準的な文字・字形に正規化するのか、ということについて検討する必要がある。これには一つの正解はなく、必要性や投入可能な労力と専門性のバランスのなかで、文字に関する標準規格を参照しながら検討していくことになる。対応の指針については、具体的には本ガイドラインの「文字起こし/デジタル翻刻」を参照していただきたい。
テキストデータの構造化における要素
文献資料には、本文そのものとしては記述されない様々な要素がある。
なかでも比較的わかりやすいものは、レイアウト情報を通じて提供される要素、たとえば、改行を通じて提示される段落や、文字の大きさや改行などを用いて示されるタイトル、本文の右肩につけられた数字とページ下部に記載される番号の対応付けによって示される脚注はその典型である。
一方、具体的には示されずに読者に判断が委ねられるものもある。たとえば、脚注の内容が、注記なのか異文(異読)なのか、ということは、読者の側には明らかであるという想定から特に明示されずに混在することもある。小説等の発話文においてどれが誰の発話か、ということは、文脈上明らかであれば敢えて記述されないこともある。あるいは、文章における単語の区切りや各単語の品詞情報をいちいち記述することは、通常は行なわれない。
テキストデータの構造化において記述しようとするのは、そうした様々な要素である。その記述にあたり、それを他者と共有、すなわち、相互に理解して再利用しやすくするためには、そうした要素を、相互に理解可能な共通の方法で記述することが望ましい。実は紙媒体の時代にも、レイアウト情報や内容の記述の仕方を通じて多様な工夫が凝らされてきたが、デジタル時代になり、その特性を活かすことで多様な要素をテキストに埋め込むことが容易にできるようになった。それを人文学のために活かそうとしたのが1987年に始まったTEIガイドライン (Text Encoding Initiative Guidelines)である。
TEIガイドラインでは、一般的な論説文や小説だけでなく、戯曲や韻律詩、辞書、図像、コーパス、CMC、校訂テキスト、文献資料の翻刻など、様々なタイプの文献資料を対象とした構造化のための要素の記述の仕方が定義されている。そして、それらのテキストにおいて共通することがあるテキストの構成の仕方や詳細な書誌情報、注釈、人名・地名・年代等の固有表現から外字等々、様々な要素の記述方法についても定義を行なっている。主に欧米においてということになるが、国際的なデファクト標準として、TEIガイドラインに準拠して作成された膨大な数のテキストデータが作成されてきている。これらは、その作成者の用途に応じて、様々な要素を取り出して視覚化したり処理したりすることが可能となっている。
テキストデータの構造化における要素とは、そのようにして、テキストデータの作成した側が、自らの理解した構造を、人にとって理解しやすく使いやすくすることを目指して機械可読な形で記述するものである。
EAJガイドラインでは、東アジアの文献資料に関してテキストデータの構造を記述するのに必要な要素とその記述手法を提示する。基本的にはTEIガイドラインを踏まえたものとなるが、そこでは定義されてない要素についても、TEIガイドラインの枠組みのなかで利用できるように対応方法を提示する。
テキストデータ構造化を含むプロジェクトの運用
テキストデータの構造化は、様々な観点と深さで実施することが可能であり、たとえば、TEIガイドラインでは500以上の要素を提供しているなど、何らかの限定を設けなければ際限のない仕事になってしまう。とりわけ、共同で作業する場合には、労力や専門性、所要時間等のコストを意識しつつ共通のルールを設定する必要がある。
では、エレメント/タグの選択を含む構造化はどのようにして行うべきなのか?その方向性には大きく分けて以下の二つがある。
- 簡素なタグ⇒深いタグ
- 専門分野に応じたタグ
それぞれについて説明しよう。
簡素なタグ⇒深いタグ
簡素なタグ⇒深いタグ、というのは、たとえば、「頁までしかタグをつけない」「改行までしか タグをつけない」といった、見た目だけで判断できる構造化、「段落のタグもつける」「章の区切りのタグもつける」「序文・ 後書き・奥書などもタグをつける」といった、内容的な構造にまで踏み込んだ構造化、 「登場する人名や地名にもタグをつける」「登場する日付にもタグをつける」といった、 抽出できると便利な情報まで対象にした構造化、「登場する人名や略称、人称代名詞なども 同定しながらタグをつける」「登場する日付を西暦に直した情報も付与しながらタグをつける」 といった、抽出情報に内容判断を織り込んだ構造化、「写本の対校情報同士を機械的に 付き合わせられるようにタグをつける」「単語ごとに品詞情報を付与したタグをつける」といった、 専門分野の資料としての利用を強く意識した構造化、など、色々な段階にわけて考えることである。
実際にこのレベルを区別するための目安としては、図書館向けのガイドラインとして作成公開されている Best Practices for TEI in Libraries がある。 この最新バージョンであるバージョン4をみてみると、以下のように、タグ付けの深さに応じて5つの段階を用意している。
- Element Recommendations for Level 1/レベル1:OCRテキスト
- Level 2: Minimal Encoding/レベル2:最小限の構造化
- Level 3: Simple Analysis/レベル3:簡素な分析
- Level 4: Basic Content Analysis/レベル4:基礎的な内容分析
- Level 5: Scholarly Encoding Projects/レベル5:学術的な構造化
本ガイドラインとしては、このレベルに沿って構造化の深さを明示することを推奨する。詳しくは、○章を参照されたい。
専門分野に応じたタグ
一方、専門分野に応じたタグという観点では、たとえば、コーパス言語学であれば、 単語ごとに品詞情報を付与したくなることがあるだろう。そうすると、単語毎にタグがつくことになり、結果として非常に大量のタグをつけることになる。しかしながら、そのような情報は、品詞情報の分析に関心がない人にとってはあまり有用ではない。一方、 分野によっては、同じ古典籍の複数の写本の異同を確認しやすいと考える人もいる。 その場合、写本の異同についてうまく記述されていると有用だが、そういうことにまで関心がないという人にとっては不用で余計な情報ということになる。他にも専門分野のニーズに は分野に応じてそれぞれ色々なものがある。それらのすべてというにはほど遠いものの、TEIガイドラインでは、コミュニティに参加した様々な 専門分野の人々に対応できるようなタグやタグの書き方を用意して、不足があれば 追加していく、ということを30年以上継続してきている。上述の、構造化の深さということとは別に、専門分野、あるいは、構造化テキストデータを作成するプロジェクトのニーズに応じてタグを取捨選択することで、 労力のかけすぎにならないようにすることも考慮に値する。
実際の入力・構造化作業
実際の入力・構造化作業にあたっては、様々なやり方がある。少人数で取り組む際に 準備が楽なのは、Oxygen XML Editorを購入して各自がそれを使ってタグ付けを行う方法である。 最初に少し手ほどきが必要だが、そこさえ乗り越えてしまえば、かなり簡単に作業が可能である。こういうものをよほど苦手としている人でない限り、比較的はやく 習熟して、少々複雑なタグ付けも、Oxygen XML Editorがあれば効率的に作業できるだろう。購入予算がなければ、同等に近い機能を汎用テキストエディタであるVSCodeとそのアドオンであるScholarly XMLを用いて 実現するという道もある。
他にもよく用いられる有用な選択肢もいくつかある。 これはプロジェクトの運営者側には準備がやや大変になるが、特定の作業のために Webコラボレーションシステムを用意するという方法である。これは、 付与するタグやその付け方をある程度限定してしまえるのであれば、 Webブラウザ上で一定の操作するだけで、「タグ」をつけなくても裏側で自動的にタグがついている、という仕組みを提供するという形である。 ただし、これは、システムを用意するのに手間(費用や人手、時間等)がかかるため、 比較的大きなプロジェクト向きと言える。