メインコンテンツに移動

基本的なデータ形式

teikemdrupaladmin に投稿

プレーンテキスト

プレーンテキストは、書式やメタ構造を持たない本文のみのテキストであり、改行などの一部の制御文字を含む文字だけで構成されるものである。タイトルや段落など、改行を工夫することでごく簡単な構造を示すことは可能だが、ここで目指すデータの構造化においては対象としない。

XML (Extensible Markup Language)

XML(Extensible Markup Language)は、タグを自由に定義できるマークアップ言語である。W3C (World Wide Web Consortium)が定める国際標準規格であり、Microsoft WordをはじめとするMS-Office製品群でも採用されるなど、マークアップ言語としては広く普及している。XMLには利用者側が定義したタグの利用ルールを機械可読なスキーマとして共有できる機能が備わっており、これを活かして様々な利用者コミュニティがXMLをベースにしたタグの利用ルールを定義・公開し、共通フォーマットとして活用している。代表的なものには上述のMicrosoftによるOOXML(Office Open XML)があり、MS-Word、MS-Excel、MS-PowerPoint等の広く普及しているソフトウェアのフォーマットとして用いられている。日本の学術界で知られているものとしてはJ-STAGEが採用しているJATS (Journal Article Tag Suite)もXMLのサブセットである。人文学研究者のコミュニティによるTEIガイドラインもこの機能を利用してそのルールを機械可読なものとして共有している。

XMLは<書名>吾輩は猫である</書名>のように、テキストでタグを付与していく形式であり、UTF-8のテキストデータとして記述される。したがって、互換性が高く、様々なソフトウェアで利用可能である。また、文章のなかにタグを埋め込む「インラインマークアップ」が可能であり、文章の中に様々な要素を読み込む人文学でのテキストの扱いと相性が良い。このようなことから、TEIガイドラインでは現在はXMLを採用している。

JSON (JavaScript Object Notation)

JSON (JavaScript Object Notation)は、Webブラウザの組み込みプログラミング言語 JavaScriptにおけるオブジェクトの書き方を参考に作られたデータ形式であり、階層構造を持つデータの記述に広く用いられている。また、その出自から、Web APIでのデータの出力形式として用いられることが多い。人文学との関わりでは、たとえばWeb画像の相互運用の枠組みであるIIIF(International Image Interoperability Framework)においてはJSONの派生であるJSON-LD形式でデータのやりとりが行なわれている。

RDF (Resource Description Framework)

RDFは、主語(subject)述語(predicate)目的語(object)の3つの要素でリソースについての関係情報を表現する枠組みであり、この表現はトリプルと呼ばれる。W3Cが定める国際標準規格であり、セマンティックWebの構成要素であるLinked Open Data (LOD)はRDFの形式で表現される。RDFを記述する際には、いくつかの記述手法が普及しており、XMLベースのRDF/XMLが広く用いられるが、より簡易な記述方法としてRDF/JSONやTurtle形式なども用いられている。活用例としてはWikidataが著名だが、人文学においても、資料の同士の関係や、人物、地理情報をはじめとする様々な要素の関係を表現するために広く用いられている。著名なプロジェクトの一つに「場所」への参照を通じてオンライン上の時代や人物のリソースをLODで結びつけるPelagios Networkがある。

データ形式の相互変換

ここで挙げたいくつかのデータ形式は、相互に変換できる場合がある。RDFはXMLでの記述が可能であることから、RDF/JSONやTurtle形式であってもXMLに変換可能である。JSONもまた、XMLにそのまま変換することが可能である。逆に、XMLで記述されたデータの場合にも、インラインマークアップが含まれない構造であればRDFやJSON等に変換することが基本的には可能だが、注意すべき点として、インラインマークアップの場合にはJSONやRDFに変換することは困難である。なお、単純な階層構造のTEI/XMLに関しては、IIIFに変換して表示するという取組みが行なわれている。