テキストデータの構造化にあたっては、まずはテキストデータそれ自体が必要となる。ボーンデジタルのテキストや、すでにデジタルテキストが提供されている場合にはそのまま利用することが可能だが、紙媒体などの非デジタル媒体に記録されたテキストを対象とする場合、デジタル翻刻(文字起こし)をする必要がある。それには、人手や費用など、何らかのコスト(ここでは費用・時間・人手を含む全般を指す)を負担する必要がある。そして、それを踏まえて、(1)どのような手段で、(2)どのような文字に、デジタル翻刻するか、ということに関する方針を決めねばならない。ここでは、それにあたっての指針を示す。