デジタル翻刻の手段
デジタル翻刻の手段としては、主に、OCRによる自動翻刻と専門家による手入力、外注による入力に加えて、近年はクラウドソーシングによる共同入力が広まりつつある。これらの大きな違いは、正確性と速度である。その観点からそれぞれについて状況を概観する。
正確性という観点では、専門家による手入力が最良であり、外注による入力がそれに次ぐと考えられるが、クラウドソーシングによる共同入力についても、日本で現在もっとも普及しているプラットフォーム「みんなで翻刻」では、相当な精度を出せているとのことである。OCRによる自動翻刻は、かなり精度は高まってきているものの、誤りを含む可能性を前提としながら利用する必要がある。また、海外で広まりつつあるTranskribusやescriptorium等の手書き文字認識ソフトウェアはトレーニングのためのインターフェイスを備えており、トレーニングをすることで日本語の写本でもある程度の精度を出せるようである。
作業の速度としては、大量に処理できるという点で、OCRが圧倒的である。とりわけ、国立国会図書館がオープンソースソフトウェアとして公開しているOCRソフトは、明治大正期のテキストを対象としたものとくずし字を含む古典籍を対象としたものがあるが、いずれも複数のデジタル画像を自動処理できるようになっており、結果として大量のデジタル化資料のOCRを自動処理することが可能となっている。国立国会図書館では自らもこのソフトウェアでOCR処理を行ない、そのテキストデータをダウンロードしたりAPIから利用できるようにもしており、この範囲であればすぐに利用可能なテキストデータが存在することになる。ただし、上述のように精度に関してはデジタル化資料の状況に応じて様々であり、必ずしも精度が高くない場合もあるため、利用するには何らかの工夫、すなわち、精度を高めるか、あるいは、現在の精度のままで利用できる論理と説明が必要になる。作業の速度を考える際にはその工夫に要するコストも含めて検討することになる。一方、トレーニングによって精度を高められる手書き文字認識ソフトウェアの場合には、トレーニングにかかるコストを踏まえる必要がある。
デジタル翻刻に用いる文字
デジタル翻刻においては、「元の媒体上での文字とデジタル媒体上の文字が完全に同じではない」という状況がしばしば生じる。これにどう折り合いをつけるか、ということが、基本的な課題となる。
この種の課題でよく注目されるのは、旧字体で書かれている資料を新字体に置き換えるデジタル翻刻である。検索などの用途を考えるとその方が利便性が高いと思われがちなことから、この置き換えはしばしば行なわれている。同様に、くずし字を現代のひらがなやカタカナに置き換えたり、合略仮名を現代の仮名に開いたりすることもよく行なわれている。なるべく現代の人に使いやすいテキストを作るという観点ではこの方法は有効だが、一方で、元々どういう文字を使っていたかという情報は失われてしまうため、その点を重視する利用者にとっては不適切な方法ということになる。そのように、用途に応じた選択が重要であるだけでなく、広く利活用されることになる場合、作成者の意図とは異なる目的で利用される状況も生じ得ることを念頭に置きながら方針を決める必要がある。
全体的な方針としては、概ね、以下のような選択肢があり得るだろう。
- 1. IVS/IVDも含めた微細な字形まで元の媒体の文字に沿う
- 2. Unicodeで対応できる範囲で、元の媒体の文字に沿う
- 3. JIS第二・第三水準程度まで元の媒体の文字に沿う
- 4. 元の媒体の文字に関わらず新字体に置き換える
なお、いずれにしても、複数人で作業を行なう場合には文字の置き換えルールを作る必要があり、そして、すべてのケースにおいて外字を作成する必要が生じる場合がある。
文字の置き換えルールについては、まず、多かれ少なかれ、コンピュータ上で表示される文字と元の媒体上の文字は字形が異なる場合があり、異なっている場合でも入力すべき文字とそうでない文字との区別を行なう必要が生じる場合があり、その場合には置き換えルール表を作成して作業者間で共有する必要があり、厳密に言えば利用者に対してもそれを提示する必要がある。また、旧字体から新字体に置き換える場合には、作業者がその対応関係を完全に把握していれば問題ないが、そうでない場合は、文字の置き換え表を用意し,適宜それを参照しながら作業をすることになる。その他、それぞれのメリット・デメリットについては、以下の表を参照されたい。
『人文学のためのテキストデータ構築入門』(文学通信)p.19より引用。
外字の作成についてもいくつかの選択肢がある。
- 1. 一律で「〓」等に代替表記とする
- 2. 文字画像を表示する
- 3. 外字フォントを利用する
- 4. XMLで注記する
- 5. Unicodeに登録する(符号化)
それぞれにメリット・デメリットがあり、詳しくは以下の表を参照されたい。
『人文学のためのテキストデータ構築入門』(文学通信)p.17より引用。
ルールを記述することの重要性
いずれの場合にも重要なのは、このようにして何らかの置き換えをした場合、そのルールをきちんと記述しておくことである。そうでなければ、利用者がデータを扱う際に、どういう風にしてデジタル翻刻されたのか、ということを確認しなければならなくなってしまう。あるいは、確認が十分にできなかったために誤った処理や分析結果を導いてしまうかもしれない。そのような事態を避けるためには、これについて明確に記述しておくべきであり、それを機械可読な形式で記述するなら、より建設的に状況を改善することになるだろう。その形式については、詳しくは○○を参照されたい。