生成AIの可能性
商用の大手の生成AIは、すでにTEI P5ガイドラインを読み込んでおり、問い合せると様々な回答を提示する。そこには適切なものや穏当なものもあるが、一方で、TEIに存在しないタグを提案してきた上にそれを指摘するとお詫びをするといったような挙動もある。その点に注意しながら利用すれば、タグ付けの仕方の検討に際しての比較的有用な活用が可能だろう。
上記のようなことから、TEI形式のデータ作成を生成AIに委ねるという選択肢もある。これについては、他の様々なデータ形式と同様だが、機械的に処理可能なものは比較的確実に処理できる。たとえば、CSVで作成されたパラレルテキストのデータをそのままTEI形式に変換するような場合である。一方、個別に判断を必要とするようなデータ作成については必ずしもうまくいかない場合がある。たとえば、人名に<persName>をつけたり、本文を現代日本語訳するといった場合である。この種のデータに関して精度の高いデータを必要とする場合は、現時点では、人の目で確認して必要に応じて修正することを前提としたワークフローを作る必要があるだろう。
gpt-ossなどの高性能なローカルLLMがリリースされるなかで、今後、こうした作業に特化した信頼性の高いシステムを構築していく可能性もあるだろう。現時点ではまだ判断できないが、今後の生成AI動向には注目しておくべきだろう。