以前、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データが、人文学オープンデータ共同利用センターで公開されたニュースを紹介しましたが、
古文書を自動翻訳する日も近い!?江戸時代の8万字超の「くずし字 字形データ」が無償公開へ
この「日本古典籍くずし字データセット」を活用して、古文書や浮世絵などに書かれたくずし字を自動で解読してくれるサービス「AIくずし字認識」が素晴らしく便利なのです!
「AIくずし字認識」は、古文書や浮世絵などの画像の中からくずし字を一文字指定すると、そのくずし字を解読してくれるのです。しかもこの作業をブラウザ上で即座に行ってくれます。
使い方の流れを紹介しますね。
1、古文書や浮世絵などの画像URLを指定
まず必要なのは、画像配信形式「IIIF (International Image Interoperability Framework)」に対応した画像URLです。Japaaanでよく紹介している国立国会図書館デジタルコレクションや、新日本古典籍総合データベース、日本のデジタルアーカイブを横断検索できる「ジャパンサーチ」などでも取得できます。
今回は歌川国芳の浮世絵を使ってみましょう。
IIIF画像に対応したサイトには「IIIF マニフェストURI」というものが掲載されていますので、このURIを、くずし字認識ビューアのウィンドウに直接ドラッグします。
2、解読したい文字を選択
くずし字認識ビューアに画像が表示されるので、その画像の中で解読したいくずし字1文字を選択します。
使い方は、ビューアの右上に表示される「■」ボタンを使って、認識したい領域を四角で囲み、囲んだ領域をクリックすると、解読した結果がポップアップで表示されます。
ポップアップウィンドウに5件候補が挙がり、選択された文字が「ふ」である可能性が高いと解読。何度も色々な文字で解読を試してみましたが、なかなか高い精度で解読してくれていました。
ただ、私自身は元のくずし字が読めないので、クセの強すぎるくずし字や難しい漢字だと、得られた解読結果がはたして正解しているのか判断できないのが残念(笑)
今回紹介した「AIくずし字認識」は、現在は画像の中から1文字だけを指定して解読するサービスですが、既にページ単位でくずし字を一気に解読してくれるシステムも開発されており、今後もこの分野はさらに便利になっていくでしょう。
参考:Google AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発 – PC Watch
「AIくずし字認識」は浮世絵や古文書を趣味で楽しんでいる人たちにとってもかなり使えるサービスかと思うので、ぜひ試してみてくださいね!