これは革新技術でしょ!江戸時代以前の「くずし字」を高精度にテキストデータ化可能に
Twitterで @ciotan さんより情報提供いただきました!ありがとうございます。今回紹介する技術はまさに革新的な技術ではないでしょうか。
凸版印刷株式会社が2015年7月3日に発表した技術は、なんと江戸時代以前のくずし字が80%以上の精度をもってOCR処理(文字データ化)可能になるというもの。
どんな技術なのか、こちらの画像を見ていただければわかると思います。
左のくずし字は「源氏物語」ですが、今回発表された技術によって右のように何が書かれているのかをテキストデータ化してくれるのです。これは革新的!
この技術は 公立学校法人公立はこだて未来大学 の寺沢憲吾准教授が開発した「文書画像検索システム」と凸版印刷のテキストデータ技術を組み合わせて実現した技術で80%以上の精度を誇るという部分がこれまた素晴らしい。
こういった江戸時代以前の書物や古文書の判読にはどうしても専門家による人為的な作業が不可欠であり、それにより総数100万点以上ともいわれる古典書籍のテキストデータ化が遅れていたそうです。
今回発表された技術によって古典書籍の判読作業時間が短縮されることが期待されます。さらに現代語訳へ変換するシステムが開発されれば、テキストデータ化された古典書籍から現代の言葉に訳す作業が短縮化され、より多くの人が古典書籍に触れられる機会が増えそうですね。
より多くの人が古典書籍に触れることで、日本で明らかになっていない歴史の真実の解明が加速することまで期待できるのではないでしょうか。
情報元: type.center
凸版印刷|凸版印刷、江戸期以前のくずし字を 高精度でテキストデータ化する新方式OCR技術を開発