無料ダウンロード公開です!豆腐百珍や源氏物語などの古典籍の画像データを国文学研究資料館が公開

Japaaan編集部

かつてはなかなかお目にかかることの出来なかった重要資料たちに、自由にアクセス可能になりましたよ!

「国文研古典籍データセット(第0.1版)」は人間文化研究機構 国文学研究資料館が所蔵する、主として江戸時代以前の書物について,国立情報学研究所が協力して提供するデータセットです。

国文学研究資料館では約30万点もの古典籍をデジタル画像化したデータベースの構築のプロジェクトを進行中。2015年11月からオープンデータとしてパイロット版が公開されています。

こちらの先行公開版(第0.1版)では約350点の所蔵作品を、約63,000コマのJPEG形式古典籍画像データとテキスト形式の書誌データ、翻刻本文テキストデータ(一部作品)、タグデータ(一部作品)を公開中。ライセンス条件に同意される方なら、誰でも無料で利用できます。

「日本文学」「芸術・諸芸等」「歴史」「医学」「理学」「産業」「地理」「教育」「政治・法制」「風俗・生活」「宗教」「経済」「武学・武術」「言語」「総記」の各分野ごとに幅広い資料が閲覧可能。掲載されているのは文学作品の「源氏物語」「十六夜日記」や料理本の「豆腐百珍」などなど。有名な作品は読みやすいように活字のテキストデータも用意されています。

画像1枚あたりのサイズは約1.4〜1.8MBで、かなり大きく拡大しても大丈夫。和紙の質感まで見てとれる品質の画像データです。

これらのデータはダウンロードページから一括ダウンロード、作品ごとのダウンロードのいずれかを選択してダウンロードして下さい。データサイズは1点あたり圧縮ファイルで約415MB、全部ダウンロードすると141GB。作品によっては個別でも大きなファイルもありますので、お気をつけください。

こちらのデータベースは、今後も順次データが追加されていくとのこと。公開されたことで、さまざまな活用方法が登場しそうです。

情報学研究データリポジトリ 国文研データセット

この記事の画像一覧

シェアする

モバイルバージョンを終了