パブリックドメイン資料から作成した1行単位の文字切り出し画像と対応テキストデータのデータセットです。
国立国会図書館デジタルコレクション(以下「デジコレ」といいます。)https://dl.ndl.go.jp からインターネット公開している著作権保護期間の満了したデジタル資料について、目次コマの画像と目次情報を利用して、1行毎に画像とテキストの対応付けが取れるよう加工することで OCR等の学習用データセットとして整備したものです。 技術検討のため、館内で職員が作成したデータセットとなります。
ファイル名 | 画像 | 正解テキストデータ |
1904210_0008_jzRAqe3gqxN.jpg | (四)「アスフアルトブロツク」鋪道上に「アスフアルト」層を造ること | |
770210_0020_z8onZXpKBn1.jpg | 大岡越前守と石川近江守の抜擢 |
画像についてはzipで圧縮されており、次のURLから取得可能です。
https://lab.ndl.go.jp/dataset/ocronelinedataset/ocronelinedataset_pdm.zip
2021年9月16日現在、2,339行分の正解データが含まれています。今後追加を行う予定です。
正解テキストデータは本リポジトリのlabeldata_pdm.tsvを参照してください。
各行タブ区切りに、左から「ファイル名」「正解テキストデータ」「文字列の向き(tateまたはyoko)」「切り出し画像のURL(フルサイズのIIIF Image API)」の情報が記載されています。
ファイル名 | 正解テキストデータ | 文字列の向き | 切り出し画像のURL |
---|---|---|---|
1904210_0008_jzRAqe3gqxN.jpg | (四)「アスフアルトブロツク」鋪道上に「アスフアルト」層を造ること | tate | https://www.dl.ndl.go.jp/api/iiif/1904210/R0000008/pct:23.0,20.0,1.1,40.2/full/0/default.jpg |
縦書きの1行画像はoneline_tateディレクトリ、横書きの1行画像はoneline_yokoディレクトリに分かれて配置されています。 必要な解像度と異なる場合には、正解データに含まれるURLを参考に、IIIF Image APIの仕様(https://iiif.io/api/image/2.1/#region )に従って適宜サイズを調整して取得してください。
画像の命名規則は、デジコレの永続的識別子(PID)の数字部分を用いて、
(PID)(コマ番号)(ランダムなハッシュ値) .jpg
という形式で記述しています。 例えば1904210_0008_jzRAqe3gqxN.jpg は、 http://dl.ndl.go.jp/info:ndljp/pid/1904210 のコマ番号8を意味します。
PIDと資料名の対応については、以下から提供している書誌データを参考にしてください。
https://www.ndl.go.jp/jp/dlib/standards/opendataset/index.html
何かお気づきの点がありましたら、お気軽にお問い合わせください。