Skip to content

Digitální knihovna Arna Nováka

Vlastimil krejčíř edited this page Jul 28, 2021 · 1 revision

Aktualizováno: 4. 2. 2021

Kontaktní email: digitalia@phil.muni.cz

Představení

Cílem Digitální knihovny Arna Nováka (DK AN) je usnadnit přístup k dílu prof. Arna Nováka, literárního vědce, kritika, historika a esejisty (* 2. 3. 1880, † 26. 11. 1939). Zahrnuty jsou digitalizované materiály z fondu Ústřední knihovny Filozofické fakulty Masarykovy univerzity, u kterých autorský zákon umožňuje volné zpřístupnění (vlastní monografie, úvody, doslovy a díla, ze kterých pochází).

Zamýšlenou cílovou skupinou jsou badatelé se zájmem o osobu Arna Nováka, období, ve kterém působil a české literární dějiny obecně. Veškerá díla jsou volně přístupná, vyjma autorsky chráněných ilustrací. Obsah lze číst přímo v prohlížeči nebo stáhnout v několika dále popsaných formátech.

Technické řešení DK AN je ve správě Centra informačních technologií Filozofické fakulty Masarykovy univerzity jako součást infrastruktury pro digitální knihovny FF MU. Digitální knihovna vznikla v roce 2009 a do roku 2020 byla ve správě Ústřední knihovny FF MU. Ta nadále zůstává správcem metadat a dat obsažených v systému a zodpovídá za další rozvoj obsahu. V roce 2020 byla DK AN v rámci projektu LINDAT/CLARIAH-CZ převedena do stávajícího systému Islandora.

Technická implementace

Systém Islandora se skládá z několika komponent:

  • Systém Drupal slouží pro správu obsahu repozitáře, ukládání metadat a poskytuje bohaté uživatelské rozhraní.
  • Samotné soubory jsou uložené v systému Fedora. Mezi služby Fedory patří i verzování a fixity checking.
  • Apache Solr slouží pro indexaci obsahu a vyhledávání v repozitáři.
  • Mikroslužby Islandory poskytují synchronizaci obsahu systémů Drupal a Fedora a integraci různých aplikací na zpracování obrázků, videí a textů. V DK AN se momentálně využívá mikroslužba Houdini, která integruje aplikaci ImageMagick.

Podrobnější diagram architektury systému Islandora je součástí jeho dokumentace.

Jednotlivé záznamy v DK AN (díla, části děl a strany) jsou uložené jako Drupal Nodes a seskupené podle typu do Content types. DK AN obsahuje čtyři Content types: Book, Part, Page a Author.

Soubory jsou v repozitáři uložené jako Media a seskupené do Media types. Media jsou následně připojená k jednotlivým Nodes.

Nodes typu Book mohou mít připojené Media types Book cover, Book PDF, Book text, MARC XML.

U Nodes typu Page se jedná o typy Page scan, TIFF scan, Page thumbnail, Illustration a Page text.

Nodes typu Part neobsahují žádné soubory, jenom metadata, mezi které patří odkaz na dílo a rozsah stran. Na základě těchto údajů se na jejich stránkách zobrazí seznam příslušných stran daného díla.

Na zobrazování plných textů ve formátu PDF (Media type Book PDF) se využívá prohlížeč PDFjs. Obrázky jednotlivých stran (Media type Page scan) se dají prohlížet v prohlížeči OpenSeadragon. Ostatní soubory jsou uživatelům zpřístupněné pro stažení na stránkách příslušných děl nebo stran.

Indexace a vyhledávání

Pro indexaci a vyhledávání v repozitáři se využívá Apache Solr.

Index Search content zahrnuje všechny objekty typu Book, Part a Page. Indexují se pole název, název autora, Content type, dílo, rok vydání a plné OCR texty připojené ke stranám a dílům.

Vyhledávaní nabízí 2 možnosti:

  • Tituly: Prohledávání děl a částí děl podle názvu. Toto vyhledávaní nabízí i funkci autocomplete. Výsledky jsou seřazené a seskupené podle roku vydání.
  • Fulltext: Prohledávání OCR textů jednotlivých stran. Výsledky jsou seřazené podle relevance. K dispozici je filtrování stran podle díla, které zobrazuje i počet nalezených stran pro každé dílo.

Výsledky obou vyhledávaní se dají filtrovat podle roku vydání, buď zadáním rozsahu do textových polí Rok vydání (od) a Rok vydání (do) nebo použitím posuvné lišty v horní části stránky.

Při vyhledávání jsou ignorovány znaky patřící do těchto kategorií (Unicode Character Categories):

  • Punctuation, Connector Characters
  • Punctuation, Dash Characters
  • Punctuation, Close Characters
  • Punctuation, Final quote Characters
  • Punctuation, Initial quote Characters
  • Punctuation, Other Characters
  • Punctuation, Open Characters

Servery, zálohování, integrita a autenticita

Pro provoz systému se využívá infrastruktury pro provoz virtuálních serverů na Masarykově univerzitě postavené na technologii VMware umístěné na ÚVT MU. Operační systém je Ubuntu LTS (dle doporučení Islandora Community).

Zálohování probíhá pravidelně na páskové zařízení postavené na systému Bacula spravované na ÚVT MU.

V Drupalu se zaznamenávají všechny změny v metadatech děl, částí děl, stran a autorů. Uživatelé s rolí Editor mohou verze objektů (tzv. Revisions) zobrazit, porovnat, mazat, anebo navrátit obsah k předchozí verzi.

Uživatelské role

Obsah DK AN je zpřístupněný i nepřihlášeným uživatelům. Takovýto uživatel může 'prohlížet' jednotlivá díla a jejich strany, vyhledávat mezi názvy děl, častí děl a autory a také prohledávat plné texty děl. K dispozici pro stažení má všechny typy souborů uvedené níže [Obsažené soubory].

Přihlášení uživatelé s rolí Editor mají přístup k editačním formulářům děl, částí děl, stran a autorů. Mohou také spravovat verze objektů (viz Servery, zálohovaní, integrita a autenticita).

Pro sdílení metadat v DC je vytvořený OAI-PMH endpoint všech děl v DK AN.

Obsah repozitáře (díla, části děl a strany) je přístupný přes REST API. Podporované formáty pro metodu GET jsou csv, json a jsonld.

URI jednotlivých objektů: https://arne-novak.phil.muni.cz/node/[id objektu]

Ochrana osobních údajů

Pro sledování využívanosti stránek je nasazen nástroj Matomo. Sbíraná data jsou uložena na lokálním serveru.

Obsah digitální knihovny

Podmínky použití

Distribuce datové sady neobsahuje autorská díla. Součástí poskytované distribuce datové sady nejsou autorská díla ve smyslu § 2 zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). Autorské právo tak nikterak nebrání libovolnému opětovnému užití obsahu poskytované distribuce datové sady.

Obsažené soubory

Knihovna obsahuje záznamy pro celá díla, jejich části a také jednotlivé strany.

Díla lze zobrazit ve formátu PDF a následně stáhnout, nebo procházet po jednotlivých stranách. Celá díla je možné stahovat také ve formátu TXT. Části děl (například úvody) lze zobrazit ve formátu PDF a následně celé dílo stáhnout, nebo procházet po jednotlivých stranách.

Soubory připojené k dílům:

  • plný text díla ve formátu PDF
  • OCR text díla ve formátu TXT
  • obálka díla ve formátu PNG
  • metadata k dílu ve formátu MARCXML (neveřejné)

Strany je po rozkliknutí detailu možné stahovat ve formátu TXT nebo PNG.

Soubory připojené ke stranám:

  • obrázek strany ve formátu PNG
  • náhled strany ve formátu PNG (220x220 px)
  • OCR text strany ve formátu TXT
  • obrázek strany ve formátu TIFF (neveřejné)

Postup digitalizace

Skenování proběhlo na knižním skeneru PlusTech OpticBook 4600. Parametry skenování byly: 300 DPI, B&W, TIFF fax G4. Pro zobrazení se generuje obrázek PNG v polovičním rozlišení a odstínech šedé.

Následné zpracování (vyrovnání, centrování, vyčištění) proběhlo ručně za pomoci vlastního programu. Pouze všechna čtyři vydání Dějin literatury české byla zpracována automaticky programem Scan Tailor z důvodu časové náročnosti.

Převod na text byl proveden programem Readiris Pro 10, Corporate Edition. Korektury textu neplánujeme.

Metadata

DK AN ukládá metadata v Drupal Fieds. Jednotlivé typy záznamů v DK AN (Díla, Části děl, Strany a Autoři) mají nadefinovaný seznam příslušných Fields.

Při exportu metadat v schématu DC se tyto Fields namapují na prvky DC schématu.

Metadatové schéma pro díla spolu s mapováním na DC:

Field (česky) Field (anglicky) DC term Povinné Vyhledatelné Veřejné Opakovatelné Příklad hodnoty Standardy a pravidla Komentář
Název Title http://purl.org/dc/terms/title Ano Ano Ano Patero obrázků z dějin knihy
Autor Author http://purl.org/dc/terms/contributor Ano Ano Ano Novák, Arne
Rok vydání Year of issue http://purl.org/dc/terms/issued Ano Ano 1920
Licence Licence http://purl.org/dc/terms/rights Ano Ano Volné dílo řízený slovník Hodnoty: Volné dílo, EP, N/A
Klíčová slova Keywords http://purl.org/dc/terms/subject Ano Arne Novák
ID ID http://purl.org/dc/terms/identifier Ano Ano 24 Identifikátor v knihovně
PID PID http://purl.org/dc/terms/identifier 20706 Systémové číslo v knihovním systému Aleph MU
SYSNO SYSNO http://purl.org/dc/terms/identifier 46428
Vydavatel Publisher http://purl.org/dc/terms/publisher Ano Ano Spolek výtvarných umělců Mánes
Citace Citation http://purl.org/dc/terms/bibliographicCitation Ano Ano NOVÁK, Arne. Jan Neruda. 3. vyd. Praha: Spolek výtvarných umělců Mánes, 1920. Zlatoroh, sv. 2.
Popis Description http://purl.org/dc/terms/description Ano Ano S podobiznou od M. Švabinského Popis se obvykle týká fyzického výtisku
Typ Type http://purl.org/dc/terms/type Ano Kniha

Obecné informace a průvodce instalací / General Maintenance and Installation Guide

Digitální knihovna Arna Nováka

Projectiles Database

Filmové Brno / Cinematic Brno

Digitální knihovna FF MU / Digital library of FF MU

Clone this wiki locally