-
Notifications
You must be signed in to change notification settings - Fork 0
Digitální knihovna Arna Nováka
Aktualizováno: 4. 2. 2021
Kontaktní email: digitalia@phil.muni.cz
Cílem Digitální knihovny Arna Nováka (DK AN) je usnadnit přístup k dílu prof. Arna Nováka, literárního vědce, kritika, historika a esejisty (* 2. 3. 1880, † 26. 11. 1939). Zahrnuty jsou digitalizované materiály z fondu Ústřední knihovny Filozofické fakulty Masarykovy univerzity, u kterých autorský zákon umožňuje volné zpřístupnění (vlastní monografie, úvody, doslovy a díla, ze kterých pochází).
Zamýšlenou cílovou skupinou jsou badatelé se zájmem o osobu Arna Nováka, období, ve kterém působil a české literární dějiny obecně. Veškerá díla jsou volně přístupná, vyjma autorsky chráněných ilustrací. Obsah lze číst přímo v prohlížeči nebo stáhnout v několika dále popsaných formátech.
Technické řešení DK AN je ve správě Centra informačních technologií Filozofické fakulty Masarykovy univerzity jako součást infrastruktury pro digitální knihovny FF MU. Digitální knihovna vznikla v roce 2009 a do roku 2020 byla ve správě Ústřední knihovny FF MU. Ta nadále zůstává správcem metadat a dat obsažených v systému a zodpovídá za další rozvoj obsahu. V roce 2020 byla DK AN v rámci projektu LINDAT/CLARIAH-CZ převedena do stávajícího systému Islandora.
Systém Islandora se skládá z několika komponent:
- Systém Drupal slouží pro správu obsahu repozitáře, ukládání metadat a poskytuje bohaté uživatelské rozhraní.
- Samotné soubory jsou uložené v systému Fedora. Mezi služby Fedory patří i verzování a fixity checking.
- Apache Solr slouží pro indexaci obsahu a vyhledávání v repozitáři.
- Mikroslužby Islandory poskytují synchronizaci obsahu systémů Drupal a Fedora a integraci různých aplikací na zpracování obrázků, videí a textů. V DK AN se momentálně využívá mikroslužba Houdini, která integruje aplikaci ImageMagick.
Podrobnější diagram architektury systému Islandora je součástí jeho dokumentace.
Jednotlivé záznamy v DK AN (díla, části děl a strany) jsou uložené jako Drupal Nodes a seskupené podle typu do Content types. DK AN obsahuje čtyři Content types: Book, Part, Page a Author.
Soubory jsou v repozitáři uložené jako Media a seskupené do Media types. Media jsou následně připojená k jednotlivým Nodes.
Nodes typu Book mohou mít připojené Media types Book cover, Book PDF, Book text, MARC XML.
U Nodes typu Page se jedná o typy Page scan, TIFF scan, Page thumbnail, Illustration a Page text.
Nodes typu Part neobsahují žádné soubory, jenom metadata, mezi které patří odkaz na dílo a rozsah stran. Na základě těchto údajů se na jejich stránkách zobrazí seznam příslušných stran daného díla.
Na zobrazování plných textů ve formátu PDF (Media type Book PDF) se využívá prohlížeč PDFjs. Obrázky jednotlivých stran (Media type Page scan) se dají prohlížet v prohlížeči OpenSeadragon. Ostatní soubory jsou uživatelům zpřístupněné pro stažení na stránkách příslušných děl nebo stran.
Pro indexaci a vyhledávání v repozitáři se využívá Apache Solr.
Index Search content zahrnuje všechny objekty typu Book, Part a Page. Indexují se pole název, název autora, Content type, dílo, rok vydání a plné OCR texty připojené ke stranám a dílům.
Vyhledávaní nabízí 2 možnosti:
- Tituly: Prohledávání děl a částí děl podle názvu. Toto vyhledávaní nabízí i funkci autocomplete. Výsledky jsou seřazené a seskupené podle roku vydání.
- Fulltext: Prohledávání OCR textů jednotlivých stran. Výsledky jsou seřazené podle relevance. K dispozici je filtrování stran podle díla, které zobrazuje i počet nalezených stran pro každé dílo.
Výsledky obou vyhledávaní se dají filtrovat podle roku vydání, buď zadáním rozsahu do textových polí Rok vydání (od) a Rok vydání (do) nebo použitím posuvné lišty v horní části stránky.
Při vyhledávání jsou ignorovány znaky patřící do těchto kategorií (Unicode Character Categories):
- Punctuation, Connector Characters
- Punctuation, Dash Characters
- Punctuation, Close Characters
- Punctuation, Final quote Characters
- Punctuation, Initial quote Characters
- Punctuation, Other Characters
- Punctuation, Open Characters
Pro provoz systému se využívá infrastruktury pro provoz virtuálních serverů na Masarykově univerzitě postavené na technologii VMware umístěné na ÚVT MU. Operační systém je Ubuntu LTS (dle doporučení Islandora Community).
Zálohování probíhá pravidelně na páskové zařízení postavené na systému Bacula spravované na ÚVT MU.
V Drupalu se zaznamenávají všechny změny v metadatech děl, částí děl, stran a autorů. Uživatelé s rolí Editor mohou verze objektů (tzv. Revisions) zobrazit, porovnat, mazat, anebo navrátit obsah k předchozí verzi.
Obsah DK AN je zpřístupněný i nepřihlášeným uživatelům. Takovýto uživatel může 'prohlížet' jednotlivá díla a jejich strany, vyhledávat mezi názvy děl, častí děl a autory a také prohledávat plné texty děl. K dispozici pro stažení má všechny typy souborů uvedené níže [Obsažené soubory].
Přihlášení uživatelé s rolí Editor mají přístup k editačním formulářům děl, částí děl, stran a autorů. Mohou také spravovat verze objektů (viz Servery, zálohovaní, integrita a autenticita).
Pro sdílení metadat v DC je vytvořený OAI-PMH endpoint všech děl v DK AN.
Obsah repozitáře (díla, části děl a strany) je přístupný přes REST API. Podporované formáty pro metodu GET jsou csv, json a jsonld.
URI jednotlivých objektů: https://arne-novak.phil.muni.cz/node/[id objektu]
Pro sledování využívanosti stránek je nasazen nástroj Matomo. Sbíraná data jsou uložena na lokálním serveru.
Distribuce datové sady neobsahuje autorská díla. Součástí poskytované distribuce datové sady nejsou autorská díla ve smyslu § 2 zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). Autorské právo tak nikterak nebrání libovolnému opětovnému užití obsahu poskytované distribuce datové sady.
Knihovna obsahuje záznamy pro celá díla, jejich části a také jednotlivé strany.
Díla lze zobrazit ve formátu PDF a následně stáhnout, nebo procházet po jednotlivých stranách. Celá díla je možné stahovat také ve formátu TXT. Části děl (například úvody) lze zobrazit ve formátu PDF a následně celé dílo stáhnout, nebo procházet po jednotlivých stranách.
Soubory připojené k dílům:
- plný text díla ve formátu PDF
- OCR text díla ve formátu TXT
- obálka díla ve formátu PNG
- metadata k dílu ve formátu MARCXML (neveřejné)
Strany je po rozkliknutí detailu možné stahovat ve formátu TXT nebo PNG.
Soubory připojené ke stranám:
- obrázek strany ve formátu PNG
- náhled strany ve formátu PNG (220x220 px)
- OCR text strany ve formátu TXT
- obrázek strany ve formátu TIFF (neveřejné)
Skenování proběhlo na knižním skeneru PlusTech OpticBook 4600. Parametry skenování byly: 300 DPI, B&W, TIFF fax G4. Pro zobrazení se generuje obrázek PNG v polovičním rozlišení a odstínech šedé.
Následné zpracování (vyrovnání, centrování, vyčištění) proběhlo ručně za pomoci vlastního programu. Pouze všechna čtyři vydání Dějin literatury české byla zpracována automaticky programem Scan Tailor z důvodu časové náročnosti.
Převod na text byl proveden programem Readiris Pro 10, Corporate Edition. Korektury textu neplánujeme.
DK AN ukládá metadata v Drupal Fieds. Jednotlivé typy záznamů v DK AN (Díla, Části děl, Strany a Autoři) mají nadefinovaný seznam příslušných Fields.
Při exportu metadat v schématu DC se tyto Fields namapují na prvky DC schématu.
Metadatové schéma pro díla spolu s mapováním na DC:
Field (česky) | Field (anglicky) | DC term | Povinné | Vyhledatelné | Veřejné | Opakovatelné | Příklad hodnoty | Standardy a pravidla | Komentář |
---|---|---|---|---|---|---|---|---|---|
Název | Title | http://purl.org/dc/terms/title | Ano | Ano | Ano | Patero obrázků z dějin knihy | |||
Autor | Author | http://purl.org/dc/terms/contributor | Ano | Ano | Ano | Novák, Arne | |||
Rok vydání | Year of issue | http://purl.org/dc/terms/issued | Ano | Ano | 1920 | ||||
Licence | Licence | http://purl.org/dc/terms/rights | Ano | Ano | Volné dílo | řízený slovník | Hodnoty: Volné dílo, EP, N/A | ||
Klíčová slova | Keywords | http://purl.org/dc/terms/subject | Ano | Arne Novák | |||||
ID | ID | http://purl.org/dc/terms/identifier | Ano | Ano | 24 | Identifikátor v knihovně | |||
PID | PID | http://purl.org/dc/terms/identifier | 20706 | Systémové číslo v knihovním systému Aleph MU | |||||
SYSNO | SYSNO | http://purl.org/dc/terms/identifier | 46428 | ||||||
Vydavatel | Publisher | http://purl.org/dc/terms/publisher | Ano | Ano | Spolek výtvarných umělců Mánes | ||||
Citace | Citation | http://purl.org/dc/terms/bibliographicCitation | Ano | Ano | NOVÁK, Arne. Jan Neruda. 3. vyd. Praha: Spolek výtvarných umělců Mánes, 1920. Zlatoroh, sv. 2. | ||||
Popis | Description | http://purl.org/dc/terms/description | Ano | Ano | S podobiznou od M. Švabinského | Popis se obvykle týká fyzického výtisku | |||
Typ | Type | http://purl.org/dc/terms/type | Ano | Kniha |