forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 0
/
vorträge-002.xml
220 lines (220 loc) · 16.4 KB
/
vorträge-002.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="vorträge-002">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Pattern Mining in Keilschriftzeichnungen</title>
<author>
<name>
<surname>Bogacz</surname>
<forename>Bartosz</forename>
</name>
<affiliation>Universität Heidelberg, Deutschland</affiliation>
<email>bg.bartek@gmail.com</email>
</author>
<author>
<name>
<surname>Mara</surname>
<forename>Hubert</forename>
</name>
<affiliation>Universität Heidelberg, Deutschland</affiliation>
<email>hubert.mara@iwr.uni-heidelberg.de</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-10-15T21:30:12.862323279</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from an OASIS Open Document</p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.14">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Vortrag</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>Keilschrift</term>
<term>Data Mining</term>
<term>Pattern Mining</term>
<term>Machine Learning</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Umwandlung</term>
<term>Datenerkennung</term>
<term>Aufzeichnung</term>
<term>Transkription</term>
<term>Strukturanalyse</term>
<term>Modellierung</term>
<term>Annotieren</term>
<term>Bearbeitung</term>
<term>Archivierung</term>
<term>Kommentierung</term>
<term>Konservierung</term>
<term>Artefakte</term>
<term>Computer</term>
<term>Daten</term>
<term>Datei</term>
<term>Sprache</term>
<term>Methoden</term>
<term>Forschungsprozess</term>
<term>Text</term>
<term>texttragende Gegenstände</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<p>Keilschrifttafeln gehören zu den ältesten Textzeugen, die im Umfang mit den Texten in
lateinischer und alt-griechischer Sprache vergleichbar sind. Da diese Tafeln aus dem
gesamten Alten Orient über beinahe viertausend Jahre in Verwendung waren (Soden
1994), lassen sich damit viele interessante Fragestellungen zur Entwicklung von
Religion, Politik, Wissenschaft, Handel bis hin zu Klimaveränderungen (Kaniewski et
al. 2013) beantworten. Die aus Ton geformten Tafeln, bei denen Zeichen (Borger 2010)
als keilförmige Abdrücke mit einem eckigen Stylus eingedrückt wurden, erfordern neue
informationstechnische Methoden zu der Dokumentation und Analyse als die in Archiven
üblichen Flachwaren. </p>
<p>Keilschrifttafeln werden mit Hilfe verschiedenster Methoden digitalisiert und in
verschiedene, untereinander nicht kompatible Formate übertragen. Sie werden
photographisch mit wechselnden Lichtverhältnissen aufgezeichnet, handschriftlich
oder digital abgezeichnet oder mit Hilfe eines 3D-Scanners aufgenommen (Mara et al.
2010; Mara / Krömker 2013). Jede dieser Repräsentationen erfordert ein eigenes
Tool-Set zur Analyse und die textuelle Analyse ist auf die jeweilige Repräsentation
beschränkt. </p>
<p>Die Initiative für eine digitale Keilschriftdatenbank (<ref
target="http://cdli.ucla.edu/">Cuneiform Digital Library Initiative</ref> -
CDLI) stellt mehr als 300.000 Keilschrifttafeln je nach Verfügbarkeit in Form von
handgefertigten Abschriften, Photographien oder Umschriften zur Verfügung. Diese
Datenbank besitzt keine Möglichkeit Keilschrifttafeln nach den Keilsymbolen zu
durchsuchen. </p>
<p>In unserer bisherigen Arbeit (Bogacz / Massa et al. 2015) stellten wir Verfahren und
einen Ablauf zur Homogenisierung von den drei gängigsten Datenquellen vor.
Keilschriftabdrücke wurden handschriftlichen Zeichnungen, digital abgezeichneten und
3D-gescannten Tafeln entnommen. Die Datenquellen wurden zuerst, falls nötig, in das
SVG Format (Scalable Vector Graphics) vektorisiert. SVG Dateien sind ein offener
Standard zur Beschreibung von Vektorgrafiken, der sich den XML Standard zu nutze
macht. </p>
<p>Die Nutzung dieses Dateiformates ermöglicht uns Wörter in den digitalen Abzeichnungen
mit ihrer Übersetzung zu Annotieren und als XML-Tags zu den Grafikpfaden, die den
Wörtern entsprechen, in den SVG Dateien selbst abzuspeichern. Wir nutzten diese
Annotationen, um die Genauigkeit unserer Worterkennung zu überprüfen (Bogacz / Gertz
et al. 2015).</p>
<p>Auf Grundlage der homogenisierten Datenbasis führten wir eine minimale und einheitliche Beschreibung von Keilabdrücken mit Hilfe von Merkmalsvektoren ein. Die Abdrücke einer Keilschrifttafel in dem jeweiligen Datenformat werden erkannt und extrahiert. Bei der Extraktion werden die einzelnen Keile durch mehrere verschiedene, sich ausschließende, Merkmalsvektoren modelliert. Die abschließend gewählte Untermenge von Keilmodellen für die gegebenen Keile einer Tafel ist eine global optimale Zuordnung von Keilmodellen zu den jeweiligen Keilabdrücken. Dieser Ansatz wurde gewählt, da die Abdrücke oft beschädigt oder nicht eindeutig identifizierbar sind. </p>
<p>Die reduzierte Darstellung als Merkmalsvektoren ermöglicht eine Analyse der Daten mit
gängigen Methoden aus dem Bereich des maschinellen Lernens, wie der Priniciple
Component Analysis (PCA) Dimensionsreduktion, dem k-Means Algorithmus oder auch
einem Entscheidungsbaum (Mohri et al. 2012), und das Abspeichern der Keilabdrücke
und der Keilschrifttafeln in austauschbaren XML Dateien zur weiteren Analyse oder in
einer effizienten Suchstruktur als Grundlage für einen Suchalgorithmus. </p>
<p>In dieser Arbeit stellen wir ein Verfahren zur vollständig automatisierten Suche von
Keilschriftsymbolen vor. Wir übernehmen die Idee von "Query Words" und adaptieren
sie für geometrische Symbole. Anstatt ausschließlich Übersetzungen von
Keilschrifttafeln zu durchsuchen und nicht übersetzte Tafeln auszulassen, können wir
alle homogenisierten Tafeln nach Keilkonfigurationen durchsuchen. Eine beliebige
geometrische Anordnung von Keilen im Merkmalsvektor Repräsentation wird als Query
(Abfrage) genutzt, nach welcher Tafeln abgesucht werden können. </p>
<p>Unser Verfahren baut eine Suchstruktur auf, die danach mit Keilkonfigurationen
abgesucht werden kann. Zuerst wird durch eine Radial Basis Function (RBF) Kernel-PCA
Dimensionsreduktion (Schölkopf 1997) der Merkmalsraum der Merkmalsvektoren
reduziert. Es gibt nur wenige Keiltypen und diese werden durch die hochdimensionalen
(12 Merkmale pro Keil) Merkmalsvektoren überspezifisch beschrieben. Danach wird ein
k-Means Clustering (Kanungo et al. 2002) durchgeführt, um die einzelnen Keiltypen
automatisiert zu erkennen. Die gefunden Gruppierungen bilden die Basis für ein
Wörterbuch an bekannten Keilkonfigurationen. Dieses Wörterbuch wird nun erweitert
indem ein spatiales Frequent Pattern Mining (Han et al. 2007) der Tafeln
durchgeführt wird. Häufig vorkommende und dicht zusammen liegende Keiltypen werden
zu neuen Einträgen zusammengefasst. Keilschrifttafeln werden somit anhand der
Positionen von im Wörterbuch vorhandenen Keilkonfigurationen beschrieben.</p>
<p>Ein Keilschriftszeichen wird gesucht, indem es in im Wörterbuch bekannte
Keilkonfiguration unterteilt wird. Dazu werden die Merkmalsvektoren des Zeichens mit
gelernten PCA reduziert und dem gelernten k-Means klassifiziert. Danach werden
bekannte Konfigurationen im gesuchten Zeichen durch erneutes spatiales Frequent
Pattern Mining identifiziert. Nun wird eine Schnittmenge von bekannten
Konfigurationen im gesuchten Zeichen mit der Menge an bekannten Konfigurationen auf
der Tafel gebildet. Übereinstimmungen werden durch ein genaueres Verfahren
verglichen (Bogacz / Gertz et al. 2015). </p>
<p>Unser Verfahren Pattern Mining a Dictionary of Complex Structures (PDCS) macht sich die geringe Anzahl von Keiltypen (Winkelhaken, stehender Keil und liegender Keil) und häufig vorkommende Keilkonfigurationen zu nutze, um den Suchraum zu reduzieren. Zusammenfassend basiert es auf der Annahme, dass sich das zu durchsuchende Objekt in bekannte und grundlegende Formen, Keile der Keilschrift, zerlegen lässt, und die gesuchte Form eine geometrische Anordnung dieser Grundform ist. Dafür erweitern das Konzept des Frequent Pattern Minings indem wir die Geometrie der häufig vorkommenden Muster beachten. </p>
<p>Die k-Means Gruppierung der Keiltypen hat gegenwärtig eine Fehlerrate von 10%. Wir planen die Fehlerrate zu reduzieren indem wir die Parameter der PCA Dimensionreduktion automatisiert lernen und optimieren. Das Bilden der geometrischen Schnittmenge ist ein zeitaufwändiger Prozess. Wir arbeiten an einer Methode diesen Algorithmus zu beschleunigen indem wir Keilkonfigurationen aus dem Wörterbuch entfernen, die nicht zur Suche beitragen. Weitere mögliche Anwendungsbereiche für unser Verfahren sind Chinesische Zeichen, Heraldik, Maya Schriftzeichen und die kodikologische Untersuchung der Anordnung von Textpassagen eines Keilschrifttextes.</p>
</body>
<back>
<div type="bibliogr">
<listBibl>
<head>Bibliography</head>
<bibl><hi rend="bold">Bogacz, Bartosz / Gertz, Michael / Mara, Hubert</hi>
(2015): "Character Retrieval of Vectorized Cuneiform Script", in: <hi
rend="italic">Proceedings of the 13th International Conference on
Document Analysis and Recognition (ICDAR)</hi>, Nancy, France.</bibl>
<bibl><hi rend="bold"> Bogacz, Bartosz / Massa, Judith / Mara, Hubert</hi>
(2015): "Homogenization of 2D & 3D Document Formats for Cuneiform Script
Analysis", in: <hi rend="italic">Proceedings of the 2015 Workshop on
Historical Imaging and Processing</hi>, Nancy, France 115-122.</bibl>
<bibl><hi rend="bold">Borger, Rykle</hi> (22010): <hi rend="italic"
>Mesopotamisches Zeichenlexikon</hi> (= Alter Orient und Altes Testament
– Veröffentlichungen zur Kultur und Geschichte des Alten Orients und des
Alten Testaments 305). Münster: Ugarit-Verlag.</bibl>
<bibl><hi rend="bold">Han, Jiawei / Cheng, Hong / Xin, Dong / Yan, Xifeng</hi>
(2007): "Frequent pattern mining: current status and future directions", in:
<hi rend="italic">Data Mining and Knowledge Discovery</hi> 15, 1: 55-86. </bibl>
<bibl><hi rend="bold">Kaniewski, David / Van Campo, Elise / Guiot, Joel / Le
Burel, Sabine / Otto, Thierry / Baeteman, Cecile</hi> (2013):
"Environmental Roots of the Late Bronze Age Crisis", in: <hi rend="italic"
>PLoS One</hi> 8, 8 <ref
target="http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0071004"
>http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0071004</ref>
[letzter Zugriff 07. Februar 2016].</bibl>
<bibl><hi rend="bold">Kanungo, Tapas / Mount, David M. / Netanyahu, Nathan S. /
Piatko, Christine D. / Silverman, Ruth / Wu, Angela Y.</hi> (2002): "An
efficient k-means clustering algorithm: Analysis and implementation. Pattern
Analysis and Machine Intelligence", in: <hi rend="italic">IEEE Transactions
on Pattern Analysis and Machine Intelligence</hi> 24, 7: 881-892.</bibl>
<bibl><hi rend="bold">Mara, Hubert / Krömker, Susanne </hi>(2013):
"Vectorization of 3D-Characters by Integral Invariant Filtering of
High-Resolution Triangular Meshes", in: <hi rend="italic">Proceedings of
12th International Conference on Document Analysis and Recognition
(ICDAR / IAPR)</hi>, Washington D.C., USA 62–66.</bibl>
<bibl><hi rend="bold">Mara, Hubert / Krömker, Susanne / Jakob, Stefan /
Breuckmann, Bernd</hi> (2010): "GigaMesh and Gilgamesh - 3D Multiscale
Integral Invariant Cuneiform Character Extraction", in: <hi rend="italic"
>Proceedings of VAST10 - International Symposium on Virtual Reality,
Archaeology and Cultural Heritage</hi>, Palais du Louvre, Paris, France
131-138. </bibl>
<bibl><hi rend="bold">Mohri, Mehryar / Rostamizadeh, Afshin / Talwalkar,
Ameet</hi> (2012): Foundations of Machine Learning (= Adaptive
Computation and Machine Learning series). Cambridge, Massachusetts: MIT
Press. </bibl>
<bibl><hi rend="bold">Schölkopf, Bernhard / Smola, Alexander / Müller,
Klaus-Robert</hi> (1997): "Kernel Principal Component Analysis", in:
Gerstner, Wulfram / Germond, Alain / Hasler, Martin / Nicoud, Jean-Daniel
(eds.): <hi rend="italic">Artificial Neural Networks</hi>. Proceedings of
the 7th International Conference Lausanne, Switzerland (ICANN'97). Berlin /
Heidelberg: Springer 583-588. </bibl>
<bibl><hi rend="bold">Soden, Wolfram von</hi> (1994): <hi rend="italic">The
ancient Orient</hi>. An introduction to the study of the ancient Near
East. Michigan: Wm. B. Eerdmans Publishing Co.</bibl>
</listBibl>
</div>
</back>
</text>
</TEI>