forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 0
/
posters-063.xml
252 lines (249 loc) · 19.5 KB
/
posters-063.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-063">
<teiHeader>
<fileDesc>
<titleStmt>
<title>CRETA (Centrum für reflektierte Textanalyse) – Fachübergreifende Methodenentwicklung in den Digital Humanities </title>
<author>
<name>
<surname>Kuhn</surname>
<forename>Jonas</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>jonas.kuhn@ims.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Alexiadou</surname>
<forename>Artemis</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>artemis@ifla.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Braun</surname>
<forename>Manuel</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>manuel.braun@ilw.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Ertl</surname>
<forename>Thomas</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>thomas.ertl@vis.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Holtz</surname>
<forename>Sabine</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>sabine.holtz@po.hi.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Kantner</surname>
<forename>Cathleen</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>cathleen.kantner@sowi.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Misselhorn</surname>
<forename>Catrin</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>catrin.misselhorn@philo.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Pado</surname>
<forename>Sebastian</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>pado@ims.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Richter</surname>
<forename>Sandra</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>sandra.richter@ilw.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Stein</surname>
<forename>Achim</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>achim.stein@ling.uni-stuttgart.de</email>
</author>
<author>
<name>
<surname>Zittel</surname>
<forename>Claus</forename>
</name>
<affiliation>Universität Stuttgart, Deutschland</affiliation>
<email>claus.zittel@ilw.uni-stuttgart.de</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-12-22T16:31:00Z</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from a Word document </p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.17">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Poster</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>Methodenentwicklung</term>
<term>Textanalyse</term>
<term>Modulariserung</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Inhaltsanalyse</term>
<term>Beziehungsanalyse</term>
<term>Modellierung</term>
<term>Annotieren</term>
<term>Kontextsetzung</term>
<term>Theoretisierung</term>
<term>Bearbeitung</term>
<term>Visualisierung</term>
<term>Infrastruktur</term>
<term>Interaktion</term>
<term>Sprache</term>
<term>Literatur</term>
<term>Methoden</term>
<term>Personen</term>
<term>Projekte</term>
<term>Forschung</term>
<term>Forschungsprozess</term>
<term>Text</term>
<term>Werkzeuge</term>
<term>Visualisierung</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<p>Dieser Beitrag soll das Konzept des neu eingerichteten Stuttgarter DH-Zentrums CRETA
<ref type="note" target="n01" n="1">1</ref> vorstellen, das mit literatur-, sprach-, geschichts- und politikwissenschaftlichen sowie philosophischen Fragestellungen sehr unterschiedliche textorientierte Fachdisziplinen vereint und das auf der anderen Seite Methoden und Modellierungstechniken aus dem maschinellen Lernen, der Computerlinguistik und aus der computergraphischen Visualisierung nicht nur zur Anwendung bringt, sondern begonnen hat, diese in eine gemeinsame DH-Methodik der tiefen reflektierten Textanalyse zu integrieren. Eine solche Weiterentwicklung des Methodeninventars der Digital Humanities ist ein langer Weg und braucht viele Beteiligte. Aspekte der Konzeption können wir jedoch bereits anhand von Fallstudien zu Szenarien aus laufenden Digital Humanities-Projekten konkret illustrieren, und es erscheint uns wichtig, den Ansatz breit zur Diskussion zu stellen.
</p>
<p>Das methodische Konzept hinter CRETA geht einerseits aus von der strukturellen Gleichartigkeit vieler Teilfragestellungen über ganz unterschiedliche Teilgebiete der Digital Humanities hinweg (eingebettet in sehr unterschiedliche Gesamtzusammenhänge und methodische Rahmenbedingungen). Beispielsweise findet sich das Teilziel einer systematischen Kategorisierung von Relationen, die in einer Textquelle zwischen zwei realen oder fiktionalen Personen ausgedrückt ist, in geschichtswissenschaftlichen Fragestellungen ebenso wie in sprach-, literatur- oder sozialwissenschaftlichen Gesamtuntersuchungen. Abbildung 1 skizziert weitere Typen von wiederkehrenden Fragestellungen, die disziplinübergreifend bei der Auseinandersetzung mit Texten (und allgemeiner mit kulturellen Werken) auftauchen und bei deren Modellierung daher Synergien zu erwarten sind. Eine komputationelle Modellierung des Teilfrage-Typs kann so für ganz unterschiedliche Rahmenuntersuchung die Erschließung größerer Korpora per Aggregation über Aspekte des Textinhalts bzw. der –form erschließen.</p>
<figure>
<graphic n="1001" width="7.687733333333333cm" height="6.773333333333333cm" url="p063-image1.png" rend="inline"/>
</figure>
<p>
<hi rend="bold">Abb. 1</hi>
</p>
<p>Zugleich anerkennt das methodische Konzept die Unterschiedlichkeit sowohl der jeweiligen inneren Ausprägung der Fragestellung (so gehen im genannten Beispiel Texteigenschaften und Relationstypen weit auseinander) als auch der interpretatorischen Anforderungen, die sich aus dem jeweiligen Modellierungs- und Fragekontext ergeben. Das technische Ziel, eine einzige optimale Werkzeuglösung für jede der fachübergreifend identifizierten Teilfragen zu entwickeln bzw. aus dem
<hi rend="italic">Text Mining</hi> oder
<hi rend="italic">Data Mining</hi> zu übernehmen, greift also zu kurz. Für die Mehrzahl der Einsatzgebiete wäre die Lösung suboptimal, und bei der Anwendung wäre schwer zu unterscheiden, in welchen Aspekten sie den methodischen Ansprüchen der einbettenden Untersuchungen genüge tut und in welchen nicht. Also sollten die gleichartigen Teilfragen zwar gemeinsam gedacht werden, als Instanzen derselben Modellklasse. Sie können (und müssen teilweise) jedoch für den jeweiligen Kontext angepasst und optimiert werden.
</p>
<p>Der zentrale CRETA-Gedanke zur Erschließung von disziplinübergreifenden Synergien ist folgender: Für eine praktisch umsetzbare und dennoch methodisch adäquate Integration in die jeweilige Gesamtfragestellung kann es vorteilhaft sein, Modellinstanzen anfänglich auch über Kontexte hinweg zu übertragen, deren Randbedingungen nicht in vollem Maße übereinstimmen, die eingebetteten Teilmodelle aber sehr bewusst als vorläufig anzusehen – als Gegenstand eines
<hi rend="bold">fortlaufenden Verbesserungsprozesses</hi> (ganz im Sinne des Modellierungsbegriffs, den McCarty (2005) als Kernelement der Digital Humanities identifiziert). Die ohnehin angezeigte methodenkritische Hinterfragung des eingeschlagenen Weges (die jedoch gerade beim Einsatz von komputationellen Werkzeugen häufig nicht oder nicht in ausreichender Tiefe erfolgt) rückt damit zentral ins Blickfeld, und es ist nicht nur eine Frage des Nutzungskomforts, dass ein Instrumentarium zur Verfügung gestellt werden, das eine reflektierte Diagnostik der ineinandergreifenden komputationellen und klassischen Analyseschritte ermöglicht.
</p>
<p>Folgerichtig wird bei aufgedeckten Unzulänglichkeiten die
<hi rend="bold">Anpassung</hi> der Modellierungslösung für eine Teilfrage an die kontextuellen Anforderungen zu einer Aufgabe, die nicht in der technisch-digitalen Peripherie einer geisteswissenschaftlichen Studie zu bearbeiten ist, sondern ihr kommt durch das Gesamtgeflecht aus Teilschritten für die übergeordnete Untersuchungsfrage zentrale Bedeutung zu.
</p>
<p>Die notwendigen Anpassungen der vorläufigen Modellinstanzen lassen sich mit Techniken
aus der Informatik (insbes. maschinellen Lernverfahren) prinzipiell ohne weiteres
umsetzen – dabei muss jedoch die Zielrichtung der Optimierung vorgegeben sein (beim
maschinellen Lernen in der Regel unterschiedliche Eingabe- /
Ausgabe-„Trainingsdatensätze“, anhand derer die Parameter für eine gegebene
Modellklasse eingestellt werden). Und hier beginnt die eigentliche Herausforderung
für eine echte fachübergreifende Methodenintegration: selbst wenn man – rein
hypothetisch – für eine geisteswissenschaftliche <hi rend="italic"
>Gesamt</hi>fragestellung eine ausreichende Menge von Eingabe- / Ausgabe-„Daten“
bereitstellen könnte (also eine Annotation der interpretatorischen Zielkategorien
für repräsentative Texte / Textabschnitte), die eine Modell-Optimierung ermöglichen
würde, müsste dieser (vermutlich extrem ressourcenintensive) Prozess für jede Studie
neu vorgenommen werden, da die gleiche Gesamtfragestellung in den
Geisteswissenschaften wohl niemals zweimal gestellt wird. Methodische Erkenntnisse
zu empirischen Faktoren bei der Modellierung aus einer Studie ließen sich nur schwer
auf eine andere übertragen. (Abgesehen davon dürfte mit der Bereitstellung einer
vollständig adäquaten Zielannotation häufig auch die Gesamtfragestellung gelöst
sein, so dass der Bedarf an einer komputationellen Modellierung hinfällig wird.) </p>
<p>Naheliegender Weise wird man vielmehr versuchen, Modelle für relativ eng umrissene Teilfragestellungen empirisch zu optimieren, die dann in ein Geflecht von Analyseschritten einfließen. Der Annotationsaufwand für die Erzeugung von Referenzdaten hält sich damit in vertretbaren Grenzen und Erkenntnisse zu studienübergreifend gleichartigen Teilaspekten lassen sich so systematisch übertragen. </p>
<p>Der Identifikation von sinnvollen Teilfragestellungen, die über unterschiedliche Projekt- und Fachkontexte hinweg tragen – einer „Modularisierung“ – kommt also auch aus praktischen Erwägungen heraus eine zentrale Bedeutung zu. Was aus informatischer Sicht wie eine Binsenweisheit klingt, ist jedoch in der Modellierungspraxis extrem anspruchsvoll, ist bei vielen übergeordneten Fragen eine Untergliederung in effektive Teilschritte doch alles andere als klar. Eine Vorstrukturierung auf dem Reißbrett ist nur in Einzelfällen möglich (wie im Fall der Sprachwissenschaft mit ihrer etablierten Ebenenstruktur der Sprachbetrachtung möglich ist, die auch die computerlinguistische Modulstruktur prägt, selbst wenn bewusst klassische Teilschritte kombiniert werden). </p>
<p>Für alle offenen Fragen der Modularisierung bietet die komputationelle Modellierung und die Verwendung von digitalen Arbeitsumgebungen Potenziale, die noch lange nicht ausgeschöpft sind: alternative Modularisierungen können exploriert und gegeneinander abgewogen werden. Der CRETA-Ansatz legt diese Exploration in die interdisziplinären Verantwortung: statt auf dem Reißbrett die plausibelste Untergliederung einer Projekt-Problematik festzuhalten, Softwarelösungen anhand dieser Spezifikation umzusetzen und nach zwei Jahren Entwicklung auf die inhaltliche Fragestellung anzuwenden, findet ein Dialog zwischen komputationellen Modellierungsexpertinnen und –experten und Fachwissenschaftlerinnen und –wissenschaftlern unterschiedlicher Disziplinen statt.</p>
<p>Überlegungen aus der fachspezifischen Kultur der Fragestellung müssen herangezogen werden, um eine geeignete Einbindung eines technisch übertragbaren Teilmodells in den Erkenntnisprozess und seine methodenkritische Reflexion zu gewährleisten. Gleichzeitig fleißen aus den informatischen Disziplinen Überlegungen zur formalen Adäquatheit möglicher Modellklassen, Erfahrungswerte aus der zu erwartenden Qualität, sowie Möglichkeiten einer Visualisierung und explorativen Ergebnispräsentation ein, um die wechselseitige Optimierung von Modellierungskomponenten zu unterstützen.</p>
<p>Konkret stellt sich das Vorgehen bei der Modellierung folgendermaßen dar: Im multidisziplinären Dialog im Rahmen von Werkstattklausuren werden für geistes- und sozialwissenschaftliche Fragestellungen mit Bezug zu ausgewählten digitalen Ressourcensammlungen</p>
<list type="unordered">
<item>für vergleichbare Teilaufgaben eines bestimmten Typs die charakteristischen Parameter so definiert, dass
sowohl die argumentative Funktion der Teilaufgabe innerhalb des fachwissenschaftlichen Vorgehens als auch das Spektrum der formal-komputationellen Implementierungen im Wesentlichen aus diesen Parametern heraus abgeleitet werden kann,</item>
<item>für jeden gängigen Typ von Teilaufgaben ein Instrumentarium von Methoden und Werkzeugen zur Verfügung gestellt für die Evaluation der Qualität bei der Aufgabenbearbeitung, für das Auffinden möglicher Fehler, Aggregation und Meta-Analyse von Ergebnissen (jeweils in Kombination von analytischen Werkzeugen und interaktiver Ergebnisvisualisierung), </item>
<item>der interaktive Prozess einer Korrektur und Anpassung von Komponenten sowie die Kombination von Ergebnissen mit Hilfe stark visuell orientierter Interfaces unterstützt.</item>
</list>
<p>Die angesprochenen methodischen Desiderate eines transparenten Zugangs zu den
Analyse-Teilergebnissen und der Adaptierbarkeit von analytischen Teilmodellen haben
wir exemplarisch anhand mehrerer Erweiterungsszenarien des
Relationsextraktionsmodells aus Blessing und Kuhn (2014) umgesetzt: Über die
ursprüngliche Zielrelation (Emigrationsbewegungen, die in Kurzbiographien textuell
beschrieben werden) können andere Relationen interaktiv trainiert werden. Eine
Erweiterung des Korpusbestands um Texte aus weiteren Quellen wurde vorgenommen,
einschließlich eines Wechsels der Sprache (Übertragung des Teilmodells als
Erweiterung einer deutschen Analysekette auf eine französische). Eine analoge
Adaptionsplattform wurde für Zeitungstexte erstellt, die in
politikwissenschaftlichen Studien zum öffentlichen Diskurs analysiert werden.</p>
<p>Fallstudien zum Einsatz der resultierenden Analysekette zeigen, dass eine kritische
Betrachtung der übertragenen Teilmodelle vor allem durch den Wechsel des
Blickwinkels auf aggregierte Daten mit einer Verlinkung von Einzelinstanzen
unterstützt werden: Textuelle Einzelinstanzen eines Relationstyps (z. B. Emigration
einer Person X aus dem Land A in ein Land B) werden aggregiert und das
Aggregationsergebnis kann beispielsweise geographisch visualisiert werden.</p>
<p>Das interaktive Springen zwischen unterschiedlichen Dimensionen der Aggregation bzw. zwischen aggregierter Sicht und Einzelinstanzen erlaubt es, Datenpunkte gezielt unter die Lupe zu nehmen, die von allgemeinen Tendenzen in bestimmter Weise abweichen. Für solche Beobachtungen ist zu klären, ob es sich (a) um einen aus bekannten Zusammenhängen erklärbaren, (b) einen neuartigen, validen Effekt oder (c) um einen technisch erklärbaren Scheineffekt handelt, der durch eine methodische Verbesserung eliminiert werden könnte. Ein Beispiel ist die fehlerhafte Klassifikation von UN-Resolution 1261 und 1973 in Zeitungsartikeln als Datumsangaben. Bei der Visualisierung der Extraktionsergebnisse auf einem Zeitstrahl fällt ein unerwartetes Muster beim Jahr 1261 auf (während Scheineffekte zum Jahr 1973 möglicherweise zunächst unerkannt bleiben). Die Fallstudien unterstützen die These, dass interaktive Nachforschungen und ein adaptierbares Instrumentarium gerade bei nicht perfekten Analysekomponenten die kritische Distanz zum Modellinventar unterstützen.</p>
</body>
<back>
<div type="Notes">
<note xml:id="n01" n="1">Das Zentrum wird seit Januar 2016 vom BMBF gefördert. Dieser Beitrag fasst wichtige Aspekte des Antragskonzepts zusammen; die Liste der Autorinnen und Autoren entspricht den Antragstellern für die BMBF-Förderung. Durch ihren Wechsel an die Humboldt-Universität zu Berlin ist Artemis Alexiadou nicht mehr direkt in die Umsetzung involviert.
</note>
</div>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl>
<hi rend="bold">Blessing, André / Kuhn, Jonas</hi> (2014): "Textual
Emigration Analysis (TEA)", in: <hi rend="italic">Proceedings of the Ninth
International Conference on Language Resources and Evaluation</hi>
(LREC’14). European Language Resources Association (ELRA), Reykjavik,
Iceland. </bibl>
<bibl>
<hi rend="bold">McCarty, Willard</hi> (2005): <hi rend="italic">Humanities
Computing</hi>. London: Palgrave. </bibl>
</listBibl>
</div>
</back>
</text>
</TEI>