-
Notifications
You must be signed in to change notification settings - Fork 0
/
posters-074.xml
258 lines (258 loc) · 19.8 KB
/
posters-074.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-074">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Aufbau einer Korpusinfrastruktur für die Beobachtung des Schreibgebrauchs</title>
<author>
<name>
<surname>Fischer</surname>
<forename>Peter M.</forename>
</name>
<affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
<email>peter.fischer@ids-mannheim.de</email>
</author>
<author>
<name>
<surname>Diewald</surname>
<forename>Nils</forename>
</name>
<affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
<email>diewald@ids-mannheim.de</email>
</author>
<author>
<name>
<surname>Kupietz</surname>
<forename>Marc</forename>
</name>
<affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
<email>kupietz@ids-mannheim.de</email>
</author>
<author>
<name>
<surname>Witt</surname>
<forename>Andreas</forename>
</name>
<affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
<email>witt@ids-mannheim.de</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-10-18T23:48:48.63</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from an OASIS Open Document</p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.14">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Poster</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>Korpusinfrastruktur</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<p>Mit dem Ziel, eine systematische Beobachtung des Schreibgebrauchs unter Verwendung
computerlinguistischer Methoden zu ermöglichen, wurde 2013 das vom BMBF geförderte
Forschungsprojekt <hi rend="italic">Analyse und Instrumentarien zur Beobachtung des
Schreibgebrauchs im Deutschen</hi> ins Leben gerufen. An diesem beteiligen sich
gemeinschaftlich das Institut für Deutsche Sprache, das Institut für
Computerlinguistik der Universität des Saarlandes, sowie die Wörterbuchverlage
Bibliographisches Institut GmbH (Dudenverlag) und Wahrig bei Brockhaus. Das Projekt
hat sich u.a. zur Aufgabe gemacht, eine zweckdienliche Datengrundlage (Fischer i.E.)
und ein dazugehöriges Methodeninventar (Scholze-Stubenrecht 2013) aufzubauen. </p>
<p>Für die Erstellung von Korpusanalysen mit Auswertung nach eigens erarbeiteten
Bewertungskriterien (Krome, 2013) ist das Projekt auf eine geeignete
Korpusinfrastruktur angewiesen, die es den beteiligten Partnern erlaubt,
entsprechende Suchanfragen auf den einerseits umfangreichen (über 10 Mrd. Tokens),
andererseits aus datenschutz- und urheberrechtlichen Gründen mitunter verteilt
liegenden Ressourcen effizient und zuverlässig durchzuführen. Dabei wird
entsprechend Jim Grays (Gray 2003) Maxime "put the computation near the data"
(Kupietz et al. 2014) der Ansatz verteilter virtueller Korpora bzw.
Kollektionen (van Uytvanck 2010) verfolgt, der darauf abzielt, dedizierte, auf die
spezifischen Suchanfragen ausgerichtete Subkorpora zu definieren und auf diesen
rechtskonform zu operieren.</p>
<p>KorAP (Bański et al. 2013) ist eine Such- und Analyseplattform, die eine solche
Infrastruktur zur Verfügung stellt. Sie wurde als Nachfolgesystem von
COSMAS-II (Bodmer 1996) am Institut für Deutsche Sprache als primäre Schnittstelle
für den Zugriff auf DeReKo (Kupietz / Lüngen 2014), das Deutsche Referenzkorpus,
entwickelt. KorAP ermöglicht die Suche in sehr großen, mehrfach annotierten, und
heterogen lizenzierten Korpora über eine Vielzahl von Suchoperatoren verschiedener
Anfragesprachen. Die dynamische Erstellung virtueller Korpora wird dabei durch
Kombination von Metadatenkriterien realisiert. Dies steht auch im Einklang mit dem
Projektdesiderat, die Anbindung an die europäische Sprachressourceninfrastruktur
CLARIN, die bereits eine Fülle von Werkzeugen anbietet, zu intensivieren und damit
die Sichtbarkeit der Ressourcen auch im internationalen Kontext zu erhöhen.</p>
<p>Dieses Paper beleuchtet damit jene Arbeiten, die sich mit dem Prozess des Aufbaus der Korpusinfrastruktur, d.h. der Aufbereitung, Organisation und Bereitstellung der Datengrundlage befassen.</p>
<p>Als empirische Basis des Projektes dient die parallele Beobachtung und Auswertung von drei Zielgruppen und Ebenen der Textproduktion, nämlich die der professionellen Schreiber (in Zeitungen, Zeitschriften usw.), die den Schreibgebrauch der Schreibgemeinschaft heute entscheidend mitbestimmen, die der Schüler (in Klassenarbeiten, Abituraufsätzen, Literaturwettbewerben usw.), die als Repräsentanten der jungen Generation im schulischen Kontext an die amtlichen Regeln zur Rechtschreibung gebunden sind, und die der Internetnutzer (in E-Mails, sozialen Netzwerken, Meinungsportalen usw.), die in einer im Vergleich zu Druckerzeugnissen weniger kontrollierten Umgebung Entwicklungs- und Fehlertendenzen viel früher und deutlicher wiedergeben können als das beispielsweise in Zeitungstexten oder belletristischen Korpora der Fall ist. Dementsprechend steuern diese drei heterogenen Quellen auch unterschiedliche Informationen bei und stellen den Aufbau der Korpusinfrastruktur vor individuelle Herausforderungen.</p>
<p>Aus korpustechnologischer Sicht konnte das Projekt in Teilen auf bereits vorhandene,
wohlstrukturierte und linguistisch aufbereitete Ressourcen wie das Deutsche
Referenzkorpus DeReKo (Kupietz / Lüngen 2014), das WAHRIG Textkorpus <hi rend="sup"
>Digital</hi> (Krome 2010) oder das Dudenkorpus (Münzberg 2011) zurückgreifen,
während andere erst akquiriert, für eine maschinelle Verarbeitung vorbereitet und
mit linguistischen Informationen angereichert werden mussten. Da entsprechende
sprachtechnologische Verfahren (Tokenisierung, Lemmatisierung, Wortart-Tagging,
flache syntaktische Analyse) jedoch überwiegend für stärker kontrollierte Texte
entwickelt wurden und daher nicht auf alle diese drei Quellen gleichermaßen
anwendbar sind, mussten überdies zunächst geeignete Werkzeuge (weiter-)entwickelt
werden (Horbach et al. 2015), um einen für Vergleichsanalysen ausgewogenen
Aufbereitungsstand zu erreichen. </p>
<p>Neben diesen linguistischen Merkmalen verfügen die Texte auch über gewisse Metadaten, die aber in Struktur und Ausprägung stark an den Ressourcenkontext gebunden sind und deshalb mitunter entsprechend heterogen ausfallen. Das Zurückgreifen auf diese Informationen stellt jedoch bei synchronen wie diachronen Auswertungen ein für die systematische Beobachtung des Schreibgebrauchs zentrales Nutzungsszenario dar, das eine ordentliche Zusammenstellung solcher Zusatzinformationen erfordert. Folglich ist für die Erstellung virtueller Korpora und damit für ihre anfrageoptimierte Bereitstellung innerhalb der Analyseinfrastruktur die Erfassung von Metadaten unerlässlich. Die folgende Aufstellung zeigt eine Übersicht der Ressourcentypen und ihrer Metadaten.</p>
<p>Texte professioneller Schreiber (am Beispiel Zeitschriftenkorpus)</p>
<list type="unordered">
<item>Name der Zeitung</item>
<item>Nummer der Ausgabe</item>
<item>Titel des Artikels</item>
<item>Untertitel des Artikels</item>
<item>Name des Autors</item>
<item>Ort der Veröffentlichung</item>
<item>Tag der Veröffentlichung</item>
<item>Textklasse (z.B. Wirtschaft oder Sport)</item>
<item>Textsorte (z.B. Gerichtsurteil oder Satire)</item>
</list>
<p>Schülertexte (am Beispiel Literaturwettbewerbskorpus)</p>
<list type="unordered">
<item>Name des Wettbewerbs</item>
<item>Jahrgang (Einsendeschluss)</item>
<item>Titel des Textes</item>
<item>Altersklasse des Autors</item>
<item>Geschlecht des Autors</item>
</list>
<p>Internettexte (am Beispiel Zeitungsleserkommentarkorpus)</p>
<list type="unordered">
<item>Name der Zeitung</item>
<item>Titel des Artikels</item>
<item>Teaser des Artikels</item>
<item>Schlagwörter zum Artikel</item>
<item>Tag der Artikelveröffentlichung</item>
<item>Pseudonym des Kommentarautors</item>
<item>Tag der Kommentarveröffentlichung</item>
<item>Titel des Kommentars</item>
</list>
<p>Die Grundstrukturierung der Datenbasis samt aller Annotationen und Metadaten erfolgt
einheitlich gemäß den Vorgaben von TEI P5 (TEI Consortium 2007), das als auf das
Kodieren von Textkorpora ausgerichtetes und auf XML aufbauendes Datenformat einen
langjährig etablierten Standard zur Strukturierung linguistischer Daten darstellt.
Zur Auszeichnung der Wortartinformationen (POS) wurde das Stuttgart-Tübingen-Tagset
STTS (Schiller et al. 1999) herangezogen, bzw. im Falle der nicht-professionellen
Textsubstanzen um Elemente aus STTS 2.0 (Bartz et al. 2014), einer
abwärtskompatiblen Weiterentwicklung, die speziell auf die Anwendung auf Ressourcen
aus internetbasierter Kommunikation optimiert wurde, ergänzt. Die TEI-kodierten
Daten werden daraufhin in die interne KorAP-Repräsentation überführt und indiziert.
Für vorhandene Metadaten werden optimierte Indizierungsstrategien gewählt, um
beispielsweise eine Kriterienwahl über reguläre Ausdrücke oder Zahlenbereiche zu
ermöglichen.</p>
<p>Leider dürfen die von den Projektpartnern separat aufgebauten bzw. dort bereits vorliegenden Korpora aus datenschutz- und urheberrechtlichen Gründen jedoch nicht als solche an die jeweils anderen Partner weitergegeben, damit also auch nicht an einem Ort zentral zusammengetragen werden. Dieser Umstand verteilt liegender Ressourcen erfordert die Schaffung einer Möglichkeit, zentrale Anfragen parallel an die einzelnen real existierenden Korpora zu stellen und in einem zweiten Schritt die Resultate der jeweiligen Standorte konzertiert zusammenzuführen.</p>
<p>Dafür wurde die KorAP-Architektur um das Konzept entfernter, selbstverwalteter Knoten erweitert. Hierbei sind Korpuseigner für die technische Bereitstellung von Daten selbst verantwortlich. Auf diese Weise behalten sie die uneingeschränkte Kontrolle über den Zugriff auf ihre Daten, während gleichzeitig der zentrale Abruf über eine Web-Schnittstelle erhalten bleibt. Die Lokalität der Daten für die Suche und die Erstellung virtueller Korpora ist dabei ohne Bedeutung. Für die Aggregation der Suchresultate müssen bereitgestellte Daten lediglich zuvor mit ihren Metadaten an der zentralen Schnittstelle registriert werden. Dieses Vorgehen ist effizient, zuverlässig und rechtskonform durchführbar.</p>
</body>
<back>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl><hi rend="bold">Bański, Piotr / Bingel, Joachim / Diewald, Nils / Frick,
Elena / Hanl, Michael / Kupietz, Marc / Pezik, Piotr / Schnober, Carsten
/ Witt, Andreas</hi> (2013): "KorAP: the new corpus analysis platform at
IDS Mannheim." Präsentiert auf der <hi rend="italic">6th Conference on
Language and Technology (LTC-2013), Poznan, Polen, Dezember
2013</hi>.</bibl>
<bibl><hi rend="bold">Bartz, Thomas / Beißwenger, Michael / Storrer,
Angelika</hi> (2014): "Optimierung des Stuttgart-Tübingen-Tagset für die
linguistische Annotation von Korpora zur internetbasierten Kommunikation:
Phänomene, Herausforderungen, Erweiterungsvorschläge", in: <hi rend="italic"
>Zeitschrift für germanistische Linguistik</hi> 28, 1: 157-198.</bibl>
<bibl><hi rend="bold">Bodmer, Franck</hi> (1996): "Aspekte der
Abfragekompononente von COSMAS-II", in: <hi rend="italic">LDV-INFO</hi> 8.
Informationsschrift der Arbeitsstelle Linguistische Datenverarbeitung
112-122. </bibl>
<bibl><hi rend="bold">Fischer, Peter M.</hi> (i.E.): <hi rend="italic">Eine
Datenbasis zur Beobachtung des Schreibgebrauchs im Deutschen</hi></bibl>
<bibl><hi rend="bold">Gray, Jim</hi> (2003): <hi rend="italic">Distributed
Computing Economics</hi>. Technical Report MSR-TR-2003-24. San
Francisco: Microsoft Research.</bibl>
<bibl><hi rend="bold">Horbach, Andrea / Thater, Stefan / Steffen, Diana /
Fischer, Peter M. / Witt, Andreas / Pinkal, Manfred</hi> (2015):
"Internet Corpora: A Challenge for Linguistic Processing", in: <hi
rend="italic">Datenbank-Spektrum</hi>15, 1: 41-47 <ref
target="http://link.springer.com/article/10.1007/s13222-014-0172-z"
>http://link.springer.com/article/10.1007/s13222-014-0172-z</ref>
[letzter Zugriff 26. Februar 2016].</bibl>
<bibl><hi rend="bold">Krome, Sabine</hi> (2010): "Die deutsche Gegenwartssprache
im Fokus korpusbasierter Lexikographie. Korpora als Grundlage moderner
allgemeinsprachlicher Wörterbücher am Beispiel des WAHRIG Textkorpus
Digital", in: Kratochvílová, Iva / Wolf, Norbert Richard (eds.): <hi
rend="italic">Kompendium Korpuslinguistik</hi>. Eine Bestandsaufnahme
aus deutsch-tschechischer Perspektive. Heidelberg: Universitätsverlag Winter
117-134.</bibl>
<bibl><hi rend="bold">Krome, Sabine</hi> (2013): "Digitale Datenflut: Chancen
und Tücken eines Textkorpus zur deutschen Gegenwartssprache.
Anforderungsprofil, Methoden und Instrumentarien zur Beobachtung des
aktuellen Sprach- und Schreibgebrauchs", in: Kratochvílová, Iva / Wolf,
Norbert Richard (eds.): <hi rend="italic">Grundlagen einer
sprachwissenschaftlichen Quellenkunde</hi>. Tübingen: Narr Verlag
49-66.</bibl>
<bibl><hi rend="bold">Kupietz, Marc / Lüngen, Harald</hi> (2014): "Recent
Developments in DeReKo", in: <hi rend="italic">Proceedings of the Ninth
International Conference on Language Resources and Evaluation
(LREC'14)</hi> 2378-2385.</bibl>
<bibl><hi rend="bold">Kupietz, Marc / Lüngen, Harald / Bański, Piotr / Belica,
Cyril</hi> (2014): "Maximizing the Potential of Very Large Corpora", in:
<hi rend="italic">Proceedings of the LREC-2014-Workshop Challenges in
the Management of Large Corpora (CMLC2)</hi> 1-6. </bibl>
<bibl><hi rend="bold">Münzberg, Franziska</hi> (2011): "Korpusrecherche in der
Dudenredaktion. Ein Werkstattbericht", in: Konopka, Marek / Kubczak,
Jacqueline / Mair, Christian / ticha, František / Waßner, Ulrich H.(eds.):
<hi rend="italic">Grammatik und Korpora 2009</hi>. Tübingen: Narr
Francke Attempto 181–197.</bibl>
<bibl><hi rend="bold">Schiller, Anne / Teufel, Simone / Stöckert, Christine /
Thielen, Christine</hi> (1999): <hi rend="italic">Guidelines für das
Tagging deutscher Textkorpora mit STTS</hi>. Technical report. Tübingen
/ Stuttgart: Universität Stuttgart / Universität Tübingen <ref
target="http://www.ims.unistuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf"
>http://www.ims.unistuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf</ref>
[letzter Zugriff 26. Februar 2016].</bibl>
<bibl><hi rend="bold">Scholze-Stubenrecht, Werner</hi> (2013): "The World Wide
Web as a resource for lexicography", in: Gouws, Rufus H. / Heid, Ulrich /
Schweickard, Wolfgang /Wiegand, Herbert Ernst (Hrsg.): <hi rend="italic"
>Dictionaries</hi>. An International Encyclopedia of Lexicography.
Supplementary volume: Recent Developments with Focus on Electronic and
Computational Lexicography (= HSK 5.4) 1365-1374. Berlin / New York: Mouton
de Gruyter.</bibl>
<bibl><hi rend="bold">TEI Consortium</hi> (2007): <hi rend="italic">Guidelines
for Electronic Text Encoding and Interchange (TEI P5)</hi>. The TEI
Consortium <ref target="http://www.tei-c.org/Guidelines/P5/"
>http://www.tei-c.org/Guidelines/P5/</ref> [letzter Zugriff 26. Februar
2016].</bibl>
<bibl><hi rend="bold">van Uytvanck, Dieter</hi> (2010): <hi rend="italic">CLARIN
Short Guide on Virtual Collections</hi>. Technical report. CLARIN
<ref target="ref">http://www.clarin.eu/files/virtual_collections-CLARIN-ShortGuide.pdf</ref> [letzter Zugriff 26. Februar 2016].</bibl>
</listBibl>
</div>
</back>
</text>
</TEI>