forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 0
/
posters-072.xml
184 lines (182 loc) · 11.6 KB
/
posters-072.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-072">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Gegenwärtige dialektspezifische Daten und deren Anwendung in der Dialektometrie</title>
<author>
<name>
<surname>Zhekova</surname>
<forename>Desislava</forename>
</name>
<affiliation>Centrum für Informations- und Sprachverarbeitung (CIS), LMU, München</affiliation>
<email>desi@cis.uni-muenchen.de</email>
</author>
<author>
<name>
<surname>Krefeld</surname>
<forename>Thomas</forename>
</name>
<affiliation>Centrum für Informations- und Sprachverarbeitung (CIS), LMU, München</affiliation>
<email>thomas.krefeld@lmu.de</email>
</author>
<author>
<name>
<surname>Herteis</surname>
<forename>Simeon</forename>
</name>
<affiliation>Centrum für Informations- und Sprachverarbeitung (CIS), LMU, München</affiliation>
<email>simeon.herteis@gmail.com</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-09-16T15:00:14</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from an OASIS Open Document</p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.17">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Poster</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>Finite-State-Morphologie</term>
<term>Dialektometrie</term>
<term>neue Datenarten</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Programmierung</term>
<term>Modellierung</term>
<term>Annotieren</term>
<term>Veröffentlichung</term>
<term>Infrastruktur</term>
<term>Sprache</term>
<term>Forschung</term>
<term>Software</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<div type="div1">
<head>Einleitung</head>
<p>Die Datenverarbeitung innerhalb der Geisteswissenschaften ist sehr eng mit den
gegenwärtigen technologischen Entwicklungen verbunden und dementsprechend auch
stark davon abhängig. Ein sehr gutes Beispiel dafür ist das Gebiet der
Dialektologie / Dialektometrie. Klassische Dialektometrie ist eine
Forschungsrichtung innerhalb der Linguistik, die sich mit der Erforschung
möglichst hochrangiger Ordnungsstrukturen in sprachgeographischen Netzen
beschäftigt. Diese Aufgabe wurde bislang hauptsächlich durch die Analyse
gesprochener Sprache (z. B. akustische Aufnahmen) oder der sogenannten
Fragebögen (z. B. gezielt abgefragte, schriftliche Daten) bewältigt. Ein
Nachteil dieser ist allerdings, dass die erhobenen Daten stark beeinflusst oder
nicht schriftlich sind. Durch die gegenwärtigen Entwicklungen in der
Informationstechnologie sind Sammlungen von neuartigen Dialektdaten erreichbar
(die ohne äußeren Einfluss, gesammelt wurden und darüber hinaus in schriftlicher
Form als Datensatz vorhanden sind), womit in der Dialektometrie neue Wege
gegangen werden können. Ein Beispiel dafür sind neue Medien, wie z. B.
Wikipedia, Twitter, digitale Zeitschriften, etc., in denen außerdem
Veränderungen in der Gesellschaft schnell abgebildet werden.</p>
<p> Allein in Wikipedia ist eine große Anzahl an Dialekten vertreten, wie zum
Beispiel die italienischen Dialekte Lombardisch (31.986 Artikel)
<ref type="note" target="n01" n="1">1</ref>, Sizilianisch (25.273 Artikel), Neapolitanisch (14.346 Artikel) etc., die
fortlaufend mit neuen Artikeln erweitert werden, die nicht nur von einem,
sondern von mehreren Autoren editiert werden. Aus diesen Artikeln kann eine
bisher nicht vorhandene Art Korpus erstellt werden, dessen Untersuchung die
Beantwortung völlig neuer Fragestellungen möglich werden lässt. </p>
<p>Die Größe dieser neuen Korpora ermöglicht nicht nur neuartige Fragestellungen in der Dialektometrie, sondern auch einen zeitgenössischen und automatisierten Vergleich für die Analyse von Dialekten und ihren linguistischen Eigenschaften (basiert auf statistische Ansätze). Für solche Verfahren ist allerdings nicht nur die vorhandene Datenmenge wichtig, sondern auch die leichte Erreichbarkeit von qualitativen Annotationen und Analysetools. Diese wurden bislang hauptsächlich für die Standardsprachen entwickelt, für Dialekte existieren diese bis jetzt nur in wenigen Ausnahmefällen.</p>
<p>Ein solches Analysetool für die Standardsprache Italienisch ist AnIta (Tamburini
/ Melandri 2012), ein morphologisches Finite-State-Analysetool, welches bisher
nur für das Italienische verwendet werden kann. In AnIta können aber auch viele
empirische Belege für Dialekte integriert werden, sodass die maschinelle
Bearbeitung vieler italienischer Dialekte möglich wird. Die neuen
Dialektwikipedias ermöglichen auch einen halb automatisierten Ansatz dafür.</p>
</div>
<div type="div1">
<head>
SiMoN
</head>
<div type="div2">
<head>Überblick</head>
<p>In unserer Softwaredemonstration möchten wir eine vorläufige Erweiterung von AnIta vorstellen, die mit vielen regelmäßigen Verbparadigmen des sizilianischen Dialekts erweitert wurde - SiMoN (Sizilianische Morphologie für NLP-Anwendungen). Die Version der Softwaredemonstration ist schon
<ref target="http://www.cis.uni-muenchen.de/linguistics">online</ref> erreichbar. Aus Einträgen der sizilianischen Wikipedia wurden Verblemmata (368 sizilianische Lemmata) für das Lexikon von AnIta automatisch extrahiert anhand von dem Auftreten regulären sizilianischen Verbendungen und einer Liste von Verben im Italienischen. Da sich die Verben des Sizilianischen in nur zwei Typen aufteilen (statt wie im Italienischen in drei), sind nur Verbeinträge mit Endungen auf
<hi rend="italic">-ari</hi> und auf
<hi rend="italic">-iri</hi> vorhanden. Die gesamte Zahl, der durch Flexionsparadigmen erfassten Verbformen beläuft sich auf ca. 24.700. Damit bietet SiMoN einen ersten Grundstock für die Entwicklung einer computergestützten, sizilianischen Morphologie.
</p>
</div>
<div type="div2">
<head>Dokumentierte Paradigmen</head>
<p>Der Fokus der zu untersuchenden Paradigmen liegt in dieser Arbeit auf den Konjugationsmustern regelmäßiger Verben. Das vorderste Ziel ist es hier, eine Grundlage für die Verbanalyse für Sizilianisch zu schaffen. Im Gegensatz zum Italienischen gibt es für einige Verben eine große Zahl an Wahlmöglichkeiten für Endungen konjugierter Formen, die regional unterschiedlich verbreitet und gleichermaßen gültig sind. Bonner und Cipolla (2001) dokumentieren für die regelmäßigen Verben einiger Zeiten und Modi alternative Formen, die wir verfolgen. Diese Alternativformen gehören alle zum selben Paradigma. Daher gibt es im jeweiligen Lexikon der beiden Verbtypen in SiMoN teilweise mehrfache Einträge zur Konjugation der ersten, zweiten oder dritten Person. Eine vorläufige Analyse des gewonnenen Wikipedia-Korpus zeigte ebenfalls, dass die verschiedenen Varianten der Verben in der Praxis verwendet werden. Stammveränderungen in der sizilianischen Verbgrammatik existieren ebenfalls, diese Fälle werden allerdings mit SiMoN im Moment noch nicht abgedeckt.</p>
<table rend="frame" xml:id="Table1">
<row>
<cell>
<figure>
<graphic url="p072-10000201000004930000031004313B5A.png"/>
</figure>
</cell>
</row>
</table>
<p><hi rend="bold">Tabelle 1</hi>: Die regelmäßigen Konjugationsformen, die in
SiMoN integriert wurden.</p>
<p>In Tabelle 1 sind die regelmäßigen Konjugationsformen (die in SiMoN vorhanden
sind) am Beispiel der sizilianischen Verben <hi rend="italic">parrari</hi>
(Deutsch - reden) und <hi rend="italic">battiri</hi> (Deutsch - schlagen)
aufgeführt. Die Formen beider Verbtypen in den Flexionskategorien Indikativ,
Imperativ und Subjunktiv, sowie Konditional und Gerundium sind jeweils
vorhanden. Die Paradigmen der unregelmäßigen Hilfsverben <hi rend="italic"
>essiri</hi> (Deutsch - sein) und <hi rend="italic">aviri</hi> (Deutsch
- haben) sowie das sehr häufig verwendete <hi rend="italic">fari</hi>
(Deutsch - machen) wurden ebenfalls in SiMoN in die Liste der Lemmata
aufgenommen, um Partizipkonstruktionen u. ä. zu erkennen. </p>
</div>
</div>
<div type="div1">
<head>Ausblick</head>
<p>Unserer Ziel ist vorerst anhand den Texten der Wikipedia für Standard Italienisch und alle andere Dialektwikipedias weiterhin automatisch dialektspezifische Verben zu extrahieren und damit SiMoN zu erweitern. Damit können zusätzliche Dialekte auch behandelt und entwickelt werden. SiMoN würde dann eine automatisierte morphologische Analyse für reguläre italienische Dialektparadigmen ermöglichen, was wir bis jetzt nur für Sizilianisch anbieten können. Weiterhin ist es geplant auch irreguläre Dialektparadigmen manuell zu integrieren.</p>
</div>
</body>
<back>
<div type="Notes">
<note xml:id="n01" n="1">Die Zahlen sind von Wikipedia
entnommen worden (Stand: August 2015). </note>
</div>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl>
<hi rend="bold">Bonner, J. K. "Kirk" / Cipolla, Gaetano</hi> (2001): <hi
rend="italic">Introduction to Sicilian Grammar</hi>. Brooklyn, NY:
Legas. </bibl>
<bibl><hi rend="bold">Tamburini, Fabio / Melandri, Matias</hi> (2012): „AnIta: A
Powerful Morphological Analyser for Italian“, in: <hi rend="italic"
>Proceedings of the Eight International Conference on Language Resources
and Evaluation (LREC’12)</hi>, Istanbul, Turkey 941-947.</bibl>
</listBibl>
</div>
</back>
</text>
</TEI>