input/xml/posters-074.xml

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-074">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>Aufbau einer Korpusinfrastruktur für die Beobachtung des Schreibgebrauchs</title>
        <author>
          <name>
            <surname>Fischer</surname>
            <forename>Peter M.</forename>
          </name>
          <affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
          <email>peter.fischer@ids-mannheim.de</email>
        </author>
        <author>
          <name>
            <surname>Diewald</surname>
            <forename>Nils</forename>
          </name>
          <affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
          <email>diewald@ids-mannheim.de</email>
        </author>
        <author>
          <name>
            <surname>Kupietz</surname>
            <forename>Marc</forename>
          </name>
          <affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
          <email>kupietz@ids-mannheim.de</email>
        </author>
        <author>
          <name>
            <surname>Witt</surname>
            <forename>Andreas</forename>
          </name>
          <affiliation>Institut für Deutsche Sprache, Deutschland</affiliation>
          <email>witt@ids-mannheim.de</email>
        </author>
      </titleStmt>
      <editionStmt>
        <edition>
          <date>2015-10-18T23:48:48.63</date>
        </edition>
      </editionStmt>
      <publicationStmt>
        <publisher>Elisabeth Burr, Universität Leipzig</publisher>
        <address>
          <addrLine>Beethovenstr. 15</addrLine>
          <addrLine>04107 Leipzig</addrLine>
          <addrLine>Deutschland</addrLine>
          <addrLine>Elisabeth Burr</addrLine>
        </address>
      </publicationStmt>
      <sourceDesc>
        <p>Converted from an OASIS Open Document</p>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <appInfo>
        <application ident="DHCONVALIDATOR" version="1.14">
          <label>DHConvalidator</label>
        </application>
      </appInfo>
    </encodingDesc>
    <profileDesc>
      <textClass>
        <keywords scheme="ConfTool" n="category">
          <term>Poster</term>
        </keywords>
        <keywords scheme="ConfTool" n="subcategory">
          <term></term>
        </keywords>
        <keywords scheme="ConfTool" n="keywords">
          <term>Korpusinfrastruktur</term>
        </keywords>
      </textClass>
    </profileDesc>
  </teiHeader>
  <text>
    <body>
      <p>Mit dem Ziel, eine systematische Beobachtung des Schreibgebrauchs unter Verwendung
        computerlinguistischer Methoden zu ermöglichen, wurde 2013 das vom BMBF geförderte
        Forschungsprojekt <hi rend="italic">Analyse und Instrumentarien zur Beobachtung des
        Schreibgebrauchs im Deutschen</hi> ins Leben gerufen. An diesem beteiligen sich
        gemeinschaftlich das Institut für Deutsche Sprache, das Institut für
        Computerlinguistik der Universität des Saarlandes, sowie die Wörterbuchverlage
        Bibliographisches Institut GmbH (Dudenverlag) und Wahrig bei Brockhaus. Das Projekt
        hat sich u.a. zur Aufgabe gemacht, eine zweckdienliche Datengrundlage (Fischer i.E.)
        und ein dazugehöriges Methodeninventar (Scholze-Stubenrecht 2013) aufzubauen. </p>
        <p>Für die Erstellung von Korpusanalysen mit Auswertung nach eigens erarbeiteten
          Bewertungskriterien (Krome, 2013) ist das Projekt auf eine geeignete
          Korpusinfrastruktur angewiesen, die es den beteiligten Partnern erlaubt,
          entsprechende Suchanfragen auf den einerseits umfangreichen (über 10 Mrd. Tokens),
          andererseits aus datenschutz- und urheberrechtlichen Gründen mitunter verteilt
          liegenden Ressourcen effizient und zuverlässig durchzuführen. Dabei wird
          entsprechend Jim Grays (Gray 2003) Maxime "put the computation near the data"
          (Kupietz et al. 2014) der Ansatz verteilter virtueller Korpora bzw.
          Kollektionen (van Uytvanck 2010) verfolgt, der darauf abzielt, dedizierte, auf die
          spezifischen Suchanfragen ausgerichtete Subkorpora zu definieren und auf diesen
          rechtskonform zu operieren.</p>
          <p>KorAP (Bański et al. 2013) ist eine Such- und Analyseplattform, die eine solche
            Infrastruktur zur Verfügung stellt. Sie wurde als Nachfolgesystem von
            COSMAS-II (Bodmer 1996) am Institut für Deutsche Sprache als primäre Schnittstelle
            für den Zugriff auf DeReKo (Kupietz / Lüngen 2014), das Deutsche Referenzkorpus,
            entwickelt. KorAP ermöglicht die Suche in sehr großen, mehrfach annotierten, und
            heterogen lizenzierten Korpora über eine Vielzahl von Suchoperatoren verschiedener
            Anfragesprachen. Die dynamische Erstellung virtueller Korpora wird dabei durch
            Kombination von Metadatenkriterien realisiert. Dies steht auch im Einklang mit dem
            Projektdesiderat, die Anbindung an die europäische Sprachressourceninfrastruktur
            CLARIN, die bereits eine Fülle von Werkzeugen anbietet, zu intensivieren und damit
            die Sichtbarkeit der Ressourcen auch im internationalen Kontext zu erhöhen.</p>
            <p>Dieses Paper beleuchtet damit jene Arbeiten, die sich mit dem Prozess des Aufbaus der Korpusinfrastruktur, d.h. der Aufbereitung, Organisation und Bereitstellung der Datengrundlage befassen.</p>
            <p>Als empirische Basis des Projektes dient die parallele Beobachtung und Auswertung von drei Zielgruppen und Ebenen der Textproduktion, nämlich die der professionellen Schreiber (in Zeitungen, Zeitschriften usw.), die den Schreibgebrauch der Schreibgemeinschaft heute entscheidend mitbestimmen, die der Schüler (in Klassenarbeiten, Abituraufsätzen, Literaturwettbewerben usw.), die als Repräsentanten der jungen Generation im schulischen Kontext an die amtlichen Regeln zur Rechtschreibung gebunden sind, und die der Internetnutzer (in E-Mails, sozialen Netzwerken, Meinungsportalen usw.), die in einer im Vergleich zu Druckerzeugnissen weniger kontrollierten Umgebung Entwicklungs- und Fehlertendenzen viel früher und deutlicher wiedergeben können als das beispielsweise in Zeitungstexten oder belletristischen Korpora der Fall ist. Dementsprechend steuern diese drei heterogenen Quellen auch unterschiedliche Informationen bei und stellen den Aufbau der Korpusinfrastruktur vor individuelle Herausforderungen.</p>
            <p>Aus korpustechnologischer Sicht konnte das Projekt in Teilen auf bereits vorhandene,
              wohlstrukturierte und linguistisch aufbereitete Ressourcen wie das Deutsche
              Referenzkorpus DeReKo (Kupietz / Lüngen 2014), das WAHRIG Textkorpus <hi rend="sup"
              >Digital</hi> (Krome 2010) oder das Dudenkorpus (Münzberg 2011) zurückgreifen,
              während andere erst akquiriert, für eine maschinelle Verarbeitung vorbereitet und
              mit linguistischen Informationen angereichert werden mussten. Da entsprechende
              sprachtechnologische Verfahren (Tokenisierung, Lemmatisierung, Wortart-Tagging,
              flache syntaktische Analyse) jedoch überwiegend für stärker kontrollierte Texte
              entwickelt wurden und daher nicht auf alle diese drei Quellen gleichermaßen
              anwendbar sind, mussten überdies zunächst geeignete Werkzeuge (weiter-)entwickelt
              werden (Horbach et al. 2015), um einen für Vergleichsanalysen ausgewogenen
              Aufbereitungsstand zu erreichen. </p>
              <p>Neben diesen linguistischen Merkmalen verfügen die Texte auch über gewisse Metadaten, die aber in Struktur und Ausprägung stark an den Ressourcenkontext gebunden sind und deshalb mitunter entsprechend heterogen ausfallen. Das Zurückgreifen auf diese Informationen stellt jedoch bei synchronen wie diachronen Auswertungen ein für die systematische Beobachtung des Schreibgebrauchs zentrales Nutzungsszenario dar, das eine ordentliche Zusammenstellung solcher Zusatzinformationen erfordert. Folglich ist für die Erstellung virtueller Korpora und damit für ihre anfrageoptimierte Bereitstellung innerhalb der Analyseinfrastruktur die Erfassung von Metadaten unerlässlich. Die folgende Aufstellung zeigt eine Übersicht der Ressourcentypen und ihrer Metadaten.</p>
              <p>Texte professioneller Schreiber (am Beispiel Zeitschriftenkorpus)</p>
              <list type="unordered">
                <item>Name der Zeitung</item>
                <item>Nummer der Ausgabe</item>
                <item>Titel des Artikels</item>
                <item>Untertitel des Artikels</item>
                <item>Name des Autors</item>
                <item>Ort der Veröffentlichung</item>
                <item>Tag der Veröffentlichung</item>
                <item>Textklasse (z.B. Wirtschaft oder Sport)</item>
                <item>Textsorte (z.B. Gerichtsurteil oder Satire)</item>
              </list>
              <p>Schülertexte (am Beispiel Literaturwettbewerbskorpus)</p>
              <list type="unordered">
                <item>Name des Wettbewerbs</item>
                <item>Jahrgang (Einsendeschluss)</item>
                <item>Titel des Textes</item>
                <item>Altersklasse des Autors</item>
                <item>Geschlecht des Autors</item>
              </list>
              <p>Internettexte (am Beispiel Zeitungsleserkommentarkorpus)</p>
              <list type="unordered">
                <item>Name der Zeitung</item>
                <item>Titel des Artikels</item>
                <item>Teaser des Artikels</item>
                <item>Schlagwörter zum Artikel</item>
                <item>Tag der Artikelveröffentlichung</item>
                <item>Pseudonym des Kommentarautors</item>
                <item>Tag der Kommentarveröffentlichung</item>
                <item>Titel des Kommentars</item>
              </list>
              <p>Die Grundstrukturierung der Datenbasis samt aller Annotationen und Metadaten erfolgt
                einheitlich gemäß den Vorgaben von TEI P5 (TEI Consortium 2007), das als auf das
                Kodieren von Textkorpora ausgerichtetes und auf XML aufbauendes Datenformat einen
                langjährig etablierten Standard zur Strukturierung linguistischer Daten darstellt.
                Zur Auszeichnung der Wortartinformationen (POS) wurde das Stuttgart-Tübingen-Tagset
                STTS (Schiller et al. 1999) herangezogen, bzw. im Falle der nicht-professionellen
                Textsubstanzen um Elemente aus STTS 2.0 (Bartz et al. 2014), einer
                abwärtskompatiblen Weiterentwicklung, die speziell auf die Anwendung auf Ressourcen
                aus internetbasierter Kommunikation optimiert wurde, ergänzt. Die TEI-kodierten
                Daten werden daraufhin in die interne KorAP-Repräsentation überführt und indiziert.
                Für vorhandene Metadaten werden optimierte Indizierungsstrategien gewählt, um
                beispielsweise eine Kriterienwahl über reguläre Ausdrücke oder Zahlenbereiche zu
                ermöglichen.</p>
                <p>Leider dürfen die von den Projektpartnern separat aufgebauten bzw. dort bereits vorliegenden Korpora aus datenschutz- und urheberrechtlichen Gründen jedoch nicht als solche an die jeweils anderen Partner weitergegeben, damit also auch nicht an einem Ort zentral zusammengetragen werden. Dieser Umstand verteilt liegender Ressourcen erfordert die Schaffung einer Möglichkeit, zentrale Anfragen parallel an die einzelnen real existierenden Korpora zu stellen und in einem zweiten Schritt die Resultate der jeweiligen Standorte konzertiert zusammenzuführen.</p>
                <p>Dafür wurde die KorAP-Architektur um das Konzept entfernter, selbstverwalteter Knoten erweitert. Hierbei sind Korpuseigner für die technische Bereitstellung von Daten selbst verantwortlich. Auf diese Weise behalten sie die uneingeschränkte Kontrolle über den Zugriff auf ihre Daten, während gleichzeitig der zentrale Abruf über eine Web-Schnittstelle erhalten bleibt. Die Lokalität der Daten für die Suche und die Erstellung virtueller Korpora ist dabei ohne Bedeutung. Für die Aggregation der Suchresultate müssen bereitgestellte Daten lediglich zuvor mit ihren Metadaten an der zentralen Schnittstelle registriert werden. Dieses Vorgehen ist effizient, zuverlässig und rechtskonform durchführbar.</p>
              </body>
              <back>
                <div type="bibliogr">
                  <listBibl>
                    <head>Bibliographie</head>
                    <bibl><hi rend="bold">Bański, Piotr / Bingel, Joachim / Diewald, Nils / Frick,
                      Elena / Hanl, Michael / Kupietz, Marc / Pezik, Piotr / Schnober, Carsten
                      / Witt, Andreas</hi> (2013): "KorAP: the new corpus analysis platform at
                      IDS Mannheim." Präsentiert auf der <hi rend="italic">6th Conference on
                      Language and Technology (LTC-2013), Poznan, Polen, Dezember
                      2013</hi>.</bibl>
                      <bibl><hi rend="bold">Bartz, Thomas / Beißwenger, Michael / Storrer,
                        Angelika</hi> (2014): "Optimierung des Stuttgart-Tübingen-Tagset für die
                        linguistische Annotation von Korpora zur internetbasierten Kommunikation:
                        Phänomene, Herausforderungen, Erweiterungsvorschläge", in: <hi rend="italic"
                        >Zeitschrift für germanistische Linguistik</hi> 28, 1: 157-198.</bibl>
                        <bibl><hi rend="bold">Bodmer, Franck</hi> (1996): "Aspekte der
                        Abfragekompononente von COSMAS-II", in: <hi rend="italic">LDV-INFO</hi> 8.
                        Informationsschrift der Arbeitsstelle Linguistische Datenverarbeitung
                        112-122. </bibl>
                        <bibl><hi rend="bold">Fischer, Peter M.</hi> (i.E.): <hi rend="italic">Eine
                        Datenbasis zur Beobachtung des Schreibgebrauchs im Deutschen</hi></bibl>
                        <bibl><hi rend="bold">Gray, Jim</hi> (2003): <hi rend="italic">Distributed
                        Computing Economics</hi>. Technical Report MSR-TR-2003-24. San
                        Francisco: Microsoft Research.</bibl>
                        <bibl><hi rend="bold">Horbach, Andrea / Thater, Stefan / Steffen, Diana /
                          Fischer, Peter M. / Witt, Andreas / Pinkal, Manfred</hi> (2015):
                          "Internet Corpora: A Challenge for Linguistic Processing", in: <hi
                          rend="italic">Datenbank-Spektrum</hi>15, 1: 41-47 <ref
                          target="http://link.springer.com/article/10.1007/s13222-014-0172-z"
                          >http://link.springer.com/article/10.1007/s13222-014-0172-z</ref>
                          [letzter Zugriff 26. Februar 2016].</bibl>
                          <bibl><hi rend="bold">Krome, Sabine</hi> (2010): "Die deutsche Gegenwartssprache
                          im Fokus korpusbasierter Lexikographie. Korpora als Grundlage moderner
                          allgemeinsprachlicher Wörterbücher am Beispiel des WAHRIG Textkorpus
                          Digital", in: Kratochvílová, Iva / Wolf, Norbert Richard (eds.): <hi
                          rend="italic">Kompendium Korpuslinguistik</hi>. Eine Bestandsaufnahme
                          aus deutsch-tschechischer Perspektive. Heidelberg: Universitätsverlag Winter
                          117-134.</bibl>
                          <bibl><hi rend="bold">Krome, Sabine</hi> (2013): "Digitale Datenflut: Chancen
                          und Tücken eines Textkorpus zur deutschen Gegenwartssprache.
                          Anforderungsprofil, Methoden und Instrumentarien zur Beobachtung des
                          aktuellen Sprach- und Schreibgebrauchs", in: Kratochvílová, Iva / Wolf,
                          Norbert Richard (eds.): <hi rend="italic">Grundlagen einer
                          sprachwissenschaftlichen Quellenkunde</hi>. Tübingen: Narr Verlag
                          49-66.</bibl>
                          <bibl><hi rend="bold">Kupietz, Marc / Lüngen, Harald</hi> (2014): "Recent
                          Developments in DeReKo", in: <hi rend="italic">Proceedings of the Ninth
                          International Conference on Language Resources and Evaluation
                          (LREC'14)</hi> 2378-2385.</bibl>
                          <bibl><hi rend="bold">Kupietz, Marc / Lüngen, Harald / Bański, Piotr / Belica,
                            Cyril</hi> (2014): "Maximizing the Potential of Very Large Corpora", in:
                            <hi rend="italic">Proceedings of the LREC-2014-Workshop Challenges in
                              the Management of Large Corpora (CMLC2)</hi> 1-6. </bibl>
                              <bibl><hi rend="bold">Münzberg, Franziska</hi> (2011): "Korpusrecherche in der
                              Dudenredaktion. Ein Werkstattbericht", in: Konopka, Marek / Kubczak,
                              Jacqueline / Mair, Christian / ticha, František / Waßner, Ulrich H.(eds.):
                              <hi rend="italic">Grammatik und Korpora 2009</hi>. Tübingen: Narr
                              Francke Attempto 181–197.</bibl>
                              <bibl><hi rend="bold">Schiller, Anne / Teufel, Simone / Stöckert, Christine /
                                Thielen, Christine</hi> (1999): <hi rend="italic">Guidelines für das
                                Tagging deutscher Textkorpora mit STTS</hi>. Technical report. Tübingen
                                / Stuttgart: Universität Stuttgart / Universität Tübingen <ref
                                target="http://www.ims.unistuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf"
                                >http://www.ims.unistuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf</ref>
                                [letzter Zugriff 26. Februar 2016].</bibl>
                                <bibl><hi rend="bold">Scholze-Stubenrecht, Werner</hi> (2013): "The World Wide
                                Web as a resource for lexicography", in: Gouws, Rufus H. / Heid, Ulrich /
                                Schweickard, Wolfgang /Wiegand, Herbert Ernst (Hrsg.): <hi rend="italic"
                                >Dictionaries</hi>. An International Encyclopedia of Lexicography.
                                Supplementary volume: Recent Developments with Focus on Electronic and
                                Computational Lexicography (= HSK 5.4) 1365-1374. Berlin / New York: Mouton
                                de Gruyter.</bibl>
                                <bibl><hi rend="bold">TEI Consortium</hi> (2007): <hi rend="italic">Guidelines
                                for Electronic Text Encoding and Interchange (TEI P5)</hi>. The TEI
                                Consortium <ref target="http://www.tei-c.org/Guidelines/P5/"
                                >http://www.tei-c.org/Guidelines/P5/</ref> [letzter Zugriff 26. Februar
                                2016].</bibl>
                                <bibl><hi rend="bold">van Uytvanck, Dieter</hi> (2010): <hi rend="italic">CLARIN
                                Short Guide on Virtual Collections</hi>. Technical report. CLARIN
                                <ref target="ref">http://www.clarin.eu/files/virtual_collections-CLARIN-ShortGuide.pdf</ref> [letzter Zugriff 26. Februar 2016].</bibl>
                              </listBibl>
                            </div>
                          </back>
                        </text>
                      </TEI>