diff --git a/2022_010_goedeke_et_al/generalisation_2021_v1_0.pdf b/2022_010_goedeke_et_al/generalisation_2021_v1_0.pdf new file mode 100644 index 0000000000000000000000000000000000000000..24aa1154f7e29cc302b51e685e48d52964750bd6 Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2021_v1_0.pdf differ diff --git a/2022_010_goedeke_et_al/generalisation_2021_v1_0.xml b/2022_010_goedeke_et_al/generalisation_2021_v1_0.xml new file mode 100644 index 0000000000000000000000000000000000000000..b36cbca045d534280c6d01c91c9cac100616084a --- /dev/null +++ b/2022_010_goedeke_et_al/generalisation_2021_v1_0.xml @@ -0,0 +1,1964 @@ +<?xml version="1.0" encoding="utf-8"?> +<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax" +?> +<TEI xmlns="http://www.tei-c.org/ns/1.0" + xmlns:html="http://www.w3.org/1999/html" + xmlns:tei="http://www.tei-c.org/ns/1.0" + xmlns:xlink="http://www.w3.org/1999/xlink" + xmlns:xhtml="http://www.w3.org/1999/xhtml"> + <teiHeader> + <fileDesc> + <titleStmt> + <title> + <biblStruct> + <analytic> + <title level="a">Generalisierungen als literarisches Phänomen. Charakterisierung, Annotation und automatische Erkennung</title> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Luisa</forename> + <surname>Gödeke</surname> + </name> + <email>luisa.goedeke@uni-goettingen.de</email> + <idno type="gnd">1228354081</idno> + <idno type="orcid">0000-0003-3230-8993</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Florian</forename> + <surname>Barth</surname> + </name> + <email>barth@sub.uni-goettingen.de</email> + <idno type="gnd">1228353344</idno> + <idno type="orcid">0000-0003-3408-7311</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Göttingen Centre for Digital Humanities (GCDH)</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Tillmann</forename> + <surname>Dönicke</surname> + </name> + <email>tillmann.doenicke@uni-göttingen.de + </email> + <idno type="gnd">122835300X</idno> + <idno type="orcid">0000-0001-5844-9167</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Göttingen Centre for Digital Humanities (GCDH)</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Hanna</forename> + <surname>Varachkina</surname> + </name> + <email>hanna.varachkina@stud.uni-goettingen.de</email> + <idno type="gnd">1269647261</idno> + <idno type="orcid">0000-0002-5832-3983</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Anna Mareike</forename> + <surname>Weimer</surname> + </name> + <email>annamareike.hofmann@uni-goettingen.de</email> + <idno type="gnd">1228354707</idno> + <idno type="orcid">0000-0002-2352-4793</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Benjamin</forename> + <surname>Gittel</surname> + </name> + <email>benjamin.gittel@uni-goettingen.de</email> + <idno type="gnd">1041237715</idno> + <idno type="orcid">0000-0002-1855-0049</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Anke</forename> + <surname>Holler</surname> + </name> + <email>anke.holler@phil.uni-goettingen.de</email> + <idno type="gnd">142630578</idno> + <idno type="orcid">0000-0003-0566-1150</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Caroline</forename> + <surname>Sporleder</surname> + </name> + <email>csporled@cs.uni-goettingen.de</email> + <idno type="gnd">142630578</idno> + <idno type="orcid">0000-0003-0566-1150</idno> + </persName> + </resp> + <orgName>Georg-August-Universität Göttingen, Institut für Informatik und Göttingen Centre for Digital Humanities (GCDH)</orgName> + </respStmt> + <idno type="doi">10.17175/2022_010</idno> + <idno type="ppn">1817977911</idno> + <idno type="zfdg">2022.010</idno> + <idno type="url">https://www.zfdg.de/node/365</idno> + <date when="2022-11-24">24.11.2022</date> + </analytic> + <monogr> + <title level="j">Zeitschrift für digitale Geisteswissenschaften</title> + <respStmt> + <resp>Publiziert von</resp> + <orgName role="marc_pbl">Herzog August Bibliothek</orgName> + </respStmt> + <respStmt> + <resp>Transformation der Word Vorlage nach TEI</resp> + <persName/> + <name role="marc_trc"> + <surname>Baumgarten</surname> + <forename>Marcus</forename> + <idno type="gnd">1192832655</idno> + </name> + </respStmt> + <availability status="free"> + <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref> + </p> + </availability> + <biblScope unit="year">2022</biblScope> + <biblScope unit="artikel">10</biblScope> + </monogr> + </biblStruct> + </title> + </titleStmt> + <editionStmt> + <edition>Elektronische Ausgabe nach TEI P5</edition> + </editionStmt> + <publicationStmt> + <distributor> + <name> + <orgName>Herzog August Bibliothek Wolfenbüttel</orgName> + </name> + </distributor> + <idno type="doi">10.17175/zfdg.01</idno> + <idno type="ppn">0819494402</idno> + <authority> + <name>Herzog August Bibliothek</name> + <address> + <addrLine>Lessingplatz 1</addrLine> + <addrLine>38304 Wolfenbüttel</addrLine> + </address> + </authority> + <authority> + <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name> + <address> + <addrLine>Burgplatz 4</addrLine> + <addrLine>99423 Weimar </addrLine> + </address> + </authority> + <availability status="free"> + <p> Sofern nicht anders angegeben </p> + <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence> + </availability> + <availability status="free"> + <p> Available at <ref target="workID">https://www.zfdg.de; (c) + Forschungsverbund MWW</ref> + </p> + </availability> + </publicationStmt> + <sourceDesc> + <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p> + </sourceDesc> + </fileDesc> + <encodingDesc> + <editorialDecl> + <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und XSLT-Skripten</p> + <p>Medienrechte liegen bei den Autor*innen</p> + <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Martin de la Iglesia</persName>.</p> + <p>All links checked<date when="2022-10-20">20.10.2022</date></p> + </editorialDecl> + </encodingDesc> + <profileDesc> + <creation>Einreichung als Artikel der Zeitschrift für digitale + Geisteswissenschaften</creation> + <langUsage> + <language ident="de">Text in Deutsch</language> + <language ident="de">Abstract in Deutsch</language> + <language ident="en">Abstract in Englisch</language> + </langUsage> + <textClass> + <keywords scheme="gnd"> + <term>Computerlinguistik<ref target="4035843-4"/> + </term> + + <term>Erzähltheorie<ref target="4152975-3"/> + </term> + <term>Quantifizierung (Linguistik)<ref target="4076453-9"/> + </term> + + <term>Literaturwissenschaft<ref target="4036034-9"/> + </term> + + + </keywords> + </textClass> + </profileDesc> + <revisionDesc> + <change/> + </revisionDesc> + </teiHeader> + <text> + <body> + <div> + <div type="abstract"> + <argument xml:lang="de"> + <p>Generalisierungen in Erzähltexten dienen typischerweise nicht + oder nicht ausschließlich dazu, die erzählte Welt aufzubauen, sondern um + Informationen über die Erzählinstanz, den Sinn des Erzählten oder die reale Welt + bereitzustellen. Der Aufsatz leistet einen Beitrag zur + linguistisch-literaturwissenschaftlichen Beschreibung von Generalisierungen, + entwickelt ein Tagset für ihre Identifikation und Klassifikation und stellt die + Ergebnisse ihrer kollaborativen Annotation in einem diachronen Korpus (1616–1930) + dar. Die schließlich vorgestellten regelbasierten und statistischen Tagger zur + automatischen Erkennung von Generalisierungen gewährleisten den Zugang zu einer + breiten Basis von Textbeispielen und ermöglichen eine empirisch gesättigte Analyse + der Funktionen von Generalisierungen und der assoziierten narratologischen + Phänomene.</p> + </argument> + <argument xml:lang="en"> + <p>Generalisations in narrative texts typically do not or not + exclusively serve to devise the narrated world, but provide information about the + narrative instance, the meaning of what is told or the real world. The paper + contributes to the linguistic-literary description of generalisations, develops a + tagset for their identification and classification, and presents the results of + their collaborative annotation in a diachronic corpus (1616–1930). Finally, the + paper presents a rule-based and a statistical tagger for the automatic recognition + of generalisations that allow users to access a variety of examples of the + phenomenon and can be used in the analysis of the functions of generalisations and + the associated narratological phenomena.</p> + </argument> + </div> + <div type="chapter"> + <head>1. Einleitung</head> + + <p>Das wohl bekannteste Beispiel für + Generalisierungen in der literaturwissenschaftlichen Forschung ist der erste Satz + aus Tolstojs <bibl> + <title type="desc">Anna Karenina</title> + </bibl>, an dem eine Vielzahl + aktueller Forschungspositionen erläutert werden können:<lb/><seg type="ex">(1) Alle glücklichen Familien sind + einander ähnlich; aber jede unglückliche Familie ist auf ihre besondere Art + unglücklich.<note type="footnote">Vgl. <ref type="bibliography" target="#tolstoj_anna_2012">Tolstoj 2012</ref>, S. 7.</note></seg><lb/>MartÃnez und Scheffel analysieren + dieses Beispiel in ihrer Diskussion des <bibl> + <title type="desc">theoretischen + Satzes</title> + </bibl> als eine <quote>kommentierende Stellungnahme des + Erzählers über die Welt überhaupt</quote> und unterscheiden sie von mimetischen + Sätzen, die <quote>Informationen über die konkrete Beschaffenheit und + das Geschehen in der erzählten Welt</quote> vermitteln.<note type="footnote"> + <ref type="bibliography" target="#scheffel_einfuehrung_2016">Scheffel / MartÃnez 2016</ref>, S. + 104f.</note> Bei genauerer Betrachtung fällt allerdings auf, dass diese + vermeintlich strikte Trennung der Funktionen dem Beispiel nicht gerecht wird. Durch + die Generalisierung entsteht augenscheinlich eine Distanz zur erzählten Welt,<note type="footnote"> + <ref type="bibliography" target="#nuenning_grundzuege_1989">Nünning 1989</ref>, S. + 50f.</note> wodurch der Satz als Bemerkung über die nicht-fiktionale + Welt interpretiert werden kann – also als eine Behauptung über die Beschaffenheit + von Familien im Allgemeinen.<note type="footnote"> Vgl. die Diskussion in + <ref type="bibliography" target="#gittel_essayismus_2015">Gittel 2015</ref>, S. + 148–168.</note> Der Satz kann aber zusätzlich als Vorhersage über die + Geschehnisse in der fiktionalen Welt interpretiert werden und somit als Leitfaden + zum Verständnis des Werkes an sich dienen. In (1) kann die Generalisierung demnach + auf eine explizite Erzählinstanz (<term type="dh">overt narrator</term>) + hinweisen und zugleich als Indikator für sogenannte <term type="dh">nicht-fiktionale-Rede</term> (<term type="dh">non-fictional + speech</term>)<note type="footnote"> Vgl. + <ref type="bibliography" target="#searle_logic_1975">Searle 1975</ref>, S. 331f.; + <ref type="bibliography" target="#konrad_dimensionen_2014">Konrad 2014</ref>, S. 424–474; + <ref type="bibliography" target="#konrad_signposts_2017">Konrad 2017</ref>, S. 57. + </note> gelten.<note type="footnote"> <ref type="bibliography" target="#chatman_story_1978">Chatman 1978</ref>, S. 243.</note> Vertreter*innen einer + Theorie der Literatur als soziale Institution betrachten generalisierende Aussagen + wie (1) als <term type="dh">thematic statements</term>, also als Hinweise + auf das Thema des betreffenden Werks.<note type="footnote"> Vgl. + <ref type="bibliography" target="#lamarque_truth_1994">Lamarque / Olsen 1994</ref>, S. 328–331; + <ref type="bibliography" target="#lahn_einfuehrung_2013">Lahn / Meister + 2013</ref>, S. 176f.</note> In der Debatte um das Verhältnis von Wissen und + Literatur werden Generalisierungen als Beispiele für sogenannte <term type="dh">explicit truths</term> oder <term type="dh">explizite Propositionen</term> herangezogen, die möglicherweise eine besondere + Rolle für den kognitiven Wert fiktionaler Werke spielen.<note type="footnote"> Vgl. + <ref type="bibliography" target="#petraschka_interpretation_2014">Petraschka 2014</ref>, S. 99–106; + <ref type="bibliography" target="#vesper_literatur_2014">Vesper 2014</ref>; in anderem Vokabular + <ref type="bibliography" target="#mikkonen_assertions_2009">Mikkonen 2009</ref>.</note></p> + + <p>Beispiel (1) illustriert demnach, dass + Generalisierungen im Erzähltext offenbar Aussagen darstellen, die typischerweise + nicht oder nicht nur dem Aufbau der erzählten Welt dienen, sondern diverse weitere + Funktionen erfüllen können. Nichtsdestoweniger spielen sie in der Narratologie nur + eine untergeordnete Rolle. Häufig ist umgangssprachlich von <term type="dh">Verallgemeinerungen</term> die Rede; eine empirische + Untersuchung von Generalisierungen hinsichtlich ihrer werkimmanenten und + textexternen Funktionen blieb bislang aus. So beruhen die bis dato in der Forschung + formulierten Hypothesen zur Funktion von Generalisierungen meist auf wenigen + ausgewählten Beispielsätzen kanonisierter Werke. Diachrone Perspektiven, etwa + hinsichtlich einzelner Autor*innen, Epochen, literarischer Gattungen oder + Strömungen, bleiben unausgeschöpft.</p> + <p>Im Mittelpunkt des vorliegenden + Aufsatzes stehen zwei Generalisierungstagger: ein regelbasierter und ein + statistischer Tagger. Die Entwicklung der Tagger soll dazu dienen, einerseits + Generalisierungen formal (d. h. linguistisch) zu untersuchen. Andererseits sollen + die mit Generalisierungen assoziierten Funktionen und Effekte im Erzähltext + analysiert werden können, insbesondere vor dem Hintergrund diachroner + narratologischer Fragestellungen. Dementsprechend wird mit einem Korpus + deutschsprachiger fiktionaler Erzähltexte gearbeitet, die zwischen 1616 und 1930 + veröffentlicht wurden. Der <ref type="intern" target="#hd2">Abschnitt 2</ref> wird eingangs in die mit Generalisierungen + assoziierten linguistischen Phänomene Quantifikation und Generizität und ihre + computergestützte Operationalisierung einführen. Ein besonderes Augenmerk wird + darauf liegen, die für uns zentrale Herausforderung für die Annotation von + Generalisierungen zu bewältigen: Quantifikation und Generizität stellen einerseits + klassische Gegenstände der semantischen Theoriebildung dar und sollen auf eine Weise + annotiert werden, die eine linguistische Analyse der Annotation ermöglichen. Dennoch + müssen annotierbare Indikatoren an der Satzoberfläche erkennbar sein, was + insbesondere bei generischen Ausdrücken komplex ist. Diese Herausforderung ergibt + sich aus unserer Engführung linguistischer und narratologischer Perspektiven auf das + Thema Generalisierungen. Unser Ziel ist es, die Tagger insbesondere dafür zu nutzen, + die Schnittstelle zwischen Formen und Funktionen von Generalisierungen im Erzähltext + auszuleuchten. In <ref type="intern" target="#hd6">Abschnitt 3</ref> schildern wir unser + Annotationsvorgehen, das die in der Forschungsliteratur vorhandenen Tagsets zur + Annotation von Quantifikations- bzw. Generizitätsphänomenen um ein intuitives und + theorieübergreifendes Vorgehen für deutschsprachige fiktionale Texte ergänzt. Zudem + wird das Annotationskorpus beschrieben sowie Ergebnisse des <term type="dh">Inter-Annotator-Agreements</term> dargestellt. Es folgt eine Erläuterung zur + Implementierung der Tagger in <ref type="intern" target="#hd9">Abschnitt 4</ref> und ihre + Evaluation in <ref type="intern" target="#hd14">Abschnitt 5</ref>. </p> + </div> + <div type="chapter"> + <head>2. Generalisierungen in Theorie und Operationalisierung</head> + + <p>Generalisierungen können auf + verschiedene Weise im Satz sprachlich markiert sein. Typische Indikatoren sind + allquantifizierte und generische Ausdrücke, die zu einer Äußerung naturgemäß + generalisierende Bedeutungsanteile beitragen können. Quantifikation und Generizität + stellen dabei klassische Gegenstände der semantischen Theoriebildung dar, weswegen + bereits zahlreiche detaillierte und differenzierte Analysen und Modelle zu ihrer + adäquaten Beschreibung vorliegen. Daraus ergibt sich die zentrale Herausforderung + für die Annotation und die automatische Erkennung von Generalisierungen in + Erzähltexten: Einerseits müssen annotierbare Indikatoren für Generalisierungen an + der Satzoberfläche identifiziert werden können, andererseits muss jedwedes + Annotationsschema auch theoretisch plausibel mit den etablierten semantischen + Theorieansätzen kompatibel sein.</p> + <p>Im Folgenden werden zunächst kurz die + hier vorausgesetzten Annahmen der theoretischen Semantik zur Generizität und + Quantifikation eingeführt. Daran anschließend werden relevante computerlinguistische + Vorschläge zur Annotation generischer Ausdrücke diskutiert. Dabei wird auch deutlich + werden, dass die vorgeschlagene Herangehensweise nur begrenzt auf Erzähltexte + übertragbar ist.</p> + <div type="subchapter"> + <head>2.1 Generizität und Quantifikation</head> + + <p>Mit generischen Aussagen ist es + möglich, über eine Klasse von Dingen oder Individuen gleichzeitig etwas auszusagen, + entweder durch auf diese <term type="dh">Art</term> oder <term type="dh">Gattung</term> referierende Nominalphrasen (NPn) wie in + Beispiel (2) oder auf Satzebene – in diesem Fall ist die Rede von + charakterisierenden oder generischen Sätzen.<note type="footnote"> + <ref type="bibliography" target="#krifka_book_1995">Krifka et al. 1995</ref>, S. 2.</note> Diese teilen + sich in entweder lexikalisch-charakterisierende Aussagen über Fakten (vgl. (3)) oder + habituell-charakterisierende Aussagen über wiederkehrende Ereignisse auf (vgl. (4)). + Beide Formen können auch im selben Satz auftreten (vgl. (3)).<lb/><seg type="ex">(2) <term type="figure">Löwen</term> fressen Fleisch. (NP ›Löwen‹ referiert auf Gattung)</seg><lb/><seg type="ex">(3) Ein Löwe hat eine Mähne. <note type="footnote"> Ein wichtiger + Unterschied zwischen <term type="figure">Ein Löwe hat eine Mähne</term> + und <term type="figure">Jeder Löwe hat eine Mähne</term> besteht darin, + dass generische Aussagen immer Ausnahmen erlauben, allquantifizierte + Aussagen hingegen nicht. Aus linguistischer Perspektive ist es daher nicht + angemessen, beiden Formen dieselben Wahrheitswerte zuzuordnen. Ergebnisse + aus der Psycholinguistik stellen diese Annahme allerdings infrage, vgl. + <ref type="bibliography" target="#leslie_ducks_2011">Leslie et al. 2011</ref>.</note> (lexikalisch-charakterisierend, kombiniert + mit generisch verwendeter NP)</seg><lb/><seg type="ex">(4) John trinkt nach dem Essen ein + Bier. (habitueller Satz)</seg><lb/>Allen diesen generischen Aussagen ist + gemein, dass eindeutige Indikatoren für ihre generalisierende Lesart an der + Satzoberfläche fehlen. Aus diesem Grund sind die aufgeführten Aussagen in der Regel + ambig: Die indefinite Plural-NP <term type="figure">Löwen</term> in (2) ist eine + Form, die zwar häufig generische Lesarten auslöst, aber auch spezifisch verwendet + werden kann:<lb/><seg type="ex">(5) Die Schließanlage im Zoo ist + kaputt. Es sind Löwen ausgebrochen. (spezifische Verwendung)</seg><lb/>Ebenso verhält es sich mit Massennomen + im Singular. Nur in (6), nicht aber in (7) wird <term type="figure">Gold</term> + generisch verwendet:<lb/><seg type="ex">(6) Gold glänzt.</seg><lb/><seg type="ex">(7) Die Bank wurde ausgeraubt und es + wurde Gold gestohlen.</seg><lb/>Auch definite und indefinite NPn im + Singular können generisch oder spezifisch interpretiert werden. Oft ist der Kontext + der ausschlaggebende Faktor dafür, ob eine generische Lesart vorliegt, vgl. + (8)–(10):<lb/><seg type="ex">(8) <term type="figure">Ein + Löwe</term> hat eine Mähne. (Indefinite NP, löst standardmäßig eine + generalisierende Lesart aus)</seg><lb/><seg type="ex">(9) <term type="figure">Der + Löwe</term> hat eine Mähne. (Definite NP, generalisierende Lesart je nach Kontext + möglich)</seg><lb/><seg type="ex">(10) Ein Vater erklärt seinem Kind + Eigenschaften von Wildtieren. Er sagt: Der Elefant hat einen Rüssel. Der Löwe hat + eine Mähne. (Kontext triggert generalisierende Lesart)</seg><lb/><seg type="ex">(11) Ein Vater und sein Kind stehen im + Zoo vor dem Löwenkäfig. Der Vater fragt das Kind, welches der Tiere eine Mähne hat. + Das Kind zeigt auf den männlichen, ausgewachsenen Löwen und sagt: Der Löwe hat eine + Mähne. (Kontext triggert eine spezifische Lesart)</seg><lb/>Diese Beispiele illustrieren die hohe + Kontextabhängigkeit generischer Interpretationen; anhand der sprachlichen Formen + einer NP allein lässt sich noch nicht sicher bestimmen, ob diese NP generisch + interpretiert wird oder nicht. Die Theorie der generalisierten Quantoren + vorausgesetzt, nehmen wir an, dass charakterisierende und quantifizierte Sätze + dieselbe dreiteilige Struktur aufweisen, die aus einem Quantor (Q), einem Restriktor + (R) und einem nuklearen Skopus (S) besteht,<note type="footnote"> Vgl. + <ref type="bibliography" target="#lewis_adverbs_1975">Lewis 1975</ref>; + <ref type="bibliography" target="#barwise_quantifiers_1981">Barwise / Cooper 1981</ref>; + <ref type="bibliography" target="#heim_semantics_1982">Heim 1982</ref>; + <ref type="bibliography" target="#benthem_logic_1983">Benthem 1983</ref>; + <ref type="bibliography" target="#krifka_book_1995">Krifka et al. 1995</ref>, S. 25; + <ref type="bibliography" target="#kamp_theory_2002">Kamp 2002</ref>.</note> wobei jeder + Bestandteil einen bestimmten eigenen Bedeutungsbeitrag leistet. Der Quantor + allerdings muss in natürlichsprachlichen Sätzen nicht zwingend an der Satzoberfläche + ablesbar sein. Dies ist insbesondere bei generischen Sätzen der Fall. Wir erläutern + diese Struktur an einem Beispiel:<lb/><seg type="ex">(12) Jede Wissenschaftlerin ist + klug.</seg><lb/>Ein Quantor kann als eine Relation + zwischen zwei Mengen aufgefasst werden. Demnach drückt <term type="figure">jede</term> in (12) die Relation zwischen der Menge der Wissenschaftlerinnen und + der Menge der klugen Personen aus. Dabei legt er fest, dass die Menge der + Wissenschaftlerinnen vollständig in der Menge der klugen Personen enthalten ist, + also eine Teilmenge der klugen Personen bildet. Die NP <term type="figure">Wissenschaftlerin</term> stellt den Restriktor des Quantors + <term type="figure">jede</term> dar und beschreibt die Teilmenge, über die etwas + ausgesagt wird: die Menge aller Wissenschaftlerinnen. Das Prädikat <term type="figure">ist klug</term> bildet den (nuklearen) Skopus des Quantors, + wodurch die Eigenschaft, die dieser Menge zugeschrieben wird, erfasst ist. In + Beispielen wie (12) sind Q, R und S noch recht leicht oberflächennah zu erkennen, + bei Satzmaterial aus Erzähltexten wird sie ungleich komplexer, wie in <ref type="intern" target="#hd5">Abschnitt 2.3</ref> gezeigt wird. </p> + <p>Sowohl mit quantifizierten als auch + mit generischen Äußerungen können Generalisierungen ausgedrückt werden. Das mitunter + größere Interesse, auch in der computerlinguistischen Forschung, liegt auf + generischen Aussagen, da diese nicht durch Indikatoren an der Satzoberfläche + gekennzeichnet und damit schwerer formal zu beschreiben und automatisch zu erkennen + sind. In der Narratologie wiederum ist nicht klar, welche Formen von + Generalisierungen prominenter in fiktionalen Texten sind oder welche Formen mit + welchen Funktionen im Text eher korrelieren. Eine Einschränkung auf den einen oder + den anderen linguistischen Forschungsschwerpunkt ist daher zum jetzigen Zeitpunkt + nicht sinnvoll.</p> + </div> + <div type="subchapter"> + <head>2.2 Operationalisierungsansätze von Generizität und Quantifikation im Überblick</head> + + <p>Es existiert eine beträchtliche Anzahl + an Annotationsschemata, die dazu dienen sollen, quantifizierte oder generische + Ausdrücke zu markieren. Ein Großteil dieser Vorschläge bezieht sich ausschließlich + auf generische NPn<note type="footnote"> + Vgl. <ref type="bibliography" target="#mitchell_ace_2003">Mitchell et al. 2003</ref>; + <ref type="bibliography" target="#walker_ace_2006">Walker et al. 2006</ref>; + <ref type="bibliography" target="#reiter_identifying_2010">Reiter / Frank 2010</ref>; + <ref type="bibliography" target="#friedrich_annotating_2015">Friedrich et al. 2015</ref>.</note> und arbeitet entsprechend mit einer + limitierten Anzahl an Tags. So annotieren <ref type="bibliography" target="#friedrich_annotating_2015">Friedrich et al. 2015</ref>, ob das Subjekt + eines Satzes generisch auf eine <term type="dh">Art</term> oder <term type="dh">Klasse</term> referiert, und wenn ja, ob der umliegende + Satz eine charakterisierende oder spezifische Aussage über diese Klasse trifft. + Entsprechend dieser Unterteilung nutzen sie ein dreiteiliges Tagset:</p> + <p>Tagset von Friedrich et al.:<list type="unordered"><item>GEN; gen: generischer Satz mit + generischem Subjekt</item><item>NON-GEN; non gen: nicht-generischer + Satz mit nicht-generischem Subjekt</item><item>NON-Gen; gen: nicht generischer Satz + mit generischem Subjekt</item></list></p> + <p>Durch die Fokussierung auf generische + Subjekte werden Sätze mit generischen Objekten, aber nicht-generischen Subjekten aus + der Erhebung ausgeschlossen, obwohl auch in diesen Generalisierungen vorliegen + können, wie Beispiel (13) illustriert:<lb/><seg type="ex">(13) John mag Kaffee.</seg><lb/>Friedrich / Pinkal widmen sich + der automatischen Erkennung von habituellen Sätzen anhand des lexikalischen Aspekts + des Vollverbs.<note type="footnote"> Vgl. + <ref type="bibliography" target="#friedrich_recognition_2015">Friedrich / Pinkal 2015</ref>.</note> Dieser Ansatz + ist strikt linguistisch motiviert: Der Aspekt des Vollverbs eines Satzes (dynamisch + oder statisch) bestimmt den Aspekt des Satzes. Hat das Vollverb eines Satzes + dynamischen Aspekt, kann dieser entweder auf habituelle oder episodische Sätze + hindeuten. Statische Verben hingegen führen üblicherweise zu statischen Sätzen. Je + nach Aspekt verändert sich die Funktion eines Satzes im (narrativen) Diskurs, so + werden generische Sätze üblicherweise mit Erzählpausen assoziiert.<note type="footnote"> Vgl. + <ref type="bibliography" target="#carlson_generics_2006">Carlson 2006</ref>.</note> + </p> + <p>Schließlich stellen Friedrich et al. 2016 + auch ein integriertes Vorgehen vor, um generische NPn und habituelle + Ausdrücke simultan zu annotieren und automatisch zu erkennen.<note type="footnote"> Vgl. + <ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al. + 2016</ref>.</note> Das Ziel ihres Ansatzes ist die automatische Erkennung + sogenannter <term type="dh">situation entity types</term> (SE types). + Darunter fallen neben Ereignissen und Fakten auch sogenannte <term type="dh">generative states</term>, die + einerseits generische Äußerungen und andererseits habituelle Äußerungen sein können. + Bei der Annotation auf Satzebene wird der <term type="dh">main + referent</term>, üblicherweise das Subjekt, als generisch oder nicht-generisch + klassifiziert. Zudem wird das Vollverb hinsichtlich des lexikalischen Aspekts + (dynamisch oder statisch) annotiert. Je nach Ergebnis werden dann die Tags <term type="dh">generic sentence</term>, <term type="dh">generalizing sentence</term>, <term type="dh">state</term> oder <term type="dh">event</term> + vergeben.<note type="footnote">Vgl. <ref type="bibliography" target="#friedrich_annotating_2015">Friedrich et al. 2015</ref>, S. 41.</note> Die Problematik, Sätze mit + nicht-generischen Subjekten aber generischen Objekten (vgl. (13)) durch die + Annotation auszuschließen, bleibt hier zwar bestehen, kann aber durch die Klasse <hi rend="italic">state</hi> aufgefangen werden. </p> + <p>Insgesamt ist die automatische + Erkennung von Generalisierungen also nicht nur mit der automatischen Erkennung von + generischen NPn oder Habitualität, sondern durch die Erkennung von (lexikalischem) + Aspekt auch mit der Identifikation von temporalen Strukturen in Erzähltexten + verknüpft. Nach unserer Kenntnis ist bis heute noch kein Versuch unternommen worden, + Generalisierungen spezifisch in deutschsprachigen fiktionalen Erzähltexten zu + erkennen. Wie sich in diesem Abschnitt herausgestellt hat, ist der Großteil der + vorhandenen Ansätze computerlinguistisch ausgerichtet und bezieht sich meist auf + faktuale Textsorten wie Zeitungstexte, (Online-) Lexikoneinträge und dergleichen. + Außerdem wird überwiegend mit englischsprachigen Texten gearbeitet. Eine direkte + Übertragung dieser Ansätze auf deutschsprachige fiktionale Texte ist nicht ohne + Weiteres möglich – die Gründe hierfür werden im folgenden Abschnitt diskutiert.</p> + </div> + <div> + <p></p> + <p></p> + <p></p> + <p></p> + </div> + <div type="subchapter"> + <head>2.3 Operationalisierung von Generalisierungen in fiktionalen Erzähltexten</head> + + <p>Die im vorangegangen Abschnitt + erläuterten Tagsets sind computerlinguistisch motiviert und daher auf bestimmte + semantische oder syntaktische Formen begrenzt. Da für uns nicht von vornherein klar + ist, welche Formen von Generalisierungen für narratologische Fragestellungen + relevant sind, ist ein solches ausschließlich an der Form orientiertes Vorgehen im + Fall fiktionaler Erzähltexte ungeeignet. Es bestünde die Gefahr, einen Teil + generalisierender Aussagen aus der Erhebung von vornherein auszuschließen und damit + das Forschungsziel zu verfehlen. Hinzu kommt die Schwierigkeit, dass die hier + vorgestellten Tagger auch auf älteren Sprachstufen bzw. nicht-kanonischen + Ausdrucksweisen operieren können müssen, wenn auch diachrone narratologische + Forschungsfragen beantwortet werden sollen.</p> + <p>Die drei zentralen Herausforderungen + für die Annotation von Generalisierungen lassen sich wie folgt umreißen: Die erste + Schwierigkeit besteht darin, dass der Tagger Generalisierungen in Texten erkennen + können muss, die ab 1600 veröffentlicht wurden. Speziell in den älteren Texten + treten nicht nur typische lexikalische Ausdrücke und syntaktische Konstruktionen der + jeweiligen Sprachstufen auf, sondern darüber hinaus lässt sich auch eine höhere Zahl + an komplexen, teils mehrfach rekursiv eingebetteten Sätzen beobachten. Das ist nicht + nur der Struktur des Deutschen geschuldet, sondern auch ein Charakteristikum + fiktionaler Erzähltexte. In diesen Texten im Detail Restriktor, Skopus und Quantor + zu identifizieren und adäquat zu annotieren, ist eine anspruchsvolle und + zeitintensive Aufgabe, die auch ein hohes Maß an (linguistischem) Training für die + Annotator*innen beansprucht. Dies sei anhand des Beispiels (14) kurz + illustriert:</p> + <p><seg type="ex">(14) Wenn Luciane, meine Tochter, die für die Welt geboren ist, sich dort für die + Welt bildet, [...]; wenn sie durch Freiheit des Betragens, Anmut im Tanze, + schickliche Bequemlichkeit des Gesprächs sich vor allen auszeichnet und durch + ein angebornes herrschendes Wesen sich zur Königin des kleinen Kreises macht, + wenn die Vorsteherin dieser Anstalt sie als kleine Gottheit ansieht, die nun + erst unter ihren Händen recht gedeiht, die ihr Ehre machen, Zutrauen erwerben + und einen Zufluß von andern jungen Personen verschaffen wird, wenn [...]: so ist + dagegen, was sie schließlich von Ottilien erwähnt, nur immer Entschuldigung auf + Entschuldigung [...].<note type="footnote">Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 250.</note></seg> + </p> + <p>Die durch <term type="figure">wenn</term> eingeleiteten konditionalen Nebensätze in Beispiel (14) fungieren + augenscheinlich als Restriktoren für den durch <term type="figure">so</term> + eingeleiteten Nebensatz und damit für nur eine Skopus-Einheit. Es ist allerdings + unklar, ob hier quantifizierte Aussagen aneinandergereiht werden oder ob die + einzelnen Restriktoren eine Einheit bilden.</p> + <p>Zweitens ist es in der jetzigen + Untersuchungsphase zu früh, schon im Vorhinein abschließend festzulegen, welche + Formen von Generalisierungen für die narratologischen Fragestellungen im Zuge einer + quantitativen Datenerhebung relevant würden. Vorrangig scheint vielmehr zu sein, + Indikatoren für Generalisierungen an der Satzoberfläche aufzuspüren und einen Umgang + für die Fälle zu finden, in denen mehrere konkurrierende Marker zugleich auftreten. + So kommt es in fiktionalen Texten gehäuft vor, dass syntaktische Strukturen mehrere + Lesarten auslösen:<lb/><seg type="ex">(15) Wer ein + Übel los sein will, der weiß immer, was er will.<note type="footnote">Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. + 255.</note></seg> + <lb/>Hier liegt einerseits eine + Generalisierung über Personen vor, die ein Übel loswerden wollen und andererseits + über die Situationen, in denen sie das Übel loswerden wollen, nämlich <term type="figure">immer</term>. Welche der beiden Generalisierungen über die + andere regiert, ist ambig und die Auflösung dieser Ambiguität ist für die + automatische Erkennung nicht von zentralem Interesse. Eine linguistisch exakte + Annotation wäre in solchen Fällen zeitaufwändig und fehleranfällig.</p> + <p>Drittens ist, wie bereits erläutert + wurde, nicht nur der Überfluss von Markern an der Satzoberfläche eine + Herausforderung, sondern auch die koverte Markierung von Generalisierungen etwa + durch generische NPn.<lb/><seg type="ex">(16) Die + Landleute haben die rechten Kenntnisse; ihre Mitteilungen aber sind konfus und + nicht ehrlich. Die Studierten aus der Stadt und von den Akademien sind wohl klar + und ordentlich, aber es fehlt ihnen an der unmittelbaren Einsicht in die + Sache.<note type="footnote">Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 244.</note></seg><lb/>In (16) wird eine Aussage über die + Gruppe von Landleuten und die Gruppe von Studierten gemacht. Diesen beiden Gruppen + werden zugleich prototypische Eigenschaften zugeschrieben. Ein overter Quantor + findet sich aber weder beim Subjekt noch beim Prädikat – nichtsdestotrotz ist eine + generalisierende Lesart möglich.</p> + <p>Kurz zusammengefasst muss ein Tagset, + das Generalisierungen in fiktionalen Texten umfassend annotierbar macht und der + Implementierung eines Taggers vorausgeht, folgenden Adäquatheitsbedingungen genügen. + Einerseits muss die linguistische Komplexität der unterschiedlichen Auftretensformen + im Tagset abgebildet werden können. Dabei sollten aber nicht allzu formale + Kategorien angesetzt werden, welche die Komplexität der Annotation in fiktionalen + Texten unverhältnismäßig erhöhten und auch dem Anspruch, sämtliche Generalisierungen + in Texten erkennen zu können, nicht gerecht würden. Andererseits sollte das Tagset + jedoch derart auf linguistische Parameter zurückführbar sein, dass es auch einer + qualitativen Datenbetrachtung standhält.</p> + </div> + </div> + <div type="chapter"> + <head>3. Annotation</head> + + <p>Nachdem im vorherigen Abschnitt die + Hürden der Annotation von Generalisierungen in fiktionalen Erzähltexten beschrieben + wurden, wird nun das Tagset und der Annotationsprozess geschildert. Der Abschnitt + endet mit dem berechneten Inter-Annotator-Agreement und einigen Erläuterungen zur + Erstellung der Goldstandards, auf deren Basis die Tagger implementiert werden.</p> + + <div type="subchapter"> + <head>3.1 Tagset und Anwendungsregeln</head> + + <p>Das Tagset erfasst mit dem Tag GI (für <term type="dh">Generalisierende Interpretation</term>), ob eine Passage eine Generalisierung ausdrückt, und mit + diversen Subtags, welche Art der semantischen Quantifikation (universell, + existenziell oder vage) vorliegt + (vgl. <ref type="intern" target="#tab01">Tabelle 1</ref>). Eine + Passage besteht hierbei aus mindestens einem, möglicherweise mehreren + aufeinanderfolgenden Teilsätzen. Weil Teilsätze somit die kleinste annotierbare + Einheit darstellen, sprechen wir im Folgenden von einer Annotation auf + Teilsatzebene. Die Annotation auf Teilsatzebene ermöglicht die Gratwanderung + zwischen einer aus linguistischer Perspektive verwertbaren Annotation und einer + Konzentration auf Oberflächenmerkmale, die für die Implementierung des Taggers + zielführend ist. Auf diese Weise werden quantifizierte Aussagen in ihrem breiten + Spektrum erfasst und gleichzeitig zeitökonomisch annotiert.</p> + <table> + <row> + <cell>Subtag</cell> + <cell>Typ der Quantifikation</cell> + <cell>Natürlichsprachliches + Beispiel</cell> + </row> + <row> + <cell>ALL</cell> + <cell>universelle + Quantifikation</cell> + <cell>alle, immer, jede*r</cell> + </row> + <row> + <cell>MEIST</cell> + <cell>Mehrheitsquantifikation</cell> + <cell>meistens, am häufigsten</cell> + </row> + <row> + <cell>EXIST</cell> + <cell>existenzielle + Quantifikation</cell> + <cell>es gibt <term type="figure">x</term>, es existieren <term type="figure">y</term> + </cell> + </row> + <row> + <cell>DIV</cell> + <cell>vage Quantifikation</cell> + <cell>manchmal, teilweise, + gewöhnlich, oft, etc.</cell> + </row> + <row> + <cell>BARE</cell> + <cell>keine der zuvor genannten + + koverte Quantifikation</cell> + <cell>generische NPn (z. B. <term type="figure">Gold</term>, <term type="figure">Löwen</term>)</cell> + </row> + <row> + <cell>NEG</cell> + <cell>eine der oben genannten + + Negation</cell> + <cell>Es gibt kein Gold, das braun + ist.</cell> + </row> + <trailer xml:id="tab01"> + <ref type="intern" target="#tab1">Tab. 1</ref>: Tagset MONACO. [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t1"/> + </trailer> + </table> + + <p>Das Tagset ist wie folgt aufgebaut: + Die Subtags ALL, MEIST und EXIST korrespondieren mit Quantoren aus der formalen + Logik, die an der Satzoberfläche mit einer Reihe von Lexemen ausgedrückt werden + können.<note type="footnote"> Siehe + <ref type="bibliography" target="#doenicke_phenomena_2021">Dönicke et al. 2021</ref> für eine ausführlichere formal-semantische Betrachtung + des Tagsets.</note> Beim Subtag ALL + handelt es sich meist um Lexeme wie <term type="figure">immer</term> oder <term type="figure">jede*r</term> + , + <term type="figure">jedes</term>:<lb/><seg type="ex">(17) Gedenken wir nur des Kalks, [der + zu allen Säuren eine große Neigung, eine entschiedene Vereinigungslust + äußert]<hi rend="sub">GI + ALL</hi>!<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 272.</note></seg><lb/>Beim Subtag MEIST kommen Lexeme wie + <term type="figure">meist</term> oder <term type="figure">meistens</term> vor, die sich auf mehr als die Hälfte der bezeichneten Menge + beziehen:<lb/><seg type="ex">(18) [...]; [aber es sind meistenteils + unbewußte Erinnerungen glücklicher und unglücklicher Folgen, die wir an eigenen oder + fremden Handlungen erlebt haben]<hi rend="sub">GI MEIST</hi>.<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. + 247.</note></seg><lb/>Das Subtag EXIST umfasst + generalisierende Passagen, die sich auf die Existenz der Individuen einer Klasse + beziehen und durch Prädikate der Existenz wie <term type="figure">geben</term> + und <term type="figure">existieren</term> markiert werden.<note type="footnote"> Das Subtag EXIST ist + ausschließlich explizit existenziellen Aussagen vorbehalten. Wir gehen also + etwa davon aus, dass eine indefinite Nominalphrase wie <term type="figure">Ein Löwe</term> keine existenzielle Quantifikation + auslöst, sondern eine generische NP ist – insofern eine generalisierende + Lesart vorliegt. Entsprechend würde <term type="figure">Ein Einhorn + existiert</term> mit dem Tag EXIST annotiert werden.</note> + <lb/><seg type="ex">(19) [Aber es gibt dergleichen noch, + es muß dergleichen geben oder doch wieder geben]<hi rend="sub">GI + EXIST</hi>.<note type="footnote"> + Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 166.</note></seg><lb/>Das Subtag DIV fängt alle vagen + Quantoren auf, insbesondere also Quantifikationen, die durch Adverbien wie <term type="figure">manchmal</term>, <term type="figure">häufig</term>, <term type="figure">gelegentlich</term>, <term type="figure">selten</term> ausgelöst werden. Diese + unterscheiden sich von den anderen natürlichsprachlichen Quantoren dadurch, dass + ihre Wahrheitsbedingungen nicht präzise beschreibbar sind.<lb/><seg type="ex">(20) [Unsere vortreffliche Vorsteherin + läßt mich gewöhnlich die Briefe lesen, in welchen sie Beobachtungen über ihre + Zöglinge den Eltern und Vorgesetzten mitteilt]<hi rend="sub">GI DIV</hi>.<note type="footnote"> Vgl. + <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. + 263.</note></seg><lb/><seg type="ex">(21) <quote>Es betrifft + unsern Freund, den Hauptmann,</quote> antwortete Eduard. <quote>Du + kennst die traurige Lage, [in die er, wie so mancher andere, ohne sein + Verschulden gesetzt ist]<hi rend="sub">GI DIV</hi>.</quote> + <note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 242.</note></seg><lb/>Zusätzlich kann das Tagset + nicht-overte Quantifikation mit dem Subtag BARE erfassen. Dieser kann etwa im Fall + von generischen Subjekten oder generischen Objekten gesetzt werden, also dann, wenn + keine Quantifikation an der Satzoberfläche identifizierbar ist.<lb/><seg type="ex">(22) [Die Landleute haben die rechten + Kenntnisse]<hi rend="sub">GI BARE</hi>; [ihre Mitteilungen aber sind + konfus]<hi rend="sub">GI BARE</hi> [und nicht ehrlich]<hi rend="sub">GI NEG</hi>. [Die Studierten aus der Stadt und von den Akademien sind wohl klar + und ordentlich, aber es fehlt an der unmittelbaren Einsicht in die Sache]<hi rend="sub">GI BARE</hi>.<note type="footnote"> Vgl. + <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 244.</note></seg><lb/><seg type="ex">(23) [Die Männer denken mehr auf das + Einzelne, auf das Gegenwärtige]<hi rend="sub">GI BARE</hi>;<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. + 244.</note></seg><lb/>Das Subtag NEG umfasst sämtliche + generalisierte und negierte Aussagen, unabhängig von der syntaktischen Struktur. Die + syntaktische Struktur kann deshalb interessant sein, weil mit unterschiedlichen + syntaktischen Positionen von Negationen verschiedene Skopen von Negationen + einhergehen. Daher bestimmt die Syntax, was genau in einem Satz negiert wird; der + Quantor oder (Teile vom) Restriktor oder Skopus. Da diese informationsstrukturellen + Unterscheidungen für die automatische Erkennung von generalisierenden Aussagen nicht + relevant sind, wird jede generalisierende Aussage, die eine Negation enthält, mit + dem Subtag NEG annotiert. In diesem Fall überschreibt NEG alle möglichen anderen + Annotationen.<lb/><seg type="ex">(24) [Unanfechtbare Wahrheiten gibt es + überhaupt nicht]<hi rend="sub">GI NEG</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 9.</note></seg><lb/>Zudem gelten bestimmte Regeln zum + Annotationsverfahren, die Mehrfachannotationen und ambige Fälle betreffen. So kann + es vorkommen, dass in derselben Passage auf verschiedene Weisen generalisiert wird. + Im folgenden Beispiel wird sowohl über Zeiträume (<term type="figure">immer</term>) als auch existenziell über Zank und Streit generalisiert. Da hier + konkurrierende Generalisierungsarten vorliegen, müssen zwei Subtags vergeben + werden.<lb/><seg type="ex">(25) [[Es gibt doch bloß immer Zank + und Streit]<hi rend="sub">GI ALL</hi>]<hi rend="sub">GI EXIST</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, + S. 125.</note></seg><lb/>Eine wichtige Ausnahme bildet hier das + Subtag BARE. BARE wird ausschließlich in den Fällen vergeben, in denen keine anderen + Subtags vergeben werden können:<lb/><seg type="ex">(26) [Der Heilige Vater liebt seine + Untertanen gleichmäßig]<hi rend="sub">GI BARE</hi>. (fikt. Bsp.)<lb/>In (27) wird allerdings sowohl über + Päpste (<term type="figure">Der Heilige Vater</term>) als auch über <term type="figure">alle</term> Untertanen generalisiert. Deshalb wird hier nur + ALL gesetzt.</seg><lb/><seg type="ex">(27) [Der Heilige Vater liebt alle + seine Untertanen gleichmäßig]<hi rend="sub">GI ALL</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#ernst_uhr_2012">Ernst 2012</ref>, S. + 240.</note></seg><lb/>Finden sich zwei Generalisierungen in + der gleichen Passage, die beide mit demselben Tag annotiert werden würden, wird + nicht doppelt annotiert. Im folgenden Beispiel fallen <term type="figure">Jeder Heilige Vater</term> und <term type="figure">alle seine + Untertanen</term> beide in die Kategorie ALL:<lb/><seg type="ex">(28) [Jeder Heilige Vater liebt alle + seine Untertanen gleichmäßig]<hi rend="sub">GI ALL</hi> (fikt. Bsp.)</seg><lb/>Neben den Subtags stellt das Tagset + die Möglichkeit bereit, eine Passage als ambig zu + markieren. Ist in einem Beispiel wie (9) nicht eindeutig zu bestimmen, ob die + Aussage generalisierend oder spezifisch gemeint ist, kann dieses Subtag gesetzt + werden.</p> + <p>Wie eingangs erwähnt, ermöglicht die + Annotationspraxis auf Teilsatzebene die Einbeziehung aller Quantifikationsformen in + natürlicher Sprache und ermöglicht zugleich ein zügiges Annotationsprozedere. Das + dargestellte Vorgehen unterscheidet sich aber auch in wesentlichen Punkten von + bereits bestehenden Annotationspraktiken in der Forschung zu Generizität und + Quantifikation, die in <ref type="intern" target="#hd4">Abschnitt 2.2</ref> erläutert + worden sind. Der wesentlichste Unterschied besteht darin, dass kein linguistisches + Training für die Annotierenden nötig ist, etwa Restriktor, Skopus und Quantor + auseinanderzuhalten. Zur Illustration der verschiedenen Vorgehensweisen sei hier ein + Beispiel aus Goethes <bibl> + <title type="desc">Die Wahlverwandtschaften</title> + </bibl> anhand + des Annotationsschemas von Friedrich et al. und unserem Konzept vergleichend + analysiert.<note type="footnote"> + Vgl. <ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al. 2016</ref>.</note> Das Schema von Friedrich et al. + (2016) bietet sich für einen Vergleich insbesondere deshalb an, weil ebenfalls + primär intuitiv auf Satzebene annotiert wird und dadurch die verschiedenen Formen + von Generizität erfasst werden, nämlich generische NPn und habituelle + Äußerungen.<lb/><seg type="ex">(29) [Das Bewusstsein ist keine + hinlängliche Waffe, ja, manchmal eine gefährliche für den, der sie führt]<hi rend="sub">GENERIC SENTENCE</hi>.<note type="footnote"> Vgl. + <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 247.</note></seg><lb/>Der main referent des Satzes, hier die + Subjekt-NP <term type="figure">Das + Bewusstsein</term> + , würde als generische + NP identifiziert werden. Das Verb <term type="figure">sein</term> hat statischen + lexikalischen Aspekt, entsprechend würde der gesamte Satz als Generic Sentence + klassifiziert werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al. 2016</ref>, S. 41.</note> Die + Negation verändert hier nicht den situation entity type des Satzes, weil sie sich + nur auf die Subjekt-NP bezieht.<note type="footnote"> Vgl. <ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al. 2016</ref>, S. 36.</note> Das + Annotationsprozedere ist damit elegant und in diesem Satz niedrigschwellig + anwendbar. Insbesondere in älteren fiktionalen Texten kommt aber die Problematik + hinzu, dass Verben hinsichtlich ihres Aspekts klassifiziert werden müssten, die im + aktuellen Sprachgebrauch nicht mehr vorkommen. Es ist daher mitunter schwierig, den + lexikalischen Aspekt abzuleiten, der einen ausschlaggebenden Hinweis für die + Klassifikation als generisch gibt. Zudem zeigt das Temporaladverb <term type="figure">manchmal</term> im zweiten Teilsatz die Habitualität an. + Diese Information geht durch die Art der Annotation verloren. Generalisierungen + kommen in vielfältigen Formen vor, daher ist es eine Priorität für uns, verschiedene + Lesarten durch die Annotation und später durch den Tagger erfassen zu können. + Vergleichend sei nun gezeigt, welche Tags mit unserem Tagset vergeben werden:<lb/><seg type="ex">(30) [Das Bewusstsein ist keine + hinlängliche Waffe]<hi rend="sub">NEG</hi>, [ja, manchmal eine gefährliche für + den, der sie führt]<hi rend="sub">DIV</hi>.<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 247.</note></seg><lb/>Der erste Teilsatz besteht aus einer + definiten generischen NP und einem diese NP charakterisierenden Prädikat. Würde + keine Negation in diesem Teilsatz stehen, qualifizierte sich dieser Teilsatz als + BARE; da aber eine Negation vorliegt und Negation alle anderen Subtags überschreibt, + wird das Subtag NEG vergeben. Der zweite Teilsatz wird mit dem Subtag Divers (DIV) + versehen, weil das Adverb <term type="figure">manchmal</term> eine habituelle + Generalisierung über eine vage Anzahl an Situationen ausdrückt. </p> + </div> + <div> + <p></p> + <p></p> + <p></p> + <p></p> + </div> + <div type="subchapter"> + <head>3.2 Korpus, Workflow und Agreement</head> + + <p>Wie in der Einleitung geschildert, + soll der Generalisierungstagger in allen Texten von 1600 bis 1950 Generalisierungen + automatisch erkennen können. Entsprechend muss das Tagset auf Texten erprobt werden, + die diesen Zeitraum und seine verschiedenen stilistischen und sprachlichen + Eigenheiten repräsentieren. Das Gesamtkorpus besteht aus ausschließlich originär + deutschsprachiger Erzählliteratur, von dem eine Teilmenge an Texten als + Annotationskorpus genutzt wird. Jede*r Autor*in im Annotationskorpus ist durch einen + Text vertreten. Im Korpus enthalten sind Romane, Novellen, Erzählungen und epische + Versdichtungen mit sowohl Ich- (homodiegetischen) als auch Er- (heterodiegetischen) + Erzählinstanzen. Die genaue Auswahl kann <ref type="intern" target="#tab2">Tabelle + 2</ref> entnommen werden.</p> + <p>Um der Repräsentationsfunktion für das + Gesamtkorpus gerecht zu werden, werden die Annotationstexte zunächst nicht komplett + annotiert, sondern auf die ersten 200 Sätze beschränkt. Der Nachteil unserer Auswahl + ist zunächst, dass ohne den Rückgriff auf eine automatische Erkennung eine + Betrachtung generalisierender Passagen werkimmanent erst nach fertiger Entwicklung + der Tagger möglich sein wird. Es überwiegen aber die Vorteile – so sind die + Annotationen nicht auf eine kleinere Menge von Texten beschränkt, erfassen dadurch + mehrere Autor*innen und demzufolge eine größere Breite literarischer Epochen und + Genres. Außerdem ist es so möglich, unterschiedliche Entwicklungsstadien der + Sprache, von der Frühen Neuzeit an, zu berücksichtigen.</p> + <p>Wir annotieren Generalisierungen + mittels kollaborativer Annotation im webbasierten Tool <ref target="https://catma.de">CATMA 6</ref>.<note type="footnote"> Vgl. + <ref type="bibliography" target="#gius_catma_2022">Gius et al. + 2022</ref>.</note> Das Best-Practice-Modell von Gius / Jacke dient als + Orientierung bei der Besprechung und Qualitätsprüfung der erstellten + Annotationen.<note type="footnote"> + Vgl. <ref type="bibliography" target="#gius_annotation_2016">Gius / Jacke 2016</ref>.</note> Die bereits annotierten Texte sind unter + dem Titel MONACO<note type="footnote"> Vgl. <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>.</note> in einem + GitLab-Repository publiziert.</p> + <table> + <row> + <cell>Text</cell> + <cell>Jahr</cell> + <cell>Goldstandard</cell> + <cell>Annotator*in </cell> + <cell>Gattung</cell> + <cell>Typ der Erzählinstanz</cell> + <cell>Kappa (Tokenebene)</cell> + <cell>Kappa (Teilsatzebene)</cell> + </row> + <row> + <cell>Andreae: Die chymische + Hochzeit</cell> + <cell>1616</cell> + <cell>nein</cell> + <cell>{’a _112’, ’a_107’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,4883</cell> + <cell>0,5376</cell> + </row> + <row> + <cell>von Zesen: Adriatische + Rosemund</cell> + <cell>1645</cell> + <cell>nein</cell> + <cell>{‘a_111’, ‘a_110’}</cell> + <cell>Roman</cell> + <cell>heterodiegetisch</cell> + <cell>0,6017</cell> + <cell>0,5988</cell> + </row> + <row> + <cell>Grimmelshausen: Der + abenteuerliche Simplicissimus</cell> + <cell>1668</cell> + <cell>nein</cell> + <cell>{‘a_111’, ‘a_107’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,4652</cell> + <cell>0,6046</cell> + </row> + <row> + <cell>Lohenstein: Großmüthiger + Feldherr Arminius oder Herrmann</cell> + <cell>1689</cell> + <cell>nein</cell> + <cell>{‘a_108‘, ‘a_109‘}</cell> + <cell>Roman</cell> + <cell>heterodiegetisch</cell> + <cell>0,8062</cell> + <cell>0,7906</cell> + </row> + <row> + <cell>Schnabel: Die Insel + Felsenburg</cell> + <cell>1731</cell> + <cell>nein</cell> + <cell>{‘a_111’, ‘a_112’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,2169</cell> + <cell>0,1946</cell> + </row> + <row> + <cell>Gellert: Das Leben der + schwedischen Gräï¬n von G</cell> + <cell>1748</cell> + <cell>ja</cell> + <cell>{‘a_109’, ‘a_108’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,8663</cell> + <cell>0,8724</cell> + </row> + <row> + <cell>Wieland: Geschichte des + Agathon</cell> + <cell>1766, 1767</cell> + <cell>ja</cell> + <cell>{‘a_109’, ‘a_112’, ‘a_108’, + ‘a_111’, ‘a_110’, ‘a_107’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,7763</cell> + <cell>0,7812</cell> + </row> + <row> + <cell>LaRoche: Geschichte des + Fräuleins von Sternheim</cell> + <cell>1771</cell> + <cell>ja</cell> + <cell>{‘a_109’, ‘a_108’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,8435</cell> + <cell>0,8352</cell> + </row> + <row> + <cell>Novalis: Die Lehrlinge zu + Sais</cell> + <cell>1802</cell> + <cell>ja</cell> + <cell>{’a_112’, ’a_111’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,4045</cell> + <cell>0,4108</cell> + </row> + <row> + <cell>Kleist: Michael Kohlhaas</cell> + <cell>1808</cell> + <cell>nein</cell> + <cell>{’a_109’, ’a_110’}</cell> + <cell>Erzählung</cell> + <cell>heterodiegetisch</cell> + <cell>0,6376</cell> + <cell>0,5889</cell> + </row> + <row> + <cell>Goethe: Die + Wahlverwandtschaften</cell> + <cell>1809</cell> + <cell>ja</cell> + <cell>{‘a_111’, ‘a_108’}</cell> + <cell>Roman</cell> + <cell>heterodiegetisch</cell> + <cell>0,579</cell> + <cell>0,5688</cell> + </row> + <row> + <cell>Goethe: Die + Wahlverwandtschaften</cell> + <cell>1809</cell> + <cell>ja</cell> + <cell>{‘a_112’, ‘a_107’}</cell> + <cell>Roman</cell> + <cell>heterodiegetisch</cell> + <cell>0,7396</cell> + <cell>0,7948</cell> + </row> + <row> + <cell>Hoffmann: Der Sandmann</cell> + <cell>1816</cell> + <cell>ja</cell> + <cell>{‘a_112’, ‘a_107’}</cell> + <cell>Erzählung</cell> + <cell>homodiegetisch</cell> + <cell>0,82</cell> + <cell>0,8316</cell> + </row> + <row> + <cell>Dahn: Kampf um Rom</cell> + <cell>1876</cell> + <cell>ja</cell> + <cell>{’a_112’, ’a_107’}</cell> + <cell>Roman</cell> + <cell>heterodiegetisch</cell> + <cell>0,4173</cell> + <cell>0,5278</cell> + </row> + <row> + <cell>May: Winnetou II</cell> + <cell>1893</cell> + <cell>nein</cell> + <cell>{’a_107’, ’a r_112’}</cell> + <cell>Roman</cell> + <cell>homodiegetisch</cell> + <cell>0,4099</cell> + <cell>0,3502</cell> + </row> + <row> + <cell>Fontane: Der Stechlin</cell> + <cell>1895</cell> + <cell>ja</cell> + <cell>{‘a_109’, ‘a_112’}</cell> + <cell>Roman</cell> + <cell>heterodiegetisch</cell> + <cell>0,9118</cell> + <cell>0,8784</cell> + </row> + <row> + <cell>Kafka: Der Bau</cell> + <cell>1923–1924</cell> + <cell>ja</cell> + <cell>{‘a_111’, ‘a_110’}</cell> + <cell>Erzählung</cell> + <cell>homodiegetisch</cell> + <cell>0,672</cell> + <cell>0,6816</cell> + </row> + <row> + <cell>Musil: Der Mann ohne + Eigenschaften</cell> + <cell>1930</cell> + <cell>ja</cell> + <cell>{‘a_111’, ‘a_108’}</cell> + <cell>Roman</cell> + <cell>heterodiegetisch</cell> + <cell>0,5029</cell> + <cell>0,4655</cell> + </row> + <row> + <cell>Makro-Durchschnitt</cell> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell>0,6214</cell> + <cell>0,6293</cell> + </row> + <trailer xml:id="tab02"> + <ref type="intern" target="#tab2">Tab. 2</ref>: Korpus MONACO [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t2"/> + </trailer> + </table> + + + <p>Bisher wurden mit dem Tagset 17 Texte + aus dem Annotationskorpus annotiert, die in der Regel jeweils von zwei Annotierenden + zu bearbeiten sind. Für jede Annotierendenkombination berechnen wir Fleiss’ + Kappa<note type="footnote"> Vgl. + <ref type="bibliography" target="#fleiss_scale_1971">Fleiss 1971</ref>.</note> basierend auf übereinstimmenden Tokens bzw. auf + übereinstimmenden Teilsätzen. Bei überlappenden Annotationen wird ein Token bzw. ein + Teilsatz nur dann als Übereinstimmung gewertet, wenn beide Annotierende die + überlappenden Tags gesetzt haben.</p> + <p>Im Mittel über alle Texte wird ein + überzeugendes Agreement von 0,62 (Tokenebene) bzw. 0,63 (Teilsatzebene) erreicht. + Die deutlichen Schwankungen (z. B. Schnabel <bibl> + <title type="desc">Die Insel + Felsenburg</title> + </bibl> mit 0,22 bzw. Fontane <bibl> + <title type="desc">Der + Stechlin</title> + </bibl> mit 0,91, + vgl. <ref type="intern" target="#tab02">Tabelle 2</ref>) sind + präsumtiv neben den individuellen Fähigkeiten der Annotierenden auch auf die + unterschiedliche Komplexität der literarischen Texte sowie auf die zugrundeliegende + Sprachstufe zurückzuführen.</p> + <p>Bisher wurden für zehn der Texte + Goldstandards auf Basis der Erstannotationen erstellt. Hierbei gehen zwei + Adjudikator*innen (aus der Gruppe der promovierenden Autor*innen dieses Aufsatzes) + erneut die Erstannotationen durch, diskutieren die annotierten Textstellen und + erstellen eine Expert*innenannotation, welche dann als Goldstandard genutzt werden kann. + Neben der Beseitigung von Unachtsamkeitsfehlern in der Erstannotation hat die + Adjudikation auch die Aufgabe, prävalente Lesarten von mehrdeutigen oder vagen + Aussagen festzustellen (oder, in Einzelfällen, Aussagen als linguistisch ambig zu + markieren, falls keine prävalente Lesart festzustellen ist).</p> + </div> + </div> + <div type="chapter"> + <head>4. Automatische Erkennung</head> + + <p>Im folgenden Abschnitt werden die in + den regelbasierten Tagger eingebundenen Merkmale erläutert, auf denen später der + statistische Tagger trainiert wurde.</p> + <div type="subchapter"> + <head>4.1 Merkmale</head> + + <p>Das wichtigste Merkmal von + Generalisierungen sind Quantoren und quantifizierende Ausdrücke wie <term type="figure">jede*r</term> + , + <term type="figure">alle</term> + , + <term type="figure">immer</term> und dergleichen. Diese bestimmen die Klasse, in + die Teilsätze mit den entsprechenden Quantoren fallen, beispielsweise in die Klasse + ALL:<lb/><seg type="ex">(31) [Jede Sache will gelernt sein]<hi rend="sub">GI ALL</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 119.</note></seg><lb/><seg type="ex">(32) [Ebenso pünktlich liefen darauf + auch jedesmal kurze Antwortschreiben ein]<hi rend="sub">GI ALL</hi>, die dem + lieben Freund und geschätzten Gelehrten dankten.<note type="footnote"> Vgl. <ref type="bibliography" target="#musil_mann_1970">Musil 1970</ref>, Kapitel 3.</note></seg><lb/>Wir organisieren die entsprechenden + Quantoren und quantifizierenden Ausdrücke in einem Wörterbuch mit + Lemma-Subtag-Paaren (z. B. <term type="figure">jede</term> : ALL). Entsprechend + können ganze Teilsätze, in denen sie vorkommen, dem entsprechenden Subtag zugeordnet + werden. Eine Ausnahme davon bilden Phrasen, die mit deiktischen Ausdrücken auf + konkrete Objekte, Personen, Zeiten oder Orte referieren, weil in diesen Fällen keine + Generalisierungen vorliegen können. Um quantifizierte Ausdrücke mit einer + deiktischen Referenz ausschließen zu können, wurde eine Liste mit deiktischen + Markern erstellt.</p> + <p>Wie bereits oben erläutert wurde, sind + wir mit dem Problem der koverten Quantifikation konfrontiert, die mit dem Subtag + BARE gekennzeichnet ist. Einerseits bieten sich NPn im Plural für den Ausdruck von + Generalisierungen an:<lb/><seg type="ex">(33) [Regentropfen vereinigen sich + gern zu Strömen]<hi rend="sub">GI BARE</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 270.</note></seg><lb/>Andererseits können auch definite NPn + Generalisierungen markieren, sowohl im Plural als auch im Singular:<lb/><seg type="ex">(34) [Der Räuber kann sehr leicht mein + Opfer werden, und ein süß schmeckendes]<hi rend="sub">GI BARE</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#kafka_bau_1990">Kafka + 1990</ref>.</note></seg><lb/>Und auch der unbestimmte Artikel mit + Nomen im Singular kann generalisierend verwendet werden.<lb/><seg type="ex">(35) [Aber ein Narr steckt sie + [tausend Mark] in den Strumpf]<hi rend="sub">GI BARE</hi>, sagen die + Wirklichkeitsmenschen, [und ein Tüchtiger schafft etwas mit ihnen]<hi rend="sub">GI BARE</hi>;<note type="footnote"> Vgl. + <ref type="bibliography" target="#musil_mann_1970">Musil 1970</ref>, Kapitel 4.</note></seg><lb/>Insgesamt sind Artikel, sowohl + bestimmte als auch unbestimmte, aber wenig verlässlich. Endgültig kann nur der + Kontext disambiguieren, ob eine definite oder indefinite NP generalisierend oder + spezifisch verwendet wird. Diese Unterscheidung ist in einem regelbasierten System + nicht umsetzbar. Wir haben festgestellt, dass die Suche nach NPn im Plural ohne + Artikel am wenigsten Fehler verursacht.</p> + <p>Verbalphrasen (VPn) können auch + generalisierend sein. In diesem Fall handelt es sich meistens um habituelle + Äußerungen, die durch Adverbien wie <term type="figure">täglich</term> + , + <term type="figure">oft</term> oder <term type="figure">überall</term> + markiert werden. Außerdem gibt es Verben, die eine generalisierende Bedeutung haben. + Das sind zum einen Verben der Existenz, wie <term type="figure">existieren</term> und <term type="figure">geben</term>:<lb/><seg type="ex">(36) [Aber es gibt leidenschaftliche + Räuber]<hi rend="sub">GI EXIST</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#kafka_bau_1990">Kafka 1990</ref>.</note></seg><lb/>Und zum anderen Verben, die über + Situationen generalisieren, wie <term type="figure">pflegen zu</term>:<lb/><seg type="ex">(37) [Dann pflegen besonders + friedliche Zeiten zu kommen]<hi rend="sub">GI BARE</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#kafka_bau_1990">Kafka 1990</ref>.</note></seg><lb/>Eine weitere für Generalisierungen + relevante Kategorie des Verbs ist <term type="dh">gnomisches + Präsens</term>, also ein Präsens ohne zeitliche Bedeutung. Unter der + (simplifizierenden) Annahme, dass das Präsens in fiktionalen Texten meistens keine + Handlung ausdrückt, kann der Tagger nach einzelnen Teilsätzen in dieser Zeitform + suchen. Eine konkrete Ausnahme ist die direkte Rede, die zwar oft im Präsens steht, + aber nicht ohne Weiteres als Merkmal für gnomisches Präsens gewertet werden kann. + Ebenso verhält es sich mit dem <term type="dh">historischen</term> oder + <term type="dh">szenischen Präsens</term>, also einem Präsens, das aus + stilistischen Gründen für vergangene Geschehnisse verwendet wird, und typischerweise + mehrere Teilsätze im Präsens aufeinander folgen lässt:<lb/><seg type="ex">(38) Von außen ist eigentlich nur ein + großes Loch sichtbar, dieses führt aber in Wirklichkeit nirgends hin, schon nach ein + paar Schritten stößt man auf natürliches festes Gestein.<note type="footnote"> Vgl. + <ref type="bibliography" target="#kafka_bau_1990">Kafka 1990</ref>.</note></seg><lb/>Darüber hinaus können auch bestimmte + syntaktische Strukturen auf Generalisierungen hindeuten. Komplexe Sätze der Formen + <term type="figure">wenn … dann</term> oder <term type="figure">wer … + der</term> sind in der Regel generalisierend. Solche Strukturen können einfach in + einem regelbasierten Tagger implementiert werden.<lb/><seg type="ex">(39) [Wenn es aber Wirklichkeitssinn + gibt, und niemand wird bezweifeln, dass er seine Daseinsberechtigung hat, dann muss + es auch etwas geben, das man Möglichkeitssinn nennen kann]<hi rend="sub">GI + EXIST</hi><note type="footnote"> Vgl. + <ref type="bibliography" target="#musil_mann_1970">Musil 1970</ref>, Kapitel 4.</note></seg><lb/><seg type="ex">(40) [Wer unter solchen Umständen was + Besseres sagen will, sagt immer was Schlechteres]<hi rend="sub">GI + ALL</hi><note type="footnote"> Vgl. + <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 17.</note></seg><lb/>Im Folgenden wird beschrieben, wie die + beschriebenen Merkmale in den beiden Taggern eingesetzt werden.</p> + </div> + <div type="subchapter"> + <head>4.2 Modelle und Algorithmen</head> + <figure> + <graphic xml:id="generalisation_2022_001" url=".../medien/generalisation_2022_001.png"> + <desc> + <ref type="graphic" target="#abb1">Abb. 1</ref>: Textverarbeitungskomponenten für verschiedene + sprachliche Ebenen: Ein Text durchläuft die einzelnen Komponenten von links nach + rechts und von oben nach unten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_001"/> + </desc> + </graphic> + </figure> + + + <p>Für die Implementierung der + Textverarbeitungskomponenten wurde die Open-Source-Bibliothek <ref target="https://spacy.io/">spaCy</ref> + <note type="footnote">Vgl. <ref type="bibliography" target="#honnibal_transition_2015">Honnibal / Johnson 2015</ref>.</note> benutzt. Dem Generalisierungstagger + (GenTagger) selbst sind eine Reihe von Komponenten vorgeschaltet, um linguistische + Merkmale zu extrahieren (vgl. <ref type="graphic" + target="#generalisation_2022_001">Abbildung 1</ref>). Da + sich im Korpus teilweise Texte mit zeitspezifischer Schreibvariation befinden, ist + die erste Komponente ein auf dem <ref target="https://www.deutschestextarchiv.de">Deutschen Textarchiv</ref> + <note type="footnote"> Vgl. <ref type="bibliography" target="#adw_dta_2022">Deutsches Textarchiv 2022</ref>.</note> trainierter + Normalisierer. Es folgen Lemmatisierer, Wortartentagger, Eigennamenerkenner (NER) + und Satzerkenner, welche bereits im vortrainierten spaCy-Modell für das Deutsche + enthalten sind. Als Nächstes folgen Dependenzparser, Wortformtagger (morphologische + Analyse), Teilsatzerkenner und Verbformtagger (Teilsatzanalyse) aus Dönicke.<note type="footnote"> Vgl. + <ref type="bibliography" target="#doenicke_tense_2020">Dönicke 2020</ref>.</note> Als Letztes kommen ein Direkte-Rede-Tagger, der + Text zwischen öffnenden und schließenden Anführungszeichen erkennt, sowie ein + Koreferenzierer, der erkennt, wenn zwei verschiedene sprachliche Ausdrücke sich auf + dieselbe Entität beziehen; bei diesem handelt es sich um eine Reimplementierung des + Algorithmus aus Krug et al., der so erweitert wurde, dass nicht nur + Figurenentitäten, sondern alle Eigennamen, NPn und Pronomina in die + Koreferenzresolution einbezogen werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#krug_conference_2015">Krug et al. 2015</ref>.</note> + <note type="footnote"> Wir wurden im Review darauf hingewiesen, dass Fehler bei der automatischen Erkennung von Generalisierung + auch auf Fehler in Vorverarbeitungsschritten zurückzuführen sein können. In welchem Ausmaß Fehler aus den + einzelnen Pipeline-Komponenten propagiert werden, kann an dieser Stelle nicht quantitativ eingeschätzt werden; + jedoch wurden der Teilsatzerkenner und der Verbformtagger – zwei Komponenten, die relativ am Ende in der Pipeline + eingebunden sind –, bereits in <ref type="bibliography" target="#doenicke_tense_2020">Dönicke 2020</ref> in der Literaturdomäne getestet. Dort erreichten sie Performanzen (F-Maß) von 81% für die Erkennung von Teilsätzen sowie 93% für Tempus, 79% für Modus, 94% für Genus Verbi und 80% für Modalität.</note> + </p> + <div type="subchapter"> + <head>4.2.1 Regelbasierter GenTagger</head> + + <p>Da zu Beginn der Arbeit weder + Trainings- noch Testdaten vorlagen, wurde zunächst ein regelbasierter GenTagger + entwickelt. Als Entwicklungsdatensatz dienten hierzu die ersten vier Kapitel aus + Goethes <bibl> + <title type="desc">Die Wahlverwandtschaften</title> + </bibl>. Der Algorithmus wird in <ref type="graphic" + target="#generalisation_2022_002">Abbildung + 2</ref> skizziert.</p> + <figure> + <graphic xml:id="generalisation_2022_002" url=".../medien/generalisation_2022_002.png"> + <desc> + <ref type="graphic" target="#abb2">Abb. 2</ref>: Regelbasierter GenTagger. [Gödeke et al. 2022] + <ref type="graphic" target="#generalisation_2022_002"/> + </desc> + </graphic> + </figure> + + <p>Zunächst werden Generalisierungen auf + Teilsatzebene gesucht (2–18), indem nach Quantor-Restriktor-Kombinationen gesucht + wird. Dabei werden drei mögliche Fälle unterschieden:</p> + <p>Wenn ein overter Quantor im Teilsatz + vorkommt, ist der Restriktor die nächste übergeordnete NP oder VP (5–7). + Lemma-Subtag-Paare (z. B. <term type="figure">immer</term> : ALL) werden dabei + in einem manuell erstellten Wörterbuch gespeichert, wie in <ref type="intern" target="#hd10">Abschnitt 4.1</ref> beschrieben wurde.</p> + <p>Wenn eine Form von <term type="figure">existieren</term> oder <term type="figure">es + gibt</term> im Teilsatz vorkommt, kommen als Restriktor alle direkt + untergeordneten NPn in Frage. In diesem Fall ist das Subtag EXIST (8–10).</p> + <p>Wenn eine generische NP oder VP im + Teilsatz vorkommt, hat diese keinen overten Quantor und das Subtag ist BARE (11–13). + Indikatoren für generische NPn und VPn werden durch eine Vielzahl von Regeln + beschrieben, die auf die zuvor extrahierten und oben beschriebenen linguistischen + Merkmale zurückgreifen.</p> + <p>Für einen gefundenen Restriktor wird + dann überprüft, ob er oder eine mit ihm koreferente NP einen deiktischen Ausdruck + enthält (14–16). In diesem Fall referiert er mit hoher Wahrscheinlichkeit auf eine + spezifische Entität und kommt somit nicht für eine Generalisierung in Frage. + Andernfalls wird das entsprechende Subtag für den Teilsatz vorgemerkt. Wurde + mindestens ein Subtag für den aktuellen Teilsatz gespeichert, wird eine Passage + instanziiert, die aus genau diesem Teilsatz und den zugehörigen Subtags besteht + (17–18).</p> + <p>Als Nächstes werden bestimmte + Teilsatztypen zu Passagen zusammengeführt. In diesem Schritt werden Relativ- und + Konditionalsätze mit ihren übergeordneten Teilsätzen verbunden und ihre Subtags + vereinigt. In einem letzten Schritt wird erneut über alle Passagen iteriert (20–24). + Kommt ein Negationsmarker vor, werden die Subtags für diese Passage auf NEG + reduziert. Kommen mehr als ein Subtag in der Passage vor, wird BARE ggf. entfernt. + So wird sichergestellt, dass NEG und BARE nicht in Kombination mit anderen Subtags + auftreten.</p> + </div> + <div type="subchapter"> + <head>4.2.2 Statistischer GenTagger</head> + + <p>Nach <bibl> + <title type="desc">Die + Wahlverwandtschaften</title> + </bibl> wurden bisher die ersten 200 Sätze von 9 weiteren + Texten mit Goldstandards annotiert, was es ermöglicht, einen statistischen GenTagger + zu trainieren und zu testen. Als Testdaten verwenden wir Wielands <bibl> + <title type="desc">Geschichte des Agathon</title> + </bibl>,<note type="footnote"> <ref type="bibliography" target="#wieland_geschichte_2012">Wieland + 2012</ref>.</note> in welchem wir Generalisierungen von allen sechs statt der + üblichen zwei Annotierenden annotieren ließen.</p> + <p>Für den statistischen GenTagger lässt + sich ein Klassifikationsproblem auf Teilsatzebene definieren. Obwohl sich + generalisierende Passagen überlappen können und somit theoretisch mehrere Subtags + pro Teilsatz möglich sind, kommt dieser Fall in der Praxis kaum vor, weshalb wir uns + auf eine einfache 7-Klassen-Klassifikation (eine Klasse pro Subtag plus eine Klasse + für nicht-generalisierende Teilsätze) beschränken. <ref type="intern" target="#tab03">Tabelle 3</ref> zeigt, dass die Verteilung der Klassen zudem extrem + unausgeglichen ist. Einige wenige generalisierende Passagen sind linguistisch (d. h. + syntaktisch, semantisch, pragmatisch etc.) ambig und können daher nicht eindeutig + annotiert werden. Solche Fälle wurden im Goldstandard markiert und sowohl beim + Training als auch beim Testen der GenTagger ausgeschlossen.</p> + <table> + <row> + <cell rows="2"/> + <cell rows="2">Texte</cell> + <cell rows="2">Passagen</cell> + <cell cols="7">Teilsätze</cell> + </row> + <row> + <cell>nicht-GI</cell> + <cell>BARE</cell> + <cell>NEG</cell> + <cell>ALL</cell> + <cell>DIV</cell> + <cell>EXIST</cell> + <cell>MEIST</cell> + </row> + <row> + <cell>Trainingsdaten</cell> + <cell>8</cell> + <cell>492</cell> + <cell>3316</cell> + <cell>421</cell> + <cell>197</cell> + <cell>175</cell> + <cell>94</cell> + <cell>23</cell> + <cell>5</cell> + </row> + <row> + <cell>Entwicklungsdaten</cell> + <cell>1</cell> + <cell>191</cell> + <cell>1262</cell> + <cell>206</cell> + <cell>81</cell> + <cell>76</cell> + <cell>25</cell> + <cell>5</cell> + <cell>2</cell> + </row> + <row> + <cell>Testdaten</cell> + <cell>1</cell> + <cell>45</cell> + <cell>794</cell> + <cell>37</cell> + <cell>40</cell> + <cell>27</cell> + <cell>15</cell> + <cell>3</cell> + <cell>3</cell> + </row> + <trailer xml:id="tab03"> + <ref type="intern" target="#tab3">Tab. 3</ref>: Größe der Trainings-, Entwicklungs- und Testdaten. + [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t3"/> + </trailer> + </table> + + <p>Da der regelbasierte Algorithmus einem + Entscheidungsbaum ähnelt, wurde für die automatische Klassifikation ebenfalls ein + Entscheidungsbaum<note type="footnote"> Vgl. <ref type="bibliography" target="#breiman_classification_1984">Breiman et al. 1984</ref>.</note> verwendet. Um + einer Überanpassung an die Trainingsdaten entgegenzuwirken, wurde die maximale + Baumtiefe auf 15 und die minimale Anzahl an Daten pro Blattknoten auf 2 gesetzt. + Diese Werte haben sich auf den Entwicklungsdaten als gut erwiesen. Im Training wurde + außerdem allen Klassen das gleiche Gewicht gegeben.</p> + <p>Wir verwenden die gleichen + Basismerkmale wie für den regelbasierten Tagger + (vgl. <ref type="intern" target="#tab04">Tabelle 4</ref>). Somit + besitzt der Entscheidungsbaum die gleichen Grundlagen wie wir um Regeln zu formen. + Ähnliche Merkmale wurden bereits von Reiter / Frank für die Erkennung + generischer NPn extrahiert.<note type="footnote"> Vgl. <ref type="bibliography" target="#reiter_identifying_2010">Reiter / Frank 2010</ref>.</note> Zuerst werden + Merkmale von allen NPn und VPn im Satz extrahiert. Diese werden zusätzlich zu neuen + Merkmalen, z. B. ›(Subtag des Quantors : ALL, Numerus des NP-Kopfs : Plural, Artikel + in NP? : nein)‹, kombiniert, die aus dem Subtag des Quantors und bis zu zwei + weiteren Merkmalen bestehen. Das Maximum von drei Merkmalen hat sich auf den + Entwicklungsdaten als optimal erwiesen. Auf Teilsatzebene werden hauptsächlich + grammatikalische Eigenschaften wie z. B. Tempus extrahiert, um somit Phänomene wie + das gnomische Präsens abzudecken. Da eine Passage aus mehreren Teilsätzen bestehen + kann, wir aber nur Teilsätze klassifizieren, werden alle Merkmale nicht nur vom zu + klassifizierenden Teilsatz extrahiert, sondern auch von seinen beiden + Nachbarteilsätzen. Darüber hinaus werden noch einige Merkmale extrahiert, welche die + Verknüpfung der benachbarten Teilsätze zum gefragten Teilsatz kennzeichnen, z. B. ob + sie im gleichen Satz stehen. Es wurden außerdem eine Reihe von lexikalischen + Merkmalen getestet, z. B. N-Gramme für die Teilsätze oder die Lemmata von Quantor + und Restriktor; allerdings führten alle diese Erweiterungen zu einer niedrigeren + Performanz auf den Entwicklungsdaten.</p> + <table> + <row> + <cell>Ebene</cell> + <cell>Merkmale</cell> + </row> + <row> + <cell>NPn im Teilsatz</cell> + <cell>Tag des Quantors oder BARE, + Wortart des Quantors oder BARE, Wortart des NP-Kopfs, Dependenzrelation des + NP-Kopfs, Numerus des NP-Kopfs, Artikel in NP?, Zahlwort in NP?, + spezifisch?</cell> + </row> + <row> + <cell>VPn im Teilsatz</cell> + <cell>Tag des Quantors oder BARE, + Wortart des Quantors oder BARE, Wortart des VP-Kopfs, Häufigkeitsadverb in + VP?, vager Mehrwortausdruck in VP?, spezifisch?</cell> + </row> + <row> + <cell>Teilsatz</cell> + <cell>Tempus, Aspekt, Modus, Genus + verbi, Finitheit, <term type="figure">pflegen zu</term> in Teilsatz?, + direkte Rede?, Negation in Teilsatz?, Konditionalsatz?, Relativsatz?</cell> + </row> + <row> + <cell>benachbarte Teilsätze</cell> + <cell>gleicher Satz?, direkt + untergeordnet?, direkt übergeordnet?</cell> + </row> + <trailer xml:id="tab04"> + <ref type="intern" target="#tab4">Tab. 4</ref>: Merkmale für den statistischen GenTagger; + Fragezeichen markieren Boole’sche Merkmale. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t4"/> + </trailer> + </table> + + <figure> + <graphic xml:id="generalisation_2022_003" url=".../medien/generalisation_2022_003.png"> + <desc> + <ref type="graphic" target="#abb3">Abb. 3</ref>: Die wichtigsten Merkmale des + Entscheidungsbaum-GenTaggers. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_003"/> + </desc> + </graphic> + </figure> + + <p>Eine Inspektion des automatisch + erstellten Entscheidungsbaums + (vgl. <ref type="graphic" + target="#generalisation_2022_003">Abbildung 3</ref><note type="footnote">Die Knoten lesen sich wie folgt: In der ersten Zeile stehen Anzahl und häufigste Klasse der Trainingsdaten (d. h. Teilsätze), die + den Knoten erreichen (da wir jeder Klasse die gleiche Gewichtung geben, wird + die Häufigkeit relativ zur Klassengröße berechnet); darunter steht die + abgefragte Merkmalskombination, wobei der Index angibt, ob sie sich auf den + zu klassifizierenden Teilsatz (i), seinen Vorgänger (i-1) oder seinen + Nachfolger (i+1) bezieht. Auslassungspunkte markieren gestutzte Stellen im + Baum.</note>) zeigt, + dass zunächst Teilsätze mit den Merkmalen für MEIST, EXIST, NEG und ALL abgefragt + werden, bevor nach Merkmalen für DIV, BARE und nicht-GI gesucht wird.</p> + <p>Der zweite statistische GenTagger ist + ein Zufallswald mit 100 Entscheidungsbäumen.<note type="footnote"> Vgl. <ref type="bibliography" target="#breiman_random_2001">Breiman 2001</ref>.</note> Da die statistischen + GenTagger Teilsätze taggen, aber keine Passagen bestimmen, werden im Anschluss + direkt aufeinanderfolgende Teilsätze mit dem gleichen Subtag zu Passagen verbunden. + Dies dient lediglich der Weiterverarbeitung und hat keinen Einfluss auf die + Evaluation, da die GenTagger ebenfalls auf Teilsatzebene evaluiert werden.</p> + </div> + </div> + </div> + <div type="chapter"> + <head>5. Evaluation und Diskussion</head> + + <p>Als Evaluationsmaße verwenden wir + Precision (P), Recall (R) und F-Maß (F), welche für ein einzelnes Subtag y wie folgt + definiert sind:</p> + <figure> + <graphic xml:id="generalisation_2022_004" url=".../medien/generalisation_2022_004.png"> + <desc> + <ref type="graphic" target="#abb4">Abb. 4</ref>: Berechnung von Precision (P), Recall (R) und F-Maß (F) für ein einzelnes Subtag y. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_004"/> + </desc> + </graphic> + </figure> + <p>Die Precision gibt also an, wie viele + der mit y getaggten Teilsätze auch im Goldstandard mit y annotiert sind. Der Recall + wiederum gibt an, wie viele der im Goldstandard mit y annotierten Teilsätze auch mit + y getaggt wurden. Das F-Maß ist das harmonische Mittel der beiden.</p> + <p>Aus anwendungstechnischer Sicht + besitzt die Precision einen höheren Stellenwert als der Recall: Wenn nicht alle + generalisierenden Passagen in einem Text ausgegeben werden (niedriger Recall), gehen + lediglich interessante Fälle verloren. Wenn hingegen viele nicht-generalisierende + Passagen ausgegeben werden (niedrige Precision), müssen die ausgegebenen Passagen + manuell nachgefiltert werden. Ein hoher Recall ist natürlich ebenfalls + wünschenswert. Bei der Entwicklung der GenTagger wurden daher hohe Werte für + Precision und F-Maß auf den Entwicklungsdaten angestrebt.</p> + <p>Im Falle mehrerer Subtags Y kann der + Mikro-Durchschnitt der einzelnen Maße wie folgt gebildet werden:</p> + <figure> + <graphic xml:id="generalisation_2022_005" url=".../medien/generalisation_2022_005.png"> + <desc> + <ref type="graphic" target="#abb5">Abb. 5</ref>: Berechnung des Mikro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_005"/> + </desc> + </graphic> + </figure> + <p>Die Mikro-Precision gibt also an, wie + viele der getaggten Teilsätze korrekt getaggt wurden, während der Mikro-Recall + angibt, wie viele der im Goldstandard annotierten Teilsätze korrekt getaggt + wurden.</p> + <p>Da die Subtags unterschiedlich häufig + vorkommen, berechnen wir außerdem den Makro-Durchschnitt. Im Gegensatz zum + Mikro-Durchschnitt, welcher jedem Teilsatz die gleiche Gewichtung gibt, gibt der + Makro-Durchschnitt jedem Subtag die gleiche Gewichtung:</p> + <figure> + <graphic xml:id="generalisation_2022_006" url=".../medien/generalisation_2022_006.png"> + <desc> + <ref type="graphic" target="#abb6">Abb. 6</ref>: Berechnung des Makro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_006"/> + </desc> + </graphic> + </figure> + <table> + <row> + <cell rows="2">Methode</cell> + <cell cols="3">Entwicklungsdaten</cell> + <cell cols="3">Testdaten</cell> + </row> + <row> + <cell>Mikro-P</cell> + <cell>Mikro-R</cell> + <cell>Mikro-F</cell> + <cell>Mikro-P</cell> + <cell>Mikro-R</cell> + <cell>Mikro-F</cell> + </row> + <row> + <cell>Regelbasiert</cell> + <cell>0,42</cell> + <cell>0,26</cell> + <cell>0,32</cell> + <cell>0,21</cell> + <cell>0,26</cell> + <cell>0,23</cell> + </row> + <row> + <cell>Entscheidungsbaum</cell> + <cell>0,16</cell> + <cell>0,62</cell> + <cell>0,25</cell> + <cell>0,07</cell> + <cell>0,48</cell> + <cell>0,12</cell> + </row> + <row> + <cell>Zufallswald</cell> + <cell>0,26</cell> + <cell>0,40</cell> + <cell>0,31</cell> + <cell>0,14</cell> + <cell>0,33</cell> + <cell>0,20</cell> + </row> + <trailer xml:id="tab05"> + <ref type="intern" target="#tab5">Tab. 5</ref>: Mikro-Durchschnitts-Werte der GenTagger auf + Entwicklungs- und Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t5"/> + </trailer> + </table> + + <p>Um einen ersten vergleichenden + Überblick über die drei GenTagger zu bekommen, seien zunächst die + Mikro-Durchschnitte in <ref type="intern" target="#tab05">Tabelle 5</ref> betrachtet. + Sowohl auf den Entwicklungsdaten als auch auf den Testdaten erzielt der + regelbasierte GenTagger höhere Werte für Precision und F-Maß als die statistischen + GenTagger. Der Zufallswald-GenTagger zieht zwar fast mit dem regelbasierten + GenTagger gleich, was das F-Maß betrifft, kann dies aber auf einen höheren Recall, + nicht auf eine höhere Precision zurückführen. Wie zu erwarten, erzielt der + Entscheidungsbaum niedrigere Werte für Precision und F-Maß als der Zufallswald, + weshalb Ersterer im Folgenden nicht weiter betrachtet wird.</p> + <table> + <row> + <cell/> + <cell cols="3">Regelbasiert</cell> + <cell cols="3">Zufallswald</cell> + </row> + <row> + <cell/> + <cell>P</cell> + <cell>R</cell> + <cell>F</cell> + <cell>P</cell> + <cell>R</cell> + <cell>F</cell> + </row> + <row> + <cell>ALL</cell> + <cell>0,26</cell> + <cell>0,48</cell> + <cell>0,34</cell> + <cell>0,27</cell> + <cell>0,40</cell> + <cell>0,33</cell> + </row> + <row> + <cell>MEIST</cell> + <cell>0,00</cell> + <cell>0,00</cell> + <cell>0,00</cell> + <cell>0,50</cell> + <cell>0,33</cell> + <cell>0,40</cell> + </row> + <row> + <cell>EXIST</cell> + <cell>0,75</cell> + <cell>1,00</cell> + <cell>0,86</cell> + <cell>1,00</cell> + <cell>1,00</cell> + <cell>1,00</cell> + </row> + <row> + <cell>DIV</cell> + <cell>0,09</cell> + <cell>0,13</cell> + <cell>0,10</cell> + <cell>0,31</cell> + <cell>0,33</cell> + <cell>0,32</cell> + </row> + <row> + <cell>BARE</cell> + <cell>0,18</cell> + <cell>0,32</cell> + <cell>0,23</cell> + <cell>0,08</cell> + <cell>0,46</cell> + <cell>0,14</cell> + </row> + <row> + <cell>NEG</cell> + <cell>0,30</cell> + <cell>0,75</cell> + <cell>0,12</cell> + <cell>0,14</cell> + <cell>0,10</cell> + <cell>0,12</cell> + </row> + <row> + <cell>Makro-</cell> + <cell>0,26</cell> + <cell>0,33</cell> + <cell>0,28</cell> + <cell>0,39</cell> + <cell>0,44</cell> + <cell>0,39</cell> + </row> + <trailer xml:id="tab06"> + <ref type="intern" target="#tab6">Tab. 6</ref>: Tag-spezifische Makro-Durchschnittswerte der + GenTagger auf den Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t6"/> + </trailer> + </table> + + <p> + <ref type="intern" target="#tab06">Tabelle 6</ref> schlüsselt die Evaluation nach den einzelnen Subtags auf, + wodurch individuelle Stärken und Schwächen der beiden GenTagger sichtbar werden. Im + Makro-Durchschnitt erzielt der Zufallswald um ca. 10% höhere Werte für Precision, + Recall und F-Maß als der regelbasierte GenTagger. Für ALL erzielen beide GenTagger + eine Precision von ca. 27% und ein F-Maß von ca. 33%. Für MEIST und EXIST gibt es in + den Testdaten nur jeweils zwei Passagen:<lb/><seg type="ex">(41) Und da es mehr als zu gewiß ist, + [daß der größeste Teil derjenigen, welche die große Welt ausmachen, wie Hippias + denkt, oder doch nach seinen Grundsätzen handelt]<hi rend="sub">GI + MEIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 377.</note></seg> + <lb/><seg type="ex">(42) Niemals hatte ihn ein weibliches + Aug erblickt, ohne die Schuld ihres Geschlechts zu bezahlen, [welches die Natur für + die Schönheit so empfindlich gemacht zu haben scheint, daß diese einzige Eigenschaft + den meisten unter ihnen die Abwesenheit aller übrigen verbirgt]<hi rend="sub">GI MEIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 385.</note></seg><lb/><seg type="ex">(43) [Ohne Zweifel gibt es wichtigere + als derjenige, auf den seine Wahl gefallen ist]<hi rend="sub">GI + EXIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 375.</note></seg><lb/><seg type="ex">(44) Aus diesem Grunde kann er ganz + zuverlässig versichern, [daß Agathon und die meisten übrigen Personen, [welche in + seine Geschichte eingeflochten sind]<hi rend="sub">GI EXIST</hi>]<hi rend="sub">GI MEIST</hi>, wirkliche Personen sind, [dergleichen es von je + her viele gegeben hat, und in dieser Stunde noch gibt]<hi rend="sub">GI + EXIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 375.</note></seg><lb/>Der regelbasierte GenTagger vergibt + das Subtag MEIST nur zweimal, und zwar fälschlicherweise für die beiden Teilsätze ab + <term type="figure">daß</term> in (44): Bei den <term type="figure">meisten übrigen Personen</term> handelt es sich um eine spezifische Gruppe. Somit + sind Precision und F-Maß 0. Der statistische GenTagger vergibt MEIST ebenfalls + zweimal, einmal korrekterweise in (42) und einmal fälschlicherweise für einen + Teilsatz, in dem <term type="figure">am meisten</term> adverbiell, nicht + quantifizierend gebraucht wird. Somit ist die Precision 50%. Keiner der beiden + GenTagger erkennt (41) als MEIST, da die Formulierung <term type="figure">der + größeste Teil</term> für eine Mehrheitsquantifikation nicht im Quantorenwörterbuch + enthalten ist, auf welche beide GenTagger zugreifen. (Diese Liste wird zwar nach wie + vor im Zuge der Annotation erweitert, aber natürlich wurden die Testdaten nicht + dafür herangezogen.) Die EXIST-Fälle erkennt der statistische GenTagger korrekt, + während der regelbasierte GenTagger einen zusätzlichen Teilsatz mit EXIST versieht, + ebenfalls in (44). Dabei handelt es sich um einen Folgefehler beim Verbinden von + Teilsätzen zu Passagen, der wiederum durch einen Fehler beim Parsen des Satzes + verursacht wird. Diese Art von Fehler kommt zwar auch bei den anderen Subtags vor, + sorgt bei nur vier getaggten Teilsätzen aber gleich für einen Precision-Verlust von + 25%.</p> + <p>Für DIV erzielt der Zufallswald ca. + 20% höhere Werte für Precision und F-Maß als der regelbasierte GenTagger. Wir + vermuten die Ursache dafür darin, dass vage Quantifikation in einer deutlich + größeren Formvielfalt auftritt als All-, Mehrheits- und Existenzquantifikation. Der + regelbasierte GenTagger verwendet dennoch nur eine Liste vager Quantoren und den + Spezifitätstest, wohingegen der Zufallswald-GenTagger viel genauere Regeln erlernen + kann. Für BARE verhält es sich umgekehrt – hier erzielt der Zufallswald ca. 10% + schlechtere Werte für Precison und F-Maß. Da wir uns bei BARE nicht auf overte + Quantoren verlassen konnten, wurde sehr viel Aufwand in die manuellen Regeln + investiert, mit denen die automatisch erlernten Regeln des Zufallswaldes (noch) + nicht mithalten können.<note type="footnote"> Es sei an dieser Stelle angemerkt, dass der + statistische GenTagger durchaus hätte dieselben Regeln erlernen können, da + ihm alle dafür notwendigen Merkmale zur Verfügung standen.</note> + </p> + <p>Obwohl NEG häufig in den + Trainingsdaten vorkommt, erzielen beide GenTagger für dieses Subtag den niedrigsten + Recall (abgesehen von MEIST für den regelbasierten Tagger), d. h. es werden kaum + Teilsätze ausgegeben, die im Goldstandard mit NEG annotiert wurden. Zum Teil kann + man dies darauf zurückführen, dass im Testtext einige ungewöhnlich lange + NEG-Passagen vorkommen (die längste besteht aus 18 Teilsätzen), die GenTagger aber + nur Merkmale von direkt benachbarten Teilsätzen mit einbeziehen. Befindet sich der + Negationsmarker weiter vom aktuellen Teilsatz entfernt, wird dieser auch nicht mehr + für die Klassifikation herangezogen, und es ist unwahrscheinlich, dass das Subtag + NEG vergeben wird. Da BARE und NEG die häufigsten Subtags sind, haben diese Klassen + auch den größten Einfluss auf die Mikro-Durchschnitts-Werte.</p> + + <p>Abschließend zeigt <ref type="graphic" + target="#generalisation_2022_007">Abbildung 7</ref> den Lerngraphen des + Zufallswald-GenTaggers auf den Testdaten für eine wachsende Menge an + Trainingstexten. Eine mögliche Interpretation des Graphen ist, dass das + volle Potenzial des statistischen GenTagger noch nicht erreicht ist und + die Performanz allein durch die Zugabe weiterer Trainingstexte + gesteigert werden kann.</p> + <figure> + <graphic xml:id="generalisation_2022_007" url=".../medien/generalisation_2022_007.png"> + <desc> + <ref type="graphic" target="#abb7">Abb. 7</ref>: Performanz des Zufallswald-GenTaggers auf den Testdaten bei + schrittweiser Hinzunahme von Trainingstexten. Autorennamen stehen als + Kürzel für die einzelnen Werke. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_007"/> + </desc> + </graphic> + </figure> + </div> + <div type="chapter"> + <head>6. Fazit und Ausblick</head> + + <p>Das zentrale Ziel dieses Beitrags war + es, einen Tagger für die automatische Erkennung von Generalisierungen in fiktionalen + Erzähltexten vorzustellen. Für die Taggerimplementierung haben wir ein eigenes + Tagset entwickelt, das alle Formen natürlichsprachlicher Quantifikation + (allquantifiziert, vage, existenziell) auf Teilsatzebene annotierbar macht. Auf der + Basis manuell erstellter Goldstandards wurden ein regelbasierter und ein + statistischer Tagger entwickelt, die als zusätzliche Komponenten in die + Textverarbeitungspipeline von spaCy eingebunden werden können.<note type="footnote"> Die Tagger sind verfügbar in <ref target="https://gitlab.gwdg.de/mona/pipy-public">MONAPipe</ref> (Release v2.0); vgl. <ref type="bibliography" target="#barth_monapipe_2022">Barth et al. 2022</ref>.</note> + Der statistische Zufallswald-Tagger erzielt in fast allen Kategorien die besseren + Ergebnisse. Eine Ausnahme bilden Generalisierungen ohne overte Quantifikation, die + der regelbasierte Tagger mit einer höheren Performanz klassifiziert. Da + Generalisierungen ohne overte Quantifikation zahlenmäßig am häufigsten vorkommen, + erreicht der regelbasierte Tagger ein höheres Mikro-F-Maß (24% vs. 20%), wohingegen + der statistische Tagger ein höheres Makro-F-Maß erreicht (39% vs. 28%). Allerdings + ist beim statistischen Tagger eine kontinuierlich steigende Lernkurve zu erkennen, + was nahelegt, dass seine Performanz mit der verarbeiteten Textmenge steigt.</p> + <p>Der Tagger trägt dazu bei, + Generalisierungen in fiktionalen Erzähltexten als komplexes literarisches Phänomen + erkennbar werden zu lassen. Davon profitiert insbesondere die Narratologie, insofern + Generalisierungen Indikatoren für Phänomene wie <term type="dh">Metanarration</term>, einen <term type="dh">overt narrator</term>, <term type="dh">nicht-fiktionale Rede</term> und <term type="dh">explicit truths</term> sein + können. Es werden diachrone Analysen ermöglicht, indem autor*innen-, strömungs- oder + gattungsübergreifend Generalisierungen in Texten bezüglich ihrer Funktion empirisch + untersucht werden können. Zudem wird eine Analyse von Generalisierungen auf + verschiedenen Textebenen möglich, da sie sowohl im Erzähler- als auch im Figurentext + auftreten können (vgl. (16), <ref type="intern" target="#hd5">Abschnitt 2.3</ref>). Der Tagger bereichert jedoch nicht nur die + Literaturwissenschaft, sondern auch die theoretische Linguistik, deren Modelle und + Theorien zur Generizität und Quantifikation durch die Sprachdaten aus literarischen + Erzähltexten vor neue Herausforderungen gestellt werden. Aber auch auf der Textebene + kann die Linguistik Erkenntnisse gewinnen, da generische Aussagen typischerweise mit + dem statischen Aspekt assoziiert werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#carlson_generics_2006">Carlson 2006</ref>.</note> Inwiefern Erzählpausen + im narrativen Text mit statischem lexikalischem Aspekt einhergehen, ist eine + spannende offene Forschungsfrage. Die zentrale kommende Aufgabe wird es sein, mehr + Daten für den statistischen Tagger zu generieren, um die Performanz des Taggers zu + verbessern. Auch soll überprüft werden, inwiefern neuronale Methoden eine noch + höhere Trefferquote erzielen können.</p> + </div> + <div type="chapter"> + <head>Danksagungen</head> + + <p>Die VolkswagenStiftung und die + Deutsche Forschungsgemeinschaft (424264086) haben die Arbeit an diesem Aufsatz + ermöglicht, dafür bedanken wir uns herzlich. Wir danken zudem unseren studentischen + Hilfskräften für ihre Annotationsarbeit: Friederike Altmann, Jan P. Lau, Jonas + Lipski, Evelyn Ovsjannikov, Noreen Scheffel, Ruben M. Van Wijk und Marina L. + Wurzbacher. Ebenfalls danken wir zwei anonymen Gutachter*innen für ihre Kommentare + und Hinweise, von denen der vorliegende Aufsatz profitiert hat.</p> + </div> + </div> + <div type="bibliography"> + <head>Bibliographische Angaben</head> + + <listBibl> + <bibl xml:id="barth_monaco_2021">Florian Barth / Tillmann Dönicke / Benjamin Gittel / Luisa + Gödeke / Anna Mareike Weimer / Anke Holler / Caroline Sporleder / Hanna Varachkina: + MONACO: Modes of Narration and Attribution Corpus. 2021. [<ref target="https://gitlab.gwdg.de/mona/korpus-public">online</ref>]</bibl> + <bibl xml:id="barth_monapipe_2022">Florian Barth / Tillmann Dönicke / Hanna Varachkina / + Caroline Sporleder: MONAPipe: Modes of Narration and Attribution Pipeline for German + Computational Literary Studies and Language Analysis in spaCy. In: Proceedings of + the 18th Conference on Natural Language Processing (KONVENS: Konferenz zur + Verarbeitung natürlicher Sprache/Conference on Natural Language Processing, Potsdam, + 12.–15.09.2022). [<ref target="https://aclanthology.org/2022.konvens-1.2/">online</ref>]</bibl> + <bibl xml:id="barwise_quantifiers_1981">Jon Barwise / Robin Cooper: Generalized Quantifiers and + Natural Language. In: Linguistics and Philosophy 4 (1981), H. 2, S. 159–219. + <ptr type="gbv" cRef="129323837"/></bibl> + <bibl xml:id="benthem_logic_1983">Johan van Benthem: The Logic of Natural Language. In: + Philosophical Books 24 (1983), H. 2, S. 99–102. <ptr type="gbv" cRef="166711721"/></bibl> + <bibl xml:id="breiman_classification_1984">Leo Breiman / Jerome H. Friedman / Richard A. Olshen / + Charles J. Stone: Classification and Regression Trees. New York u. a. 1984. + <ptr type="gbv" cRef="253472792"/></bibl> + <bibl xml:id="breiman_random_2001">Leo Breiman: Random Forests. In: Machine Learning 45 + (2001). DOI: <ref target="https://doi.org/10.1023/A:1010933404324">10.1023/A:1010933404324</ref> <ptr type="gbv" cRef="12920403X"/></bibl> + <bibl xml:id="carlson_generics_2006">Greg N. Carlson: Generics, Habituals, Iteratives. In: + Encyclopedia of Language & Linguistics. Hg. von Keith Brown. 2. Auflage. + Amsterdam u. a. 2006. <ptr type="gbv" cRef="473039672"/></bibl> + <bibl xml:id="chatman_story_1978">Seymour Chatman: Story and Discourse. Narrative Structure + in Fiction and Film. New York, NY 1978. <ptr type="gbv" cRef="011286377"/></bibl> + <bibl xml:id="adw_dta_2022">Deutsches Textarchiv. Grundlage für + ein Referenzkorpus der neuhochdeutschen Sprache. Hg. von Berlin-Brandenburgische + Akademie der Wissenschaften. Berlin 2022. [<ref target="https://www.deutschestextarchiv.de/">online</ref>]</bibl> + <bibl xml:id="doenicke_tense_2020">Tillmann Dönicke: Clause-Level Tense, Mood, Voice and + Modality Tagging for German. Düsseldorf 2020. DOI: + <ref target="http://dx.doi.org/10.18653/v1/2020.tlt-1.1">10.18653/v1/2020.tlt-1.1</ref></bibl> + <bibl xml:id="doenicke_phenomena_2021">Tillmann Dönicke / Luisa + Gödeke / Hanna Varachkina: Annotating Quantified Phenomena in Complex Sentence + Structures Using the Example of Generalising Statements in Literary Texts. In: + Proceedings of the 17th Joint ACL - ISO Workshop on Interoperable Semantic + Annotation. Hg. von Harry Bunt. (ISA 17, Groningen, 16.–17.06.2021) + Stroudsburg 2021, S. 20–32. [<ref target="https://aclanthology.org/2021.isa-1.3/">online</ref>]</bibl> + <bibl xml:id="ernst_uhr_2012">Paul Ernst: Die Uhr. In: TextGrid Repository. Digitale + Bibliothek. Göttingen 2012. Handle: + <ref target="https://hdl.handle.net/11858/00-1734-0000-0002-A2A0-8">11858/00-1734-0000-0002-A2A0-8</ref> + </bibl> + <bibl xml:id="fleiss_scale_1971">Joseph L. Fleiss: Measuring nominal scale agreement among + many raters. In: Psychological Bulletin 76 (1971), H. 5, S. 378–382. <ptr type="gbv" cRef="129067016"/></bibl> + <bibl xml:id="fontane_stechlin_2012">Theodor Fontane: Der Stechlin. In: TextGrid Repository. + Digitale Bibliothek. Göttingen 2012. Handle: <ref target="https://hdl.handle.net/11858/00-1734-0000-0002-AECF-D">11858/00-1734-0000-0002-AECF-D</ref> + </bibl> + <bibl xml:id="friedrich_recognition_2015">Annemarie Friedrich / Manfred Pinkal: Automatic recognition + of habituals: a three-way classification of clausal aspect. In: Proceedings of the 2015 Conference + on Empirical Methods in Natural Language Processing. Hg. von LluÃs Mà rquez + / Chris Callison-Burch / Jian Su (EMNLP, Lisbon, 17.–21.09.2015). Red Hook, NY 2015. + DOI: <ref target="http://dx.doi.org/10.18653/v1/D15-1294">10.18653/v1/D15-1294</ref> <ptr type="gbv" cRef="840977778"/></bibl> + <bibl xml:id="friedrich_annotating_2015">Annemarie Friedrich / Alexis Palmer / Melissa Peate + Sørensen / Manfred Pinkal: Annotating genericity: a survey, a scheme, and a + corpus. In: Proceedings of the 9th Linguistic Annotation Workshop. Hg. von Adam + Meyers / Ines Rehbein / Heike Zinsmeister (LAW 9, Denver, CO, 31.05.–05.06.2015). + Red Hook, NY 2015, S. 21–30. DOI: <ref target="http://dx.doi.org/10.3115/v1/W15-1603">10.3115/v1/W15-1603</ref> <ptr type="gbv" cRef="835349225"/></bibl> + <bibl xml:id="friedrich_situation_2016">Annemarie Friedrich / Alexis Palmer / Manfred Pinkal: + Situation entity types: automatic classification of clause-level aspect. In: Proceedings of the 54th Annual + Meeting of the Association for Computational Linguistics (Volume 1: Long + Papers). Hg. von Katrin Erk / Noah A. Smith (ACL 54, Berlin, 07.–12.08.2016). Stroudsburg, PA 2016, S. 1757–1768. DOI: <ref target="http://dx.doi.org/10.18653/v1/P16-1166">10.18653/v1/P16-1166</ref> + </bibl> + <bibl xml:id="gittel_essayismus_2015">Benjamin Gittel: Essayismus als Fiktionalisierung von + unsicheres Wissen prozessierender Reflexion. In: Scientia Poetica 19 (2015), H. 1, + S. 136–171. <ptr type="gbv" cRef="22568697X"/></bibl> + <bibl xml:id="gius_annotation_2016">Evelyn Gius / Janina Jacke: Zur Annotation narratologischer + Kategorien der Zeit. Guidelines zur Nutzung des CATMA-Tagsets. Version 2.0. Hamburg + 2016. PDF. [<ref target="http://heureclea.de/wp-content/uploads/2016/11/guidelinesV2.pdf">online</ref>]</bibl> + <bibl xml:id="gius_catma_2022">Evelyn Gius / Jan Christoph Meister / Malte Meister / Marco + Petris / Christian Bruck / Janina Jacke / Mareike Schumacher / Dominik Gerstorfer / + Marie Flüh / Jan Horstmann: CATMA 6. Version 6.5. 2022. In: Zenodo. DOI: <ref target="https://doi.org/10.5281/zenodo.1470118">10.5281/zenodo.1470118</ref> + </bibl> + <bibl xml:id="goethe_wahlverwandtschaften_2012">Johann Wolfgang von Goethe: Die Wahlverwandtschaften. In: + TextGrid Repository. Digitale Bibliothek. Göttingen 2012. Handle: <ref target="https://hdl.handle.net/11858/00-1734-0000-0006-6A93-D">11858/ 00-1734-0000-0006-6A93-D</ref> + </bibl> + <bibl xml:id="heim_semantics_1982">Irene Roswitha Heim: The Semantics of Definite and + Indefinite Noun Phrases. Ann Arbor, Dissertation, University of MAassachusetts 1982. + <ptr type="gbv" cRef="309326036"/></bibl> + <bibl xml:id="honnibal_transition_2015">Matthew Honnibal / Mark Johnson: An Improved Non-monotonic + Transition System for Dependency Parsing. In: Conference on Empirical Methods in + Natural Language Processing. Hg. von Association for Computational Linguistics. + (EMNLP, Lissabon, 17.–21.09.2015). Red Hook, NY 2015, S. 1373–1378. DOI: <ref target="https://doi.org/10.18653/v1/D15-1162">10.18653/v1/D15-1162</ref> + <ptr type="gbv" cRef="840977778"/></bibl> + <bibl xml:id="kafka_bau_1990">Franz Kafka: Der Bau. In: Projekt Gutenberg. Hamburg. + Basierend auf der Druckausgabe Frankfurt / Main 1990. + [<ref target="https://www.projekt-gutenberg.org/kafka/bau/bau.html">online</ref>]</bibl> + <bibl xml:id="kamp_theory_2002">Hans Kamp: A Theory of Truth and Semantic Representation. + In: Formal Semantics. The Essential Readings. Hg. von Paul Portner / Barbara H. + Partee. Oxford 2002, S. 189–222. <ptr type="gbv" cRef="341819506"/></bibl> + <bibl xml:id="konrad_signposts_2017">Eva-Maria Konrad: Signposts of Factuality: On Genuine + Assertions in Fictional Literature. In: Art and Belief. Hg. von Ema Sullivan-Bissett + / Helen Bradley / Paul Noordhof. Oxford 2017, S. 42–62. (= Mind Association + Occasional Series) <ptr type="gbv" cRef="1003480926"/></bibl> + <bibl xml:id="konrad_dimensionen_2014">Eva-Maria Konrad: Dimensionen der Fiktionalität. Analyse + eines Grundbegriffs der Literaturwissenschaft. Münster 2014. <ptr type="gbv" cRef="783799799"/></bibl> + <bibl xml:id="krifka_book_1995">Manfred Krifka / Francis Jeffry Pelletier / Gregory N. + Carlson / Alice ter Meulen / Godehard Link / Gennaro Chierchia: Genericity: An + Introduction. In: The generic book. Hg. von Greg N. Carlson / Francis Jeffry + Pelletier. Chicago u. a. 1995, S. 1–124. <ptr type="gbv" cRef="278698247"/></bibl> + <bibl xml:id="krug_conference_2015">Markus Krug / Frank Puppe / Fotis Jannidis / Luisa + Macharowsky / Isabella Reger / Lukas Weimar: Rule-based Coreference Resolution in + German Historic Novels. In: Proceedings of the Fourth Workshop on Computational + Linguistics for Literature. Hg. von Anna Feldman / Anna Kazantseva / Stan + Szpakowicz / Corina Koolen (NAACL-HLT 4, Denver, + 04.06.2015). Red Hook, NY 2015, S. 98–104. DOI: + <ref target="http://dx.doi.org/10.3115/v1/W15-0711">10.3115/v1/W15-0711</ref> <ptr type="gbv" cRef="835281108"/></bibl> + <bibl xml:id="lahn_einfuehrung_2013">Silke Lahn / Jan Christoph Meister: Einführung in die + Erzähltextanalyse. 2., aktualisierte Auflage. Stuttgart u. a. 2013. <ptr type="gbv" cRef="743833007"/></bibl> + <bibl xml:id="lamarque_truth_1994">Peter Lamarque / Stein H. Olsen: Truth, Fiction, and + Literature. A Philosophical Perspective. Oxford 1994. <ptr type="gbv" cRef="128696141"/></bibl> + <bibl xml:id="leslie_ducks_2011">Sarah-Jane Leslie / Sangeet Khemlani / Sam Glucksberg: All + Ducks Lay Eggs: The Generic Overgeneralization Effect. In: Journal of Memory and + Language 65 (2011), H. 1, S. 15–31. <ptr type="gbv" cRef="130411949"/></bibl> + <bibl xml:id="lewis_adverbs_1975">David K. Lewis: Adverbs of Quantification. In: Formal + Semantics of Natural Language. Hg. von Edward L. Keenan. Cambridge, UK 1975, S. + 178–188. <ptr type="gbv" cRef="153115041"/></bibl> + <bibl xml:id="mikkonen_assertions_2009">Jukka Mikkonen: Assertions in Literary Fiction. In: Minerva + 13 (2009), S. 144–180. [<ref target="http://www.minerva.mic.ul.ie/vol13/Assertions.htm">online</ref>]</bibl> + <bibl xml:id="mitchell_ace_2003">Alexis Mitchell / Stephanie Strassel / Mark Przybocki / JK + Davis / George R. Doddington / Ralph Grishman / Adam Meyers / Ada Brunstein / Lisa + Ferro / Beth Sundheim: ACE-2 Version 1.0. LDC2003T11, Philadelphia 2003. DOI: <ref target="https://doi.org/10.35111/kcqk-v224">10.35111/kcqk-v224</ref> + </bibl> + <bibl xml:id="musil_mann_1970">Robert Musil: Der Mann ohne Eigenschaften. Erstes Buch. + Hg. von Adolf Frisé. In: Projekt Gutenberg. Hamburg. Basierend auf der Druckausgabe + 1970. [<ref target="https://www.projekt-gutenberg.org/musil/mannohne">online</ref>]</bibl> + <bibl xml:id="nuenning_grundzuege_1989">Ansgar Nünning: Grundzüge eines kommunikationstheoretischen + Modells der erzählerischen Vermittlung. Trier 1989. <ptr type="gbv" cRef="025341634"/></bibl> + <bibl xml:id="petraschka_interpretation_2014">Thomas Petraschka: Interpretation und Rationalität. + Billigkeitsprinzipien in der philologischen Hermeneutik. Berlin 2014 (= Historia + Hermeneutica / Series Studia, 11) <ptr type="gbv" cRef="78039349X"/></bibl> + <bibl xml:id="reiter_identifying_2010">Nils Reiter / Anette Frank: Identifying Generic Noun + Phrases. In: Proceedings of the 48th Annual Meeting of the Association for + Computational Linguistics. Hg. von Jan HajiÄ / Sandra Carberry / Stephan Clark / Joakim Nivre (ACL 48, Uppsala, + 11.–16.07.2010). Red Hook, NY 2010, S. 40–49. + [<ref target="https://dl.acm.org/doi/10.5555/1858681.1858686">online</ref>] <ptr type="gbv" cRef="644235802"/></bibl> + <bibl xml:id="scheffel_einfuehrung_2016">Michael Scheffel / MatÃas MartÃnez: Einführung in die + Erzähltheorie. 10., überarbeitete Auflage. München 2016. <ptr type="gbv" cRef="857714805"/></bibl> + <bibl xml:id="searle_logic_1975">John R. Searle: The Logical Status of Fictional Discourse. + In: New Literary History 6 (1975), H. 2, S. 319–332. <ptr type="gbv" cRef="129093378"/></bibl> + <bibl xml:id="tolstoj_anna_2012">Lev NikolaeviÄ Tolstoj: Anna Karenina. In: TextGrid + Repository. Digitale Bibliothek. Göttingen 2012. Handle: <ref target="https://hdl.handle.net/11858/00-1734-0000-0005-57A8-B">11858/00-1734-0000-0005-57A8-B</ref> + </bibl> + <bibl xml:id="vesper_literatur_2014">Achim Vesper: Literatur und Aussagen über Allgemeines. In: + Wahrheit, Wissen und Erkenntnis in der Literatur. Philosophische Beiträge. Hg. von + Christoph Demmerling / Ãngrid Vendrell Ferran. Berlin 2014, S. 181–196. + <ptr type="gbv" cRef="750503173"/></bibl> + <bibl xml:id="walker_ace_2006">Christopher Walker / Stephanie Strassel / Julie Medero / + Kazuaki Maeda: ACE 2005 Multilingual Training Corpus LDC2006T06. Philadelphia 2006. + DOI: <ref target="https://doi.org/10.35111/mwxc-vh88">10.35111/mwxc-vh88</ref> + </bibl> + <bibl xml:id="wieland_geschichte_2012">Christoph Martin Wieland: Geschichte des Agathon. In: + TextGrid Repository. Digitale Bibliothek. 2012. Handle: + <ref target="https://hdl.handle.net/11858/00-1734-0000-0005-A68F-A">11858/00-1734-0000-0005-A68F-A</ref> + </bibl> + </listBibl> + </div> + + <div type="abbildungsnachweis"> + <head>Abbildungs- und Tabellenverzeichnis</head> + <desc type="table" xml:id="tab1"><ref target="#tab01" type="intern">Tab. 1</ref>: + Tagset MONACO. [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t1"/> + </desc> + <desc type="table" xml:id="tab2"><ref target="#tab02" type="intern">Tab. 2</ref>: + Korpus MONACO. [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t2"/> + </desc> + <desc type="graphic" xml:id="abb1">Textverarbeitungskomponenten für verschiedene sprachliche Ebenen: Ein Text + durchläuft die einzelnen Komponenten von links nach rechts und von oben nach + unten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_001"/></desc> + + <desc type="graphic" xml:id="abb2">Regelbasierter GenTagger. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_002"/></desc> + + <desc type="table" xml:id="tab3"><ref target="#tab03" type="intern">Tab. 3</ref>: + Größe der Trainings-, + Entwicklungs- und Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t3"/> + </desc> + <desc type="table" xml:id="tab4"><ref target="#tab04" type="intern">Tab. 4</ref>: + Merkmale für den statistischen GenTagger; Fragezeichen markieren Boole’sche Merkmale. [Gödeke et + al. 2022]<ref type="graphic" target="#generalisation_2022_t4"/> + </desc> + <desc type="graphic" xml:id="abb3">Die wichtigsten Merkmale + des Entscheidungsbaum-GenTaggers. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_003"/></desc> + <desc type="graphic" xml:id="abb4">Berechnung von Precision (P), Recall (R) und F-Maß (F) für ein einzelnes Subtag y. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_004"/></desc> + <desc type="graphic" xml:id="abb5">Berechnung des Mikro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_005"/></desc> + <desc type="graphic" xml:id="abb6">Berechnung des Makro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_006"/></desc> + <desc type="table" xml:id="tab5"><ref target="#tab05" type="intern">Tab. 5</ref>: + Mikro-Durchschnitts-Werte der GenTagger auf Entwicklungs- und Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t5"/> + </desc> + <desc type="table" xml:id="tab6"><ref target="#tab06" type="intern">Tab. 6</ref>: + Tag-spezifische Makro-Durchschnittswerte der GenTagger auf den Testdaten. [Gödeke et al. + 2022]<ref type="graphic" target="#generalisation_2022_t6"/> + </desc> + <desc type="graphic" xml:id="abb7">Performanz des Zufallswald-GenTaggers auf den Testdaten bei schrittweiser + Hinzunahme von Trainingstexten. Autorennamen stehen als Kürzel für die einzelnen + Werke. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_007"/></desc> + + </div> + </body> + </text> +</TEI> diff --git a/2022_010_goedeke_et_al/generalisation_2022_001.png b/2022_010_goedeke_et_al/generalisation_2022_001.png new file mode 100644 index 0000000000000000000000000000000000000000..58ff35e52d01db04cfa3c74a0969f27c2cee6c2f Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2022_001.png differ diff --git a/2022_010_goedeke_et_al/generalisation_2022_002.png b/2022_010_goedeke_et_al/generalisation_2022_002.png new file mode 100644 index 0000000000000000000000000000000000000000..894952c74734597a29edf5415141d015fb1a69b9 Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2022_002.png differ diff --git a/2022_010_goedeke_et_al/generalisation_2022_003.png b/2022_010_goedeke_et_al/generalisation_2022_003.png new file mode 100644 index 0000000000000000000000000000000000000000..417606fea1d3c16094b788d4f55e90911453b42a Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2022_003.png differ diff --git a/2022_010_goedeke_et_al/generalisation_2022_004.PNG b/2022_010_goedeke_et_al/generalisation_2022_004.PNG new file mode 100644 index 0000000000000000000000000000000000000000..08ff808798650a0e0cf5147461615ffbae48311d Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2022_004.PNG differ diff --git a/2022_010_goedeke_et_al/generalisation_2022_005.PNG b/2022_010_goedeke_et_al/generalisation_2022_005.PNG new file mode 100644 index 0000000000000000000000000000000000000000..6a78e95a777803005cd412ef15443e3146039526 Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2022_005.PNG differ diff --git a/2022_010_goedeke_et_al/generalisation_2022_006.PNG b/2022_010_goedeke_et_al/generalisation_2022_006.PNG new file mode 100644 index 0000000000000000000000000000000000000000..3b3352428c5f36bcd780c5d8e1b255203f500824 Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2022_006.PNG differ diff --git a/2022_010_goedeke_et_al/generalisation_2022_007.png b/2022_010_goedeke_et_al/generalisation_2022_007.png new file mode 100644 index 0000000000000000000000000000000000000000..06b85de069e8eda66c1746a7a126c70aa581da4c Binary files /dev/null and b/2022_010_goedeke_et_al/generalisation_2022_007.png differ