Skip to content
Snippets Groups Projects
Commit 33953d84 authored by Jonathan Schimpf's avatar Jonathan Schimpf
Browse files

goedeke angelegt

parent 5917f1bf
No related branches found
No related tags found
No related merge requests found
File added
<?xml version="1.0" encoding="utf-8"?>
<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
?>
<TEI xmlns="http://www.tei-c.org/ns/1.0"
xmlns:html="http://www.w3.org/1999/html"
xmlns:tei="http://www.tei-c.org/ns/1.0"
xmlns:xlink="http://www.w3.org/1999/xlink"
xmlns:xhtml="http://www.w3.org/1999/xhtml">
<teiHeader>
<fileDesc>
<titleStmt>
<title>
<biblStruct>
<analytic>
<title level="a">Generalisierungen als literarisches Phänomen. Charakterisierung, Annotation und automatische Erkennung</title>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Luisa</forename>
<surname>Gödeke</surname>
</name>
<email>luisa.goedeke@uni-goettingen.de</email>
<idno type="gnd">1228354081</idno>
<idno type="orcid">0000-0003-3230-8993</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName>
</respStmt>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Florian</forename>
<surname>Barth</surname>
</name>
<email>barth@sub.uni-goettingen.de</email>
<idno type="gnd">1228353344</idno>
<idno type="orcid">0000-0003-3408-7311</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Göttingen Centre for Digital Humanities (GCDH)</orgName>
</respStmt>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Tillmann</forename>
<surname>Dönicke</surname>
</name>
<email>tillmann.doenicke@uni-göttingen.de
</email>
<idno type="gnd">122835300X</idno>
<idno type="orcid">0000-0001-5844-9167</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Göttingen Centre for Digital Humanities (GCDH)</orgName>
</respStmt>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Hanna</forename>
<surname>Varachkina</surname>
</name>
<email>hanna.varachkina@stud.uni-goettingen.de</email>
<idno type="gnd">1269647261</idno>
<idno type="orcid">0000-0002-5832-3983</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName>
</respStmt>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Anna Mareike</forename>
<surname>Weimer</surname>
</name>
<email>annamareike.hofmann@uni-goettingen.de</email>
<idno type="gnd">1228354707</idno>
<idno type="orcid">0000-0002-2352-4793</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName>
</respStmt>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Benjamin</forename>
<surname>Gittel</surname>
</name>
<email>benjamin.gittel@uni-goettingen.de</email>
<idno type="gnd">1041237715</idno>
<idno type="orcid">0000-0002-1855-0049</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName>
</respStmt>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Anke</forename>
<surname>Holler</surname>
</name>
<email>anke.holler@phil.uni-goettingen.de</email>
<idno type="gnd">142630578</idno>
<idno type="orcid">0000-0003-0566-1150</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Seminar für Deutsche Philologie</orgName>
</respStmt>
<respStmt>
<resp>
<persName>
<name role="marc_aut">
<forename>Caroline</forename>
<surname>Sporleder</surname>
</name>
<email>csporled@cs.uni-goettingen.de</email>
<idno type="gnd">142630578</idno>
<idno type="orcid">0000-0003-0566-1150</idno>
</persName>
</resp>
<orgName>Georg-August-Universität Göttingen, Institut für Informatik und Göttingen Centre for Digital Humanities (GCDH)</orgName>
</respStmt>
<idno type="doi">10.17175/2022_010</idno>
<idno type="ppn">1817977911</idno>
<idno type="zfdg">2022.010</idno>
<idno type="url">https://www.zfdg.de/node/365</idno>
<date when="2022-11-24">24.11.2022</date>
</analytic>
<monogr>
<title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
<respStmt>
<resp>Publiziert von</resp>
<orgName role="marc_pbl">Herzog August Bibliothek</orgName>
</respStmt>
<respStmt>
<resp>Transformation der Word Vorlage nach TEI</resp>
<persName/>
<name role="marc_trc">
<surname>Baumgarten</surname>
<forename>Marcus</forename>
<idno type="gnd">1192832655</idno>
</name>
</respStmt>
<availability status="free">
<p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref>
</p>
</availability>
<biblScope unit="year">2022</biblScope>
<biblScope unit="artikel">10</biblScope>
</monogr>
</biblStruct>
</title>
</titleStmt>
<editionStmt>
<edition>Elektronische Ausgabe nach TEI P5</edition>
</editionStmt>
<publicationStmt>
<distributor>
<name>
<orgName>Herzog August Bibliothek Wolfenbüttel</orgName>
</name>
</distributor>
<idno type="doi">10.17175/zfdg.01</idno>
<idno type="ppn">0819494402</idno>
<authority>
<name>Herzog August Bibliothek</name>
<address>
<addrLine>Lessingplatz 1</addrLine>
<addrLine>38304 Wolfenbüttel</addrLine>
</address>
</authority>
<authority>
<name>Forschungsverbund Marbach Weimar Wolfenbüttel</name>
<address>
<addrLine>Burgplatz 4</addrLine>
<addrLine>99423 Weimar </addrLine>
</address>
</authority>
<availability status="free">
<p> Sofern nicht anders angegeben </p>
<licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence>
</availability>
<availability status="free">
<p> Available at <ref target="workID">https://www.zfdg.de; (c)
Forschungsverbund MWW</ref>
</p>
</availability>
</publicationStmt>
<sourceDesc>
<p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<editorialDecl>
<p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und XSLT-Skripten</p>
<p>Medienrechte liegen bei den Autor*innen</p>
<p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Martin de la Iglesia</persName>.</p>
<p>All links checked<date when="2022-10-20">20.10.2022</date></p>
</editorialDecl>
</encodingDesc>
<profileDesc>
<creation>Einreichung als Artikel der Zeitschrift für digitale
Geisteswissenschaften</creation>
<langUsage>
<language ident="de">Text in Deutsch</language>
<language ident="de">Abstract in Deutsch</language>
<language ident="en">Abstract in Englisch</language>
</langUsage>
<textClass>
<keywords scheme="gnd">
<term>Computerlinguistik<ref target="4035843-4"/>
</term>
<term>Erzähltheorie<ref target="4152975-3"/>
</term>
<term>Quantifizierung (Linguistik)<ref target="4076453-9"/>
</term>
<term>Literaturwissenschaft<ref target="4036034-9"/>
</term>
</keywords>
</textClass>
</profileDesc>
<revisionDesc>
<change/>
</revisionDesc>
</teiHeader>
<text>
<body>
<div>
<div type="abstract">
<argument xml:lang="de">
<p>Generalisierungen in Erzähltexten dienen typischerweise nicht
oder nicht ausschließlich dazu, die erzählte Welt aufzubauen, sondern um
Informationen über die Erzählinstanz, den Sinn des Erzählten oder die reale Welt
bereitzustellen. Der Aufsatz leistet einen Beitrag zur
linguistisch-literaturwissenschaftlichen Beschreibung von Generalisierungen,
entwickelt ein Tagset für ihre Identifikation und Klassifikation und stellt die
Ergebnisse ihrer kollaborativen Annotation in einem diachronen Korpus (1616–1930)
dar. Die schließlich vorgestellten regelbasierten und statistischen Tagger zur
automatischen Erkennung von Generalisierungen gewährleisten den Zugang zu einer
breiten Basis von Textbeispielen und ermöglichen eine empirisch gesättigte Analyse
der Funktionen von Generalisierungen und der assoziierten narratologischen
Phänomene.</p>
</argument>
<argument xml:lang="en">
<p>Generalisations in narrative texts typically do not or not
exclusively serve to devise the narrated world, but provide information about the
narrative instance, the meaning of what is told or the real world. The paper
contributes to the linguistic-literary description of generalisations, develops a
tagset for their identification and classification, and presents the results of
their collaborative annotation in a diachronic corpus (1616–1930). Finally, the
paper presents a rule-based and a statistical tagger for the automatic recognition
of generalisations that allow users to access a variety of examples of the
phenomenon and can be used in the analysis of the functions of generalisations and
the associated narratological phenomena.</p>
</argument>
</div>
<div type="chapter">
<head>1. Einleitung</head>
<p>Das wohl bekannteste Beispiel für
Generalisierungen in der literaturwissenschaftlichen Forschung ist der erste Satz
aus Tolstojs <bibl>
<title type="desc">Anna Karenina</title>
</bibl>, an dem eine Vielzahl
aktueller Forschungspositionen erläutert werden können:<lb/><seg type="ex">(1) Alle glücklichen Familien sind
einander ähnlich; aber jede unglückliche Familie ist auf ihre besondere Art
unglücklich.<note type="footnote">Vgl. <ref type="bibliography" target="#tolstoj_anna_2012">Tolstoj 2012</ref>, S. 7.</note></seg><lb/>Martínez und Scheffel analysieren
dieses Beispiel in ihrer Diskussion des <bibl>
<title type="desc">theoretischen
Satzes</title>
</bibl> als eine <quote>kommentierende Stellungnahme des
Erzählers über die Welt überhaupt</quote> und unterscheiden sie von mimetischen
Sätzen, die <quote>Informationen über die konkrete Beschaffenheit und
das Geschehen in der erzählten Welt</quote> vermitteln.<note type="footnote">
<ref type="bibliography" target="#scheffel_einfuehrung_2016">Scheffel / Martínez 2016</ref>, S.
104f.</note> Bei genauerer Betrachtung fällt allerdings auf, dass diese
vermeintlich strikte Trennung der Funktionen dem Beispiel nicht gerecht wird. Durch
die Generalisierung entsteht augenscheinlich eine Distanz zur erzählten Welt,<note type="footnote">
<ref type="bibliography" target="#nuenning_grundzuege_1989">Nünning 1989</ref>, S.
50f.</note> wodurch der Satz als Bemerkung über die nicht-fiktionale
Welt interpretiert werden kann – also als eine Behauptung über die Beschaffenheit
von Familien im Allgemeinen.<note type="footnote"> Vgl. die Diskussion in
<ref type="bibliography" target="#gittel_essayismus_2015">Gittel 2015</ref>, S.
148–168.</note> Der Satz kann aber zusätzlich als Vorhersage über die
Geschehnisse in der fiktionalen Welt interpretiert werden und somit als Leitfaden
zum Verständnis des Werkes an sich dienen. In (1) kann die Generalisierung demnach
auf eine explizite Erzählinstanz (<term type="dh">overt narrator</term>)
hinweisen und zugleich als Indikator für sogenannte <term type="dh">nicht-fiktionale-Rede</term> (<term type="dh">non-fictional
speech</term>)<note type="footnote"> Vgl.
<ref type="bibliography" target="#searle_logic_1975">Searle 1975</ref>, S. 331f.;
<ref type="bibliography" target="#konrad_dimensionen_2014">Konrad 2014</ref>, S. 424–474;
<ref type="bibliography" target="#konrad_signposts_2017">Konrad 2017</ref>, S. 57.
</note> gelten.<note type="footnote"> <ref type="bibliography" target="#chatman_story_1978">Chatman 1978</ref>, S. 243.</note> Vertreter*innen einer
Theorie der Literatur als soziale Institution betrachten generalisierende Aussagen
wie (1) als <term type="dh">thematic statements</term>, also als Hinweise
auf das Thema des betreffenden Werks.<note type="footnote"> Vgl.
<ref type="bibliography" target="#lamarque_truth_1994">Lamarque / Olsen 1994</ref>, S. 328–331;
<ref type="bibliography" target="#lahn_einfuehrung_2013">Lahn / Meister
2013</ref>, S. 176f.</note> In der Debatte um das Verhältnis von Wissen und
Literatur werden Generalisierungen als Beispiele für sogenannte <term type="dh">explicit truths</term> oder <term type="dh">explizite Propositionen</term> herangezogen, die möglicherweise eine besondere
Rolle für den kognitiven Wert fiktionaler Werke spielen.<note type="footnote"> Vgl.
<ref type="bibliography" target="#petraschka_interpretation_2014">Petraschka 2014</ref>, S. 99–106;
<ref type="bibliography" target="#vesper_literatur_2014">Vesper 2014</ref>; in anderem Vokabular
<ref type="bibliography" target="#mikkonen_assertions_2009">Mikkonen 2009</ref>.</note></p>
<p>Beispiel (1) illustriert demnach, dass
Generalisierungen im Erzähltext offenbar Aussagen darstellen, die typischerweise
nicht oder nicht nur dem Aufbau der erzählten Welt dienen, sondern diverse weitere
Funktionen erfüllen können. Nichtsdestoweniger spielen sie in der Narratologie nur
eine untergeordnete Rolle. Häufig ist umgangssprachlich von <term type="dh">Verallgemeinerungen</term> die Rede; eine empirische
Untersuchung von Generalisierungen hinsichtlich ihrer werkimmanenten und
textexternen Funktionen blieb bislang aus. So beruhen die bis dato in der Forschung
formulierten Hypothesen zur Funktion von Generalisierungen meist auf wenigen
ausgewählten Beispielsätzen kanonisierter Werke. Diachrone Perspektiven, etwa
hinsichtlich einzelner Autor*innen, Epochen, literarischer Gattungen oder
Strömungen, bleiben unausgeschöpft.</p>
<p>Im Mittelpunkt des vorliegenden
Aufsatzes stehen zwei Generalisierungstagger: ein regelbasierter und ein
statistischer Tagger. Die Entwicklung der Tagger soll dazu dienen, einerseits
Generalisierungen formal (d. h. linguistisch) zu untersuchen. Andererseits sollen
die mit Generalisierungen assoziierten Funktionen und Effekte im Erzähltext
analysiert werden können, insbesondere vor dem Hintergrund diachroner
narratologischer Fragestellungen. Dementsprechend wird mit einem Korpus
deutschsprachiger fiktionaler Erzähltexte gearbeitet, die zwischen 1616 und 1930
veröffentlicht wurden. Der <ref type="intern" target="#hd2">Abschnitt 2</ref> wird eingangs in die mit Generalisierungen
assoziierten linguistischen Phänomene Quantifikation und Generizität und ihre
computergestützte Operationalisierung einführen. Ein besonderes Augenmerk wird
darauf liegen, die für uns zentrale Herausforderung für die Annotation von
Generalisierungen zu bewältigen: Quantifikation und Generizität stellen einerseits
klassische Gegenstände der semantischen Theoriebildung dar und sollen auf eine Weise
annotiert werden, die eine linguistische Analyse der Annotation ermöglichen. Dennoch
müssen annotierbare Indikatoren an der Satzoberfläche erkennbar sein, was
insbesondere bei generischen Ausdrücken komplex ist. Diese Herausforderung ergibt
sich aus unserer Engführung linguistischer und narratologischer Perspektiven auf das
Thema Generalisierungen. Unser Ziel ist es, die Tagger insbesondere dafür zu nutzen,
die Schnittstelle zwischen Formen und Funktionen von Generalisierungen im Erzähltext
auszuleuchten. In <ref type="intern" target="#hd6">Abschnitt 3</ref> schildern wir unser
Annotationsvorgehen, das die in der Forschungsliteratur vorhandenen Tagsets zur
Annotation von Quantifikations- bzw. Generizitätsphänomenen um ein intuitives und
theorieübergreifendes Vorgehen für deutschsprachige fiktionale Texte ergänzt. Zudem
wird das Annotationskorpus beschrieben sowie Ergebnisse des <term type="dh">Inter-Annotator-Agreements</term> dargestellt. Es folgt eine Erläuterung zur
Implementierung der Tagger in <ref type="intern" target="#hd9">Abschnitt 4</ref> und ihre
Evaluation in <ref type="intern" target="#hd14">Abschnitt 5</ref>. </p>
</div>
<div type="chapter">
<head>2. Generalisierungen in Theorie und Operationalisierung</head>
<p>Generalisierungen können auf
verschiedene Weise im Satz sprachlich markiert sein. Typische Indikatoren sind
allquantifizierte und generische Ausdrücke, die zu einer Äußerung naturgemäß
generalisierende Bedeutungsanteile beitragen können. Quantifikation und Generizität
stellen dabei klassische Gegenstände der semantischen Theoriebildung dar, weswegen
bereits zahlreiche detaillierte und differenzierte Analysen und Modelle zu ihrer
adäquaten Beschreibung vorliegen. Daraus ergibt sich die zentrale Herausforderung
für die Annotation und die automatische Erkennung von Generalisierungen in
Erzähltexten: Einerseits müssen annotierbare Indikatoren für Generalisierungen an
der Satzoberfläche identifiziert werden können, andererseits muss jedwedes
Annotationsschema auch theoretisch plausibel mit den etablierten semantischen
Theorieansätzen kompatibel sein.</p>
<p>Im Folgenden werden zunächst kurz die
hier vorausgesetzten Annahmen der theoretischen Semantik zur Generizität und
Quantifikation eingeführt. Daran anschließend werden relevante computerlinguistische
Vorschläge zur Annotation generischer Ausdrücke diskutiert. Dabei wird auch deutlich
werden, dass die vorgeschlagene Herangehensweise nur begrenzt auf Erzähltexte
übertragbar ist.</p>
<div type="subchapter">
<head>2.1 Generizität und Quantifikation</head>
<p>Mit generischen Aussagen ist es
möglich, über eine Klasse von Dingen oder Individuen gleichzeitig etwas auszusagen,
entweder durch auf diese <term type="dh">Art</term> oder <term type="dh">Gattung</term> referierende Nominalphrasen (NPn) wie in
Beispiel (2) oder auf Satzebene – in diesem Fall ist die Rede von
charakterisierenden oder generischen Sätzen.<note type="footnote">
<ref type="bibliography" target="#krifka_book_1995">Krifka et al. 1995</ref>, S. 2.</note> Diese teilen
sich in entweder lexikalisch-charakterisierende Aussagen über Fakten (vgl. (3)) oder
habituell-charakterisierende Aussagen über wiederkehrende Ereignisse auf (vgl. (4)).
Beide Formen können auch im selben Satz auftreten (vgl. (3)).<lb/><seg type="ex">(2) <term type="figure">Löwen</term> fressen Fleisch. (NP ›Löwen‹ referiert auf Gattung)</seg><lb/><seg type="ex">(3) Ein Löwe hat eine Mähne. <note type="footnote"> Ein wichtiger
Unterschied zwischen <term type="figure">Ein Löwe hat eine Mähne</term>
und <term type="figure">Jeder Löwe hat eine Mähne</term> besteht darin,
dass generische Aussagen immer Ausnahmen erlauben, allquantifizierte
Aussagen hingegen nicht. Aus linguistischer Perspektive ist es daher nicht
angemessen, beiden Formen dieselben Wahrheitswerte zuzuordnen. Ergebnisse
aus der Psycholinguistik stellen diese Annahme allerdings infrage, vgl.
<ref type="bibliography" target="#leslie_ducks_2011">Leslie et al. 2011</ref>.</note> (lexikalisch-charakterisierend, kombiniert
mit generisch verwendeter NP)</seg><lb/><seg type="ex">(4) John trinkt nach dem Essen ein
Bier. (habitueller Satz)</seg><lb/>Allen diesen generischen Aussagen ist
gemein, dass eindeutige Indikatoren für ihre generalisierende Lesart an der
Satzoberfläche fehlen. Aus diesem Grund sind die aufgeführten Aussagen in der Regel
ambig: Die indefinite Plural-NP <term type="figure">Löwen</term> in (2) ist eine
Form, die zwar häufig generische Lesarten auslöst, aber auch spezifisch verwendet
werden kann:<lb/><seg type="ex">(5) Die Schließanlage im Zoo ist
kaputt. Es sind Löwen ausgebrochen. (spezifische Verwendung)</seg><lb/>Ebenso verhält es sich mit Massennomen
im Singular. Nur in (6), nicht aber in (7) wird <term type="figure">Gold</term>
generisch verwendet:<lb/><seg type="ex">(6) Gold glänzt.</seg><lb/><seg type="ex">(7) Die Bank wurde ausgeraubt und es
wurde Gold gestohlen.</seg><lb/>Auch definite und indefinite NPn im
Singular können generisch oder spezifisch interpretiert werden. Oft ist der Kontext
der ausschlaggebende Faktor dafür, ob eine generische Lesart vorliegt, vgl.
(8)–(10):<lb/><seg type="ex">(8) <term type="figure">Ein
Löwe</term> hat eine Mähne. (Indefinite NP, löst standardmäßig eine
generalisierende Lesart aus)</seg><lb/><seg type="ex">(9) <term type="figure">Der
Löwe</term> hat eine Mähne. (Definite NP, generalisierende Lesart je nach Kontext
möglich)</seg><lb/><seg type="ex">(10) Ein Vater erklärt seinem Kind
Eigenschaften von Wildtieren. Er sagt: Der Elefant hat einen Rüssel. Der Löwe hat
eine Mähne. (Kontext triggert generalisierende Lesart)</seg><lb/><seg type="ex">(11) Ein Vater und sein Kind stehen im
Zoo vor dem Löwenkäfig. Der Vater fragt das Kind, welches der Tiere eine Mähne hat.
Das Kind zeigt auf den männlichen, ausgewachsenen Löwen und sagt: Der Löwe hat eine
Mähne. (Kontext triggert eine spezifische Lesart)</seg><lb/>Diese Beispiele illustrieren die hohe
Kontextabhängigkeit generischer Interpretationen; anhand der sprachlichen Formen
einer NP allein lässt sich noch nicht sicher bestimmen, ob diese NP generisch
interpretiert wird oder nicht. Die Theorie der generalisierten Quantoren
vorausgesetzt, nehmen wir an, dass charakterisierende und quantifizierte Sätze
dieselbe dreiteilige Struktur aufweisen, die aus einem Quantor (Q), einem Restriktor
(R) und einem nuklearen Skopus (S) besteht,<note type="footnote"> Vgl.
<ref type="bibliography" target="#lewis_adverbs_1975">Lewis 1975</ref>;
<ref type="bibliography" target="#barwise_quantifiers_1981">Barwise / Cooper 1981</ref>;
<ref type="bibliography" target="#heim_semantics_1982">Heim 1982</ref>;
<ref type="bibliography" target="#benthem_logic_1983">Benthem 1983</ref>;
<ref type="bibliography" target="#krifka_book_1995">Krifka et al. 1995</ref>, S. 25;
<ref type="bibliography" target="#kamp_theory_2002">Kamp 2002</ref>.</note> wobei jeder
Bestandteil einen bestimmten eigenen Bedeutungsbeitrag leistet. Der Quantor
allerdings muss in natürlichsprachlichen Sätzen nicht zwingend an der Satzoberfläche
ablesbar sein. Dies ist insbesondere bei generischen Sätzen der Fall. Wir erläutern
diese Struktur an einem Beispiel:<lb/><seg type="ex">(12) Jede Wissenschaftlerin ist
klug.</seg><lb/>Ein Quantor kann als eine Relation
zwischen zwei Mengen aufgefasst werden. Demnach drückt <term type="figure">jede</term> in (12) die Relation zwischen der Menge der Wissenschaftlerinnen und
der Menge der klugen Personen aus. Dabei legt er fest, dass die Menge der
Wissenschaftlerinnen vollständig in der Menge der klugen Personen enthalten ist,
also eine Teilmenge der klugen Personen bildet. Die NP <term type="figure">Wissenschaftlerin</term> stellt den Restriktor des Quantors
<term type="figure">jede</term> dar und beschreibt die Teilmenge, über die etwas
ausgesagt wird: die Menge aller Wissenschaftlerinnen. Das Prädikat <term type="figure">ist klug</term> bildet den (nuklearen) Skopus des Quantors,
wodurch die Eigenschaft, die dieser Menge zugeschrieben wird, erfasst ist. In
Beispielen wie (12) sind Q, R und S noch recht leicht oberflächennah zu erkennen,
bei Satzmaterial aus Erzähltexten wird sie ungleich komplexer, wie in <ref type="intern" target="#hd5">Abschnitt 2.3</ref> gezeigt wird. </p>
<p>Sowohl mit quantifizierten als auch
mit generischen Äußerungen können Generalisierungen ausgedrückt werden. Das mitunter
größere Interesse, auch in der computerlinguistischen Forschung, liegt auf
generischen Aussagen, da diese nicht durch Indikatoren an der Satzoberfläche
gekennzeichnet und damit schwerer formal zu beschreiben und automatisch zu erkennen
sind. In der Narratologie wiederum ist nicht klar, welche Formen von
Generalisierungen prominenter in fiktionalen Texten sind oder welche Formen mit
welchen Funktionen im Text eher korrelieren. Eine Einschränkung auf den einen oder
den anderen linguistischen Forschungsschwerpunkt ist daher zum jetzigen Zeitpunkt
nicht sinnvoll.</p>
</div>
<div type="subchapter">
<head>2.2 Operationalisierungsansätze von Generizität und Quantifikation im Überblick</head>
<p>Es existiert eine beträchtliche Anzahl
an Annotationsschemata, die dazu dienen sollen, quantifizierte oder generische
Ausdrücke zu markieren. Ein Großteil dieser Vorschläge bezieht sich ausschließlich
auf generische NPn<note type="footnote">
Vgl. <ref type="bibliography" target="#mitchell_ace_2003">Mitchell et al. 2003</ref>;
<ref type="bibliography" target="#walker_ace_2006">Walker et al. 2006</ref>;
<ref type="bibliography" target="#reiter_identifying_2010">Reiter / Frank 2010</ref>;
<ref type="bibliography" target="#friedrich_annotating_2015">Friedrich et al. 2015</ref>.</note> und arbeitet entsprechend mit einer
limitierten Anzahl an Tags. So annotieren <ref type="bibliography" target="#friedrich_annotating_2015">Friedrich et al. 2015</ref>, ob das Subjekt
eines Satzes generisch auf eine <term type="dh">Art</term> oder <term type="dh">Klasse</term> referiert, und wenn ja, ob der umliegende
Satz eine charakterisierende oder spezifische Aussage über diese Klasse trifft.
Entsprechend dieser Unterteilung nutzen sie ein dreiteiliges Tagset:</p>
<p>Tagset von Friedrich et al.:<list type="unordered"><item>GEN; gen: generischer Satz mit
generischem Subjekt</item><item>NON-GEN; non gen: nicht-generischer
Satz mit nicht-generischem Subjekt</item><item>NON-Gen; gen: nicht generischer Satz
mit generischem Subjekt</item></list></p>
<p>Durch die Fokussierung auf generische
Subjekte werden Sätze mit generischen Objekten, aber nicht-generischen Subjekten aus
der Erhebung ausgeschlossen, obwohl auch in diesen Generalisierungen vorliegen
können, wie Beispiel (13) illustriert:<lb/><seg type="ex">(13) John mag Kaffee.</seg><lb/>Friedrich / Pinkal widmen sich
der automatischen Erkennung von habituellen Sätzen anhand des lexikalischen Aspekts
des Vollverbs.<note type="footnote"> Vgl.
<ref type="bibliography" target="#friedrich_recognition_2015">Friedrich / Pinkal 2015</ref>.</note> Dieser Ansatz
ist strikt linguistisch motiviert: Der Aspekt des Vollverbs eines Satzes (dynamisch
oder statisch) bestimmt den Aspekt des Satzes. Hat das Vollverb eines Satzes
dynamischen Aspekt, kann dieser entweder auf habituelle oder episodische Sätze
hindeuten. Statische Verben hingegen führen üblicherweise zu statischen Sätzen. Je
nach Aspekt verändert sich die Funktion eines Satzes im (narrativen) Diskurs, so
werden generische Sätze üblicherweise mit Erzählpausen assoziiert.<note type="footnote"> Vgl.
<ref type="bibliography" target="#carlson_generics_2006">Carlson 2006</ref>.</note>
</p>
<p>Schließlich stellen Friedrich et al. 2016
auch ein integriertes Vorgehen vor, um generische NPn und habituelle
Ausdrücke simultan zu annotieren und automatisch zu erkennen.<note type="footnote"> Vgl.
<ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al.
2016</ref>.</note> Das Ziel ihres Ansatzes ist die automatische Erkennung
sogenannter <term type="dh">situation entity types</term> (SE types).
Darunter fallen neben Ereignissen und Fakten auch sogenannte <term type="dh">generative states</term>, die
einerseits generische Äußerungen und andererseits habituelle Äußerungen sein können.
Bei der Annotation auf Satzebene wird der <term type="dh">main
referent</term>, üblicherweise das Subjekt, als generisch oder nicht-generisch
klassifiziert. Zudem wird das Vollverb hinsichtlich des lexikalischen Aspekts
(dynamisch oder statisch) annotiert. Je nach Ergebnis werden dann die Tags <term type="dh">generic sentence</term>, <term type="dh">generalizing sentence</term>, <term type="dh">state</term> oder <term type="dh">event</term>
vergeben.<note type="footnote">Vgl. <ref type="bibliography" target="#friedrich_annotating_2015">Friedrich et al. 2015</ref>, S. 41.</note> Die Problematik, Sätze mit
nicht-generischen Subjekten aber generischen Objekten (vgl. (13)) durch die
Annotation auszuschließen, bleibt hier zwar bestehen, kann aber durch die Klasse <hi rend="italic">state</hi> aufgefangen werden. </p>
<p>Insgesamt ist die automatische
Erkennung von Generalisierungen also nicht nur mit der automatischen Erkennung von
generischen NPn oder Habitualität, sondern durch die Erkennung von (lexikalischem)
Aspekt auch mit der Identifikation von temporalen Strukturen in Erzähltexten
verknüpft. Nach unserer Kenntnis ist bis heute noch kein Versuch unternommen worden,
Generalisierungen spezifisch in deutschsprachigen fiktionalen Erzähltexten zu
erkennen. Wie sich in diesem Abschnitt herausgestellt hat, ist der Großteil der
vorhandenen Ansätze computerlinguistisch ausgerichtet und bezieht sich meist auf
faktuale Textsorten wie Zeitungstexte, (Online-) Lexikoneinträge und dergleichen.
Außerdem wird überwiegend mit englischsprachigen Texten gearbeitet. Eine direkte
Übertragung dieser Ansätze auf deutschsprachige fiktionale Texte ist nicht ohne
Weiteres möglich – die Gründe hierfür werden im folgenden Abschnitt diskutiert.</p>
</div>
<div>
<p></p>
<p></p>
<p></p>
<p></p>
</div>
<div type="subchapter">
<head>2.3 Operationalisierung von Generalisierungen in fiktionalen Erzähltexten</head>
<p>Die im vorangegangen Abschnitt
erläuterten Tagsets sind computerlinguistisch motiviert und daher auf bestimmte
semantische oder syntaktische Formen begrenzt. Da für uns nicht von vornherein klar
ist, welche Formen von Generalisierungen für narratologische Fragestellungen
relevant sind, ist ein solches ausschließlich an der Form orientiertes Vorgehen im
Fall fiktionaler Erzähltexte ungeeignet. Es bestünde die Gefahr, einen Teil
generalisierender Aussagen aus der Erhebung von vornherein auszuschließen und damit
das Forschungsziel zu verfehlen. Hinzu kommt die Schwierigkeit, dass die hier
vorgestellten Tagger auch auf älteren Sprachstufen bzw. nicht-kanonischen
Ausdrucksweisen operieren können müssen, wenn auch diachrone narratologische
Forschungsfragen beantwortet werden sollen.</p>
<p>Die drei zentralen Herausforderungen
für die Annotation von Generalisierungen lassen sich wie folgt umreißen: Die erste
Schwierigkeit besteht darin, dass der Tagger Generalisierungen in Texten erkennen
können muss, die ab 1600 veröffentlicht wurden. Speziell in den älteren Texten
treten nicht nur typische lexikalische Ausdrücke und syntaktische Konstruktionen der
jeweiligen Sprachstufen auf, sondern darüber hinaus lässt sich auch eine höhere Zahl
an komplexen, teils mehrfach rekursiv eingebetteten Sätzen beobachten. Das ist nicht
nur der Struktur des Deutschen geschuldet, sondern auch ein Charakteristikum
fiktionaler Erzähltexte. In diesen Texten im Detail Restriktor, Skopus und Quantor
zu identifizieren und adäquat zu annotieren, ist eine anspruchsvolle und
zeitintensive Aufgabe, die auch ein hohes Maß an (linguistischem) Training für die
Annotator*innen beansprucht. Dies sei anhand des Beispiels (14) kurz
illustriert:</p>
<p><seg type="ex">(14) Wenn Luciane, meine Tochter, die für die Welt geboren ist, sich dort für die
Welt bildet, [...]; wenn sie durch Freiheit des Betragens, Anmut im Tanze,
schickliche Bequemlichkeit des Gesprächs sich vor allen auszeichnet und durch
ein angebornes herrschendes Wesen sich zur Königin des kleinen Kreises macht,
wenn die Vorsteherin dieser Anstalt sie als kleine Gottheit ansieht, die nun
erst unter ihren Händen recht gedeiht, die ihr Ehre machen, Zutrauen erwerben
und einen Zufluß von andern jungen Personen verschaffen wird, wenn [...]: so ist
dagegen, was sie schließlich von Ottilien erwähnt, nur immer Entschuldigung auf
Entschuldigung [...].<note type="footnote">Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 250.</note></seg>
</p>
<p>Die durch <term type="figure">wenn</term> eingeleiteten konditionalen Nebensätze in Beispiel (14) fungieren
augenscheinlich als Restriktoren für den durch <term type="figure">so</term>
eingeleiteten Nebensatz und damit für nur eine Skopus-Einheit. Es ist allerdings
unklar, ob hier quantifizierte Aussagen aneinandergereiht werden oder ob die
einzelnen Restriktoren eine Einheit bilden.</p>
<p>Zweitens ist es in der jetzigen
Untersuchungsphase zu früh, schon im Vorhinein abschließend festzulegen, welche
Formen von Generalisierungen für die narratologischen Fragestellungen im Zuge einer
quantitativen Datenerhebung relevant würden. Vorrangig scheint vielmehr zu sein,
Indikatoren für Generalisierungen an der Satzoberfläche aufzuspüren und einen Umgang
für die Fälle zu finden, in denen mehrere konkurrierende Marker zugleich auftreten.
So kommt es in fiktionalen Texten gehäuft vor, dass syntaktische Strukturen mehrere
Lesarten auslösen:<lb/><seg type="ex">(15) Wer ein
Übel los sein will, der weiß immer, was er will.<note type="footnote">Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S.
255.</note></seg>
<lb/>Hier liegt einerseits eine
Generalisierung über Personen vor, die ein Übel loswerden wollen und andererseits
über die Situationen, in denen sie das Übel loswerden wollen, nämlich <term type="figure">immer</term>. Welche der beiden Generalisierungen über die
andere regiert, ist ambig und die Auflösung dieser Ambiguität ist für die
automatische Erkennung nicht von zentralem Interesse. Eine linguistisch exakte
Annotation wäre in solchen Fällen zeitaufwändig und fehleranfällig.</p>
<p>Drittens ist, wie bereits erläutert
wurde, nicht nur der Überfluss von Markern an der Satzoberfläche eine
Herausforderung, sondern auch die koverte Markierung von Generalisierungen etwa
durch generische NPn.<lb/><seg type="ex">(16) Die
Landleute haben die rechten Kenntnisse; ihre Mitteilungen aber sind konfus und
nicht ehrlich. Die Studierten aus der Stadt und von den Akademien sind wohl klar
und ordentlich, aber es fehlt ihnen an der unmittelbaren Einsicht in die
Sache.<note type="footnote">Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 244.</note></seg><lb/>In (16) wird eine Aussage über die
Gruppe von Landleuten und die Gruppe von Studierten gemacht. Diesen beiden Gruppen
werden zugleich prototypische Eigenschaften zugeschrieben. Ein overter Quantor
findet sich aber weder beim Subjekt noch beim Prädikat – nichtsdestotrotz ist eine
generalisierende Lesart möglich.</p>
<p>Kurz zusammengefasst muss ein Tagset,
das Generalisierungen in fiktionalen Texten umfassend annotierbar macht und der
Implementierung eines Taggers vorausgeht, folgenden Adäquatheitsbedingungen genügen.
Einerseits muss die linguistische Komplexität der unterschiedlichen Auftretensformen
im Tagset abgebildet werden können. Dabei sollten aber nicht allzu formale
Kategorien angesetzt werden, welche die Komplexität der Annotation in fiktionalen
Texten unverhältnismäßig erhöhten und auch dem Anspruch, sämtliche Generalisierungen
in Texten erkennen zu können, nicht gerecht würden. Andererseits sollte das Tagset
jedoch derart auf linguistische Parameter zurückführbar sein, dass es auch einer
qualitativen Datenbetrachtung standhält.</p>
</div>
</div>
<div type="chapter">
<head>3. Annotation</head>
<p>Nachdem im vorherigen Abschnitt die
Hürden der Annotation von Generalisierungen in fiktionalen Erzähltexten beschrieben
wurden, wird nun das Tagset und der Annotationsprozess geschildert. Der Abschnitt
endet mit dem berechneten Inter-Annotator-Agreement und einigen Erläuterungen zur
Erstellung der Goldstandards, auf deren Basis die Tagger implementiert werden.</p>
<div type="subchapter">
<head>3.1 Tagset und Anwendungsregeln</head>
<p>Das Tagset erfasst mit dem Tag GI (für <term type="dh">Generalisierende Interpretation</term>), ob eine Passage eine Generalisierung ausdrückt, und mit
diversen Subtags, welche Art der semantischen Quantifikation (universell,
existenziell oder vage) vorliegt
(vgl. <ref type="intern" target="#tab01">Tabelle 1</ref>). Eine
Passage besteht hierbei aus mindestens einem, möglicherweise mehreren
aufeinanderfolgenden Teilsätzen. Weil Teilsätze somit die kleinste annotierbare
Einheit darstellen, sprechen wir im Folgenden von einer Annotation auf
Teilsatzebene. Die Annotation auf Teilsatzebene ermöglicht die Gratwanderung
zwischen einer aus linguistischer Perspektive verwertbaren Annotation und einer
Konzentration auf Oberflächenmerkmale, die für die Implementierung des Taggers
zielführend ist. Auf diese Weise werden quantifizierte Aussagen in ihrem breiten
Spektrum erfasst und gleichzeitig zeitökonomisch annotiert.</p>
<table>
<row>
<cell>Subtag</cell>
<cell>Typ der Quantifikation</cell>
<cell>Natürlichsprachliches
Beispiel</cell>
</row>
<row>
<cell>ALL</cell>
<cell>universelle
Quantifikation</cell>
<cell>alle, immer, jede*r</cell>
</row>
<row>
<cell>MEIST</cell>
<cell>Mehrheitsquantifikation</cell>
<cell>meistens, am häufigsten</cell>
</row>
<row>
<cell>EXIST</cell>
<cell>existenzielle
Quantifikation</cell>
<cell>es gibt <term type="figure">x</term>, es existieren <term type="figure">y</term>
</cell>
</row>
<row>
<cell>DIV</cell>
<cell>vage Quantifikation</cell>
<cell>manchmal, teilweise,
gewöhnlich, oft, etc.</cell>
</row>
<row>
<cell>BARE</cell>
<cell>keine der zuvor genannten +
koverte Quantifikation</cell>
<cell>generische NPn (z. B. <term type="figure">Gold</term>, <term type="figure">Löwen</term>)</cell>
</row>
<row>
<cell>NEG</cell>
<cell>eine der oben genannten +
Negation</cell>
<cell>Es gibt kein Gold, das braun
ist.</cell>
</row>
<trailer xml:id="tab01">
<ref type="intern" target="#tab1">Tab. 1</ref>: Tagset MONACO. [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t1"/>
</trailer>
</table>
<p>Das Tagset ist wie folgt aufgebaut:
Die Subtags ALL, MEIST und EXIST korrespondieren mit Quantoren aus der formalen
Logik, die an der Satzoberfläche mit einer Reihe von Lexemen ausgedrückt werden
können.<note type="footnote"> Siehe
<ref type="bibliography" target="#doenicke_phenomena_2021">Dönicke et al. 2021</ref> für eine ausführlichere formal-semantische Betrachtung
des Tagsets.</note> Beim Subtag ALL
handelt es sich meist um Lexeme wie <term type="figure">immer</term> oder <term type="figure">jede*r</term>
,
<term type="figure">jedes</term>:<lb/><seg type="ex">(17) Gedenken wir nur des Kalks, [der
zu allen Säuren eine große Neigung, eine entschiedene Vereinigungslust
äußert]<hi rend="sub">GI
ALL</hi>!<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 272.</note></seg><lb/>Beim Subtag MEIST kommen Lexeme wie
<term type="figure">meist</term> oder <term type="figure">meistens</term> vor, die sich auf mehr als die Hälfte der bezeichneten Menge
beziehen:<lb/><seg type="ex">(18) [...]; [aber es sind meistenteils
unbewußte Erinnerungen glücklicher und unglücklicher Folgen, die wir an eigenen oder
fremden Handlungen erlebt haben]<hi rend="sub">GI MEIST</hi>.<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S.
247.</note></seg><lb/>Das Subtag EXIST umfasst
generalisierende Passagen, die sich auf die Existenz der Individuen einer Klasse
beziehen und durch Prädikate der Existenz wie <term type="figure">geben</term>
und <term type="figure">existieren</term> markiert werden.<note type="footnote"> Das Subtag EXIST ist
ausschließlich explizit existenziellen Aussagen vorbehalten. Wir gehen also
etwa davon aus, dass eine indefinite Nominalphrase wie <term type="figure">Ein Löwe</term> keine existenzielle Quantifikation
auslöst, sondern eine generische NP ist – insofern eine generalisierende
Lesart vorliegt. Entsprechend würde <term type="figure">Ein Einhorn
existiert</term> mit dem Tag EXIST annotiert werden.</note>
<lb/><seg type="ex">(19) [Aber es gibt dergleichen noch,
es muß dergleichen geben oder doch wieder geben]<hi rend="sub">GI
EXIST</hi>.<note type="footnote">
Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 166.</note></seg><lb/>Das Subtag DIV fängt alle vagen
Quantoren auf, insbesondere also Quantifikationen, die durch Adverbien wie <term type="figure">manchmal</term>, <term type="figure">häufig</term>, <term type="figure">gelegentlich</term>, <term type="figure">selten</term> ausgelöst werden. Diese
unterscheiden sich von den anderen natürlichsprachlichen Quantoren dadurch, dass
ihre Wahrheitsbedingungen nicht präzise beschreibbar sind.<lb/><seg type="ex">(20) [Unsere vortreffliche Vorsteherin
läßt mich gewöhnlich die Briefe lesen, in welchen sie Beobachtungen über ihre
Zöglinge den Eltern und Vorgesetzten mitteilt]<hi rend="sub">GI DIV</hi>.<note type="footnote"> Vgl.
<ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S.
263.</note></seg><lb/><seg type="ex">(21) <quote>Es betrifft
unsern Freund, den Hauptmann,</quote> antwortete Eduard. <quote>Du
kennst die traurige Lage, [in die er, wie so mancher andere, ohne sein
Verschulden gesetzt ist]<hi rend="sub">GI DIV</hi>.</quote>
<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 242.</note></seg><lb/>Zusätzlich kann das Tagset
nicht-overte Quantifikation mit dem Subtag BARE erfassen. Dieser kann etwa im Fall
von generischen Subjekten oder generischen Objekten gesetzt werden, also dann, wenn
keine Quantifikation an der Satzoberfläche identifizierbar ist.<lb/><seg type="ex">(22) [Die Landleute haben die rechten
Kenntnisse]<hi rend="sub">GI BARE</hi>; [ihre Mitteilungen aber sind
konfus]<hi rend="sub">GI BARE</hi> [und nicht ehrlich]<hi rend="sub">GI NEG</hi>. [Die Studierten aus der Stadt und von den Akademien sind wohl klar
und ordentlich, aber es fehlt an der unmittelbaren Einsicht in die Sache]<hi rend="sub">GI BARE</hi>.<note type="footnote"> Vgl.
<ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 244.</note></seg><lb/><seg type="ex">(23) [Die Männer denken mehr auf das
Einzelne, auf das Gegenwärtige]<hi rend="sub">GI BARE</hi>;<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S.
244.</note></seg><lb/>Das Subtag NEG umfasst sämtliche
generalisierte und negierte Aussagen, unabhängig von der syntaktischen Struktur. Die
syntaktische Struktur kann deshalb interessant sein, weil mit unterschiedlichen
syntaktischen Positionen von Negationen verschiedene Skopen von Negationen
einhergehen. Daher bestimmt die Syntax, was genau in einem Satz negiert wird; der
Quantor oder (Teile vom) Restriktor oder Skopus. Da diese informationsstrukturellen
Unterscheidungen für die automatische Erkennung von generalisierenden Aussagen nicht
relevant sind, wird jede generalisierende Aussage, die eine Negation enthält, mit
dem Subtag NEG annotiert. In diesem Fall überschreibt NEG alle möglichen anderen
Annotationen.<lb/><seg type="ex">(24) [Unanfechtbare Wahrheiten gibt es
überhaupt nicht]<hi rend="sub">GI NEG</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 9.</note></seg><lb/>Zudem gelten bestimmte Regeln zum
Annotationsverfahren, die Mehrfachannotationen und ambige Fälle betreffen. So kann
es vorkommen, dass in derselben Passage auf verschiedene Weisen generalisiert wird.
Im folgenden Beispiel wird sowohl über Zeiträume (<term type="figure">immer</term>) als auch existenziell über Zank und Streit generalisiert. Da hier
konkurrierende Generalisierungsarten vorliegen, müssen zwei Subtags vergeben
werden.<lb/><seg type="ex">(25) [[Es gibt doch bloß immer Zank
und Streit]<hi rend="sub">GI ALL</hi>]<hi rend="sub">GI EXIST</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>,
S. 125.</note></seg><lb/>Eine wichtige Ausnahme bildet hier das
Subtag BARE. BARE wird ausschließlich in den Fällen vergeben, in denen keine anderen
Subtags vergeben werden können:<lb/><seg type="ex">(26) [Der Heilige Vater liebt seine
Untertanen gleichmäßig]<hi rend="sub">GI BARE</hi>. (fikt. Bsp.)<lb/>In (27) wird allerdings sowohl über
Päpste (<term type="figure">Der Heilige Vater</term>) als auch über <term type="figure">alle</term> Untertanen generalisiert. Deshalb wird hier nur
ALL gesetzt.</seg><lb/><seg type="ex">(27) [Der Heilige Vater liebt alle
seine Untertanen gleichmäßig]<hi rend="sub">GI ALL</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#ernst_uhr_2012">Ernst 2012</ref>, S.
240.</note></seg><lb/>Finden sich zwei Generalisierungen in
der gleichen Passage, die beide mit demselben Tag annotiert werden würden, wird
nicht doppelt annotiert. Im folgenden Beispiel fallen <term type="figure">Jeder Heilige Vater</term> und <term type="figure">alle seine
Untertanen</term> beide in die Kategorie ALL:<lb/><seg type="ex">(28) [Jeder Heilige Vater liebt alle
seine Untertanen gleichmäßig]<hi rend="sub">GI ALL</hi> (fikt. Bsp.)</seg><lb/>Neben den Subtags stellt das Tagset
die Möglichkeit bereit, eine Passage als ambig zu
markieren. Ist in einem Beispiel wie (9) nicht eindeutig zu bestimmen, ob die
Aussage generalisierend oder spezifisch gemeint ist, kann dieses Subtag gesetzt
werden.</p>
<p>Wie eingangs erwähnt, ermöglicht die
Annotationspraxis auf Teilsatzebene die Einbeziehung aller Quantifikationsformen in
natürlicher Sprache und ermöglicht zugleich ein zügiges Annotationsprozedere. Das
dargestellte Vorgehen unterscheidet sich aber auch in wesentlichen Punkten von
bereits bestehenden Annotationspraktiken in der Forschung zu Generizität und
Quantifikation, die in <ref type="intern" target="#hd4">Abschnitt 2.2</ref> erläutert
worden sind. Der wesentlichste Unterschied besteht darin, dass kein linguistisches
Training für die Annotierenden nötig ist, etwa Restriktor, Skopus und Quantor
auseinanderzuhalten. Zur Illustration der verschiedenen Vorgehensweisen sei hier ein
Beispiel aus Goethes <bibl>
<title type="desc">Die Wahlverwandtschaften</title>
</bibl> anhand
des Annotationsschemas von Friedrich et al. und unserem Konzept vergleichend
analysiert.<note type="footnote">
Vgl. <ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al. 2016</ref>.</note> Das Schema von Friedrich et al.
(2016) bietet sich für einen Vergleich insbesondere deshalb an, weil ebenfalls
primär intuitiv auf Satzebene annotiert wird und dadurch die verschiedenen Formen
von Generizität erfasst werden, nämlich generische NPn und habituelle
Äußerungen.<lb/><seg type="ex">(29) [Das Bewusstsein ist keine
hinlängliche Waffe, ja, manchmal eine gefährliche für den, der sie führt]<hi rend="sub">GENERIC SENTENCE</hi>.<note type="footnote"> Vgl.
<ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 247.</note></seg><lb/>Der main referent des Satzes, hier die
Subjekt-NP <term type="figure">Das
Bewusstsein</term>
, würde als generische
NP identifiziert werden. Das Verb <term type="figure">sein</term> hat statischen
lexikalischen Aspekt, entsprechend würde der gesamte Satz als Generic Sentence
klassifiziert werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al. 2016</ref>, S. 41.</note> Die
Negation verändert hier nicht den situation entity type des Satzes, weil sie sich
nur auf die Subjekt-NP bezieht.<note type="footnote"> Vgl. <ref type="bibliography" target="#friedrich_situation_2016">Friedrich et al. 2016</ref>, S. 36.</note> Das
Annotationsprozedere ist damit elegant und in diesem Satz niedrigschwellig
anwendbar. Insbesondere in älteren fiktionalen Texten kommt aber die Problematik
hinzu, dass Verben hinsichtlich ihres Aspekts klassifiziert werden müssten, die im
aktuellen Sprachgebrauch nicht mehr vorkommen. Es ist daher mitunter schwierig, den
lexikalischen Aspekt abzuleiten, der einen ausschlaggebenden Hinweis für die
Klassifikation als generisch gibt. Zudem zeigt das Temporaladverb <term type="figure">manchmal</term> im zweiten Teilsatz die Habitualität an.
Diese Information geht durch die Art der Annotation verloren. Generalisierungen
kommen in vielfältigen Formen vor, daher ist es eine Priorität für uns, verschiedene
Lesarten durch die Annotation und später durch den Tagger erfassen zu können.
Vergleichend sei nun gezeigt, welche Tags mit unserem Tagset vergeben werden:<lb/><seg type="ex">(30) [Das Bewusstsein ist keine
hinlängliche Waffe]<hi rend="sub">NEG</hi>, [ja, manchmal eine gefährliche für
den, der sie führt]<hi rend="sub">DIV</hi>.<note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 247.</note></seg><lb/>Der erste Teilsatz besteht aus einer
definiten generischen NP und einem diese NP charakterisierenden Prädikat. Würde
keine Negation in diesem Teilsatz stehen, qualifizierte sich dieser Teilsatz als
BARE; da aber eine Negation vorliegt und Negation alle anderen Subtags überschreibt,
wird das Subtag NEG vergeben. Der zweite Teilsatz wird mit dem Subtag Divers (DIV)
versehen, weil das Adverb <term type="figure">manchmal</term> eine habituelle
Generalisierung über eine vage Anzahl an Situationen ausdrückt. </p>
</div>
<div>
<p></p>
<p></p>
<p></p>
<p></p>
</div>
<div type="subchapter">
<head>3.2 Korpus, Workflow und Agreement</head>
<p>Wie in der Einleitung geschildert,
soll der Generalisierungstagger in allen Texten von 1600 bis 1950 Generalisierungen
automatisch erkennen können. Entsprechend muss das Tagset auf Texten erprobt werden,
die diesen Zeitraum und seine verschiedenen stilistischen und sprachlichen
Eigenheiten repräsentieren. Das Gesamtkorpus besteht aus ausschließlich originär
deutschsprachiger Erzählliteratur, von dem eine Teilmenge an Texten als
Annotationskorpus genutzt wird. Jede*r Autor*in im Annotationskorpus ist durch einen
Text vertreten. Im Korpus enthalten sind Romane, Novellen, Erzählungen und epische
Versdichtungen mit sowohl Ich- (homodiegetischen) als auch Er- (heterodiegetischen)
Erzählinstanzen. Die genaue Auswahl kann <ref type="intern" target="#tab2">Tabelle
2</ref> entnommen werden.</p>
<p>Um der Repräsentationsfunktion für das
Gesamtkorpus gerecht zu werden, werden die Annotationstexte zunächst nicht komplett
annotiert, sondern auf die ersten 200 Sätze beschränkt. Der Nachteil unserer Auswahl
ist zunächst, dass ohne den Rückgriff auf eine automatische Erkennung eine
Betrachtung generalisierender Passagen werkimmanent erst nach fertiger Entwicklung
der Tagger möglich sein wird. Es überwiegen aber die Vorteile – so sind die
Annotationen nicht auf eine kleinere Menge von Texten beschränkt, erfassen dadurch
mehrere Autor*innen und demzufolge eine größere Breite literarischer Epochen und
Genres. Außerdem ist es so möglich, unterschiedliche Entwicklungsstadien der
Sprache, von der Frühen Neuzeit an, zu berücksichtigen.</p>
<p>Wir annotieren Generalisierungen
mittels kollaborativer Annotation im webbasierten Tool <ref target="https://catma.de">CATMA 6</ref>.<note type="footnote"> Vgl.
<ref type="bibliography" target="#gius_catma_2022">Gius et al.
2022</ref>.</note> Das Best-Practice-Modell von Gius / Jacke dient als
Orientierung bei der Besprechung und Qualitätsprüfung der erstellten
Annotationen.<note type="footnote">
Vgl. <ref type="bibliography" target="#gius_annotation_2016">Gius / Jacke 2016</ref>.</note> Die bereits annotierten Texte sind unter
dem Titel MONACO<note type="footnote"> Vgl. <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>.</note> in einem
GitLab-Repository publiziert.</p>
<table>
<row>
<cell>Text</cell>
<cell>Jahr</cell>
<cell>Goldstandard</cell>
<cell>Annotator*in </cell>
<cell>Gattung</cell>
<cell>Typ der Erzählinstanz</cell>
<cell>Kappa (Tokenebene)</cell>
<cell>Kappa (Teilsatzebene)</cell>
</row>
<row>
<cell>Andreae: Die chymische
Hochzeit</cell>
<cell>1616</cell>
<cell>nein</cell>
<cell>{’a _112’, ’a_107’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,4883</cell>
<cell>0,5376</cell>
</row>
<row>
<cell>von Zesen: Adriatische
Rosemund</cell>
<cell>1645</cell>
<cell>nein</cell>
<cell>{‘a_111’, ‘a_110’}</cell>
<cell>Roman</cell>
<cell>heterodiegetisch</cell>
<cell>0,6017</cell>
<cell>0,5988</cell>
</row>
<row>
<cell>Grimmelshausen: Der
abenteuerliche Simplicissimus</cell>
<cell>1668</cell>
<cell>nein</cell>
<cell>{‘a_111’, ‘a_107’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,4652</cell>
<cell>0,6046</cell>
</row>
<row>
<cell>Lohenstein: Großmüthiger
Feldherr Arminius oder Herrmann</cell>
<cell>1689</cell>
<cell>nein</cell>
<cell>{‘a_108‘, ‘a_109‘}</cell>
<cell>Roman</cell>
<cell>heterodiegetisch</cell>
<cell>0,8062</cell>
<cell>0,7906</cell>
</row>
<row>
<cell>Schnabel: Die Insel
Felsenburg</cell>
<cell>1731</cell>
<cell>nein</cell>
<cell>{‘a_111’, ‘a_112’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,2169</cell>
<cell>0,1946</cell>
</row>
<row>
<cell>Gellert: Das Leben der
schwedischen Gräfin von G</cell>
<cell>1748</cell>
<cell>ja</cell>
<cell>{‘a_109’, ‘a_108’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,8663</cell>
<cell>0,8724</cell>
</row>
<row>
<cell>Wieland: Geschichte des
Agathon</cell>
<cell>1766, 1767</cell>
<cell>ja</cell>
<cell>{‘a_109’, ‘a_112’, ‘a_108’,
‘a_111’, ‘a_110’, ‘a_107’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,7763</cell>
<cell>0,7812</cell>
</row>
<row>
<cell>LaRoche: Geschichte des
Fräuleins von Sternheim</cell>
<cell>1771</cell>
<cell>ja</cell>
<cell>{‘a_109’, ‘a_108’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,8435</cell>
<cell>0,8352</cell>
</row>
<row>
<cell>Novalis: Die Lehrlinge zu
Sais</cell>
<cell>1802</cell>
<cell>ja</cell>
<cell>{’a_112’, ’a_111’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,4045</cell>
<cell>0,4108</cell>
</row>
<row>
<cell>Kleist: Michael Kohlhaas</cell>
<cell>1808</cell>
<cell>nein</cell>
<cell>{’a_109’, ’a_110’}</cell>
<cell>Erzählung</cell>
<cell>heterodiegetisch</cell>
<cell>0,6376</cell>
<cell>0,5889</cell>
</row>
<row>
<cell>Goethe: Die
Wahlverwandtschaften</cell>
<cell>1809</cell>
<cell>ja</cell>
<cell>{‘a_111’, ‘a_108’}</cell>
<cell>Roman</cell>
<cell>heterodiegetisch</cell>
<cell>0,579</cell>
<cell>0,5688</cell>
</row>
<row>
<cell>Goethe: Die
Wahlverwandtschaften</cell>
<cell>1809</cell>
<cell>ja</cell>
<cell>{‘a_112’, ‘a_107’}</cell>
<cell>Roman</cell>
<cell>heterodiegetisch</cell>
<cell>0,7396</cell>
<cell>0,7948</cell>
</row>
<row>
<cell>Hoffmann: Der Sandmann</cell>
<cell>1816</cell>
<cell>ja</cell>
<cell>{‘a_112’, ‘a_107’}</cell>
<cell>Erzählung</cell>
<cell>homodiegetisch</cell>
<cell>0,82</cell>
<cell>0,8316</cell>
</row>
<row>
<cell>Dahn: Kampf um Rom</cell>
<cell>1876</cell>
<cell>ja</cell>
<cell>{’a_112’, ’a_107’}</cell>
<cell>Roman</cell>
<cell>heterodiegetisch</cell>
<cell>0,4173</cell>
<cell>0,5278</cell>
</row>
<row>
<cell>May: Winnetou II</cell>
<cell>1893</cell>
<cell>nein</cell>
<cell>{’a_107’, ’a r_112’}</cell>
<cell>Roman</cell>
<cell>homodiegetisch</cell>
<cell>0,4099</cell>
<cell>0,3502</cell>
</row>
<row>
<cell>Fontane: Der Stechlin</cell>
<cell>1895</cell>
<cell>ja</cell>
<cell>{‘a_109’, ‘a_112’}</cell>
<cell>Roman</cell>
<cell>heterodiegetisch</cell>
<cell>0,9118</cell>
<cell>0,8784</cell>
</row>
<row>
<cell>Kafka: Der Bau</cell>
<cell>1923–1924</cell>
<cell>ja</cell>
<cell>{‘a_111’, ‘a_110’}</cell>
<cell>Erzählung</cell>
<cell>homodiegetisch</cell>
<cell>0,672</cell>
<cell>0,6816</cell>
</row>
<row>
<cell>Musil: Der Mann ohne
Eigenschaften</cell>
<cell>1930</cell>
<cell>ja</cell>
<cell>{‘a_111’, ‘a_108’}</cell>
<cell>Roman</cell>
<cell>heterodiegetisch</cell>
<cell>0,5029</cell>
<cell>0,4655</cell>
</row>
<row>
<cell>Makro-Durchschnitt</cell>
<cell/>
<cell/>
<cell/>
<cell/>
<cell/>
<cell>0,6214</cell>
<cell>0,6293</cell>
</row>
<trailer xml:id="tab02">
<ref type="intern" target="#tab2">Tab. 2</ref>: Korpus MONACO [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t2"/>
</trailer>
</table>
<p>Bisher wurden mit dem Tagset 17 Texte
aus dem Annotationskorpus annotiert, die in der Regel jeweils von zwei Annotierenden
zu bearbeiten sind. Für jede Annotierendenkombination berechnen wir Fleiss’
Kappa<note type="footnote"> Vgl.
<ref type="bibliography" target="#fleiss_scale_1971">Fleiss 1971</ref>.</note> basierend auf übereinstimmenden Tokens bzw. auf
übereinstimmenden Teilsätzen. Bei überlappenden Annotationen wird ein Token bzw. ein
Teilsatz nur dann als Übereinstimmung gewertet, wenn beide Annotierende die
überlappenden Tags gesetzt haben.</p>
<p>Im Mittel über alle Texte wird ein
überzeugendes Agreement von 0,62 (Tokenebene) bzw. 0,63 (Teilsatzebene) erreicht.
Die deutlichen Schwankungen (z. B. Schnabel <bibl>
<title type="desc">Die Insel
Felsenburg</title>
</bibl> mit 0,22 bzw. Fontane <bibl>
<title type="desc">Der
Stechlin</title>
</bibl> mit 0,91,
vgl. <ref type="intern" target="#tab02">Tabelle 2</ref>) sind
präsumtiv neben den individuellen Fähigkeiten der Annotierenden auch auf die
unterschiedliche Komplexität der literarischen Texte sowie auf die zugrundeliegende
Sprachstufe zurückzuführen.</p>
<p>Bisher wurden für zehn der Texte
Goldstandards auf Basis der Erstannotationen erstellt. Hierbei gehen zwei
Adjudikator*innen (aus der Gruppe der promovierenden Autor*innen dieses Aufsatzes)
erneut die Erstannotationen durch, diskutieren die annotierten Textstellen und
erstellen eine Expert*innenannotation, welche dann als Goldstandard genutzt werden kann.
Neben der Beseitigung von Unachtsamkeitsfehlern in der Erstannotation hat die
Adjudikation auch die Aufgabe, prävalente Lesarten von mehrdeutigen oder vagen
Aussagen festzustellen (oder, in Einzelfällen, Aussagen als linguistisch ambig zu
markieren, falls keine prävalente Lesart festzustellen ist).</p>
</div>
</div>
<div type="chapter">
<head>4. Automatische Erkennung</head>
<p>Im folgenden Abschnitt werden die in
den regelbasierten Tagger eingebundenen Merkmale erläutert, auf denen später der
statistische Tagger trainiert wurde.</p>
<div type="subchapter">
<head>4.1 Merkmale</head>
<p>Das wichtigste Merkmal von
Generalisierungen sind Quantoren und quantifizierende Ausdrücke wie <term type="figure">jede*r</term>
,
<term type="figure">alle</term>
,
<term type="figure">immer</term> und dergleichen. Diese bestimmen die Klasse, in
die Teilsätze mit den entsprechenden Quantoren fallen, beispielsweise in die Klasse
ALL:<lb/><seg type="ex">(31) [Jede Sache will gelernt sein]<hi rend="sub">GI ALL</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 119.</note></seg><lb/><seg type="ex">(32) [Ebenso pünktlich liefen darauf
auch jedesmal kurze Antwortschreiben ein]<hi rend="sub">GI ALL</hi>, die dem
lieben Freund und geschätzten Gelehrten dankten.<note type="footnote"> Vgl. <ref type="bibliography" target="#musil_mann_1970">Musil 1970</ref>, Kapitel 3.</note></seg><lb/>Wir organisieren die entsprechenden
Quantoren und quantifizierenden Ausdrücke in einem Wörterbuch mit
Lemma-Subtag-Paaren (z. B. <term type="figure">jede</term> : ALL). Entsprechend
können ganze Teilsätze, in denen sie vorkommen, dem entsprechenden Subtag zugeordnet
werden. Eine Ausnahme davon bilden Phrasen, die mit deiktischen Ausdrücken auf
konkrete Objekte, Personen, Zeiten oder Orte referieren, weil in diesen Fällen keine
Generalisierungen vorliegen können. Um quantifizierte Ausdrücke mit einer
deiktischen Referenz ausschließen zu können, wurde eine Liste mit deiktischen
Markern erstellt.</p>
<p>Wie bereits oben erläutert wurde, sind
wir mit dem Problem der koverten Quantifikation konfrontiert, die mit dem Subtag
BARE gekennzeichnet ist. Einerseits bieten sich NPn im Plural für den Ausdruck von
Generalisierungen an:<lb/><seg type="ex">(33) [Regentropfen vereinigen sich
gern zu Strömen]<hi rend="sub">GI BARE</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#goethe_wahlverwandtschaften_2012">Goethe 2012</ref>, S. 270.</note></seg><lb/>Andererseits können auch definite NPn
Generalisierungen markieren, sowohl im Plural als auch im Singular:<lb/><seg type="ex">(34) [Der Räuber kann sehr leicht mein
Opfer werden, und ein süß schmeckendes]<hi rend="sub">GI BARE</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#kafka_bau_1990">Kafka
1990</ref>.</note></seg><lb/>Und auch der unbestimmte Artikel mit
Nomen im Singular kann generalisierend verwendet werden.<lb/><seg type="ex">(35) [Aber ein Narr steckt sie
[tausend Mark] in den Strumpf]<hi rend="sub">GI BARE</hi>, sagen die
Wirklichkeitsmenschen, [und ein Tüchtiger schafft etwas mit ihnen]<hi rend="sub">GI BARE</hi>;<note type="footnote"> Vgl.
<ref type="bibliography" target="#musil_mann_1970">Musil 1970</ref>, Kapitel 4.</note></seg><lb/>Insgesamt sind Artikel, sowohl
bestimmte als auch unbestimmte, aber wenig verlässlich. Endgültig kann nur der
Kontext disambiguieren, ob eine definite oder indefinite NP generalisierend oder
spezifisch verwendet wird. Diese Unterscheidung ist in einem regelbasierten System
nicht umsetzbar. Wir haben festgestellt, dass die Suche nach NPn im Plural ohne
Artikel am wenigsten Fehler verursacht.</p>
<p>Verbalphrasen (VPn) können auch
generalisierend sein. In diesem Fall handelt es sich meistens um habituelle
Äußerungen, die durch Adverbien wie <term type="figure">täglich</term>
,
<term type="figure">oft</term> oder <term type="figure">überall</term>
markiert werden. Außerdem gibt es Verben, die eine generalisierende Bedeutung haben.
Das sind zum einen Verben der Existenz, wie <term type="figure">existieren</term> und <term type="figure">geben</term>:<lb/><seg type="ex">(36) [Aber es gibt leidenschaftliche
Räuber]<hi rend="sub">GI EXIST</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#kafka_bau_1990">Kafka 1990</ref>.</note></seg><lb/>Und zum anderen Verben, die über
Situationen generalisieren, wie <term type="figure">pflegen zu</term>:<lb/><seg type="ex">(37) [Dann pflegen besonders
friedliche Zeiten zu kommen]<hi rend="sub">GI BARE</hi><note type="footnote"> Vgl. <ref type="bibliography" target="#kafka_bau_1990">Kafka 1990</ref>.</note></seg><lb/>Eine weitere für Generalisierungen
relevante Kategorie des Verbs ist <term type="dh">gnomisches
Präsens</term>, also ein Präsens ohne zeitliche Bedeutung. Unter der
(simplifizierenden) Annahme, dass das Präsens in fiktionalen Texten meistens keine
Handlung ausdrückt, kann der Tagger nach einzelnen Teilsätzen in dieser Zeitform
suchen. Eine konkrete Ausnahme ist die direkte Rede, die zwar oft im Präsens steht,
aber nicht ohne Weiteres als Merkmal für gnomisches Präsens gewertet werden kann.
Ebenso verhält es sich mit dem <term type="dh">historischen</term> oder
<term type="dh">szenischen Präsens</term>, also einem Präsens, das aus
stilistischen Gründen für vergangene Geschehnisse verwendet wird, und typischerweise
mehrere Teilsätze im Präsens aufeinander folgen lässt:<lb/><seg type="ex">(38) Von außen ist eigentlich nur ein
großes Loch sichtbar, dieses führt aber in Wirklichkeit nirgends hin, schon nach ein
paar Schritten stößt man auf natürliches festes Gestein.<note type="footnote"> Vgl.
<ref type="bibliography" target="#kafka_bau_1990">Kafka 1990</ref>.</note></seg><lb/>Darüber hinaus können auch bestimmte
syntaktische Strukturen auf Generalisierungen hindeuten. Komplexe Sätze der Formen
<term type="figure">wenn … dann</term> oder <term type="figure">wer …
der</term> sind in der Regel generalisierend. Solche Strukturen können einfach in
einem regelbasierten Tagger implementiert werden.<lb/><seg type="ex">(39) [Wenn es aber Wirklichkeitssinn
gibt, und niemand wird bezweifeln, dass er seine Daseinsberechtigung hat, dann muss
es auch etwas geben, das man Möglichkeitssinn nennen kann]<hi rend="sub">GI
EXIST</hi><note type="footnote"> Vgl.
<ref type="bibliography" target="#musil_mann_1970">Musil 1970</ref>, Kapitel 4.</note></seg><lb/><seg type="ex">(40) [Wer unter solchen Umständen was
Besseres sagen will, sagt immer was Schlechteres]<hi rend="sub">GI
ALL</hi><note type="footnote"> Vgl.
<ref type="bibliography" target="#fontane_stechlin_2012">Fontane 2012</ref>, S. 17.</note></seg><lb/>Im Folgenden wird beschrieben, wie die
beschriebenen Merkmale in den beiden Taggern eingesetzt werden.</p>
</div>
<div type="subchapter">
<head>4.2 Modelle und Algorithmen</head>
<figure>
<graphic xml:id="generalisation_2022_001" url=".../medien/generalisation_2022_001.png">
<desc>
<ref type="graphic" target="#abb1">Abb. 1</ref>: Textverarbeitungskomponenten für verschiedene
sprachliche Ebenen: Ein Text durchläuft die einzelnen Komponenten von links nach
rechts und von oben nach unten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_001"/>
</desc>
</graphic>
</figure>
<p>Für die Implementierung der
Textverarbeitungskomponenten wurde die Open-Source-Bibliothek <ref target="https://spacy.io/">spaCy</ref>
<note type="footnote">Vgl. <ref type="bibliography" target="#honnibal_transition_2015">Honnibal / Johnson 2015</ref>.</note> benutzt. Dem Generalisierungstagger
(GenTagger) selbst sind eine Reihe von Komponenten vorgeschaltet, um linguistische
Merkmale zu extrahieren (vgl. <ref type="graphic"
target="#generalisation_2022_001">Abbildung 1</ref>). Da
sich im Korpus teilweise Texte mit zeitspezifischer Schreibvariation befinden, ist
die erste Komponente ein auf dem <ref target="https://www.deutschestextarchiv.de">Deutschen Textarchiv</ref>
<note type="footnote"> Vgl. <ref type="bibliography" target="#adw_dta_2022">Deutsches Textarchiv 2022</ref>.</note> trainierter
Normalisierer. Es folgen Lemmatisierer, Wortartentagger, Eigennamenerkenner (NER)
und Satzerkenner, welche bereits im vortrainierten spaCy-Modell für das Deutsche
enthalten sind. Als Nächstes folgen Dependenzparser, Wortformtagger (morphologische
Analyse), Teilsatzerkenner und Verbformtagger (Teilsatzanalyse) aus Dönicke.<note type="footnote"> Vgl.
<ref type="bibliography" target="#doenicke_tense_2020">Dönicke 2020</ref>.</note> Als Letztes kommen ein Direkte-Rede-Tagger, der
Text zwischen öffnenden und schließenden Anführungszeichen erkennt, sowie ein
Koreferenzierer, der erkennt, wenn zwei verschiedene sprachliche Ausdrücke sich auf
dieselbe Entität beziehen; bei diesem handelt es sich um eine Reimplementierung des
Algorithmus aus Krug et al., der so erweitert wurde, dass nicht nur
Figurenentitäten, sondern alle Eigennamen, NPn und Pronomina in die
Koreferenzresolution einbezogen werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#krug_conference_2015">Krug et al. 2015</ref>.</note>
<note type="footnote"> Wir wurden im Review darauf hingewiesen, dass Fehler bei der automatischen Erkennung von Generalisierung
auch auf Fehler in Vorverarbeitungsschritten zurückzuführen sein können. In welchem Ausmaß Fehler aus den
einzelnen Pipeline-Komponenten propagiert werden, kann an dieser Stelle nicht quantitativ eingeschätzt werden;
jedoch wurden der Teilsatzerkenner und der Verbformtagger – zwei Komponenten, die relativ am Ende in der Pipeline
eingebunden sind –, bereits in <ref type="bibliography" target="#doenicke_tense_2020">Dönicke 2020</ref> in der Literaturdomäne getestet. Dort erreichten sie Performanzen (F-Maß) von 81% für die Erkennung von Teilsätzen sowie 93% für Tempus, 79% für Modus, 94% für Genus Verbi und 80% für Modalität.</note>
</p>
<div type="subchapter">
<head>4.2.1 Regelbasierter GenTagger</head>
<p>Da zu Beginn der Arbeit weder
Trainings- noch Testdaten vorlagen, wurde zunächst ein regelbasierter GenTagger
entwickelt. Als Entwicklungsdatensatz dienten hierzu die ersten vier Kapitel aus
Goethes <bibl>
<title type="desc">Die Wahlverwandtschaften</title>
</bibl>. Der Algorithmus wird in <ref type="graphic"
target="#generalisation_2022_002">Abbildung
2</ref> skizziert.</p>
<figure>
<graphic xml:id="generalisation_2022_002" url=".../medien/generalisation_2022_002.png">
<desc>
<ref type="graphic" target="#abb2">Abb. 2</ref>: Regelbasierter GenTagger. [Gödeke et al. 2022]
<ref type="graphic" target="#generalisation_2022_002"/>
</desc>
</graphic>
</figure>
<p>Zunächst werden Generalisierungen auf
Teilsatzebene gesucht (2–18), indem nach Quantor-Restriktor-Kombinationen gesucht
wird. Dabei werden drei mögliche Fälle unterschieden:</p>
<p>Wenn ein overter Quantor im Teilsatz
vorkommt, ist der Restriktor die nächste übergeordnete NP oder VP (5–7).
Lemma-Subtag-Paare (z. B. <term type="figure">immer</term> : ALL) werden dabei
in einem manuell erstellten Wörterbuch gespeichert, wie in <ref type="intern" target="#hd10">Abschnitt 4.1</ref> beschrieben wurde.</p>
<p>Wenn eine Form von <term type="figure">existieren</term> oder <term type="figure">es
gibt</term> im Teilsatz vorkommt, kommen als Restriktor alle direkt
untergeordneten NPn in Frage. In diesem Fall ist das Subtag EXIST (8–10).</p>
<p>Wenn eine generische NP oder VP im
Teilsatz vorkommt, hat diese keinen overten Quantor und das Subtag ist BARE (11–13).
Indikatoren für generische NPn und VPn werden durch eine Vielzahl von Regeln
beschrieben, die auf die zuvor extrahierten und oben beschriebenen linguistischen
Merkmale zurückgreifen.</p>
<p>Für einen gefundenen Restriktor wird
dann überprüft, ob er oder eine mit ihm koreferente NP einen deiktischen Ausdruck
enthält (14–16). In diesem Fall referiert er mit hoher Wahrscheinlichkeit auf eine
spezifische Entität und kommt somit nicht für eine Generalisierung in Frage.
Andernfalls wird das entsprechende Subtag für den Teilsatz vorgemerkt. Wurde
mindestens ein Subtag für den aktuellen Teilsatz gespeichert, wird eine Passage
instanziiert, die aus genau diesem Teilsatz und den zugehörigen Subtags besteht
(17–18).</p>
<p>Als Nächstes werden bestimmte
Teilsatztypen zu Passagen zusammengeführt. In diesem Schritt werden Relativ- und
Konditionalsätze mit ihren übergeordneten Teilsätzen verbunden und ihre Subtags
vereinigt. In einem letzten Schritt wird erneut über alle Passagen iteriert (20–24).
Kommt ein Negationsmarker vor, werden die Subtags für diese Passage auf NEG
reduziert. Kommen mehr als ein Subtag in der Passage vor, wird BARE ggf. entfernt.
So wird sichergestellt, dass NEG und BARE nicht in Kombination mit anderen Subtags
auftreten.</p>
</div>
<div type="subchapter">
<head>4.2.2 Statistischer GenTagger</head>
<p>Nach <bibl>
<title type="desc">Die
Wahlverwandtschaften</title>
</bibl> wurden bisher die ersten 200 Sätze von 9 weiteren
Texten mit Goldstandards annotiert, was es ermöglicht, einen statistischen GenTagger
zu trainieren und zu testen. Als Testdaten verwenden wir Wielands <bibl>
<title type="desc">Geschichte des Agathon</title>
</bibl>,<note type="footnote"> <ref type="bibliography" target="#wieland_geschichte_2012">Wieland
2012</ref>.</note> in welchem wir Generalisierungen von allen sechs statt der
üblichen zwei Annotierenden annotieren ließen.</p>
<p>Für den statistischen GenTagger lässt
sich ein Klassifikationsproblem auf Teilsatzebene definieren. Obwohl sich
generalisierende Passagen überlappen können und somit theoretisch mehrere Subtags
pro Teilsatz möglich sind, kommt dieser Fall in der Praxis kaum vor, weshalb wir uns
auf eine einfache 7-Klassen-Klassifikation (eine Klasse pro Subtag plus eine Klasse
für nicht-generalisierende Teilsätze) beschränken. <ref type="intern" target="#tab03">Tabelle 3</ref> zeigt, dass die Verteilung der Klassen zudem extrem
unausgeglichen ist. Einige wenige generalisierende Passagen sind linguistisch (d. h.
syntaktisch, semantisch, pragmatisch etc.) ambig und können daher nicht eindeutig
annotiert werden. Solche Fälle wurden im Goldstandard markiert und sowohl beim
Training als auch beim Testen der GenTagger ausgeschlossen.</p>
<table>
<row>
<cell rows="2"/>
<cell rows="2">Texte</cell>
<cell rows="2">Passagen</cell>
<cell cols="7">Teilsätze</cell>
</row>
<row>
<cell>nicht-GI</cell>
<cell>BARE</cell>
<cell>NEG</cell>
<cell>ALL</cell>
<cell>DIV</cell>
<cell>EXIST</cell>
<cell>MEIST</cell>
</row>
<row>
<cell>Trainingsdaten</cell>
<cell>8</cell>
<cell>492</cell>
<cell>3316</cell>
<cell>421</cell>
<cell>197</cell>
<cell>175</cell>
<cell>94</cell>
<cell>23</cell>
<cell>5</cell>
</row>
<row>
<cell>Entwicklungsdaten</cell>
<cell>1</cell>
<cell>191</cell>
<cell>1262</cell>
<cell>206</cell>
<cell>81</cell>
<cell>76</cell>
<cell>25</cell>
<cell>5</cell>
<cell>2</cell>
</row>
<row>
<cell>Testdaten</cell>
<cell>1</cell>
<cell>45</cell>
<cell>794</cell>
<cell>37</cell>
<cell>40</cell>
<cell>27</cell>
<cell>15</cell>
<cell>3</cell>
<cell>3</cell>
</row>
<trailer xml:id="tab03">
<ref type="intern" target="#tab3">Tab. 3</ref>: Größe der Trainings-, Entwicklungs- und Testdaten.
[Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t3"/>
</trailer>
</table>
<p>Da der regelbasierte Algorithmus einem
Entscheidungsbaum ähnelt, wurde für die automatische Klassifikation ebenfalls ein
Entscheidungsbaum<note type="footnote"> Vgl. <ref type="bibliography" target="#breiman_classification_1984">Breiman et al. 1984</ref>.</note> verwendet. Um
einer Überanpassung an die Trainingsdaten entgegenzuwirken, wurde die maximale
Baumtiefe auf 15 und die minimale Anzahl an Daten pro Blattknoten auf 2 gesetzt.
Diese Werte haben sich auf den Entwicklungsdaten als gut erwiesen. Im Training wurde
außerdem allen Klassen das gleiche Gewicht gegeben.</p>
<p>Wir verwenden die gleichen
Basismerkmale wie für den regelbasierten Tagger
(vgl. <ref type="intern" target="#tab04">Tabelle 4</ref>). Somit
besitzt der Entscheidungsbaum die gleichen Grundlagen wie wir um Regeln zu formen.
Ähnliche Merkmale wurden bereits von Reiter / Frank für die Erkennung
generischer NPn extrahiert.<note type="footnote"> Vgl. <ref type="bibliography" target="#reiter_identifying_2010">Reiter / Frank 2010</ref>.</note> Zuerst werden
Merkmale von allen NPn und VPn im Satz extrahiert. Diese werden zusätzlich zu neuen
Merkmalen, z. B. ›(Subtag des Quantors : ALL, Numerus des NP-Kopfs : Plural, Artikel
in NP? : nein)‹, kombiniert, die aus dem Subtag des Quantors und bis zu zwei
weiteren Merkmalen bestehen. Das Maximum von drei Merkmalen hat sich auf den
Entwicklungsdaten als optimal erwiesen. Auf Teilsatzebene werden hauptsächlich
grammatikalische Eigenschaften wie z. B. Tempus extrahiert, um somit Phänomene wie
das gnomische Präsens abzudecken. Da eine Passage aus mehreren Teilsätzen bestehen
kann, wir aber nur Teilsätze klassifizieren, werden alle Merkmale nicht nur vom zu
klassifizierenden Teilsatz extrahiert, sondern auch von seinen beiden
Nachbarteilsätzen. Darüber hinaus werden noch einige Merkmale extrahiert, welche die
Verknüpfung der benachbarten Teilsätze zum gefragten Teilsatz kennzeichnen, z. B. ob
sie im gleichen Satz stehen. Es wurden außerdem eine Reihe von lexikalischen
Merkmalen getestet, z. B. N-Gramme für die Teilsätze oder die Lemmata von Quantor
und Restriktor; allerdings führten alle diese Erweiterungen zu einer niedrigeren
Performanz auf den Entwicklungsdaten.</p>
<table>
<row>
<cell>Ebene</cell>
<cell>Merkmale</cell>
</row>
<row>
<cell>NPn im Teilsatz</cell>
<cell>Tag des Quantors oder BARE,
Wortart des Quantors oder BARE, Wortart des NP-Kopfs, Dependenzrelation des
NP-Kopfs, Numerus des NP-Kopfs, Artikel in NP?, Zahlwort in NP?,
spezifisch?</cell>
</row>
<row>
<cell>VPn im Teilsatz</cell>
<cell>Tag des Quantors oder BARE,
Wortart des Quantors oder BARE, Wortart des VP-Kopfs, Häufigkeitsadverb in
VP?, vager Mehrwortausdruck in VP?, spezifisch?</cell>
</row>
<row>
<cell>Teilsatz</cell>
<cell>Tempus, Aspekt, Modus, Genus
verbi, Finitheit, <term type="figure">pflegen zu</term> in Teilsatz?,
direkte Rede?, Negation in Teilsatz?, Konditionalsatz?, Relativsatz?</cell>
</row>
<row>
<cell>benachbarte Teilsätze</cell>
<cell>gleicher Satz?, direkt
untergeordnet?, direkt übergeordnet?</cell>
</row>
<trailer xml:id="tab04">
<ref type="intern" target="#tab4">Tab. 4</ref>: Merkmale für den statistischen GenTagger;
Fragezeichen markieren Boole’sche Merkmale. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t4"/>
</trailer>
</table>
<figure>
<graphic xml:id="generalisation_2022_003" url=".../medien/generalisation_2022_003.png">
<desc>
<ref type="graphic" target="#abb3">Abb. 3</ref>: Die wichtigsten Merkmale des
Entscheidungsbaum-GenTaggers. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_003"/>
</desc>
</graphic>
</figure>
<p>Eine Inspektion des automatisch
erstellten Entscheidungsbaums
(vgl. <ref type="graphic"
target="#generalisation_2022_003">Abbildung 3</ref><note type="footnote">Die Knoten lesen sich wie folgt: In der ersten Zeile stehen Anzahl und häufigste Klasse der Trainingsdaten (d. h. Teilsätze), die
den Knoten erreichen (da wir jeder Klasse die gleiche Gewichtung geben, wird
die Häufigkeit relativ zur Klassengröße berechnet); darunter steht die
abgefragte Merkmalskombination, wobei der Index angibt, ob sie sich auf den
zu klassifizierenden Teilsatz (i), seinen Vorgänger (i-1) oder seinen
Nachfolger (i+1) bezieht. Auslassungspunkte markieren gestutzte Stellen im
Baum.</note>) zeigt,
dass zunächst Teilsätze mit den Merkmalen für MEIST, EXIST, NEG und ALL abgefragt
werden, bevor nach Merkmalen für DIV, BARE und nicht-GI gesucht wird.</p>
<p>Der zweite statistische GenTagger ist
ein Zufallswald mit 100 Entscheidungsbäumen.<note type="footnote"> Vgl. <ref type="bibliography" target="#breiman_random_2001">Breiman 2001</ref>.</note> Da die statistischen
GenTagger Teilsätze taggen, aber keine Passagen bestimmen, werden im Anschluss
direkt aufeinanderfolgende Teilsätze mit dem gleichen Subtag zu Passagen verbunden.
Dies dient lediglich der Weiterverarbeitung und hat keinen Einfluss auf die
Evaluation, da die GenTagger ebenfalls auf Teilsatzebene evaluiert werden.</p>
</div>
</div>
</div>
<div type="chapter">
<head>5. Evaluation und Diskussion</head>
<p>Als Evaluationsmaße verwenden wir
Precision (P), Recall (R) und F-Maß (F), welche für ein einzelnes Subtag y wie folgt
definiert sind:</p>
<figure>
<graphic xml:id="generalisation_2022_004" url=".../medien/generalisation_2022_004.png">
<desc>
<ref type="graphic" target="#abb4">Abb. 4</ref>: Berechnung von Precision (P), Recall (R) und F-Maß (F) für ein einzelnes Subtag y. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_004"/>
</desc>
</graphic>
</figure>
<p>Die Precision gibt also an, wie viele
der mit y getaggten Teilsätze auch im Goldstandard mit y annotiert sind. Der Recall
wiederum gibt an, wie viele der im Goldstandard mit y annotierten Teilsätze auch mit
y getaggt wurden. Das F-Maß ist das harmonische Mittel der beiden.</p>
<p>Aus anwendungstechnischer Sicht
besitzt die Precision einen höheren Stellenwert als der Recall: Wenn nicht alle
generalisierenden Passagen in einem Text ausgegeben werden (niedriger Recall), gehen
lediglich interessante Fälle verloren. Wenn hingegen viele nicht-generalisierende
Passagen ausgegeben werden (niedrige Precision), müssen die ausgegebenen Passagen
manuell nachgefiltert werden. Ein hoher Recall ist natürlich ebenfalls
wünschenswert. Bei der Entwicklung der GenTagger wurden daher hohe Werte für
Precision und F-Maß auf den Entwicklungsdaten angestrebt.</p>
<p>Im Falle mehrerer Subtags Y kann der
Mikro-Durchschnitt der einzelnen Maße wie folgt gebildet werden:</p>
<figure>
<graphic xml:id="generalisation_2022_005" url=".../medien/generalisation_2022_005.png">
<desc>
<ref type="graphic" target="#abb5">Abb. 5</ref>: Berechnung des Mikro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_005"/>
</desc>
</graphic>
</figure>
<p>Die Mikro-Precision gibt also an, wie
viele der getaggten Teilsätze korrekt getaggt wurden, während der Mikro-Recall
angibt, wie viele der im Goldstandard annotierten Teilsätze korrekt getaggt
wurden.</p>
<p>Da die Subtags unterschiedlich häufig
vorkommen, berechnen wir außerdem den Makro-Durchschnitt. Im Gegensatz zum
Mikro-Durchschnitt, welcher jedem Teilsatz die gleiche Gewichtung gibt, gibt der
Makro-Durchschnitt jedem Subtag die gleiche Gewichtung:</p>
<figure>
<graphic xml:id="generalisation_2022_006" url=".../medien/generalisation_2022_006.png">
<desc>
<ref type="graphic" target="#abb6">Abb. 6</ref>: Berechnung des Makro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_006"/>
</desc>
</graphic>
</figure>
<table>
<row>
<cell rows="2">Methode</cell>
<cell cols="3">Entwicklungsdaten</cell>
<cell cols="3">Testdaten</cell>
</row>
<row>
<cell>Mikro-P</cell>
<cell>Mikro-R</cell>
<cell>Mikro-F</cell>
<cell>Mikro-P</cell>
<cell>Mikro-R</cell>
<cell>Mikro-F</cell>
</row>
<row>
<cell>Regelbasiert</cell>
<cell>0,42</cell>
<cell>0,26</cell>
<cell>0,32</cell>
<cell>0,21</cell>
<cell>0,26</cell>
<cell>0,23</cell>
</row>
<row>
<cell>Entscheidungsbaum</cell>
<cell>0,16</cell>
<cell>0,62</cell>
<cell>0,25</cell>
<cell>0,07</cell>
<cell>0,48</cell>
<cell>0,12</cell>
</row>
<row>
<cell>Zufallswald</cell>
<cell>0,26</cell>
<cell>0,40</cell>
<cell>0,31</cell>
<cell>0,14</cell>
<cell>0,33</cell>
<cell>0,20</cell>
</row>
<trailer xml:id="tab05">
<ref type="intern" target="#tab5">Tab. 5</ref>: Mikro-Durchschnitts-Werte der GenTagger auf
Entwicklungs- und Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t5"/>
</trailer>
</table>
<p>Um einen ersten vergleichenden
Überblick über die drei GenTagger zu bekommen, seien zunächst die
Mikro-Durchschnitte in <ref type="intern" target="#tab05">Tabelle 5</ref> betrachtet.
Sowohl auf den Entwicklungsdaten als auch auf den Testdaten erzielt der
regelbasierte GenTagger höhere Werte für Precision und F-Maß als die statistischen
GenTagger. Der Zufallswald-GenTagger zieht zwar fast mit dem regelbasierten
GenTagger gleich, was das F-Maß betrifft, kann dies aber auf einen höheren Recall,
nicht auf eine höhere Precision zurückführen. Wie zu erwarten, erzielt der
Entscheidungsbaum niedrigere Werte für Precision und F-Maß als der Zufallswald,
weshalb Ersterer im Folgenden nicht weiter betrachtet wird.</p>
<table>
<row>
<cell/>
<cell cols="3">Regelbasiert</cell>
<cell cols="3">Zufallswald</cell>
</row>
<row>
<cell/>
<cell>P</cell>
<cell>R</cell>
<cell>F</cell>
<cell>P</cell>
<cell>R</cell>
<cell>F</cell>
</row>
<row>
<cell>ALL</cell>
<cell>0,26</cell>
<cell>0,48</cell>
<cell>0,34</cell>
<cell>0,27</cell>
<cell>0,40</cell>
<cell>0,33</cell>
</row>
<row>
<cell>MEIST</cell>
<cell>0,00</cell>
<cell>0,00</cell>
<cell>0,00</cell>
<cell>0,50</cell>
<cell>0,33</cell>
<cell>0,40</cell>
</row>
<row>
<cell>EXIST</cell>
<cell>0,75</cell>
<cell>1,00</cell>
<cell>0,86</cell>
<cell>1,00</cell>
<cell>1,00</cell>
<cell>1,00</cell>
</row>
<row>
<cell>DIV</cell>
<cell>0,09</cell>
<cell>0,13</cell>
<cell>0,10</cell>
<cell>0,31</cell>
<cell>0,33</cell>
<cell>0,32</cell>
</row>
<row>
<cell>BARE</cell>
<cell>0,18</cell>
<cell>0,32</cell>
<cell>0,23</cell>
<cell>0,08</cell>
<cell>0,46</cell>
<cell>0,14</cell>
</row>
<row>
<cell>NEG</cell>
<cell>0,30</cell>
<cell>0,75</cell>
<cell>0,12</cell>
<cell>0,14</cell>
<cell>0,10</cell>
<cell>0,12</cell>
</row>
<row>
<cell>Makro-</cell>
<cell>0,26</cell>
<cell>0,33</cell>
<cell>0,28</cell>
<cell>0,39</cell>
<cell>0,44</cell>
<cell>0,39</cell>
</row>
<trailer xml:id="tab06">
<ref type="intern" target="#tab6">Tab. 6</ref>: Tag-spezifische Makro-Durchschnittswerte der
GenTagger auf den Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t6"/>
</trailer>
</table>
<p>
<ref type="intern" target="#tab06">Tabelle 6</ref> schlüsselt die Evaluation nach den einzelnen Subtags auf,
wodurch individuelle Stärken und Schwächen der beiden GenTagger sichtbar werden. Im
Makro-Durchschnitt erzielt der Zufallswald um ca. 10% höhere Werte für Precision,
Recall und F-Maß als der regelbasierte GenTagger. Für ALL erzielen beide GenTagger
eine Precision von ca. 27% und ein F-Maß von ca. 33%. Für MEIST und EXIST gibt es in
den Testdaten nur jeweils zwei Passagen:<lb/><seg type="ex">(41) Und da es mehr als zu gewiß ist,
[daß der größeste Teil derjenigen, welche die große Welt ausmachen, wie Hippias
denkt, oder doch nach seinen Grundsätzen handelt]<hi rend="sub">GI
MEIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 377.</note></seg>
<lb/><seg type="ex">(42) Niemals hatte ihn ein weibliches
Aug erblickt, ohne die Schuld ihres Geschlechts zu bezahlen, [welches die Natur für
die Schönheit so empfindlich gemacht zu haben scheint, daß diese einzige Eigenschaft
den meisten unter ihnen die Abwesenheit aller übrigen verbirgt]<hi rend="sub">GI MEIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 385.</note></seg><lb/><seg type="ex">(43) [Ohne Zweifel gibt es wichtigere
als derjenige, auf den seine Wahl gefallen ist]<hi rend="sub">GI
EXIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 375.</note></seg><lb/><seg type="ex">(44) Aus diesem Grunde kann er ganz
zuverlässig versichern, [daß Agathon und die meisten übrigen Personen, [welche in
seine Geschichte eingeflochten sind]<hi rend="sub">GI EXIST</hi>]<hi rend="sub">GI MEIST</hi>, wirkliche Personen sind, [dergleichen es von je
her viele gegeben hat, und in dieser Stunde noch gibt]<hi rend="sub">GI
EXIST</hi>.<note type="footnote">Vgl. <ref type="bibliography" target="#wieland_geschichte_2012">Wieland 2012</ref>, S. 375.</note></seg><lb/>Der regelbasierte GenTagger vergibt
das Subtag MEIST nur zweimal, und zwar fälschlicherweise für die beiden Teilsätze ab
<term type="figure">daß</term> in (44): Bei den <term type="figure">meisten übrigen Personen</term> handelt es sich um eine spezifische Gruppe. Somit
sind Precision und F-Maß 0. Der statistische GenTagger vergibt MEIST ebenfalls
zweimal, einmal korrekterweise in (42) und einmal fälschlicherweise für einen
Teilsatz, in dem <term type="figure">am meisten</term> adverbiell, nicht
quantifizierend gebraucht wird. Somit ist die Precision 50%. Keiner der beiden
GenTagger erkennt (41) als MEIST, da die Formulierung <term type="figure">der
größeste Teil</term> für eine Mehrheitsquantifikation nicht im Quantorenwörterbuch
enthalten ist, auf welche beide GenTagger zugreifen. (Diese Liste wird zwar nach wie
vor im Zuge der Annotation erweitert, aber natürlich wurden die Testdaten nicht
dafür herangezogen.) Die EXIST-Fälle erkennt der statistische GenTagger korrekt,
während der regelbasierte GenTagger einen zusätzlichen Teilsatz mit EXIST versieht,
ebenfalls in (44). Dabei handelt es sich um einen Folgefehler beim Verbinden von
Teilsätzen zu Passagen, der wiederum durch einen Fehler beim Parsen des Satzes
verursacht wird. Diese Art von Fehler kommt zwar auch bei den anderen Subtags vor,
sorgt bei nur vier getaggten Teilsätzen aber gleich für einen Precision-Verlust von
25%.</p>
<p>Für DIV erzielt der Zufallswald ca.
20% höhere Werte für Precision und F-Maß als der regelbasierte GenTagger. Wir
vermuten die Ursache dafür darin, dass vage Quantifikation in einer deutlich
größeren Formvielfalt auftritt als All-, Mehrheits- und Existenzquantifikation. Der
regelbasierte GenTagger verwendet dennoch nur eine Liste vager Quantoren und den
Spezifitätstest, wohingegen der Zufallswald-GenTagger viel genauere Regeln erlernen
kann. Für BARE verhält es sich umgekehrt – hier erzielt der Zufallswald ca. 10%
schlechtere Werte für Precison und F-Maß. Da wir uns bei BARE nicht auf overte
Quantoren verlassen konnten, wurde sehr viel Aufwand in die manuellen Regeln
investiert, mit denen die automatisch erlernten Regeln des Zufallswaldes (noch)
nicht mithalten können.<note type="footnote"> Es sei an dieser Stelle angemerkt, dass der
statistische GenTagger durchaus hätte dieselben Regeln erlernen können, da
ihm alle dafür notwendigen Merkmale zur Verfügung standen.</note>
</p>
<p>Obwohl NEG häufig in den
Trainingsdaten vorkommt, erzielen beide GenTagger für dieses Subtag den niedrigsten
Recall (abgesehen von MEIST für den regelbasierten Tagger), d. h. es werden kaum
Teilsätze ausgegeben, die im Goldstandard mit NEG annotiert wurden. Zum Teil kann
man dies darauf zurückführen, dass im Testtext einige ungewöhnlich lange
NEG-Passagen vorkommen (die längste besteht aus 18 Teilsätzen), die GenTagger aber
nur Merkmale von direkt benachbarten Teilsätzen mit einbeziehen. Befindet sich der
Negationsmarker weiter vom aktuellen Teilsatz entfernt, wird dieser auch nicht mehr
für die Klassifikation herangezogen, und es ist unwahrscheinlich, dass das Subtag
NEG vergeben wird. Da BARE und NEG die häufigsten Subtags sind, haben diese Klassen
auch den größten Einfluss auf die Mikro-Durchschnitts-Werte.</p>
<p>Abschließend zeigt <ref type="graphic"
target="#generalisation_2022_007">Abbildung 7</ref> den Lerngraphen des
Zufallswald-GenTaggers auf den Testdaten für eine wachsende Menge an
Trainingstexten. Eine mögliche Interpretation des Graphen ist, dass das
volle Potenzial des statistischen GenTagger noch nicht erreicht ist und
die Performanz allein durch die Zugabe weiterer Trainingstexte
gesteigert werden kann.</p>
<figure>
<graphic xml:id="generalisation_2022_007" url=".../medien/generalisation_2022_007.png">
<desc>
<ref type="graphic" target="#abb7">Abb. 7</ref>: Performanz des Zufallswald-GenTaggers auf den Testdaten bei
schrittweiser Hinzunahme von Trainingstexten. Autorennamen stehen als
Kürzel für die einzelnen Werke. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_007"/>
</desc>
</graphic>
</figure>
</div>
<div type="chapter">
<head>6. Fazit und Ausblick</head>
<p>Das zentrale Ziel dieses Beitrags war
es, einen Tagger für die automatische Erkennung von Generalisierungen in fiktionalen
Erzähltexten vorzustellen. Für die Taggerimplementierung haben wir ein eigenes
Tagset entwickelt, das alle Formen natürlichsprachlicher Quantifikation
(allquantifiziert, vage, existenziell) auf Teilsatzebene annotierbar macht. Auf der
Basis manuell erstellter Goldstandards wurden ein regelbasierter und ein
statistischer Tagger entwickelt, die als zusätzliche Komponenten in die
Textverarbeitungspipeline von spaCy eingebunden werden können.<note type="footnote"> Die Tagger sind verfügbar in <ref target="https://gitlab.gwdg.de/mona/pipy-public">MONAPipe</ref> (Release v2.0); vgl. <ref type="bibliography" target="#barth_monapipe_2022">Barth et al. 2022</ref>.</note>
Der statistische Zufallswald-Tagger erzielt in fast allen Kategorien die besseren
Ergebnisse. Eine Ausnahme bilden Generalisierungen ohne overte Quantifikation, die
der regelbasierte Tagger mit einer höheren Performanz klassifiziert. Da
Generalisierungen ohne overte Quantifikation zahlenmäßig am häufigsten vorkommen,
erreicht der regelbasierte Tagger ein höheres Mikro-F-Maß (24% vs. 20%), wohingegen
der statistische Tagger ein höheres Makro-F-Maß erreicht (39% vs. 28%). Allerdings
ist beim statistischen Tagger eine kontinuierlich steigende Lernkurve zu erkennen,
was nahelegt, dass seine Performanz mit der verarbeiteten Textmenge steigt.</p>
<p>Der Tagger trägt dazu bei,
Generalisierungen in fiktionalen Erzähltexten als komplexes literarisches Phänomen
erkennbar werden zu lassen. Davon profitiert insbesondere die Narratologie, insofern
Generalisierungen Indikatoren für Phänomene wie <term type="dh">Metanarration</term>, einen <term type="dh">overt narrator</term>, <term type="dh">nicht-fiktionale Rede</term> und <term type="dh">explicit truths</term> sein
können. Es werden diachrone Analysen ermöglicht, indem autor*innen-, strömungs- oder
gattungsübergreifend Generalisierungen in Texten bezüglich ihrer Funktion empirisch
untersucht werden können. Zudem wird eine Analyse von Generalisierungen auf
verschiedenen Textebenen möglich, da sie sowohl im Erzähler- als auch im Figurentext
auftreten können (vgl. (16), <ref type="intern" target="#hd5">Abschnitt 2.3</ref>). Der Tagger bereichert jedoch nicht nur die
Literaturwissenschaft, sondern auch die theoretische Linguistik, deren Modelle und
Theorien zur Generizität und Quantifikation durch die Sprachdaten aus literarischen
Erzähltexten vor neue Herausforderungen gestellt werden. Aber auch auf der Textebene
kann die Linguistik Erkenntnisse gewinnen, da generische Aussagen typischerweise mit
dem statischen Aspekt assoziiert werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#carlson_generics_2006">Carlson 2006</ref>.</note> Inwiefern Erzählpausen
im narrativen Text mit statischem lexikalischem Aspekt einhergehen, ist eine
spannende offene Forschungsfrage. Die zentrale kommende Aufgabe wird es sein, mehr
Daten für den statistischen Tagger zu generieren, um die Performanz des Taggers zu
verbessern. Auch soll überprüft werden, inwiefern neuronale Methoden eine noch
höhere Trefferquote erzielen können.</p>
</div>
<div type="chapter">
<head>Danksagungen</head>
<p>Die VolkswagenStiftung und die
Deutsche Forschungsgemeinschaft (424264086) haben die Arbeit an diesem Aufsatz
ermöglicht, dafür bedanken wir uns herzlich. Wir danken zudem unseren studentischen
Hilfskräften für ihre Annotationsarbeit: Friederike Altmann, Jan P. Lau, Jonas
Lipski, Evelyn Ovsjannikov, Noreen Scheffel, Ruben M. Van Wijk und Marina L.
Wurzbacher. Ebenfalls danken wir zwei anonymen Gutachter*innen für ihre Kommentare
und Hinweise, von denen der vorliegende Aufsatz profitiert hat.</p>
</div>
</div>
<div type="bibliography">
<head>Bibliographische Angaben</head>
<listBibl>
<bibl xml:id="barth_monaco_2021">Florian Barth / Tillmann Dönicke / Benjamin Gittel / Luisa
Gödeke / Anna Mareike Weimer / Anke Holler / Caroline Sporleder / Hanna Varachkina:
MONACO: Modes of Narration and Attribution Corpus. 2021. [<ref target="https://gitlab.gwdg.de/mona/korpus-public">online</ref>]</bibl>
<bibl xml:id="barth_monapipe_2022">Florian Barth / Tillmann Dönicke / Hanna Varachkina /
Caroline Sporleder: MONAPipe: Modes of Narration and Attribution Pipeline for German
Computational Literary Studies and Language Analysis in spaCy. In: Proceedings of
the 18th Conference on Natural Language Processing (KONVENS: Konferenz zur
Verarbeitung natürlicher Sprache/Conference on Natural Language Processing, Potsdam,
12.–15.09.2022). [<ref target="https://aclanthology.org/2022.konvens-1.2/">online</ref>]</bibl>
<bibl xml:id="barwise_quantifiers_1981">Jon Barwise / Robin Cooper: Generalized Quantifiers and
Natural Language. In: Linguistics and Philosophy 4 (1981), H. 2, S. 159–219.
<ptr type="gbv" cRef="129323837"/></bibl>
<bibl xml:id="benthem_logic_1983">Johan van Benthem: The Logic of Natural Language. In:
Philosophical Books 24 (1983), H. 2, S. 99–102. <ptr type="gbv" cRef="166711721"/></bibl>
<bibl xml:id="breiman_classification_1984">Leo Breiman / Jerome H. Friedman / Richard A. Olshen /
Charles J. Stone: Classification and Regression Trees. New York u. a. 1984.
<ptr type="gbv" cRef="253472792"/></bibl>
<bibl xml:id="breiman_random_2001">Leo Breiman: Random Forests. In: Machine Learning 45
(2001). DOI: <ref target="https://doi.org/10.1023/A:1010933404324">10.1023/A:1010933404324</ref> <ptr type="gbv" cRef="12920403X"/></bibl>
<bibl xml:id="carlson_generics_2006">Greg N. Carlson: Generics, Habituals, Iteratives. In:
Encyclopedia of Language &amp; Linguistics. Hg. von Keith Brown. 2. Auflage.
Amsterdam u. a. 2006. <ptr type="gbv" cRef="473039672"/></bibl>
<bibl xml:id="chatman_story_1978">Seymour Chatman: Story and Discourse. Narrative Structure
in Fiction and Film. New York, NY 1978. <ptr type="gbv" cRef="011286377"/></bibl>
<bibl xml:id="adw_dta_2022">Deutsches Textarchiv. Grundlage für
ein Referenzkorpus der neuhochdeutschen Sprache. Hg. von Berlin-Brandenburgische
Akademie der Wissenschaften. Berlin 2022. [<ref target="https://www.deutschestextarchiv.de/">online</ref>]</bibl>
<bibl xml:id="doenicke_tense_2020">Tillmann Dönicke: Clause-Level Tense, Mood, Voice and
Modality Tagging for German. Düsseldorf 2020. DOI:
<ref target="http://dx.doi.org/10.18653/v1/2020.tlt-1.1">10.18653/v1/2020.tlt-1.1</ref></bibl>
<bibl xml:id="doenicke_phenomena_2021">Tillmann Dönicke / Luisa
Gödeke / Hanna Varachkina: Annotating Quantified Phenomena in Complex Sentence
Structures Using the Example of Generalising Statements in Literary Texts. In:
Proceedings of the 17th Joint ACL - ISO Workshop on Interoperable Semantic
Annotation. Hg. von Harry Bunt. (ISA 17, Groningen, 16.–17.06.2021)
Stroudsburg 2021, S. 20–32. [<ref target="https://aclanthology.org/2021.isa-1.3/">online</ref>]</bibl>
<bibl xml:id="ernst_uhr_2012">Paul Ernst: Die Uhr. In: TextGrid Repository. Digitale
Bibliothek. Göttingen 2012. Handle:
<ref target="https://hdl.handle.net/11858/00-1734-0000-0002-A2A0-8">11858/00-1734-0000-0002-A2A0-8</ref>
</bibl>
<bibl xml:id="fleiss_scale_1971">Joseph L. Fleiss: Measuring nominal scale agreement among
many raters. In: Psychological Bulletin 76 (1971), H. 5, S. 378–382. <ptr type="gbv" cRef="129067016"/></bibl>
<bibl xml:id="fontane_stechlin_2012">Theodor Fontane: Der Stechlin. In: TextGrid Repository.
Digitale Bibliothek. Göttingen 2012. Handle: <ref target="https://hdl.handle.net/11858/00-1734-0000-0002-AECF-D">11858/00-1734-0000-0002-AECF-D</ref>
</bibl>
<bibl xml:id="friedrich_recognition_2015">Annemarie Friedrich / Manfred Pinkal: Automatic recognition
of habituals: a three-way classification of clausal aspect. In: Proceedings of the 2015 Conference
on Empirical Methods in Natural Language Processing. Hg. von Lluís Màrquez
/ Chris Callison-Burch / Jian Su (EMNLP, Lisbon, 17.–21.09.2015). Red Hook, NY 2015.
DOI: <ref target="http://dx.doi.org/10.18653/v1/D15-1294">10.18653/v1/D15-1294</ref> <ptr type="gbv" cRef="840977778"/></bibl>
<bibl xml:id="friedrich_annotating_2015">Annemarie Friedrich / Alexis Palmer / Melissa Peate
Sørensen / Manfred Pinkal: Annotating genericity: a survey, a scheme, and a
corpus. In: Proceedings of the 9th Linguistic Annotation Workshop. Hg. von Adam
Meyers / Ines Rehbein / Heike Zinsmeister (LAW 9, Denver, CO, 31.05.–05.06.2015).
Red Hook, NY 2015, S. 21–30. DOI: <ref target="http://dx.doi.org/10.3115/v1/W15-1603">10.3115/v1/W15-1603</ref> <ptr type="gbv" cRef="835349225"/></bibl>
<bibl xml:id="friedrich_situation_2016">Annemarie Friedrich / Alexis Palmer / Manfred Pinkal:
Situation entity types: automatic classification of clause-level aspect. In: Proceedings of the 54th Annual
Meeting of the Association for Computational Linguistics (Volume 1: Long
Papers). Hg. von Katrin Erk / Noah A. Smith (ACL 54, Berlin, 07.–12.08.2016). Stroudsburg, PA 2016, S. 1757–1768. DOI: <ref target="http://dx.doi.org/10.18653/v1/P16-1166">10.18653/v1/P16-1166</ref>
</bibl>
<bibl xml:id="gittel_essayismus_2015">Benjamin Gittel: Essayismus als Fiktionalisierung von
unsicheres Wissen prozessierender Reflexion. In: Scientia Poetica 19 (2015), H. 1,
S. 136–171. <ptr type="gbv" cRef="22568697X"/></bibl>
<bibl xml:id="gius_annotation_2016">Evelyn Gius / Janina Jacke: Zur Annotation narratologischer
Kategorien der Zeit. Guidelines zur Nutzung des CATMA-Tagsets. Version 2.0. Hamburg
2016. PDF. [<ref target="http://heureclea.de/wp-content/uploads/2016/11/guidelinesV2.pdf">online</ref>]</bibl>
<bibl xml:id="gius_catma_2022">Evelyn Gius / Jan Christoph Meister / Malte Meister / Marco
Petris / Christian Bruck / Janina Jacke / Mareike Schumacher / Dominik Gerstorfer /
Marie Flüh / Jan Horstmann: CATMA 6. Version 6.5. 2022. In: Zenodo. DOI: <ref target="https://doi.org/10.5281/zenodo.1470118">10.5281/zenodo.1470118</ref>
</bibl>
<bibl xml:id="goethe_wahlverwandtschaften_2012">Johann Wolfgang von Goethe: Die Wahlverwandtschaften. In:
TextGrid Repository. Digitale Bibliothek. Göttingen 2012. Handle: <ref target="https://hdl.handle.net/11858/00-1734-0000-0006-6A93-D">11858/ 00-1734-0000-0006-6A93-D</ref>
</bibl>
<bibl xml:id="heim_semantics_1982">Irene Roswitha Heim: The Semantics of Definite and
Indefinite Noun Phrases. Ann Arbor, Dissertation, University of MAassachusetts 1982.
<ptr type="gbv" cRef="309326036"/></bibl>
<bibl xml:id="honnibal_transition_2015">Matthew Honnibal / Mark Johnson: An Improved Non-monotonic
Transition System for Dependency Parsing. In: Conference on Empirical Methods in
Natural Language Processing. Hg. von Association for Computational Linguistics.
(EMNLP, Lissabon, 17.–21.09.2015). Red Hook, NY 2015, S. 1373–1378. DOI: <ref target="https://doi.org/10.18653/v1/D15-1162">10.18653/v1/D15-1162</ref>
<ptr type="gbv" cRef="840977778"/></bibl>
<bibl xml:id="kafka_bau_1990">Franz Kafka: Der Bau. In: Projekt Gutenberg. Hamburg.
Basierend auf der Druckausgabe Frankfurt / Main 1990.
[<ref target="https://www.projekt-gutenberg.org/kafka/bau/bau.html">online</ref>]</bibl>
<bibl xml:id="kamp_theory_2002">Hans Kamp: A Theory of Truth and Semantic Representation.
In: Formal Semantics. The Essential Readings. Hg. von Paul Portner / Barbara H.
Partee. Oxford 2002, S. 189–222. <ptr type="gbv" cRef="341819506"/></bibl>
<bibl xml:id="konrad_signposts_2017">Eva-Maria Konrad: Signposts of Factuality: On Genuine
Assertions in Fictional Literature. In: Art and Belief. Hg. von Ema Sullivan-Bissett
/ Helen Bradley / Paul Noordhof. Oxford 2017, S. 42–62. (= Mind Association
Occasional Series) <ptr type="gbv" cRef="1003480926"/></bibl>
<bibl xml:id="konrad_dimensionen_2014">Eva-Maria Konrad: Dimensionen der Fiktionalität. Analyse
eines Grundbegriffs der Literaturwissenschaft. Münster 2014. <ptr type="gbv" cRef="783799799"/></bibl>
<bibl xml:id="krifka_book_1995">Manfred Krifka / Francis Jeffry Pelletier / Gregory N.
Carlson / Alice ter Meulen / Godehard Link / Gennaro Chierchia: Genericity: An
Introduction. In: The generic book. Hg. von Greg N. Carlson / Francis Jeffry
Pelletier. Chicago u. a. 1995, S. 1–124. <ptr type="gbv" cRef="278698247"/></bibl>
<bibl xml:id="krug_conference_2015">Markus Krug / Frank Puppe / Fotis Jannidis / Luisa
Macharowsky / Isabella Reger / Lukas Weimar: Rule-based Coreference Resolution in
German Historic Novels. In: Proceedings of the Fourth Workshop on Computational
Linguistics for Literature. Hg. von Anna Feldman / Anna Kazantseva / Stan
Szpakowicz / Corina Koolen (NAACL-HLT 4, Denver,
04.06.2015). Red Hook, NY 2015, S. 98–104. DOI:
<ref target="http://dx.doi.org/10.3115/v1/W15-0711">10.3115/v1/W15-0711</ref> <ptr type="gbv" cRef="835281108"/></bibl>
<bibl xml:id="lahn_einfuehrung_2013">Silke Lahn / Jan Christoph Meister: Einführung in die
Erzähltextanalyse. 2., aktualisierte Auflage. Stuttgart u. a. 2013. <ptr type="gbv" cRef="743833007"/></bibl>
<bibl xml:id="lamarque_truth_1994">Peter Lamarque / Stein H. Olsen: Truth, Fiction, and
Literature. A Philosophical Perspective. Oxford 1994. <ptr type="gbv" cRef="128696141"/></bibl>
<bibl xml:id="leslie_ducks_2011">Sarah-Jane Leslie / Sangeet Khemlani / Sam Glucksberg: All
Ducks Lay Eggs: The Generic Overgeneralization Effect. In: Journal of Memory and
Language 65 (2011), H. 1, S. 15–31. <ptr type="gbv" cRef="130411949"/></bibl>
<bibl xml:id="lewis_adverbs_1975">David K. Lewis: Adverbs of Quantification. In: Formal
Semantics of Natural Language. Hg. von Edward L. Keenan. Cambridge, UK 1975, S.
178–188. <ptr type="gbv" cRef="153115041"/></bibl>
<bibl xml:id="mikkonen_assertions_2009">Jukka Mikkonen: Assertions in Literary Fiction. In: Minerva
13 (2009), S. 144–180. [<ref target="http://www.minerva.mic.ul.ie/vol13/Assertions.htm">online</ref>]</bibl>
<bibl xml:id="mitchell_ace_2003">Alexis Mitchell / Stephanie Strassel / Mark Przybocki / JK
Davis / George R. Doddington / Ralph Grishman / Adam Meyers / Ada Brunstein / Lisa
Ferro / Beth Sundheim: ACE-2 Version 1.0. LDC2003T11, Philadelphia 2003. DOI: <ref target="https://doi.org/10.35111/kcqk-v224">10.35111/kcqk-v224</ref>
</bibl>
<bibl xml:id="musil_mann_1970">Robert Musil: Der Mann ohne Eigenschaften. Erstes Buch.
Hg. von Adolf Frisé. In: Projekt Gutenberg. Hamburg. Basierend auf der Druckausgabe
1970. [<ref target="https://www.projekt-gutenberg.org/musil/mannohne">online</ref>]</bibl>
<bibl xml:id="nuenning_grundzuege_1989">Ansgar Nünning: Grundzüge eines kommunikationstheoretischen
Modells der erzählerischen Vermittlung. Trier 1989. <ptr type="gbv" cRef="025341634"/></bibl>
<bibl xml:id="petraschka_interpretation_2014">Thomas Petraschka: Interpretation und Rationalität.
Billigkeitsprinzipien in der philologischen Hermeneutik. Berlin 2014 (= Historia
Hermeneutica / Series Studia, 11) <ptr type="gbv" cRef="78039349X"/></bibl>
<bibl xml:id="reiter_identifying_2010">Nils Reiter / Anette Frank: Identifying Generic Noun
Phrases. In: Proceedings of the 48th Annual Meeting of the Association for
Computational Linguistics. Hg. von Jan Hajič / Sandra Carberry / Stephan Clark / Joakim Nivre (ACL 48, Uppsala,
11.–16.07.2010). Red Hook, NY 2010, S. 40–49.
[<ref target="https://dl.acm.org/doi/10.5555/1858681.1858686">online</ref>] <ptr type="gbv" cRef="644235802"/></bibl>
<bibl xml:id="scheffel_einfuehrung_2016">Michael Scheffel / Matías Martínez: Einführung in die
Erzähltheorie. 10., überarbeitete Auflage. München 2016. <ptr type="gbv" cRef="857714805"/></bibl>
<bibl xml:id="searle_logic_1975">John R. Searle: The Logical Status of Fictional Discourse.
In: New Literary History 6 (1975), H. 2, S. 319–332. <ptr type="gbv" cRef="129093378"/></bibl>
<bibl xml:id="tolstoj_anna_2012">Lev Nikolaevič Tolstoj: Anna Karenina. In: TextGrid
Repository. Digitale Bibliothek. Göttingen 2012. Handle: <ref target="https://hdl.handle.net/11858/00-1734-0000-0005-57A8-B">11858/00-1734-0000-0005-57A8-B</ref>
</bibl>
<bibl xml:id="vesper_literatur_2014">Achim Vesper: Literatur und Aussagen über Allgemeines. In:
Wahrheit, Wissen und Erkenntnis in der Literatur. Philosophische Beiträge. Hg. von
Christoph Demmerling / Íngrid Vendrell Ferran. Berlin 2014, S. 181–196.
<ptr type="gbv" cRef="750503173"/></bibl>
<bibl xml:id="walker_ace_2006">Christopher Walker / Stephanie Strassel / Julie Medero /
Kazuaki Maeda: ACE 2005 Multilingual Training Corpus LDC2006T06. Philadelphia 2006.
DOI: <ref target="https://doi.org/10.35111/mwxc-vh88">10.35111/mwxc-vh88</ref>
</bibl>
<bibl xml:id="wieland_geschichte_2012">Christoph Martin Wieland: Geschichte des Agathon. In:
TextGrid Repository. Digitale Bibliothek. 2012. Handle:
<ref target="https://hdl.handle.net/11858/00-1734-0000-0005-A68F-A">11858/00-1734-0000-0005-A68F-A</ref>
</bibl>
</listBibl>
</div>
<div type="abbildungsnachweis">
<head>Abbildungs- und Tabellenverzeichnis</head>
<desc type="table" xml:id="tab1"><ref target="#tab01" type="intern">Tab. 1</ref>:
Tagset MONACO. [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t1"/>
</desc>
<desc type="table" xml:id="tab2"><ref target="#tab02" type="intern">Tab. 2</ref>:
Korpus MONACO. [Gödeke et al. 2022 nach <ref type="bibliography" target="#barth_monaco_2021">Barth et al. 2021</ref>]<ref type="graphic" target="#generalisation_2022_t2"/>
</desc>
<desc type="graphic" xml:id="abb1">Textverarbeitungskomponenten für verschiedene sprachliche Ebenen: Ein Text
durchläuft die einzelnen Komponenten von links nach rechts und von oben nach
unten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_001"/></desc>
<desc type="graphic" xml:id="abb2">Regelbasierter GenTagger. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_002"/></desc>
<desc type="table" xml:id="tab3"><ref target="#tab03" type="intern">Tab. 3</ref>:
Größe der Trainings-,
Entwicklungs- und Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t3"/>
</desc>
<desc type="table" xml:id="tab4"><ref target="#tab04" type="intern">Tab. 4</ref>:
Merkmale für den statistischen GenTagger; Fragezeichen markieren Boole’sche Merkmale. [Gödeke et
al. 2022]<ref type="graphic" target="#generalisation_2022_t4"/>
</desc>
<desc type="graphic" xml:id="abb3">Die wichtigsten Merkmale
des Entscheidungsbaum-GenTaggers. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_003"/></desc>
<desc type="graphic" xml:id="abb4">Berechnung von Precision (P), Recall (R) und F-Maß (F) für ein einzelnes Subtag y. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_004"/></desc>
<desc type="graphic" xml:id="abb5">Berechnung des Mikro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_005"/></desc>
<desc type="graphic" xml:id="abb6">Berechnung des Makro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_006"/></desc>
<desc type="table" xml:id="tab5"><ref target="#tab05" type="intern">Tab. 5</ref>:
Mikro-Durchschnitts-Werte der GenTagger auf Entwicklungs- und Testdaten. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_t5"/>
</desc>
<desc type="table" xml:id="tab6"><ref target="#tab06" type="intern">Tab. 6</ref>:
Tag-spezifische Makro-Durchschnittswerte der GenTagger auf den Testdaten. [Gödeke et al.
2022]<ref type="graphic" target="#generalisation_2022_t6"/>
</desc>
<desc type="graphic" xml:id="abb7">Performanz des Zufallswald-GenTaggers auf den Testdaten bei schrittweiser
Hinzunahme von Trainingstexten. Autorennamen stehen als Kürzel für die einzelnen
Werke. [Gödeke et al. 2022]<ref type="graphic" target="#generalisation_2022_007"/></desc>
</div>
</body>
</text>
</TEI>
2022_010_goedeke_et_al/generalisation_2022_001.png

85.5 KiB

2022_010_goedeke_et_al/generalisation_2022_002.png

255 KiB

2022_010_goedeke_et_al/generalisation_2022_003.png

176 KiB

2022_010_goedeke_et_al/generalisation_2022_004.PNG

30.7 KiB

2022_010_goedeke_et_al/generalisation_2022_005.PNG

37.6 KiB

2022_010_goedeke_et_al/generalisation_2022_006.PNG

14.5 KiB

2022_010_goedeke_et_al/generalisation_2022_007.png

64.8 KiB

0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment