diff --git a/2022_009_dimpel/gattungssignal_2022_001.png b/2022_009_dimpel/gattungssignal_2022_001.png new file mode 100644 index 0000000000000000000000000000000000000000..0b52316496b684b3a0ce9d6c72cf1f20e34f3515 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_001.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_002.png b/2022_009_dimpel/gattungssignal_2022_002.png new file mode 100644 index 0000000000000000000000000000000000000000..3ceaac968576156bf6b3416ad1e8daf0c98a38ad Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_002.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_003.png b/2022_009_dimpel/gattungssignal_2022_003.png new file mode 100644 index 0000000000000000000000000000000000000000..d451858f8fd1b770dfca66621a2897beb7cba212 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_003.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_004.png b/2022_009_dimpel/gattungssignal_2022_004.png new file mode 100644 index 0000000000000000000000000000000000000000..2b0d6064a984632cf648d7d8f06a94485f24a709 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_004.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_005.png b/2022_009_dimpel/gattungssignal_2022_005.png new file mode 100644 index 0000000000000000000000000000000000000000..89af443cf23e6443e7bc2b508b5bf92fa380fc5d Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_005.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_006.png b/2022_009_dimpel/gattungssignal_2022_006.png new file mode 100644 index 0000000000000000000000000000000000000000..e77ed291cc1ba61c9501fa0d64c2a7de713a2002 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_006.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_007.png b/2022_009_dimpel/gattungssignal_2022_007.png new file mode 100644 index 0000000000000000000000000000000000000000..9dd9753504e704d4732f5e90ae20f6d9f8b9e2e5 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_007.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_008.png b/2022_009_dimpel/gattungssignal_2022_008.png new file mode 100644 index 0000000000000000000000000000000000000000..b00e71dbdbf629b4730b45cda5a8793a1fb4703e Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_008.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_009.png b/2022_009_dimpel/gattungssignal_2022_009.png new file mode 100644 index 0000000000000000000000000000000000000000..d617b0d81e0d6b5214ec7f830f67e6595fefdeb2 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_009.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_010.png b/2022_009_dimpel/gattungssignal_2022_010.png new file mode 100644 index 0000000000000000000000000000000000000000..6f1f1408ee9bac84f583a6e6d4f921be8d57d0f3 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_010.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_011.png b/2022_009_dimpel/gattungssignal_2022_011.png new file mode 100644 index 0000000000000000000000000000000000000000..19e57a402be09ba6a4e0d753fa35977dc6d7b480 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_011.png differ diff --git a/2022_009_dimpel/gattungssignal_2022_v1_0.pdf b/2022_009_dimpel/gattungssignal_2022_v1_0.pdf new file mode 100644 index 0000000000000000000000000000000000000000..ebf875664e231269dccee1c2dc4318b6d9ffd456 Binary files /dev/null and b/2022_009_dimpel/gattungssignal_2022_v1_0.pdf differ diff --git a/2022_009_dimpel/gattungssignal_2022_v1_0.xml b/2022_009_dimpel/gattungssignal_2022_v1_0.xml new file mode 100644 index 0000000000000000000000000000000000000000..ab12ff0274e91aac27df2a90b733e87266ec6303 --- /dev/null +++ b/2022_009_dimpel/gattungssignal_2022_v1_0.xml @@ -0,0 +1,3606 @@ +<?xml version="1.0" encoding="utf-8"?> +<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax" + ?> +<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html" + xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink" + xmlns:xhtml="http://www.w3.org/1999/xhtml"> + <teiHeader> + <fileDesc> + <titleStmt> + <title> + <biblStruct> + <analytic> + <title level="a">Gute Wörter, schwaches Gattungssignal. Differenzen zwischen + Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz + aufspüren</title> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Friedrich Michael</forename> + <surname>Dimpel</surname> + </name> + <email>mail@dimpel.de</email> + <idno type="gnd">1111656460</idno> + <idno type="orcid">0000-0003-4833-4897</idno> + </persName> + </resp> + <orgName>Friedrich-Alexander-Universität Erlangen-Nürnberg</orgName> + </respStmt> + <idno type="doi">10.17175/2022_009</idno> + <idno type="ppn">1819369722</idno> + <idno type="zfdg">2022.009</idno> + <idno type="url">https://www.zfdg.de/node/379</idno> + <date when="2022-11-17">17.11.2022</date> + </analytic> + <monogr> + <title level="j">Zeitschrift für digitale Geisteswissenschaften</title> + <respStmt> + <resp>Publiziert von</resp> + <orgName role="marc_pbl">Herzog August Bibliothek</orgName> + </respStmt> + <respStmt> + <resp>Transformation der Word Vorlage nach TEI</resp> + <persName/> + <name role="marc_trc"> + <surname>Baumgarten</surname> + <forename>Marcus</forename> + <idno type="gnd">1192832655</idno> + </name> + </respStmt> + <availability status="free"> + <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref> + </p> + </availability> + <biblScope unit="year">2022</biblScope> + <biblScope unit="artikel">xx</biblScope> + </monogr> + </biblStruct> + </title> + </titleStmt> + <editionStmt> + <edition>Elektronische Ausgabe nach TEI P5</edition> + </editionStmt> + <publicationStmt> + <distributor> + <name> + <orgName>Herzog August Bibliothek Wolfenbüttel</orgName> + </name> + </distributor> + <idno type="doi">10.17175/zfdg.01</idno> + <idno type="ppn">0819494402</idno> + <authority> + <name>Herzog August Bibliothek</name> + <address> + <addrLine>Lessingplatz 1</addrLine> + <addrLine>38304 Wolfenbüttel</addrLine> + </address> + </authority> + <authority> + <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name> + <address> + <addrLine>Burgplatz 4</addrLine> + <addrLine>99423 Weimar </addrLine> + </address> + </authority> + <availability status="free"> + <p> Sofern nicht anders angegeben </p> + <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence> + </availability> + <availability status="free"> + <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund + MWW</ref> + </p> + </availability> + </publicationStmt> + <sourceDesc> + <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p> + </sourceDesc> + </fileDesc> + <encodingDesc> + <editorialDecl> + <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und + XSLT-Skripten</p> + <p>Medienrechte liegen bei den Autor*innen</p> + <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Caroline Jansky</persName>.</p> + <p>All links checked<date when="2022-10-25">25.10.2022</date> + </p> + </editorialDecl> + </encodingDesc> + <profileDesc> + <creation>Einreichung als Artikel der Zeitschrift für digitale + Geisteswissenschaften</creation> + <langUsage> + <language ident="de">Text in Deutsch</language> + <language ident="de">Abstract in Deutsch</language> + <language ident="en">Abstract in Englisch</language> + </langUsage> + <textClass> + <keywords scheme="gnd"> + <term>Gattungstheorie<ref target="4137287-6"/></term> + <term>Literaturgattung<ref target="4074285-4"/></term> + <term>Literaturwissenschaft<ref target="gnd/4036034-9"/></term> + <term>Statistische Stilistik<ref target="1130711129"/> + </term> + </keywords> + </textClass> + </profileDesc> + <revisionDesc> + <change/> + </revisionDesc> + </teiHeader> + <text> + <body> + <div> + <div type="abstract"> + <argument xml:lang="de"> + <p>Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. + Subgenres mit Burrows’ Delta durch signifikantes Vokabular (›Gute Wörter‹) und + Z-Wert-Begrenzung verbessern lässt. Auf einem Teilkorpus werden zu den Genres + Abenteuerroman, Bildungsroman, Gesellschaftsroman, Komödie und Tragödie die + ›Guten Wörter‹ ermittelt; auf einem zweiten Teilkorpus wird evaluiert. Bei + allen fünf Textsorten steigen die F1-Werte durch diese Optimierungsmaßnahmen, + beispielsweise von 0,65 auf 0,77. Bei Abenteuerroman, Bildungsroman und Komödie + steigen die F1-Werte beispielsweise von 0,79 auf 0,91. Die Klassifikation von + Abenteuerroman versus Drama und von Komödie versus Abenteuer- und Bildungsroman + gelingt fehlerfrei (ARI=1). Während das Gute-Wörter-Verfahren den Recall + steigert, begrenzt die Z-Wert-Begrenzung die False-Positives.</p> + </argument> + <argument xml:lang="en"> + <p>It is investigated to what extent the automatic recognition of genres or + subgenres by means of Burrows’ Delta can be improved by significant vocabulary + (›good words‹) and Z-value limitation. On one subcorpus, ›good words‹ are + determined on the genres adventure novel, Bildungsromans, social novel, comedy, + and tragedy; on a second subcorpus, they are evaluated. For all five text + types, the F1 values increase due to these optimization measures, for example + from 0.65 to 0.77. For adventure novel, Bildungsroman and comedy, the F1 values + increase, for example, from 0.79 to 0.91. The classification of adventure novel + versus drama and of comedy versus adventure and Bildungsroman succeeds without + errors (ARI=1). While the ›good word procedure‹ increases recall, the Z-score + limitation limits false positives.</p> + </argument> + </div> + <div type="chapter"> + <head>1. Gattung und Stilometrie</head> + <p>Während die Autorschaftserkennung auf digitalem Weg gut erforscht ist und sehr gute + Erkennungsquoten vorweisen kann,<note type="footnote"> Vgl. etwa <ref type="bibliography" target="#Büttner_et_al_delta_2017">Büttner et al. + 2017</ref>.</note> ist die digitale Erkennung von literarischen Gattungen deutlich + anspruchsvoller.<note type="footnote"> Vgl. <ref type="bibliography" target="#hettinger_et_al_classification_2016a">Hettinger et al. 2016a</ref>, S. 158. + <ref type="bibliography" target="#hettinger_et_al_genre_2015">Hettinger et al. 2015</ref> berichten über eine verbesserte Erkennungsleistung mit Hilfe + von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich <ref type="bibliography" target="#hettinger_et_al_significance_2016b">Hettinger + et al. 2016b</ref>. <ref type="bibliography" target="#kim_et_al_investigating_2017">Kim et al. 2017</ref> vergleichen englische Abenteuerromane, humoristische + Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage + von MFW-Bag-of-Words (Baseline), ›emotional arcs‹ und einem lexikalischen + Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin + <ref type="bibliography" target="#schoech_computational_2020">Schöch 2020</ref>; <ref type="bibliography" target="#tello_gattungserkennung_2019">Calvo Tello 2019</ref>; <ref type="bibliography" target="#ardanuy_sporleder_clustering_2014">Ardanuy / Sporleder 2014</ref>; <ref type="bibliography" target="#underwood_et_al_mapping_2013">Underwood et al. 2013</ref>; <ref type="bibliography" target="#eder_rybicki_deeper_2011">Eder / Rybicki 2011</ref>; <ref type="bibliography" target="#sharoff_et_al_babel_2010">Sharoff et al. 2010</ref>; <ref type="bibliography" target="#stamatatos_et_al_categorization_2000">Stamatatos et al. 2000</ref>; <ref type="bibliography" target="#kessler_et_al_automatic_1997">Kessler et al. + 1997</ref>.</note> Während bei Texten des*der gleichen Autors*in trotz aller + Veränderungen im Laufe der Schaffensperiode des*der gleichen Autors*in und trotz + einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst + identischen Subjekt der Text-Origo ausgegangen werden kann, kann man Texte einer + Gattungen nur schwerlich einer gemeinsamen Origo-Instanz zuordnen. Zudem handelt es + sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives + Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen + schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen + sind nicht immer eindeutig möglich, da nicht wenige Texte im Spannungsfeld zwischen + mindestens zwei Gattungen verortet werden können;<note type="footnote"> Vgl. zu + Gattungshybriden etwa <ref type="bibliography" target="#fuchs_hybride_1997">Fuchs 1997</ref>; <ref type="bibliography" target="#schulz_poetik_2000">Schulz 2000</ref>.</note> so zeichnet sich etwa der <bibl> + <title type="desc">Willehalm</title> + </bibl> von Wolfram von Eschenbach durch Gattungsinterferenzen aus, in dem neben dem + Überlebenskampfmotiv (ein Kennzeichen der <term type="dh">Heldenepik</term>) auch + zahlreiche höfische Passagen (Kennzeichen <term type="dh">höfischer Epik</term>) + vorkommen. Mitunter folgen Gattungszuweisungen auch pragmatischen Kriterien, wenn + etwa der <hi rend="italic">Willehalm</hi> für die Zwecke der Prüfungen im bayerischen + Staatsexamen rubriziert werden muss und in diesem Rahmen das vereindeutigende Etikett + ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und + gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum + mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden + lässt.<note type="footnote"> Vgl. <ref type="bibliography" target="#viehhauser_gattungsgeschichten_2017">Viehhauser 2017</ref>.</note> + </p> + <p>In Studien zur Autorschaftsattribution wurden für schwierige Fälle unklarer + Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen + Texten) Optimierungsverfahren entwickelt – etwa das <term type="dh" + >Gute-Wörter-Verfahren</term>, bei dem nicht alle <term type="dh" + >Most-Frequent-Words</term> (MFW), sondern signifikante Wortformen verwendet + werden.<note type="footnote"> Zur Verbesserung durch ›Gute Wörter‹ bei + Autorschaftsfragen vgl. <ref type="bibliography" target="#dimpel_proisl_delta_2019">Dimpel / Proisl 2019</ref>.</note> In der vorliegenden Studie + soll geprüft werden, ob sich eine Verbesserung der Erkennungsleistung mit Hilfe des + Guten-Wörter-Verfahrens auch bei Gattungsfragen einstellt. Untersucht werden 100 + deutsche Texte, die aus dem 19. Jahrhundert stammen oder die kurz davor bzw. danach + verfasst wurden. Damit das <term type="dh">Gattungssignal</term> möglichst + zielgerichtet und unbeeinflusst durch <term type="dh">Autorsignale</term> oder <term + type="dh">Übersetzersignale</term> untersucht werden kann, wird vermieden, mehrere + Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu verwenden.</p> + </div> + <div> + <p></p> + <p></p> + </div> + <div type="chapter"> + <head>2. Korpusgestaltung und Präprocessing</head> + + <p>Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte + entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, + Bildungsroman, Gesellschaftsroman, Komödie oder Tragödie eingestuft, wenn in einer + literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine + einschlägige Bezeichnung vorgefunden wurde.</p> + <p>Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,<note + type="footnote"> Vgl. <ref type="bibliography" target="#büttner_proisl_stilometrie_2016">Büttner / Proisl 2016</ref>.</note> kann das Autorsignal als ein + starkes stilometrisches Signal gelten.<note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_corneille_2014">Schöch 2014</ref>.</note> + Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von + Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres + Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei + nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen + erkennbar. Umgekehrt sind auch Fälle denkbar, in denen die gleichen Autor*innen in + verschiedenen Gattungen wirken, so dass ihre Texte aufgrund des Autorsignals + zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger + et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate aus + dem zuvor examinierten Korpus herausnimmt.<note type="footnote"> <ref type="bibliography" target="#hettinger_et_al_classification_2016a">Hettinger et al. + 2016a</ref>, S. 161.</note> + </p> + <p>Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache + Labels: So ist Wilhelm Raabes <bibl> + <title type="desc">Abu Telfan</title> + </bibl> + <hi rend="italic"> oder </hi> + <bibl> + <title type="desc">Die Heimkehr vom Mondgebirge</title> + </bibl> sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, + Bildungsroman und als Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht + einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift + <quote>Zwischen Individualroman und Gesellschaftsroman</quote> + <note type="footnote"> Vgl. <ref type="bibliography" target="#selbmann_bildungsroman_1994">Selbmann 1994</ref>, S. 96–120.</note>; andernorts beruft sich + Selbmann auf Benno von Wiese, der <quote>die Epigonen [Immermann] zugleich als + ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als + ›gesellschaftlichen Zeitroman‹</quote> versteht.<note type="footnote"> <ref type="bibliography" target="#selbmann_bildungsroman_1994">Selbmann + 1994</ref>, S. 111.</note> + </p> + <p>Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als + Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die + Zahl der verfügbaren Texte deutlich reduziert hat. Weitere Einschränkungen ergaben + sich durch das Vermeiden von Übersetzungen und Autorenduplikaten. Nur mit einiger + Mühe war es möglich, je Textsorte 20 digitale Texte zu finden, die diese drei + Kriterien erfüllt haben. Weiterhin wurden stark dialektal geprägte Texte wie + ‚Sozialaristokraten‘ von Arno Holz nicht ins Korpus genommen. Selbstverständlich wäre + es wünschenswert, diese Tests auf einer breiteren Textgrundlage wiederholen zu + können.</p> + <p>Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie + Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die + Gute-Wörter-Listen berechnet werden, sind nicht enthalten in der Kontrollgruppe + (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. </p> + <p>Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten + doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der + Guten Wörter noch bei der Evaluation im jeweiligen Test berücksichtigt wurden. + Doppelte Autor*innen, die jeweils einmal in der Kontrollgruppe und einmal in der + Ermittlungsgruppe vorhanden sind, sind unproblematisch. Sichergestellt ist zudem, + dass innerhalb einer Textsorte in den jeweils zehn Texten der Ermittlungs- und + Kontrollgruppe kein Autorenduplikat vorkommt. Zudem wurden in den Fällen, in denen + sich doppelte Autor*innen innerhalb der Kontroll- bzw. Ermittlungsgruppe nicht ganz + vermeiden lassen, Texte der Duplikat-Autor*innen nur als <term type="dh" + >Ratetext</term> und nie als Vergleichstext im Vergleichskorpus (dazu mehr im <ref + type="intern" target="#hd3">folgenden Abschnitt</ref>) verwendet, so dass in jedem + einzelnen Testlauf ausschließlich Texte verschiedener Autor*innen verwendet wurden. </p> + <p>Im Vorfeld der Tests wurden einige Preprocessing-Schritte unternommen. Bei den Dramen + habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die + Zeichensätze wurden nach <term type="dh">ANSI</term> vereinheitlicht, Sonderzeichen + mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben + konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10% der <term type="dh" + >Token</term> entfernt. </p> + </div> + <div> + <p></p> + <p></p> + <p></p> + <p></p> + </div> + <div type="chapter"> + <head>3. Gute Wörter berechnen – Ermittlungsgruppe</head> + + <p>Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.<note + type="footnote"> <ref type="bibliography" target="#dimpel_töpfchen_2018a">Dimpel 2018a</ref>; <ref type="bibliography" target="#dimpel_et_al_streit_2019">Dimpel et al. 2019</ref>; vgl. weiterhin <ref type="bibliography" target="#dimpel_delta_2018b">Dimpel 2018b</ref>. + Ein didaktisch aufbereiteter Foliensatz steht <ref target="https://doi.org/10.17879/55189462574">hier</ref>. </note> Für das + Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein + Vergleichskorpus mit meist 15 bis 30 <term type="dh">Distraktortexten</term> getestet + wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse – + bei Autorschaftsfragen ist also ein Text von dem*der Autor*in im Vergleichskorpus, + von dem*der auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der + gleichen Gattung. </p> + <p>Wie bei Burrows’ Delta üblich, wird für jedes Wort der <term type="dh" + >Most-Frequent-Words</term> (MFWs) die relative Häufigkeit gezählt, + Standardabweichung und <term type="dh">Z-Werte</term> berechnet und sodann die + Z-Wert-Differenz zwischen dem Ratetext und jedem Vergleichstext. Zentral für die + Ermittlung der Guten Wörter sind die <term type="dh">Level-2-Differenzen</term>, die + man berechnet als Differenz aus der Z-Wert-Differenz zwischen Ratetext und + Distraktortext einerseits und der Z-Wert-Differenz zwischen Ratetext und dem + Vergleichstext der Zielklasse andererseits. Auf positiven Level-2-Differenzen beruht + eine funktionierende Erkennung der Zielklasse. Negative Level-2-Differenzen sind ein + Störfaktor für die Erkennung der Zielklasse. </p> + <p>In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse ist + mathematisch unmittelbar evident, dass Wörter mit positiver Level-2-Differenz zu + einem niedrigen <term type="dh">Delta-Wert</term> beitragen. In einem größeren + Setting mit mehreren Distraktortexten sind verschiedene Parameter denkbar, mit deren + Hilfe die Liste der Guten Wörter erstellt werden kann. Dimpel / Proisl haben gezeigt, + dass <term type="dh">Parametersets</term> mit einem <term type="dh" + >Spitzenwertkriterium</term> zwar eine besonders gute Leistung bei + Autorschaftserkennung erbringen, jedoch auch so viele <term type="dh" + >False-Positives</term> produzieren, dass dieses Parameterset problematisch + ist.<note type="footnote"> In <ref type="bibliography" target="#dimpel_proisl_delta_2019">Dimpel / Proisl 2019</ref>.</note> + </p> + <p>Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der + durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen + Distraktortexten. Um diese Liste der Mittelwerte an hohen Level-2-Differenzen zu + erstellen, wird jeweils einer von zehn Texten der Zielgattung ins Distraktorkorpus + als Gattungsvergleichstext gegeben. Die neun anderen Texte der Ermittlungsgruppe der + jeweiligen Gattung werden reihum als Ratetext verwendet. Zu dem Ratetext, dem + Gattungsvergleichstext und je einem der Distraktortexte wird die Level-2-Differenz + berechnet. Aus diesen Level-2-Differenzen wird der Mittelwert der Level-2-Differenzen + für diesen Ratetext und diesen Gattungsvergleichstext zu allen 20 Distraktortexten + gebildet. Bei einem Gattungsvergleichstext und neun Ratetexten fallen für jede + Wortform neun durchschnittliche Level-2-Differenzen an. Dieses Verfahren wird zehnmal + wiederholt, so dass reihum jeder Text der Ermittlungsgruppe als + Gattungsvergleichstext ins Distraktorkorpus gegeben wird und die anderen neun Texte + als Ratetexte ›gegen‹ diesen getestet werden. Es fallen also insgesamt pro Wortform + 20 × 9 × 10 Level-2-Differenzen an, aus denen schließlich ein weiterer Mittelwert + gebildet wird. Dieses Verfahren wird für jede Textsorte durchgeführt, es fallen also + fünf textsortenspezifische Listen mit Guten Wörtern an. </p> + <p>Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse + jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen + Autorduplikate im Ermittlungsgruppenkorpus hohe Nummern (08, 09) vergeben wurden, ist + bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.<note type="footnote"> + Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle + Texte nach Entfernung der ersten 10% der Wortformen. Die häufigsten 1.200 MFWs + wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse + hervorgebracht. Dies hängt vermutlich damit zusammen, dass die Komödien und + Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der + ersten 10% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach + 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte + ist ohnehin nicht länger als 50.000 Wortformen.</note> + </p> + <p>Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb + der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform + bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in + mindestens vier von neun Ratetexten vorkommen. Damit sollen Eigenheiten von + Einzeltexten, die mutmaßlich weniger relevant für die Gattung sind, + unberücksichtigt bleiben. Dass es sich bei dem Parameter ›4 von 9‹ um einen + geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger + Iterationszahl ermittelt.<note type="footnote"> In einem weiteren Prätest wurde + zunächst versucht, jeweils fünf Texte der Ermittlungsgruppe in einen + Pseudo-Gattungstext zusammen zu kopieren (mit Cutoff bei 75.000 Wortformen) und + diese Datei als Vergleichstext der Zielklasse im Vergleichskorpus zu verwenden. + ›Gegen‹ dieses Vergleichskorpus wurden einzeln die übrigen fünf Texte der + Ermittlungsgruppe als Ratetexte getestet. Die Gute-Wörter-Listen, die in diesem + Verfahren erzeugt wurden, haben ebenfalls schlechtere Ergebnisse hervorgebracht + als die Listen, die im oben beschriebenen ›Reihum‹-Verfahren generiert + wurden.</note> + </p> + </div> + <div> + <p></p> + <p></p> + <p></p> + <p></p> + </div> + <div type="chapter"> + <head>4. Evaluierung – Kontrollgruppe </head> + + <p>Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen mit + Texten der Kontrollgruppe evaluiert:</p> + <list type="unordered"> + <item>Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA<note type="footnote"> Abkürzungen: + ABE: Abenteuerroman, BIL: Bildungsroman, GES: Gesellschaftsroman, KOM: Komödie, + TRA: Tragödie.</note></item> +<item> +Test B) Drei Textsorten: ABE, BIL, KOM</item> + <item>Test C) Drei Textsorten: ABE, KOM, TRA (ohne verschiedene Roman-Subgenres)</item> + <item>Test D) Drei Textsorten: ABE, BIL, GES (ausschließlich Roman-Subgenres)</item> + </list> + <p>Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen + Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die + Testreihen B und C die beste Unterscheidungsleistung zu erwarten. </p> + <p>Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen + Texten<note type="footnote"> Vgl. etwa <ref type="bibliography" target="#Büttner_et_al_delta_2017">Büttner et al. 2017</ref>.</note> zunächst ein + reiner <term type="dh">Erkennungsquotentest</term> mit fünf Vergleichstexten der + Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (<term type="dh" + >Adjusted Rand Index</term>) durchgeführt, bei dem zusätzlich auch die + Erkennungsquoten (<term type="dh">Recall</term>), False-Positives und <term type="dh" + >F1-Werte</term> ausgegeben werden – zum Setting siehe unten.</p> + <p>Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz + von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei + den Abenteuerromanen 637 Einträge. Eine Level-2-Differenz von >0,4 ist bei den + Komödien bei den Wortformen mit den Nummern 1–254 vorhanden, bei den Abenteuerromanen + bei den Wortformen 1–189. Auf einen Test, der exakt die in Dimpel / Proisl 2019 + geprüften Schwellenwerte ermittelt, wird verzichtet; getestet wird vielmehr mit 200, + 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im + aktuellen Test vorhanden sind,<note type="footnote"> Weiterhin werden von der + MFW-Liste nur Wortformen verwendet, die in mindestens zwei verschiedenen Texten + des Korpus vorkommen. Theoretisch denkbar ist, dass in einem Text beispielsweise + ein Figurenname derart hochfrequent vorkommt, dass er in die Liste der 400 + häufigsten Wörter gelangt.</note> wird das Gute Wort nicht verwendet. Wenn dadurch + nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im + jeweiligen Test mit herkömmlichen MFWs ergänzt. Es werden also nicht unbedingt + ausschließlich Gute Wörter berücksichtigt; insofern ist im Folgenden auch von einer + <hi rend="italic">bevorzugten Verwendung der Guten Wörter</hi> die Rede.</p> + <p>Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert + >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In + der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im + Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden.</p> + <div type="subchapter"> + <head>4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse</head> + <p>Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In + das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) + Texte pro Gattung per Losverfahren gegeben, die nicht zu der Zielgattung, für die + jeweils auch die Guten Wörter berechnet wurden, gehören. Bei der Testreihe A) werden + also für vier Gattungen je fünf Distraktortexte ausgelost, insgesamt damit 20 + Distraktortexte. </p> + <p>Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den + Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext + zurückgelegt; stattdessen wird ein anderer Distraktortext dieser Gattung verwendet. + Es ist also sichergestellt, dass die drei Textpaare, deren Autor*innen in den + Kontrollgruppentexten doppelt vertreten sind, nur als Ratetexte und nicht als + Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier + Autorenduplikate das Gattungssignal nicht überlagern können.<note type="footnote"> In + der Kontrollgruppe sind drei Duplikat-Paare vorhanden: Jean Paul (›bil_19, + Flegeljahre‹, ›ges_13, Blumen, Frucht und Dornenstücke‹), Heinrich Laube (›ges_15, + Junges Europa‹, ›tra_12, Monaldeschi‹) und Friedrich Schiller (›abe 12, + Geisterseher‹, ›tra 16, Wallensteins Lager‹).</note> + </p> + <p>Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten + als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung + werden jeweils ebenfalls als Vergleichstexte dem Vergleichskorpus zugelost. Die + übrigen fünf Kontrollgruppentexte der Zielgattung werden als Ratetexte verwendet. </p> + <p>Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird, + werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der + Auslosung auszugleichen; verwendet werden die Durchschnittswerte aller Durchgänge. + Wenn bei den Tests das <term type="dh">Bag-of-Words-Verfahren</term> zum Einsatz + kommt, wird die Textzusammenstellung für jeweils 200 Bag-of-Words pro Gattung neu + ausgelost. Als Bag-of-Words-Größe wird 10.000 Wortformen angesetzt. Standardmodus ist + ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und + Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus + ›Ziehen mit Zurücklegen‹.</p> + <p>Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte + (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die + erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20% (A) bzw. + bei 33% (B–D). </p> + <p>Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte + Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, + wird als Baseline im jeweiligen Test das gewählte Verfahren ohne Gute-Wörter-Liste + und ohne Z-Wert-Begrenzung betrachtet. Eine allgemeine Baseline kann nicht angegeben + werden: Einige der Studien, die in Fußnote 2 genannt sind, kommen zu F1-Werten etwas + über 0,8, manche kommen zu etwas höheren, andere auch teils zu deutlich niedrigeren + Ergebnissen. Allerdings sind die Studien nicht vergleichbar: Verwendet werden + verschiedene Korpora, verschiedene Sprachen, teils übersetzte Texte, verschiedene + Genres bzw. Subgenres, teils auch nicht-literarische Texte, verschiedene + Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso + wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.<note type="footnote"> + <ref type="bibliography" target="#ardanuy_sporleder_clustering_2014">Ardanuy / Sporleder 2014</ref>, S. 37, akzeptieren etwa eine Klassifizierung bei + mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der + Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit + mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft + im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane + den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine + Dokumentation von Setting, Parametern etc. nicht ausreichend möglich ist. Solche + Seiteneinschränkungen muten vor allem dort, wo Online-Publikationsformate gewählt + werden, geradezu absurd an.</note> + </p> + </div> + <div type="subchapter"> + <head>4.2 Setting: Tests mit F1-Wert und ARI</head> + + <p>Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der + Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet + sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird + dieser Distraktortext für den Test zur jeweiligen Zielgattung ersatzlos aus dem + Korpus genommen, so dass statt 40 nur 38 oder 39 Distraktortexte (Testreihe A) oder + statt 20 nur 18 oder 19 Distraktortexte (Testreihe B–D) verwendet werden. In einem + alternativen Versuch (nur Testreihen A und D) werden nur fünf zufällige + Distraktortexte je Nicht-Zielgattung (ohne Autorenduplikate zur Zielgattung) + verwendet. Weiterhin werden alle zehn Texte der Zielgattung ins Korpus gegeben. Für + alle möglichen Paare von jeweils zwei Texten des Korpus werden die Delta-Abstände + berechnet. Die ARI-Berechnung ist als <term type="dh">Zweiklassenspiel</term> + implementiert: Unterschieden wird zwischen der Zugehörigkeit zur Zielklasse und zur + Nicht-Zielklasse. Über die Klassenzugehörigkeit entscheidet dabei der niedrigste + Delta-Abstand. </p> + <p>Durchgeführt werden dieses Tests ohne weitere Optimierungsmaßnahmen wie das + Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen + Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.<note type="footnote"> Vgl. zur + Z-Wert-Begrenzung <ref type="bibliography" target="#evert_et_al_burrows_2016">Evert et al. 2016</ref>; <ref type="bibliography" target="#dimpel_delta_2018b">Dimpel 2018b</ref>.</note> Die Z-Wert-Begrenzung + wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht + zugleich gattungsspezifisches Vokabular ist, auf diesem Weg mitunter aussortiert + werden könnte; zugleich könnten Nullwerte, die auf fehlenden Wörtern im Einzeltext + beruhen, weniger stark auf den Delta-Wert durchschlagen.</p> + <p>Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen + Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine + Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20% bzw. 33% + ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, + die schlechter als eine Zufallsverteilung sind, führen zu negativen ARI-Werten. Dass + der ARI-Wert in vergleichbaren Konstellationen unter der Erkennungsquote liegt (wenn + man den Einfluss der False-Positives unberücksichtigt lässt), ist bereits durch den + abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, + je mehr die Erkennungsquote gegen 100% und der ARI-Wert gegen 1 tendiert. </p> + <p>Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote + notiert, auf deren Basis die Precision ermittelt und der F1-Score für die + Zielgattungstexte ausgegeben wird. Für die Erkennungsquoten werden nur die + Delta-Abstände zwischen den Texten der Zielgattung zu allen Texten im Korpus + herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote + ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der + False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur + Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext + gegen ein Korpus mit 9 Zielklassentexten und 38–40<note type="footnote"> Es sind 40 + Distraktortexte, wenn kein Autorduplikat in der Zielklasse vorliegt; ansonsten je + nach Szenario ein oder zwei Distraktortexte weniger.</note> Distraktortexten (A) + bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei ca. + 18,4% (A) bzw. 31% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den + ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der + Distraktortexte ein.</p> + </div> + </div> + <div type="chapter"> + <head>5. Ergebnisse</head> + + <div type="subchapter"> + <head>Testreihe A: ABE, BIL, GES, KOM, TRA</head> + </div> + <div type="subchapter"> + <head>A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse</head> + + <table rend="rules" xml:id="gattungssignal_2022_t1"> + <row> + <cell/> + <cell>200</cell> + <cell>300</cell> + <cell>400</cell> + <cell/> + </row> + <row> + <cell>Gute & ZWB</cell> + <cell>57,3</cell> + <cell> + <hi rend="bold">63,4</hi> + </cell> + <cell>62,3</cell> + <cell rows="4">Bag-of-Words 10.000</cell> + </row> + <row> + <cell>Gute</cell> + <cell>50,0</cell> + <cell>53,4</cell> + <cell>51,9</cell> + + </row> + <row> + <cell>ZWB</cell> + <cell>48,2</cell> + <cell>45,4</cell> + <cell>44,0</cell> + + </row> + <row> + <cell>Basis</cell> + <cell>45,4</cell> + <cell>42,9</cell> + <cell>44,7</cell> + + </row> + <row> + <cell>Gute & ZWB</cell> + <cell>51,6</cell> + <cell>57,2</cell> + <cell>56,8</cell> + <cell rows="4"> + Volltexte + </cell> + </row> + <row> + <cell>Gute</cell> + <cell>61,2</cell> + <cell>60,8</cell> + <cell> + <hi rend="bold">65,6</hi> + </cell> + + </row> + <row> + <cell>ZWB</cell> + <cell>48,4</cell> + <cell>48,0</cell> + <cell>50,4</cell> + + </row> + <row> + <cell>Basis</cell> + <cell>46,4</cell> + <cell>44,0</cell> + <cell>47,6</cell> + + </row> + <row> + <cell>Zufallsquote</cell> + <cell>20,0</cell> + <cell>20,0</cell> + <cell>20,0</cell> + + </row> + <trailer xml:id="tab001"> + <ref type="intern" target="#tab1">Tab. 1</ref>: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung.<ref type="graphic" target="#gattungssignal_2022_t1"/> + </trailer> + </table> + + <p>Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der + Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit + Z-Wert-Begrenzung; der höchste Wert insgesamt wird bei Volltexten und ohne + Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten + deutlich niedriger – dort werden Werte >90% erreicht, selbst wenn sich nur ein + Text des*der Zielautors*in im Vergleichskorpus befindet.<note type="footnote"> Vgl. + etwa <ref type="bibliography" target="#Büttner_et_al_delta_2017">Büttner et al. 2017</ref>.</note> + </p> + </div> + <div type="subchapter"> + <head>A2: ARI-Test mit 4 × 10 Distraktortexten</head> + + <table rend="rules" xml:id="gattungssignal_2022_t2"> + <row> + + <cell>Volltexte</cell> + + <cell>200</cell> + + <cell>300</cell> + + <cell>400</cell> + + </row> + <row> + + <cell>ARI Gute & ZWB</cell> + + <cell> + <hi rend="bold">0,34</hi> + </cell> + + <cell>0,28</cell> + + <cell>0,26</cell> + + </row> + <row> + + <cell>ARI Gute</cell> + + <cell>0,28</cell> + + <cell>0,26</cell> + + <cell>0,25</cell> + + </row> + <row> + + <cell>ARI ZWB</cell> + + <cell>0,33</cell> + + <cell>0,31</cell> + + <cell> + <hi rend="bold">0,34</hi> + </cell> + + </row> + <row> + + <cell>ARI Basis</cell> + + <cell>0,25</cell> + + <cell>0,2</cell> + + <cell>0,25</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>F1 Gute & ZWB</cell> + + <cell> + <hi rend="bold">0,68</hi> + </cell> + + <cell>0,64</cell> + + <cell>0,65</cell> + + </row> + <row> + + <cell>F1 Gute</cell> + + <cell>0,66</cell> + + <cell>0,65</cell> + + <cell>0,66</cell> + + </row> + <row> + + <cell>F1 ZWB</cell> + + <cell>0,66</cell> + + <cell>0,63</cell> + + <cell>0,66</cell> + + </row> + <row> + + <cell>F1 Basis</cell> + + <cell>0,60</cell> + + <cell>0,56</cell> + + <cell>0,60</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>EQ Gute & ZWB</cell> + + <cell> + <hi rend="bold">58</hi> + </cell> + + <cell>54</cell> + + <cell>46</cell> + + </row> + <row> + + <cell>EQ Gute</cell> + + <cell>56</cell> + + <cell>56</cell> + + <cell> + <hi rend="bold">58</hi> + </cell> + + </row> + <row> + + <cell>EQ ZWB</cell> + + <cell>54</cell> + + <cell>52</cell> + + <cell>43</cell> + + </row> + <row> + + <cell>EQ Basis</cell> + + <cell>48</cell> + + <cell>44</cell> + + <cell>48</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>FP Gute & ZWB</cell> + + <cell>12,4</cell> + + <cell>13,9</cell> + + <cell>16,0</cell> + + </row> + <row> + + <cell>FP Gute</cell> + + <cell>14,5</cell> + + <cell>15,5</cell> + + <cell>18,1</cell> + + </row> + <row> + + <cell>FP ZWB</cell> + + <cell>10,8</cell> + + <cell>11,9</cell> + + <cell> + <hi rend="bold">9,8</hi> + </cell> + + </row> + <row> + + <cell>FP Basis</cell> + + <cell>12,9</cell> + + <cell>13,0</cell> + + <cell>12,5</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>Diff ARI</cell> + + <cell>0,09</cell> + + <cell>0,08</cell> + + <cell>0,01</cell> + + </row> + <row> + + <cell>Diff EQ</cell> + + <cell>10,0</cell> + + <cell>10,0</cell> + + <cell>8,0</cell> + + </row> + <row> + + <cell>Diff FP</cell> + + <cell>0,5</cell> + + <cell>-1,0</cell> + + <cell>-3,5</cell> + + </row> + <trailer xml:id="tab002"><ref type="intern" target="#tab2">Tab. 2</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in % / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert.<ref type="graphic" target="#gattungssignal_2022_t2"/></trailer> + </table> + <p>Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von + Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit + Z-Wert-Begrenzung. Die Guten Wörter begünstigen eine Verbesserung der + Erkennungsquote, die Z-Wert-Begrenzung führt zu einer besseren False-Positives-Quote + bei einer etwas niedrigeren Erkennungsquote. Bei der Kombination beider Techniken + verbessert sich bei 200 MFWs die False-Positives-Quote gegenüber dem Basiswert + leicht; die Erkennungsquote bleibt zugleich deutlich besser. Bei 200 MFWs verbessert + sich der ARI-Wert um 0,09 deutlich, jedoch insgesamt auf mäßigem Niveau. Bei 300 und + 400 MFWs gehen Gute Wörter mit schlechterer Level-2-Differenz ein; zugleich + begünstigt ein größerer Vektor eine bessere Erkennung.</p> + <p>Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern + und Z-Wert-Begrenzung:</p> + <table rend="rules" xml:id="gattungssignal_2022_t3"> + <row> + + <cell>200 MFWs</cell> + + <cell>ARI</cell> + + <cell>F1</cell> + + <cell>EQ</cell> + + <cell>FP</cell> + + </row> + <row> + + <cell>ABE</cell> + + <cell>0,64</cell> + + <cell>0,81</cell> + + <cell>70</cell> + + <cell>2,6</cell> + + </row> + <row> + + <cell>BIL</cell> + + <cell>0,28</cell> + + <cell>0,68</cell> + + <cell>60</cell> + + <cell>15,4</cell> + + </row> + <row> + + <cell>GES</cell> + + <cell>0,11</cell> + + <cell>0,50</cell> + + <cell>40</cell> + + <cell>18,4</cell> + + </row> + <row> + + <cell>KOM</cell> + + <cell>0,38</cell> + + <cell>0,71</cell> + + <cell>60</cell> + + <cell>10,0</cell> + + </row> + <row> + + <cell>TRA</cell> + + <cell>0,27</cell> + + <cell>0,68</cell> + + <cell>60</cell> + + <cell>15,8</cell> + + </row> + <trailer xml:id="tab003"><ref type="intern" target="#tab3">Tab. 3</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, + BIL, GES, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t3"/></trailer> + </table> + <p>Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote + und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe + False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim + Abenteuerroman, der insgesamt recht gut erkannt werden kann.<note type="footnote"> + Eine ähnliche Tendenz beobachten <ref type="bibliography" target="#hettinger_et_al_classification_2016a">Hettinger et al. 2016a</ref>, S. 160.</note> + </p> + <p>Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung der + Erkennungsquote bei 300 und 400 MFWs, jedoch auch zu mehr False-Positives, so dass + die ARI-Werte etwas schlechter sind. Hier nur die Daten mit Guten Wörtern und + Z-Wert-Begrenzung für alle fünf Gattungen:</p> + <table rend="rules" xml:id="gattungssignal_2022_t4"> + <row> + + <cell>MFWs</cell> + + <cell>200</cell> + + <cell>300</cell> + + <cell>400</cell> + + </row> + <row> + + <cell>ARI</cell> + + <cell>0,28</cell> + + <cell>0,31</cell> + + <cell>0,3</cell> + + </row> + <row> + + <cell>F1</cell> + + <cell>0,64</cell> + + <cell>0,69</cell> + + <cell>0,69</cell> + + </row> + <row> + + <cell>EQ</cell> + + <cell>53,3</cell> + + <cell>61,2</cell> + + <cell>61,2</cell> + + </row> + <row> + + <cell>FP</cell> + + <cell>13,9</cell> + + <cell>15,0</cell> + + <cell>15,7</cell> + + </row> + + <trailer xml:id="tab004"><ref type="intern" target="#tab4">Tab. 4</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, + BIL, GES, KOM, TRA. <ref type="graphic" target="#gattungssignal_2022_t4"/></trailer> + </table> + </div> + <div type="subchapter"> + <head>A3: ARI-Test mit 4 × 5 Distraktortexten</head> + <table rend="rules" xml:id="gattungssignal_2022_t5"> + <row> + <cell>Volltexte</cell> + <cell>200</cell> + <cell>300</cell> + <cell>400</cell> + </row> + <row> + <cell>ARI Gute & ZWB</cell> + <cell>0,31</cell> + <cell> + <hi rend="bold">0,32</hi> + </cell> + <cell>0,30</cell> + </row> + <row> + <cell>ARI Gute</cell> + <cell>0,29</cell> + <cell>0,29</cell> + <cell>0,28</cell> + </row> + <row> + <cell>ARI ZWB</cell> + <cell>0,24</cell> + <cell>0,25</cell> + <cell>0,3</cell> + </row> + <row> + <cell>ARI Basis</cell> + <cell>0,19</cell> + <cell>0,16</cell> + <cell>0,19</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>F1 Gute & ZWB</cell> + <cell>0,76</cell> + <cell>0,76</cell> + <cell> + <hi rend="bold">0,77</hi> + </cell> + </row> + <row> + <cell>F1 Gute</cell> + <cell>0,76</cell> + <cell>0,76</cell> + <cell>0,76</cell> + </row> + <row> + <cell>F1 ZWB</cell> + <cell>0,70</cell> + <cell>0,70</cell> + <cell>0,73</cell> + </row> + <row> + <cell>F1 Basis</cell> + <cell>0,65</cell> + <cell>0,62</cell> + <cell>0,65</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>EQ Gute & ZWB</cell> + <cell>74,00</cell> + <cell>73,80</cell> + <cell>76,00</cell> + </row> + <row> + <cell>EQ Gute</cell> + <cell>74,6</cell> + <cell>74,6</cell> + <cell> + <hi rend="bold">77</hi> + </cell> + </row> + <row> + <cell>EQ ZWB</cell> + <cell>63,8</cell> + <cell>64,6</cell> + <cell>68</cell> + </row> + <row> + <cell>EQ Basis</cell> + <cell>56,8</cell> + <cell>54,6</cell> + <cell>57</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>FP Gute & ZWB</cell> + <cell>20,20</cell> + <cell>19,90</cell> + <cell>22,10</cell> + </row> + <row> + <cell>FP Gute</cell> + <cell>21,8</cell> + <cell>22,6</cell> + <cell>24,8</cell> + </row> + <row> + <cell>FP ZWB</cell> + <cell>19,5</cell> + <cell>20,3</cell> + <cell> + <hi rend="bold">18</hi> + </cell> + </row> + <row> + <cell>FP Basis</cell> + <cell>18,9</cell> + <cell>20,7</cell> + <cell>19,4</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>Diff ARI</cell> + <cell>0,12</cell> + <cell>0,16</cell> + <cell>0,11</cell> + </row> + <row> + <cell>Diff EQ</cell> + <cell>17,20</cell> + <cell>19,20</cell> + <cell>19,00</cell> + </row> + <row> + <cell>Diff FP</cell> + <cell>-1,30</cell> + <cell>0,80</cell> + <cell>-2,70</cell> + </row> + <trailer xml:id="tab005"><ref type="intern" target="#tab5">Tab. 5</ref>: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, + TRA. <ref target="#gattungssignal_2022_t5"/></trailer> + </table> + <p>Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der + Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 + MFWs ist die Verschlechterung der False-Positives-Quote nur leicht, bei 400 MFWs + deutlich ausgeprägt. </p> + </div> + <div type="subchapter"> + <head>Test B: ABE, BIL, KOM</head> + <table rend="rules" xml:id="gattungssignal_2022_t6"> + <row> + + <cell>Volltexte</cell> + + <cell>200</cell> + + <cell>300</cell> + + <cell>400</cell> + + </row> + <row> + + <cell>ARI Gute & ZWB</cell> + + <cell>0,62</cell> + + <cell> + <hi rend="bold">0,68</hi> + </cell> + + <cell>0,59</cell> + + </row> + <row> + + <cell>ARI Gute</cell> + + <cell>0,51</cell> + + <cell>0,62</cell> + + <cell>0,5</cell> + + </row> + <row> + + <cell>ARI ZWB</cell> + + <cell>0,5</cell> + + <cell>0,46</cell> + + <cell> + <hi rend="bold">0,68</hi> + </cell> + + </row> + <row> + + <cell>ARI Basis</cell> + + <cell>0,5</cell> + + <cell>0,46</cell> + + <cell>0,56</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>F1 Gute & ZWB</cell> + + <cell>0,88</cell> + + <cell> + <hi rend="bold">0,91</hi> + </cell> + + <cell>0,89</cell> + + </row> + <row> + + <cell>F1 Gute</cell> + + <cell>0,83</cell> + + <cell>0,89</cell> + + <cell>0,86</cell> + + </row> + <row> + + <cell>F1 ZWB</cell> + + <cell>0,81</cell> + + <cell>0,79</cell> + + <cell>0,90</cell> + + </row> + <row> + + <cell>F1 Basis</cell> + + <cell>0,81</cell> + + <cell>0,79</cell> + + <cell>0,84</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>EQ Gute & ZWB</cell> + + <cell>86,7</cell> + + <cell> + <hi rend="bold">90,0</hi> + </cell> + + <cell> + <hi rend="bold">90,0</hi> + </cell> + + </row> + <row> + + <cell>EQ Gute</cell> + + <cell>80,0</cell> + + <cell> + <hi rend="bold">90,0</hi> + </cell> + + <cell> + <hi rend="bold">90,0</hi> + </cell> + + </row> + <row> + + <cell>EQ ZWB</cell> + + <cell>76,7</cell> + + <cell>73,3</cell> + + <cell>86,7</cell> + + </row> + <row> + + <cell>EQ Basis</cell> + + <cell>76,7</cell> + + <cell>73,3</cell> + + <cell>80,0</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>FP Gute & ZWB</cell> + + <cell>10,0</cell> + + <cell>8,3</cell> + + <cell>13,3</cell> + + </row> + <row> + + <cell>FP Gute</cell> + + <cell>13,3</cell> + + <cell>11,7</cell> + + <cell>20,0</cell> + + </row> + <row> + + <cell>FP ZWB</cell> + + <cell>11,7</cell> + + <cell>13,3</cell> + + <cell> + <hi rend="bold">6,7</hi> + </cell> + + </row> + <row> + + <cell>FP Basis</cell> + + <cell>11,7</cell> + + <cell>13,3</cell> + + <cell>10,0</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>Diff ARI</cell> + + <cell>0,12</cell> + + <cell>0,22</cell> + + <cell>0,03</cell> + + </row> + <row> + + <cell>Diff EQ</cell> + + <cell>10,0</cell> + + <cell>16,7</cell> + + <cell>10,0</cell> + + </row> + <row> + + <cell>Diff FP</cell> + + <cell>1,7</cell> + + <cell>5,0</cell> + + <cell>-3,3</cell> + + </row> + <trailer xml:id="tab006"><ref type="intern" target="#tab6">Tab. 6</ref>: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. <ref type="graphic" target="#gattungssignal_2022_t6"/></trailer> + </table> + <p>Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die + ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, + der F1-Wert kommt bei 300 MFWs auf ein gutes Niveau. Wiederum führen die Guten Wörter + zu besseren Erkennungsquoten und die Z-Wert-Begrenzung zu besseren + False-Positives-Quoten. In den Gattungseinzelwerten (hier nicht abgedruckt) ergibt + sich eine optimale Erkennung der Komödie (ARI=1 bei 200–400 MFWs mit Guten Wörtern + und Z-Wert-Begrenzung).</p> + </div> + <div type="subchapter"> + <head>Test C: ABE, KOM, TRA</head> + + <p>Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman + einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene + Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen + Gattungen sprechen.</p> + <table rend="rules" xml:id="gattungssignal_2022_t7"> + <row> + <cell>Volltexte</cell> + <cell>200</cell> + <cell>300</cell> + <cell>400</cell> + </row> + <row> + <cell>ARI Gute & ZWB</cell> + <cell>0,45</cell> + <cell> + <hi rend="bold">0,53</hi> + </cell> + <cell>0,44</cell> + </row> + <row> + <cell>ARI Gute</cell> + <cell>0,47</cell> + <cell>0,43</cell> + <cell>0,38</cell> + </row> + <row> + <cell>ARI ZWB</cell> + <cell>0,5</cell> + <cell>0,45</cell> + <cell>0,5</cell> + </row> + <row> + <cell>ARI Basis</cell> + <cell>0,45</cell> + <cell>0,37</cell> + <cell>0,41</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>F1 Gute & ZWB</cell> + <cell>0,78</cell> + <cell> + <hi rend="bold">0,85</hi> + </cell> + <cell>0,80</cell> + </row> + <row> + <cell>F1 Gute</cell> + <cell>0,80</cell> + <cell>0,80</cell> + <cell>0,75</cell> + </row> + <row> + <cell>F1 ZWB</cell> + <cell>0,81</cell> + <cell>0,78</cell> + <cell>0,81</cell> + </row> + <row> + <cell>F1 Basis</cell> + <cell>0,78</cell> + <cell>0,72</cell> + <cell>0,75</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>EQ Gute & ZWB</cell> + <cell>73,33</cell> + <cell> + <hi rend="bold">83,33</hi> + </cell> + <cell>80</cell> + </row> + <row> + <cell>EQ Gute</cell> + <cell>76,67</cell> + <cell>80</cell> + <cell>73,33</cell> + </row> + <row> + <cell>EQ ZWB</cell> + <cell>76,67</cell> + <cell>73,33</cell> + <cell>76,67</cell> + </row> + <row> + <cell>EQ Basis</cell> + <cell>73,33</cell> + <cell>66,67</cell> + <cell>70,0</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>FP Gute & ZWB</cell> + <cell>13,68</cell> + <cell>13,68</cell> + <cell>18,86</cell> + </row> + <row> + <cell>FP Gute</cell> + <cell>15,53</cell> + <cell>20,7</cell> + <cell>22,37</cell> + </row> + <row> + <cell>FP ZWB</cell> + <cell> + <hi rend="bold">11,93</hi> + </cell> + <cell>13,68</cell> + <cell>12,02</cell> + </row> + <row> + <cell>FP Basis</cell> + <cell>13,68</cell> + <cell>17,28</cell> + <cell>15,61</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>Diff ARI</cell> + <cell>0,00</cell> + <cell>0,16</cell> + <cell>0,03</cell> + </row> + <row> + <cell>Diff EQ</cell> + <cell>0,00</cell> + <cell>16,66</cell> + <cell>10,00</cell> + </row> + <row> + <cell>Diff FP</cell> + <cell>0,00</cell> + <cell>3,60</cell> + <cell>-3,25</cell> + </row> + <trailer xml:id="tab007"><ref type="intern" target="#tab7">Tab. 7</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. <ref type="graphic" target="#gattungssignal_2022_t7"/></trailer> + </table> + <p>Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen + Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. + Wie bislang führt auch hier die Z-Wert-Begrenzung zu einer Verbesserung bei den + False-Positives und die Gute-Wörter-Technik zu einer Verbesserung der + Erkennungsquote. </p> + <p>Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten + zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den + Tragödien ausgesprochen schlecht. </p> + <table rend="rules" xml:id="gattungssignal_2022_t8"> + <row> + <cell>ARI</cell> + <cell>200</cell> + <cell>300</cell> + <cell>400</cell> + </row> + <row> + <cell>ABE</cell> + <cell>1</cell> + <cell>1</cell> + <cell>1</cell> + </row> + <row> + <cell>KOM</cell> + <cell>0,26</cell> + <cell>0,43</cell> + <cell>0,26</cell> + </row> + <row> + <cell>TRA</cell> + <cell>0,11</cell> + <cell>0,17</cell> + <cell>0,06</cell> + </row> + <trailer xml:id="tab008"><ref type="intern" target="#tab8">Tab. 8</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, + KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).<ref type="graphic" target="#gattungssignal_2022_t8"/></trailer> + </table> + </div> + <div type="subchapter"> + <head>Test D: ABE, BIL, GES</head> + + <p>Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern + lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils + kurzen Komödien und Tragödien gemieden werden können. Das Bag-of-Words-Verfahren + kommt hier ohne Zurücklegen aus; ein weiterer Test (D4) mit einem größeren + MFW-Bereich wird dadurch möglich. </p> + </div> + <div type="subchapter"> + <head>D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse</head> + + <table rend="rules" xml:id="gattungssignal_2022_t9"> + <row> + <cell/> + <cell>200</cell> + <cell>300</cell> + <cell>400</cell> + <cell/> + </row> + <row> + <cell>Gute & ZWB</cell> + <cell> + <hi rend="bold">51,2</hi> + </cell> + <cell>51,3</cell> + <cell> + <hi rend="bold">61,6</hi> + </cell> + <cell rows="3">Bag-of-Words 10.000</cell> + </row> + <row> + <cell>Gute</cell> + <cell>50,3</cell> + <cell>50,9</cell> + <cell>60,3</cell> + + </row> + <row> + <cell>Basis</cell> + <cell>35,7</cell> + <cell>44,9</cell> + <cell>41,2</cell> + + </row> + <row> + <cell>Gute & ZWB</cell> + <cell>45,3</cell> + <cell>45,3</cell> + <cell>58,7</cell> + <cell rows="3">Volltexte</cell> + </row> + <row> + <cell>Gute</cell> + <cell>42,7</cell> + <cell>56,7</cell> + <cell>49,3</cell> + + </row> + <row> + <cell>Basis</cell> + <cell>34,7</cell> + <cell>47,3</cell> + <cell>36,7</cell> + + </row> + <row> + <cell>Zufallsquote</cell> + <cell>33,3</cell> + + </row> + <trailer xml:id="tab009"><ref type="intern" target="#tab9">Tab. 9</ref>: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der + Zielklasse, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t9"/></trailer> + </table> + <p>Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren + etwas besser als mit Volltexten; bei <ref type="intern" target="#hd8">Test A</ref> war + jedoch zu beobachten, dass diese Verbesserung mit einer Verschlechterung der + False-Positives-Quote einherging. Die Werte sind insgesamt etwas schlechter als die + Erkennungsquoten in der folgenden Tabelle beim ARI-Test; die Bag-of-Words-Tests + ergeben etwas höhere Werte. Während im ARI-Setting neun Zielklassentexte und 20 + Distraktortexte zum Abgleich zur Verfügung stehen, werden hier fünf Zielklassentexte + und 10 Distraktortexte verwendet. Die Zufallsquote liegt beim ARI-Setting bei 31%, + hier bei 33,3%, also in einer ähnlichen Größenordnung. Als These, die die niedrigeren + Werte in diesem Setting erklären könnte, will ich die Überlegung notieren, dass die + Gattungserkennung bei einem größeren Korpus besser funktionieren könnte, da hier + Einzeltextspezifika weniger Gewicht haben könnten.</p> + </div> + <div type="subchapter"> + <head>D2: ARI-Test mit 2 × 10 Distraktortexten</head> + <table rend="rules" xml:id="gattungssignal_2022_t10"> + <row> + + <cell>Volltexte</cell> + + <cell>200</cell> + + <cell>300</cell> + + <cell>400</cell> + + </row> + <row> + + <cell>ARI Gute & ZWB</cell> + + <cell> + <hi rend="bold">0,22</hi> + </cell> + + <cell>0,12</cell> + + <cell>0,2</cell> + + </row> + <row> + + <cell>ARI Gute</cell> + + <cell>0,16</cell> + + <cell>0,06</cell> + + <cell>0,12</cell> + + </row> + <row> + + <cell>ARI ZWB</cell> + + <cell>0,06</cell> + + <cell>0,04</cell> + + <cell>0,13</cell> + + </row> + <row> + + <cell>ARI Basis</cell> + + <cell>0,04</cell> + + <cell>0,04</cell> + + <cell>0,07</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>F1 Gute & ZWB</cell> + + <cell>0,63</cell> + + <cell>0,62</cell> + + <cell> + <hi rend="bold">0,67</hi> + </cell> + + </row> + <row> + + <cell>F1 Gute</cell> + + <cell>0,63</cell> + + <cell>0,54</cell> + + <cell>0,61</cell> + + </row> + <row> + + <cell>F1 ZWB</cell> + + <cell>0,48</cell> + + <cell>0,47</cell> + + <cell>0,57</cell> + + </row> + <row> + + <cell>F1 Basis</cell> + + <cell>0,48</cell> + + <cell>0,47</cell> + + <cell>0,53</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>EQ Gute & ZWB</cell> + + <cell>55</cell> + + <cell>57,5</cell> + + <cell> + <hi rend="bold">65</hi> + </cell> + + </row> + <row> + + <cell>EQ Gute</cell> + + <cell>56,67</cell> + + <cell>50</cell> + + <cell>60</cell> + + </row> + <row> + + <cell>EQ ZWB</cell> + + <cell>40</cell> + + <cell>40</cell> + + <cell>50</cell> + + </row> + <row> + + <cell>EQ Basis</cell> + + <cell>40</cell> + + <cell>40</cell> + + <cell>46,67</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>FP Gute & ZWB</cell> + + <cell> + <hi rend="bold">18,29</hi> + </cell> + + <cell>28,55</cell> + + <cell>28,68</cell> + + </row> + <row> + + <cell>FP Gute</cell> + + <cell>24,47</cell> + + <cell>36,58</cell> + + <cell>36,67</cell> + + </row> + <row> + + <cell>FP ZWB</cell> + + <cell>27,98</cell> + + <cell>29,65</cell> + + <cell>26,14</cell> + + </row> + <row> + + <cell>FP Basis</cell> + + <cell>27,98</cell> + + <cell>29,65</cell> + + <cell>27,89</cell> + + </row> + <row> + + <cell/> + + <cell/> + + <cell/> + + <cell/> + + </row> + <row> + + <cell>Diff ARI</cell> + + <cell>0,18</cell> + + <cell>0,08</cell> + + <cell>0,13</cell> + + </row> + <row> + + <cell>Diff EQ</cell> + + <cell>15,00</cell> + + <cell>17,50</cell> + + <cell>18,33</cell> + + </row> + <row> + + <cell>Diff FP</cell> + + <cell>9,69</cell> + + <cell>1,10</cell> + + <cell>-0,79</cell> + + </row> + <trailer xml:id="tab010"><ref type="intern" target="#tab10">Tab. 10</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t10"/></trailer> + </table> + <p>Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt, + die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim + Gesellschaftsroman ist schlechter als eine Zufallsverteilung, es gibt über ein + Drittel False-Positives. Damit hängt zusammen, dass das Niveau in der vorausgehenden + Tabelle deutlich niedriger ist als bei den Testreihen A und B. Wiederum ist die + Z-Wert-Begrenzung für eine Verbesserung bei den False-Positives und die + Gute-Wörter-Technik für eine Verbesserung der Erkennungsquote verantwortlich.</p> + <table rend="rules" xml:id="gattungssignal_2022_t11"> + <row> + + <cell>200 MFWs</cell> + + <cell>ARI</cell> + + <cell>F1</cell> + + <cell>EQ</cell> + + <cell>FP</cell> + + </row> + <row> + + <cell>ABE</cell> + + <cell>0,413</cell> + + <cell>0,73</cell> + + <cell>60</cell> + + <cell>5</cell> + + </row> + <row> + + <cell>BIL</cell> + + <cell>0,06</cell> + + <cell>0,57</cell> + + <cell>50</cell> + + <cell>26,3</cell> + + </row> + <row> + + <cell>GES</cell> + + <cell>-0,005</cell> + + <cell>0,54</cell> + + <cell>50</cell> + + <cell>36,8</cell> + + </row> + <trailer xml:id="tab011"><ref type="intern" target="#tab11">Tab. 11</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, + BIL, GES. <ref type="graphic" target="#gattungssignal_2022_t11"/></trailer> +</table> + </div> + <div type="subchapter"> + <head>D3: ARI-Test mit 2 × 5 Distraktortexten</head> + + <p>Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur + fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse:</p> + <table rend="rules" xml:id="gattungssignal_2022_t12"> + <row> + <cell>Volltexte</cell> + <cell>200</cell> + <cell>300</cell> + <cell>400</cell> + </row> + <row> + <cell>ARI Gute & ZWB</cell> + <cell>0,06</cell> + <cell>0,05</cell> + <cell>0,05</cell> + </row> + <row> + <cell>ARI Gute</cell> + <cell>0,04</cell> + <cell>0,05</cell> + <cell> + <hi rend="bold">0,07</hi> + </cell> + </row> + <row> + <cell>ARI ZWB</cell> + <cell>0,03</cell> + <cell>0,00</cell> + <cell>0,04</cell> + </row> + <row> + <cell>ARI Basis</cell> + <cell>-0,01</cell> + <cell>-0,01</cell> + <cell>0,02</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>F1 Gute & ZWB</cell> + <cell>0,60</cell> + <cell>0,62</cell> + <cell>0,64</cell> + </row> + <row> + <cell>F1 Gute</cell> + <cell>0,63</cell> + <cell>0,61</cell> + <cell> + <hi rend="bold">0,65</hi> + </cell> + </row> + <row> + <cell>F1 ZWB</cell> + <cell>0,52</cell> + <cell>0,54</cell> + <cell>0,59</cell> + </row> + <row> + <cell>F1 Basis</cell> + <cell>0,54</cell> + <cell>0,55</cell> + <cell>0,58</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>EQ Gute & ZWB</cell> + <cell>59,00</cell> + <cell>65,00</cell> + <cell>68,30</cell> + </row> + <row> + <cell>EQ Gute</cell> + <cell>67,67</cell> + <cell>66,00</cell> + <cell> + <hi rend="bold">72,30</hi> + </cell> + </row> + <row> + <cell>EQ ZWB</cell> + <cell>52,70</cell> + <cell>55,00</cell> + <cell>61,30</cell> + </row> + <row> + <cell>EQ Basis</cell> + <cell>55,67</cell> + <cell>56,33</cell> + <cell>60,00</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>FP Gute & ZWB</cell> + <cell> + <hi rend="bold">38,70</hi> + </cell> + <cell>46,00</cell> + <cell>46,00</cell> + </row> + <row> + <cell>FP Gute</cell> + <cell>46,33</cell> + <cell>50,67</cell> + <cell>48,70</cell> + </row> + <row> + <cell>FP ZWB</cell> + <cell>49,00</cell> + <cell>48,00</cell> + <cell>46,30</cell> + </row> + <row> + <cell>FP Basis</cell> + <cell>49,33</cell> + <cell>49,33</cell> + <cell>47,67</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>Diff ARI</cell> + <cell>0,07</cell> + <cell>0,06</cell> + <cell>0,03</cell> + </row> + <row> + <cell>Diff EQ</cell> + <cell>3,33</cell> + <cell>8,67</cell> + <cell>8,30</cell> + </row> + <row> + <cell>Diff FP</cell> + <cell>10,62</cell> + <cell>3,33</cell> + <cell>1,67</cell> + </row> + <trailer xml:id="tab012"><ref type="intern" target="#tab12">Tab. 12</ref>: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. <ref type="graphic" target="#gattungssignal_2022_t12"/></trailer> + </table> + <p>Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit + neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. + Eine Zufallsverteilung würde eine Erkennungsquote von 31% ergeben. Die + Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu + erzielen. Vor allem ist hier die False-Positives-Rate ausgesprochen schlecht, sie + wird auch durch die Z-Wert-Begrenzung nur marginal verbessert. Anders als in den + anderen Testreihen sinkt die False-Positives-Rate erst in der Kombination der beiden + Optimierungstechniken, allerdings nicht auf ein ordentliches Niveau.</p> + </div> + <div type="subchapter"> + <head>D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich</head> + + <p>Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es + möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen + Testreihen werden Listen mit Guten Wörtern verwendet, die mithilfe von 1.200 MFWs + ermittelt wurden. Die Anzahl dieser Guten Wörter, deren Level-2-Differenz >0,2 + beträgt, liegt dort zwischen 495 und 637 Wortformen. Hier wurden nun die guten Wörter + auf der Grundlage von 5.000 MFWs berechnet. Die Anzahl dieser Guten Wörter, deren + Level-2-Differenz >0,2 beträgt, liegt hier nun bei 2.572 (ABE), 2.405 (BIL) und + 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. </p> + <p>Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute + Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; + ›Gute‹: nur Gute Wörter, ohne Z-Wert-Begrenzung) werden verschiedene Z-Wert-Parameter + in Kombination mit den Gute-Wörter-Listen getestet: Bei ›ZWBneg‹ werden positive + Z-Werte auf +1,64 und negative Z-Werte auf -0,7 begrenzt, bei ›ZWB 1,0‹, ›ZWB 1,2‹ + und ›ZWB 1,64‹ werden wie auch sonst die positiven und die negativen Z-Werte auf den + Betrag der angegeben Werte begrenzt. </p> + <table rend="rules" xml:id="gattungssignal_2022_t13"> + <row> + <cell>Volltexte</cell> + <cell>500</cell> + <cell>1000</cell> + <cell>1500</cell> + <cell>2000</cell> + <cell>2500</cell> + <cell>3000</cell> + <cell>3500</cell> + <cell>4000</cell> + </row> + <row> + <cell>ARI G&ZWB 1,64</cell> + <cell>0,19</cell> + <cell>0,19</cell> + <cell>0,25</cell> + <cell>0,09</cell> + <cell>0,09</cell> + <cell>0,27</cell> + <cell>0,3</cell> + <cell>0,22</cell> + </row> + <row> + <cell>ARI G&ZWB 1,2</cell> + <cell>0,17</cell> + <cell>0,17</cell> + <cell>0,23</cell> + <cell>0,17</cell> + <cell>0,16</cell> + <cell> + <hi rend="bold">0,31</hi> + </cell> + <cell>0,28</cell> + <cell>0,28</cell> + </row> + <row> + <cell>ARI G&ZWB 1,0</cell> + <cell>0,14</cell> + <cell>0,18</cell> + <cell>0,19</cell> + <cell>0,21</cell> + <cell>0,16</cell> + <cell>0,29</cell> + <cell> + <hi rend="bold">0,33</hi> + </cell> + <cell>0,3</cell> + </row> + <row> + <cell>ARI G&ZWBneg</cell> + <cell>0,17</cell> + <cell>0,15</cell> + <cell>0,22</cell> + <cell>0,21</cell> + <cell>0,08</cell> + <cell>0,3</cell> + <cell>0,26</cell> + <cell>0,21</cell> + </row> + <row> + <cell>ARI Gute</cell> + <cell>0,13</cell> + <cell>0,16</cell> + <cell>0,22</cell> + <cell>0,11</cell> + <cell>0,09</cell> + <cell>0,23</cell> + <cell>0,21</cell> + <cell>0,13</cell> + </row> + <row> + <cell>ARI ZWB 1,64</cell> + <cell>0,13</cell> + <cell>0,2</cell> + <cell>0,2</cell> + <cell>0,18</cell> + <cell>0,11</cell> + <cell>0,11</cell> + <cell>0,1</cell> + <cell>0,11</cell> + </row> + <row> + <cell>ARI Basis</cell> + <cell>0,08</cell> + <cell>0,11</cell> + <cell>0,14</cell> + <cell>0,14</cell> + <cell>0,11</cell> + <cell>0,08</cell> + <cell>0,09</cell> + <cell>0,08</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>F1 G&ZWB 1,64</cell> + <cell>0,68</cell> + <cell>0,66</cell> + <cell>0,68</cell> + <cell>0,65</cell> + <cell>0,66</cell> + <cell>0,73</cell> + <cell>0,72</cell> + <cell>0,66</cell> + </row> + <row> + <cell>F1 G&ZWN 1,2</cell> + <cell>0,67</cell> + <cell>0,69</cell> + <cell>0,71</cell> + <cell>0,68</cell> + <cell>0,70</cell> + <cell>0,74</cell> + <cell>0,73</cell> + <cell>0,70</cell> + </row> + <row> + <cell>F1 G&ZWB 1,0</cell> + <cell>0,66</cell> + <cell>0,71</cell> + <cell>0,69</cell> + <cell>0,70</cell> + <cell>0,68</cell> + <cell>0,73</cell> + <cell> + <hi rend="bold">0,76</hi> + </cell> + <cell>0,74</cell> + </row> + <row> + <cell>F1 G&ZWBneg</cell> + <cell>0,70</cell> + <cell>0,67</cell> + <cell>0,69</cell> + <cell>0,72</cell> + <cell>0,66</cell> + <cell> + <hi rend="bold">0,75</hi> + </cell> + <cell>0,72</cell> + <cell>0,65</cell> + </row> + <row> + <cell>F1 Gute</cell> + <cell>0,62</cell> + <cell>0,66</cell> + <cell>0,66</cell> + <cell>0,66</cell> + <cell>0,68</cell> + <cell>0,71</cell> + <cell>0,69</cell> + <cell>0,61</cell> + </row> + <row> + <cell>F1 ZWB 1,64</cell> + <cell>0,57</cell> + <cell>0,66</cell> + <cell>0,66</cell> + <cell>0,66</cell> + <cell>0,57</cell> + <cell>0,59</cell> + <cell>0,56</cell> + <cell>0,59</cell> + </row> + <row> + <cell>F1 Basis</cell> + <cell>0,51</cell> + <cell>0,60</cell> + <cell>0,63</cell> + <cell>0,63</cell> + <cell>0,59</cell> + <cell>0,53</cell> + <cell>0,56</cell> + <cell>0,53</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>EQ G&ZWB 1,64</cell> + <cell>66,67</cell> + <cell>66,67</cell> + <cell>66,67</cell> + <cell>66,67</cell> + <cell>66,67</cell> + <cell>70</cell> + <cell>66,67</cell> + <cell>60</cell> + </row> + <row> + <cell>EQ G&ZWB 1,2</cell> + <cell>63,33</cell> + <cell>66,67</cell> + <cell>70</cell> + <cell>66,67</cell> + <cell>70</cell> + <cell>70</cell> + <cell>70</cell> + <cell>66,67</cell> + </row> + <row> + <cell>EQ G&ZWB 1,0</cell> + <cell>63,33</cell> + <cell>70</cell> + <cell>66,67</cell> + <cell>66,67</cell> + <cell>66,67</cell> + <cell>70</cell> + <cell> + <hi rend="bold">73,33</hi> + </cell> + <cell>70</cell> + </row> + <row> + <cell>EQ G&ZWBneg</cell> + <cell>70</cell> + <cell>70</cell> + <cell>66,67</cell> + <cell> + <hi rend="bold">73,33</hi> + </cell> + <cell>66,67</cell> + <cell> + <hi rend="bold">73,33</hi> + </cell> + <cell>70</cell> + <cell>60</cell> + </row> + <row> + <cell>EQ Gute</cell> + <cell>60</cell> + <cell>66,67</cell> + <cell>66,67</cell> + <cell>70</cell> + <cell>73,33</cell> + <cell>70</cell> + <cell>66,67</cell> + <cell>56,67</cell> + </row> + <row> + <cell>EQ ZWB 1,64</cell> + <cell>50</cell> + <cell>60</cell> + <cell>60</cell> + <cell>60</cell> + <cell>50</cell> + <cell>53,33</cell> + <cell>50</cell> + <cell>53,33</cell> + </row> + <row> + <cell>EQ Basis</cell> + <cell>43,33</cell> + <cell>53,33</cell> + <cell>56,67</cell> + <cell>56,67</cell> + <cell>53,33</cell> + <cell>46,67</cell> + <cell>50</cell> + <cell>46,67</cell> + </row> + <row> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + <cell/> + </row> + <row> + <cell>FP G&ZWB 1,64</cell> + <cell>29,74</cell> + <cell>35</cell> + <cell>28,07</cell> + <cell>38,25</cell> + <cell>34,74</cell> + <cell>22,72</cell> + <cell>19,3</cell> + <cell>22,81</cell> + </row> + <row> + <cell>FP G&ZWB 1,2</cell> + <cell>26,14</cell> + <cell>27,89</cell> + <cell>27,98</cell> + <cell>29,65</cell> + <cell>31,32</cell> + <cell> + <hi rend="bold">19,21</hi> + </cell> + <cell>20,96</cell> + <cell>22,81</cell> + </row> + <row> + <cell>FP G&ZWB 1,0</cell> + <cell>27,81</cell> + <cell>27,89</cell> + <cell>27,89</cell> + <cell>24,39</cell> + <cell>29,56</cell> + <cell>20,96</cell> + <cell> + <hi rend="bold">19,21</hi> + </cell> + <cell> + <hi rend="bold">19,21</hi> + </cell> + </row> + <row> + <cell>FP G&ZWBneg</cell> + <cell>31,32</cell> + <cell>38,33</cell> + <cell>26,23</cell> + <cell>31,49</cell> + <cell>34,65</cell> + <cell>22,72</cell> + <cell>24,47</cell> + <cell>24,56</cell> + </row> + <row> + <cell>FP Gute</cell> + <cell>33,25</cell> + <cell>35</cell> + <cell>35,09</cell> + <cell>41,84</cell> + <cell>41,75</cell> + <cell>26,23</cell> + <cell>26,23</cell> + <cell>27,98</cell> + </row> + <row> + <cell>FP ZWB 1,64</cell> + <cell>26,14</cell> + <cell>20,96</cell> + <cell>20,96</cell> + <cell>22,72</cell> + <cell>24,47</cell> + <cell>26,23</cell> + <cell>27,98</cell> + <cell>27,98</cell> + </row> + <row> + <cell>FP Basis</cell> + <cell>27,89</cell> + <cell>24,47</cell> + <cell>22,72</cell> + <cell>24,47</cell> + <cell>26,23</cell> + <cell>29,74</cell> + <cell>29,74</cell> + <cell>29,73</cell> + </row> + <trailer xml:id="tab013"><ref type="intern" target="#tab13">Tab. 13</ref>: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem + MFW-Bereich, Volltexte, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t13"/></trailer> + </table> + <p>Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0) + werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte + erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in <ref + type="graphic" target="#gattungssignal_2022_t10">Testreihe D2</ref> (0,67) nun auf 0,76. </p> + <p>Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit + Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: + gut eine Woche). Die Werte sind hier jedoch wieder schlechter:</p> + <table rend="rules" xml:id="gattungssignal_2022_t14"> + <row> + + <cell>BOW 20T</cell> + + <cell>3000</cell> + + <cell>3500</cell> + + </row> + <row> + + <cell>ARI G&ZWB 1,0</cell> + + <cell>0,14</cell> + + <cell>0,17</cell> + + </row> + <row> + + <cell>F1 G&ZWB 1,0</cell> + + <cell>0,66</cell> + + <cell>0,67</cell> + + </row> + <row> + + <cell>EQ G&ZWB 1,0</cell> + + <cell>64,7</cell> + + <cell> + <hi rend="bold">64,2</hi> + </cell> + + </row> + <row> + + <cell>FP G&ZWB 1,0</cell> + + <cell>31,01</cell> + + <cell>27,23</cell> + + </row> + <trailer xml:id="tab014"><ref type="intern" target="#tab14">Tab. 14</ref>: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem + MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t14"/></trailer> + </table> + </div> + </div> + <div type="chapter"> + <head>6. Fazit</head> + + <p>Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten, die + Z-Wert-Begrenzung führt zu einer Verbesserung der False-Positives-Quote. In + Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die + nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist + auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung + ein schwieriges Geschäft. In Testreihe B wurden bei der Unterscheidung von + Abenteuerroman, Bildungsroman und Komödie ordentliche Ergebnisse und zumindest ein + guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 + MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58% bei immerhin nur + 12,4% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote: + 76%, False-Positives: 22,1%).</p> + <p>In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer + Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund + festhalten. Wenn man fragt, wie gut die Erkennungsleistung dieser Verfahren bei der + Textsortenklassifikation insgesamt ist, ist zu bedenken, dass mit 50 Texten nur ein + relativ schmales Korpus evaluiert werden konnte, da Autorduplikate und mehrfache + Textsortenlabels vermieden wurden. </p> + <p>Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf + digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu + überlegen wäre, ob die schlechten Werte beim Gesellschaftsroman damit zusammenhängen + könnten, dass gesellschaftliche Zustände auch bei den anderen Textsorten eine + wichtige Rolle spielen. Die Unterscheidung des Abenteuerromans von Komödie und + Tragödie und die Unterscheidung der Komödie von Abenteuer- und Bildungsroman gelingt + in diesem Korpus immerhin fehlerfrei (ARI=1). </p></div> + <div type="chapter"> + <head>Anhang: Gute-Wörter-Listen</head> + <table rend="rules" xml:id="gattungssignal_2022_t15"> + <row> + + <cell>ABE</cell> + + <cell>BIL</cell> + + <cell>GES</cell> + + <cell>KOM</cell> + + <cell>TRA</cell> + + </row> + <row> + + <cell> + <list type="unordered"> + <item>gang</item> + <item>gilt</item> + <item>herzens</item> + <item>schienen</item> + <item>not</item> + <item>kampf</item> + <item>schlagen</item> + <item>unterbrach</item> + <item>übrigen</item> + <item>schön</item> + <item>o</item> + <item>schwieg</item> + <item>gehn</item> + <item>bisher</item> + <item>ohren</item> + <item>zwischen</item> + <item>geliebten</item> + <item>zukunft</item> + <item>folgte</item> + <item>einsam</item> + <item>geht</item> + <item>name</item> + <item>was</item> + <item>bitte</item> + <item>sehn</item> + <item>ach</item> + <item>ha</item> + <item>ewigen</item> + <item>ward</item> + <item>seltsam</item> + <item>bin</item> + <item>nimmer</item> + <item>dessen</item> + <item>gegen</item> + <item>hinzu</item> + <item>fern</item> + <item>liebe</item> + <item>nun</item> + <item>mein</item> + <item>herz</item> + <item>doch</item> + <item>einen</item> + <item>dank</item> + <item>feind</item> + <item>weh</item> + <item>wars</item> + <item>lust</item> + <item>verzeihen</item> + <item>nimmt</item> + <item>zufall</item> + <item>gehalten</item> + <item>getroffen</item> + <item>tritt</item> + <item>geh</item> + <item>indes</item> + <item>glücklich</item> + <item>eignen</item> + <item>denk</item> + <item>hört</item> + <item>fürstin</item> + <item>macht</item> + <item>glück</item> + <item>ehre</item> + <item>schrieb</item> + <item>tu</item> + <item>spielen</item> + <item>sie</item> + <item>treiben</item> + <item>fällt</item> + <item>sollst</item> + <item>pflicht</item> + <item>siehst</item> + <item>bitten</item> + <item>eh</item> + <item>hörte</item> + <item>daraus</item> + <item>tod</item> + <item>bekannt</item> + <item>hieß</item> + <item>offen</item> + <item>ichs</item> + <item>wußte</item> + <item>tode</item> + <item>allem</item> + <item>herr</item> + <item>sag</item> + <item>muß</item> + <item>zu</item> + <item>lieb</item> + <item>all</item> + <item>ist</item> + <item>lieben</item> + <item>halt</item> + <item>oft</item> + <item>alles</item> + <item>nimm</item> + <item>hatte</item> + <item>berlin</item> + <item>bleibt</item> + <item>sagt</item> + </list> + </cell> + + <cell> + <list type="unordered"><item>sicherheit</item> + <item>knaben</item> + <item>sorgen</item> + <item>erzählt</item> + <item>knabe</item> + <item>diesmal</item> + <item>erklärte</item> + <item>saßen</item> + <item>doch</item> + <item>seien</item> + <item>weh</item> + <item>soll</item> + <item>war</item> + <item>hier</item> + <item>kennt</item> + <item>nein</item> + <item>ha</item> + <item>in</item> + <item>holen</item> + <item>blieben</item> + <item>ecke</item> + <item>was</item> + <item>halt</item> + <item>stets</item> + <item>legen</item> + <item>sage</item> + <item>wollen</item> + <item>wußte</item> + <item>mirs</item> + <item>ah</item> + <item>geh</item> + <item>gefangen</item> + <item>kommen</item> + <item>geht</item> + <item>wort</item> + <item>bin</item> + <item>frieden</item> + <item>sieh</item> + <item>ja</item> + <item>kenne</item> + <item>will</item> + <item>kommt</item> + <item>gott</item> + <item>fall</item> + <item>konnte</item> + <item>streckte</item> + <item>hast</item> + <item>bitte</item> + <item>oh</item> + <item>ort</item> + <item>müssen</item> + <item>kampf</item> + <item>waffen</item> + <item>rasch</item> + <item>allerdings</item> + <item>laßt</item> + <item>ei</item> + <item>kapitel</item> + <item>waren</item> + <item>unmöglich</item> + <item>sollen</item> + <item>durch</item> + <item>sies</item> + <item>fällt</item> + <item>herr</item> + <item>hieß</item> + <item>verließ</item> + <item>erzählen</item> + <item>giebt</item> + <item>heftig</item> + <item>lassen</item> + <item>lieb</item> + <item>hm</item> + <item>gegangen</item> + <item>wahr</item> + <item>ab</item> + <item>tag</item> + <item>komm</item> + <item>drückte</item> + <item>also</item> + <item>hierher</item> + <item>über</item> + <item>hören</item> + <item>denkt</item> + <item>euer</item> + <item>ohr</item> + <item>tränen</item> + <item>besser</item> + <item>arm</item> + <item>ersten</item> + <item>bringt</item> + <item>dienst</item> + <item>bringen</item> + <item>aus</item> + <item>not</item> + <item>sollst</item> + <item>berlin</item> + <item>frei</item> + <item>bord</item> + <item>meinst</item></list> + </cell> + + <cell> + <list type="unordered"><item>wißt</item> + <item>zieht</item> + <item>strom</item> + <item>jenem</item> + <item>nase</item> + <item>obgleich</item> + <item>höher</item> + <item>zorn</item> + <item>stimmen</item> + <item>mich</item> + <item>fern</item> + <item>ich</item> + <item>mir</item> + <item>weiber</item> + <item>erklärte</item> + <item>körper</item> + <item>ha</item> + <item>o</item> + <item>hatte</item> + <item>ziel</item> + <item>aufmerksamkeit</item> + <item>schlagen</item> + <item>wars</item> + <item>meinem</item> + <item>setzt</item> + <item>meines</item> + <item>waffen</item> + <item>meiner</item> + <item>meinen</item> + <item>denken</item> + <item>als</item> + <item>offen</item> + <item>hört</item> + <item>hölle</item> + <item>seid</item> + <item>eure</item> + <item>meine</item> + <item>allerlei</item> + <item>machte</item> + <item>ruf</item> + <item>euren</item> + <item>soll</item> + <item>seufzte</item> + <item>eurer</item> + <item>macht</item> + <item>setzte</item> + <item>sich</item> + <item>tische</item> + <item>mein</item> + <item>hielten</item> + <item>gestalten</item> + <item>bin</item> + <item>uns</item> + <item>deine</item> + <item>niemals</item> + <item>hilfe</item> + <item>deinen</item> + <item>sagt</item> + <item>steht</item> + <item>deines</item> + <item>euer</item> + <item>abschied</item> + <item>indes</item> + <item>manchmal</item> + <item>wahrhaftig</item> + <item>lebt</item> + <item>befehl</item> + <item>still</item> + <item>tritt</item> + <item>deren</item> + <item>tod</item> + <item>denkt</item> + <item>gefahr</item> + <item>führt</item> + <item>wollt</item> + <item>euch</item> + <item>lager</item> + <item>männer</item> + <item>setzen</item> + <item>laut</item> + <item>gebracht</item> + <item>sah</item> + <item>schöner</item> + <item>lebe</item> + <item>vertrauen</item> + <item>plan</item> + <item>gott</item> + <item>hunde</item> + <item>mittel</item> + <item>kommt</item> + <item>spricht</item> + <item>fällt</item> + <item>verlassen</item> + <item>ruhig</item> + <item>braut</item> + <item>sollst</item> + <item>fragte</item> + <item>will</item> + <item>schmerz</item> + <item>halten</item></list> + </cell> + + <cell> + <list type="unordered"><item>stieß</item> + <item>tages</item> + <item>schlug</item> + <item>kannte</item> + <item>riß</item> + <item>hing</item> + <item>lag</item> + <item>ergriff</item> + <item>blieben</item> + <item>erschien</item> + <item>flog</item> + <item>standen</item> + <item>hielt</item> + <item>fuhr</item> + <item>stieg</item> + <item>empor</item> + <item>war</item> + <item>und</item> + <item>trat</item> + <item>fiel</item> + <item>weiten</item> + <item>wilden</item> + <item>hatte</item> + <item>wurde</item> + <item>wolken</item> + <item>öffnete</item> + <item>reichte</item> + <item>wenigen</item> + <item>zwischen</item> + <item>dessen</item> + <item>ging</item> + <item>mochte</item> + <item>ist</item> + <item>suchte</item> + <item>lachte</item> + <item>folgte</item> + <item>schien</item> + <item>hob</item> + <item>mannes</item> + <item>stand</item> + <item>ich</item> + <item>wußte</item> + <item>neben</item> + <item>schob</item> + <item>weile</item> + <item>tiefer</item> + <item>stellte</item> + <item>wand</item> + <item>konnte</item> + <item>hörte</item> + <item>blickte</item> + <item>griff</item> + <item>des</item> + <item>sprang</item> + <item>erhob</item> + <item>gespräch</item> + <item>lächeln</item> + <item>mußten</item> + <item>schritte</item> + <item>meer</item> + <item>warf</item> + <item>ließ</item> + <item>las</item> + <item>verließ</item> + <item>sah</item> + <item>wandte</item> + <item>sies</item> + <item>faßte</item> + <item>regen</item> + <item>kaum</item> + <item>richtung</item> + <item>erkannte</item> + <item>fühlte</item> + <item>durfte</item> + <item>hat</item> + <item>erzählte</item> + <item>unterbrach</item> + <item>obwohl</item> + <item>gehalten</item> + <item>zug</item> + <item>gab</item> + <item>dasselbe</item> + <item>fragte</item> + <item>schatten</item> + <item>rief</item> + <item>zog</item> + <item>langsam</item> + <item>blieb</item> + <item>drückte</item> + <item>gegenüber</item> + <item>schüttelte</item> + <item>einzelne</item> + <item>traf</item> + <item>stimme</item> + <item>tief</item> + <item>sagte</item> + <item>lagen</item> + <item>hatten</item> + <item>antlitz</item> + <item>trieb</item></list> + </cell> + + <cell> + <list type="unordered"><item>mußte</item> + <item>mochte</item> + <item>fuhr</item> + <item>blieben</item> + <item>einigen</item> + <item>hatte</item> + <item>weder</item> + <item>öffnete</item> + <item>hatten</item> + <item>demselben</item> + <item>waren</item> + <item>erzählen</item> + <item>standen</item> + <item>machte</item> + <item>war</item> + <item>wurde</item> + <item>ewig</item> + <item>frieden</item> + <item>unsere</item> + <item>lächelte</item> + <item>sagte</item> + <item>führte</item> + <item>vielmehr</item> + <item>setzte</item> + <item>zeigte</item> + <item>schwere</item> + <item>sieh</item> + <item>wußte</item> + <item>konnte</item> + <item>konnten</item> + <item>schienen</item> + <item>blieb</item> + <item>während</item> + <item>fragte</item> + <item>heraus</item> + <item>schob</item> + <item>gerade</item> + <item>hinzu</item> + <item>kannte</item> + <item>verschwunden</item> + <item>davon</item> + <item>ziemlich</item> + <item>mußten</item> + <item>anderer</item> + <item>erzählte</item> + <item>wandte</item> + <item>mehrere</item> + <item>erkannte</item> + <item>desselben</item> + <item>unterbrach</item> + <item>sprang</item> + <item>begann</item> + <item>ohne</item> + <item>dabei</item> + <item>schüttelte</item> + <item>drückte</item> + <item>erklärte</item> + <item>beiden</item> + <item>endlich</item> + <item>hundert</item> + <item>nachher</item> + <item>wurden</item> + <item>folgte</item> + <item>fremde</item> + <item>stand</item> + <item>suchte</item> + <item>weniger</item> + <item>dagegen</item> + <item>steht</item> + <item>blickte</item> + <item>bauern</item> + <item>ließen</item> + <item>sprache</item> + <item>worden</item> + <item>doktor</item> + <item>flüsterte</item> + <item>vier</item> + <item>stube</item> + <item>darüber</item> + <item>rief</item> + <item>dorf</item> + <item>erwiderte</item> + <item>stieß</item> + <item>einige</item> + <item>sondern</item> + <item>lachte</item> + <item>richtung</item> + <item>andere</item> + <item>faßte</item> + <item>beinahe</item> + <item>daher</item> + <item>menge</item> + <item>denen</item> + <item>hause</item> + <item>legte</item> + <item>obwohl</item> + <item>einzelne</item> + <item>drei</item> + <item>deren</item> + <item>nämlich</item></list> + </cell> + + </row> + <trailer xml:id="tab015"><ref type="intern" target="#tab15">Tab. 15</ref>: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils + 100 Wortformen mit den höchsten Level-2-Differenzen.<ref type="graphic" target="#gattungssignal_2022_t15gattungssignal_2022_t15"/></trailer> + </table> + <table rend="rules" xml:id="gattungssignal_2022_t16"> + <row> + <cell>ABE-BIL</cell> + <cell>51</cell> + </row> + <row> + <cell>ABE-GES</cell> + <cell>43</cell> + </row> + <row> + <cell>ABE-KOM</cell> + <cell>37</cell> + </row> + <row> + <cell>ABE-TRA</cell> + <cell>27</cell> + </row> + <row> + <cell>BIL-GES</cell> + <cell>42</cell> + </row> + <row> + <cell>BIL-KOM</cell> + <cell>32</cell> + </row> + <row> + <cell>BIL-TRA</cell> + <cell>27</cell> + </row> + <row> + <cell>GES-KOM</cell> + <cell>34</cell> + </row> + <row> + <cell>GES-TRA</cell> + <cell>30</cell> + </row> + <row> + <cell>KOM-TRA</cell> + <cell>85</cell> + </row> + <trailer xml:id="tab016"><ref type="intern" target="#tab16">Tab. 16</ref>: Duplikate in den Listen der Guten Wörter.<ref type="graphic" target="#gattungssignal_2022_t16"/></trailer> + </table> + <p>Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier + anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet + wurden, bringt es mit sich, dass Wortformen auch dann in eine Gute-Wörter-Liste + gelangen können, wenn die Unterscheidungsleistung zu zwei anderen Textsorten nur + mäßig, die Unterscheidungsleistung zu zwei nochmals anderen Textsorten jedoch hoch + ist. Dadurch ist es möglich, dass einige Wortformen in mehreren gattungsspezifischen + Listen auftreten. Die hohe Zahl von 85 Duplikaten bei Komödien und Tragödien ist + überraschend; womöglich sind hier viele Wortformen eingegangen, die auf den + Unterschieden zwischen Drama und Roman beruhen. Damit korrespondieren könnte auch, + dass die Guten Wörter nur mäßig dazu beitragen, die F1-Scores bei der Unterscheidung + von Komödie und Tragödie zu verbessern, während die Unterscheidung von Drama und + Abenteuerroman fehlerfrei gelingt (vgl. <ref type="intern" target="#hd13" + >Test C</ref>).</p> + <p>Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte + in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen + findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa + ›fern‹ oder ›Zufall‹ typisch für ein Abenteuer-Sujet sein, ›erklärte‹ für den + Bildungsroman (wobei diese Wortform auch bei Gesellschaftsroman und Tragödie + vorkommt), ›schwere‹ oder ›verschwunden‹ würden in Tragödien nicht überraschen. + Allerdings wäre es keine geringe Herausforderung, Kriterien für eine solche Intuition + intersubjektiv nachvollziehbar zu begründen.</p> + <p>Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der + Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular + Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter + Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass + nur zehn Texte je Textsorte für die Berechnung der Listen verwendet wurden; bei einem + größeren Korpus würden solche vermutlich textspezifischen Wörter nicht in die Listen + eingehen.</p> + </div> + </div> + <div type="bibliography"> + <head>Bibliografische Angaben</head> + <listBibl> + <bibl xml:id="ardanuy_sporleder_clustering_2014">Mariona Coll Ardanuy / Caroline Sporleder: Structure-based Clustering of Novels. + In: Proceedings of the 3rd Workshop on Computational Linguistics for Literature + (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, + 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: <ref + target="http://dx.doi.org/10.3115/v1/W14-0905">10.3115/v1/W14-0905</ref> + </bibl> + <bibl xml:id="Büttner_et_al_delta_2017">Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis + Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof + Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In: + Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: <ref + target="http://dx.doi.org/10.17175/2017_006">10.17175/2017_006</ref> + </bibl> + <bibl xml:id="büttner_proisl_stilometrie_2016">Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion + zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, + Vernetzung, Visualisierung. Die Digital Humanities als fächerübergreifendes + Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, + Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: <ref + target="https://doi.org/10.5281/zenodo.3679331">10.5281/zenodo.3679331</ref> <ptr type="gbv" cRef="858156008"/></bibl> + <bibl xml:id="tello_gattungserkennung_2019">José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital + Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. + (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. + DOI: <ref target="https://doi.org/10.5281/zenodo.2600812" + >10.5281/zenodo.2600812</ref> + </bibl> + <bibl xml:id="dimpel_et_al_streit_2019">Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der + Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen + Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. In: + Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten + Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. <ptr type="gbv" cRef="167073062X"/></bibl> + <bibl xml:id="dimpel_proisl_delta_2019">Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der + Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019 + Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick + Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, + S. 296–299. DOI: <ref target="https://doi.org/10.5281/zenodo.2600812" + >10.5281/zenodo.2600812</ref> + </bibl> + <bibl xml:id="dimpel_töpfchen_2018a">Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von + Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests zu + Konrads ‚Halber Birne‘. In: DHd 2018. Kritik der digitalen Vernunft. + Konferenzabstracts. Hg. von Georg Vogeler. (DHd: 5, Köln, 26.02.–02.03.2018) Köln + 2018, S. 168–173. DOI: <ref target="https://doi.org/10.5281/zenodo.3684897" + >10.5281/zenodo.3684897</ref> + </bibl> + <bibl xml:id="dimpel_delta_2018b">Friedrich Michael Dimpel (2018b): Ein Delta-Rätsel: Nicht-normalisierte + mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: + Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, + 25) URN: <ref target="http://nbn-resolving.de/urn:nbn:de:gbv:7-dariah-2017-5-1" + >urn:nbn:de:gbv:7-dariah-2017-5-1</ref> + </bibl> + <bibl xml:id="eder_rybicki_deeper_2011">Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really + Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 3, + S. 315–321. DOI: <ref target="https://doi.org/10.1093/llc/fqr031" + >10.1093/llc/fqr031</ref> <ptr type="gbv" cRef="50563922X"/></bibl> + <bibl xml:id="evert_et_al_burrows_2016">Stefan Evert / Fotis Jannidis / Steffen Pielström / Isabella Reger / Christof + Schöch / Thorsten Vitt: Burrows’ Delta verstehen. In: Modellierung, Vernetzung, + Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. + DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte + Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 62–65. [<ref + target="http://dhd2016.de">online</ref>] </bibl> + <bibl xml:id="fuchs_hybride_1997">Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild + und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter + Beiträge zur Germanistik, 31) <ptr type="gbv" cRef="274372053"/></bibl> + <bibl xml:id="hettinger_et_al_genre_2015">Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: + Genre classification on German novels. In: Database and expert systems applications. + 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk + Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham + u. a. 2015, S. 249–253. DOI: <ref target="https://doi.org/10.1109/DEXA.2015.62" + >10.1109/DEXA.2015.62</ref> <ptr type="gbv" cRef="1521531668"/></bibl> + <bibl xml:id="hettinger_et_al_classification_2016a">Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a): + Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. + Die Digital Humanities als fächerübergreifendes Forschungsparadigma. DHd 2016. + Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, Leipzig, 07.–12.03.2016) + Duisburg 2016, S. 158–162. DOI: <ref target="https://doi.org/10.5281/zenodo.3679331" + >10.5281/zenodo.3679331</ref> <ptr type="gbv" cRef="858156008"/></bibl> + <bibl xml:id="hettinger_et_al_significance_2016b">Lena Hettinger / Fotis Jannidis / Isabella Reger / Andreas Hotho (2016b): + Significance Testing for the Classification of Literary Subgenres. In: Digital + Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. + [<ref target="https://dh2016.adho.org/abstracts/173">online</ref>]</bibl> +<bibl xml:id="kessler_et_al_automatic_1997">Brett Kessler / Geoffrey Nunberg / Hinrich Schutze: Automatic Detection of Text + Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and + 8th Conference of the European Chapter of the Association for Computational + Linguistics. (ACL: 35 - EACL '97, Madrid, 07. –12.07.1997) Morristown, NJ 1997, + S. 32–38. DOI: <ref target="http://dx.doi.org/10.3115/976909.979622" + >10.3115/976909.979622</ref> <ptr type="gbv" cRef="316297569"/></bibl> + <bibl xml:id="kim_et_al_investigating_2017">Evgeny Kim / Sebastian Padó / Roman Klinger: Investigating the Relationship + between Literary Genres and Emotional Plot Development. In: Proceedings of the Joint + SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, + Humanities and Literature. Hg. von Beatrice Alex / Stefania Degaetano-Ortlieb / Anna + Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, + 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: <ref + target="http://dx.doi.org/10.18653/v1/W17-2203">10.18653/v1/W17-2203</ref> + </bibl> + <bibl xml:id="schoech_corneille_2014">Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu + Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: + Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars + Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [<ref + target="http://web.fu-berlin.de/phin/beiheft7/b7t08.pdf">online</ref>] </bibl> + <bibl xml:id="schoech_computational_2020">Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary + Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, + TX 2020. Preprint. PDF. [<ref + target="https://www.dropbox.com/s/4ixvo2v5d3jkw7f/Schoech_2019_Computational-Genre-Analysis-preprint.pdf?dl=0" + >online</ref>] </bibl> + <bibl xml:id="schulz_poetik_2000">Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle + Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier + und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= + Philologische Studien und Quellen, 161) <ptr type="gbv" cRef="313490295"/></bibl> + <bibl xml:id="selbmann_bildungsroman_1994">Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte + Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) <ptr type="gbv" cRef="147843162"/></bibl> + <bibl xml:id="sharoff_et_al_babel_2010">Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating + genre collections. In: Proceedings of the 7th International Conference on Language + Resources and Evaluation. Hg. von Nicoletta Calzolari / Khalid Choukri / Bente + Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel + Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [<ref + target="http://www.lrec-conf.org/proceedings/lrec2010/pdf/28_Paper.pdf" + >online</ref>] </bibl> + <bibl xml:id="stamatatos_et_al_categorization_2000">Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text + categorization in terms of genre and author. In: Computational Linguistics 26 (2000), + S. 471–495. DOI: <ref target="https://doi.org/10.1162/089120100750105920" + >10.1162/089120100750105920</ref> + </bibl> + <bibl xml:id="ulb-muenster_streit_2022">Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen + Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: + Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster. + 2022. [<ref + target="https://miami.uni-muenster.de/Record/bc949a25-0d22-48e2-a1fb-c4ac1421f8e8" + >online</ref>] </bibl> + <bibl xml:id="underwood_et_al_mapping_2013">Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable + genres in structurally complex volumes. In: Proceedings of the IEEE International + Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, + 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: <ref + target="https://doi.org/10.1109/BigData.2013.6691676" + >10.1109/BigData.2013.6691676</ref> <ptr type="gbv" cRef="779034104"/></bibl> + <bibl xml:id="viehhauser_gattungsgeschichten_2017">Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer + Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: + <ref target="https://doi.org/10.17175/2017_003">10.17175/2017_003</ref> + </bibl></listBibl> + </div> + <div type="abbildungsnachweis"> + <head>Tabellenverzeichnis</head> + <desc type="table" xml:id="tab1"><ref target="#tab001">Tab. 1</ref>: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test + A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte + 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. + Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / + Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung.<ref type="graphic" target="#gattungssignal_2022_t1"/></desc> + <desc type="table" xml:id="tab2"><ref target="#tab002">Tab. 2</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. + Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: + Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in + % / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne + Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit + Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert.<ref type="graphic" target="#gattungssignal_2022_t2"/></desc> + <desc type="table" xml:id="tab3"><ref target="#tab003">Tab. 3</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, BIL, GES, + KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t3"/></desc> + <desc type="table" xml:id="tab4"><ref target="#tab004">Tab. 4</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, BIL, GES, + KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t4"/></desc> + <desc type="table" xml:id="tab5"><ref target="#tab005">Tab. 5</ref>: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t5"/></desc> + <desc type="table" xml:id="tab6"><ref target="#tab006">Tab. 6</ref>: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.<ref type="graphic" target="#gattungssignal_2022_t6"/></desc> + <desc type="table" xml:id="tab7"><ref target="#tab007">Tab. 7</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t7"/></desc> + <desc type="table" xml:id="tab8"><ref target="#tab008">Tab. 8</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, KOM, TRA + (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).<ref type="graphic" target="#gattungssignal_2022_t8"/></desc> + <desc type="table" xml:id="tab9"><ref target="#tab009">Tab. 9</ref>: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, ABE, + BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t9"/></desc> + <desc type="table" xml:id="tab10"><ref target="#tab010">Tab. 10</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t10"/></desc> + <desc type="table" xml:id="tab11"><ref target="#tab011">Tab. 11</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, BIL, + GES.<ref type="graphic" target="#gattungssignal_2022_t11"/></desc> + <desc type="table" xml:id="tab12"><ref target="#tab012">Tab. 12</ref>: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t12"/></desc> + <desc type="table" xml:id="tab13"><ref target="#tab013">Tab. 13</ref>: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, + Volltexte, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t13"/></desc> + <desc type="table" xml:id="tab14"><ref target="#tab014">Tab. 14</ref>: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, + Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t14"/></desc> + <desc type="table" xml:id="tab15"><ref target="#tab015">Tab. 15</ref>: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 100 + Wortformen mit den höchsten Level-2-Differenzen.<ref type="graphic" target="#gattungssignal_2022_t15"/></desc> + <desc type="table" xml:id="tab16"><ref target="#tab016">Tab. 16</ref>: Duplikate in den Listen der Guten Wörter.<ref type="graphic" target="#gattungssignal_2022_t16"/></desc> + </div> + </body> + </text> +</TEI>