diff --git a/2022_007_andresen_et_al/nachnutzung_2021_001.png b/2022_007_andresen_et_al/nachnutzung_2021_001.png new file mode 100644 index 0000000000000000000000000000000000000000..1d5381a9a66f4fad0892208b67820c93d4dd5d80 Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_001.png differ diff --git a/2022_007_andresen_et_al/nachnutzung_2021_002.png b/2022_007_andresen_et_al/nachnutzung_2021_002.png new file mode 100644 index 0000000000000000000000000000000000000000..263009def221a6788b3959e95c28ec0542616126 Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_002.png differ diff --git a/2022_007_andresen_et_al/nachnutzung_2021_003.png b/2022_007_andresen_et_al/nachnutzung_2021_003.png new file mode 100644 index 0000000000000000000000000000000000000000..c093abe1a8e4aec8d9e92f8a6b1230d623e5f6a2 Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_003.png differ diff --git a/2022_007_andresen_et_al/nachnutzung_2021_004.png b/2022_007_andresen_et_al/nachnutzung_2021_004.png new file mode 100644 index 0000000000000000000000000000000000000000..9a125f6a068076c5ad2c9544e8c88a224a84b9e2 Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_004.png differ diff --git a/2022_007_andresen_et_al/nachnutzung_2021_005.png b/2022_007_andresen_et_al/nachnutzung_2021_005.png new file mode 100644 index 0000000000000000000000000000000000000000..8f70d439b75314812c6fcea479bb2b9c23b7d659 Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_005.png differ diff --git a/2022_007_andresen_et_al/nachnutzung_2021_v1_0.pdf b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.pdf new file mode 100644 index 0000000000000000000000000000000000000000..20c7a4d01c1557c52882033494005e18f339092a Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.pdf differ diff --git a/2022_007_andresen_et_al/nachnutzung_2021_v1_0.xml b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.xml new file mode 100644 index 0000000000000000000000000000000000000000..3314aff7313f87c95e57eb4f4994ae456ac9e441 --- /dev/null +++ b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.xml @@ -0,0 +1,1839 @@ +<?xml version="1.0" encoding="utf-8"?> +<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax" + ?> +<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html" + xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink" + xmlns:xhtml="http://www.w3.org/1999/xhtml"> + <teiHeader> + <fileDesc> + <titleStmt> + <title> + <biblStruct> + <analytic> + <title level="a">Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in + den digitalen Geisteswissenschaften (nach-)nutzen</title> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Melanie</forename> + <surname>Andresen</surname> + </name> + <email>melanie.andresen@ims.uni-stuttgart.de</email> + <idno type="gnd">1143061535</idno> + <idno type="orcid">0000-0002-3913-1273</idno> + </persName> + </resp> + <orgName>Universität Stuttgart, Institut für Maschinelle + Sprachverarbeitung</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Markus</forename> + <surname>Gärtner</surname> + </name> + <email>markus.gaertner@ims.uni-stuttgart.de</email> + <idno type="gnd">1268973939</idno> + <idno type="orcid">0000-0002-2687-4350</idno> + </persName> + </resp> + <orgName>Universität Stuttgart, Institut für Maschinelle + Sprachverarbeitung</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Sibylle</forename> + <surname>Hermann</surname> + </name> + <email>sibylle.hermann@ub.uni-stuttgart.de</email> + <idno type="gnd">1073989070</idno> + <idno type="orcid">0000-0001-9239-8789</idno> + </persName> + </resp> + <orgName>Universitätsbibliothek Stuttgart</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Janina</forename> + <surname>Jacke</surname> + </name> + <email>janina.jacke@uni-goettingen.de</email> + <idno type="gnd">108423968X</idno> + <idno type="orcid">0000-0001-7217-3136</idno> + </persName> + </resp> + <orgName>Georg August Universität Göttingen, Seminar für Deutsche + Philologie</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Nora</forename> + <surname>Ketschik</surname> + </name> + <email>nora.ketschik@ims.uni-stuttgart.de</email> + <idno type="gnd">1268974390</idno> + <idno type="orcid">0000-0001-8758-5432</idno> + </persName> + </resp> + <orgName>Universität Stuttgart, Institut für Maschinelle + Sprachverarbeitung</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Felicitas</forename> + <surname>Kleinkopf</surname> + </name> + <email>felicitas.kleinkopf@kit.edu</email> + <idno type="gnd">1268974757</idno> + <idno type="orcid">0000-0001-8670-2668</idno> + </persName> + </resp> + <orgName>Karlsruher Institut für Technologie, Institut für Informations- und + Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Jonas</forename> + <surname>Kuhn</surname> + </name> + <email>jonas.kuhn@ims.uni-stuttgart.de</email> + <idno type="gnd">1064354289</idno> + <idno type="orcid">0000-0003-2860-5960</idno> + </persName> + </resp> + <orgName>Universität Stuttgart, Institut für Maschinelle + Sprachverarbeitung</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Axel</forename> + <surname>Pichler</surname> + </name> + <email>axel.pichler@alumni.uni-graz.at</email> + <idno type="gnd">14316130X</idno> + <idno type="orcid">0000-0002-9177-7645</idno> + </persName> + </resp> + <orgName>Universität Stuttgart, Institut für Maschinelle + Sprachverarbeitung</orgName> + </respStmt> + + <idno type="doi">10.17175/2022_007</idno> + <idno type="ppn">1816418234</idno> + <idno type="zfdg">2022.007</idno> + <idno type="url">https://www.zfdg.de/node/362</idno> + <date when="2022-11-03">03.11.2022</date> + </analytic> + <monogr> + <title level="j">Zeitschrift für digitale Geisteswissenschaften</title> + <respStmt> + <resp>Publiziert von</resp> + <orgName role="marc_pbl">Herzog August Bibliothek</orgName> + </respStmt> + <respStmt> + <resp>Transformation der Word Vorlage nach TEI</resp> + <persName/> + <name role="marc_trc"> + <surname>Baumgarten</surname> + <forename>Marcus</forename> + <idno type="gnd">1192832655</idno> + </name> + </respStmt> + <availability status="free"> + <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref> + </p> + </availability> + <biblScope unit="year">2022</biblScope> + <biblScope unit="artikel">0a</biblScope> + </monogr> + </biblStruct> + </title> + </titleStmt> + <editionStmt> + <edition>Elektronische Ausgabe nach TEI P5</edition> + </editionStmt> + <publicationStmt> + <distributor> + <name> + <orgName>Herzog August Bibliothek Wolfenbüttel</orgName> + </name> + </distributor> + <idno type="doi">10.17175/zfdg.01</idno> + <idno type="ppn">0819494402</idno> + <authority> + <name>Herzog August Bibliothek</name> + <address> + <addrLine>Lessingplatz 1</addrLine> + <addrLine>38304 Wolfenbüttel</addrLine> + </address> + </authority> + <authority> + <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name> + <address> + <addrLine>Burgplatz 4</addrLine> + <addrLine>99423 Weimar </addrLine> + </address> + </authority> + <availability status="free"> + <p> Sofern nicht anders angegeben </p> + <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence> + </availability> + <availability status="free"> + <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund + MWW</ref> + </p> + </availability> + </publicationStmt> + <sourceDesc> + <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p> + </sourceDesc> + </fileDesc> + <encodingDesc> + <editorialDecl><p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und + XSLT-Skripten</p> + <p>Medienrechte liegen bei den Autor*innen</p> + <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Caroline Jansky</persName>.</p> + <p>All links checked<date when="2022-09-22">06.09.2022</date> + </p> + </editorialDecl> + </encodingDesc> + <profileDesc> + <creation>Einreichung als Artikel der Zeitschrift für digitale + Geisteswissenschaften</creation> + <langUsage> + <language ident="de">Text in Deutsch</language> + <language ident="de">Abstract in Deutsch</language> + <language ident="en">Abstract in Englisch</language> + </langUsage> + <textClass> + <keywords scheme="gnd"> + <term>Urheberrecht<ref target="4062127-3"/> + </term> + + <term>Data Mining<ref target="4428654-5"/> + </term> + + <term>Infrastruktur<ref target="4026944-9"/> + </term> + <term>Open Science<ref target="1197084231"/> + </term> + <term>Digital Humanities<ref target="1038714850"/> + </term> + <term>Forschungsdaten<ref target="1098579690"/> + </term> + + </keywords> + </textClass> + </profileDesc> + <revisionDesc> + <change/> + </revisionDesc> + </teiHeader> + <text> + <body> + <div> + <div type="abstract"> + <argument xml:lang="de"> + <p>Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen + von vornherein aus dem Weg zu gehen, konzentrieren sich viele digitale + Geisteswissenschaftler*innen auf gemeinfreie Texte. Zur Überwindung dieser + problematischen Beschneidung des Gegenstandsbereichs schlagen Schöch et al. + 2020 sogenannte abgeleitete Textformate vor, die digitale Analyseverfahren + unterstützen, den Text jedoch aus urheberrechtlicher Perspektive hinreichend + verfremden. Das Projekt XSample entwickelt eine komplementäre Lösung, die die + Berechtigung zur Weitergabe von Auszügen aus geschützten Texten (im Klartext) + nutzt. Der forschungsgesteuerte Ansatz ermöglicht Gruppen, die an einer + Nachnutzung interessiert sind, eine Optimierung des maximal erlaubten + Auszugsvolumens entlang eigener Forschungsfragen. </p> + </argument> + <argument xml:lang="en"> + <p>In order to avoid copyright restrictions on the exchange of research results + from the outset, many researchers in the digital humanities focus on texts in + the public domain. To overcome this problematic limitation of the subject + matter, Schöch et al. 2020 propose so-called derived text formats that support + digital analysis procedures but sufficiently alienate the text from a copyright + perspective. The XSample project is developing a complementary solution that + leverages permission to share excerpts from copyrighted text (in plain text). + The research-driven approach allows groups interested in reuse to optimize the + maximum allowed excerpt volume along their own research questions.</p> + </argument> + </div> + <div type="chapter"> + <head>1. Einleitung</head> + <p>Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen + Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die + Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in + engen Grenzen erlaubt.<note type="footnote"> Die Namen der Autor*innen sind in den + Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische + Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner + befasste sich mit der technischen Umsetzung der Infrastruktur; das erste + Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von + Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die + Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas + Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in + diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des <term + type="figure">XSample</term>-Projekts, auch über die Zuständigkeitsgrenzen + im Projekt hinweg, erstellt. </note> Die Restriktionen erschweren die + Einhaltung der guten wissenschaftlichen Praxis sowie der <term type="dh" + >FAIR-Prinzipien</term> für Forschungsdateninfrastrukturen.<note + type="footnote"> Die FAIR-Prinzipien formulieren vier + zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible, + Interoperable und Reusable sein, siehe <ref type="bibliography" target="#wilkinson_fair_2016">Wilkinson et al. 2016</ref>.</note> In + vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf + verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet + dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen – + nahezu vollständig ausgeblendet werden (müssen).<note type="footnote"> Der Schutz + von Texten durch das deutsche Urheberrecht endet siebzig Jahre nach Tod der + Autor*innen, sodass kein direkter Zusammenhang zwischen Publikationsjahr und + dem Ende des urheberrechtlichen Schutzes besteht. </note> Eine so weitreichende + Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der + Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen + problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung + algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer heterogenen + Kombination von Quellen behelfen muss. </p> + <p>Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung + auf geschützten Texten in Verhandlungen mit den Rechteinhaber*innen zu treten. + Optimal ist, wenn im Vorfeld eine Lizenzvereinbarung ausgehandelt werden kann, die + eine unbegrenzte Weitergabe der geschützten Texte an Dritte zu Forschungszwecken + einschließt; dies gelingt jedoch nicht in allen Fällen und erfordert einen + erheblichen Aufwand und zeitlichen Vorlauf in Bezug auf jede zu verwendende + Datenquelle. Damit ist das Vorgehen mit der Praxis datenintensiver + Computermodellierung nur bedingt vereinbar, bei der etwa explorative Experimente + zu unterschiedlichen Erweiterungen der Datenbasis nur bei einem Bruchteil der + Daten eine längerfristige Weiterverfolgung bewirken.</p> + <p>Dieser Artikel sieht ein Desiderat für die digitalen Geisteswissenschaften – sei + es bei der Erschließung eines Gegenstandsbereichs oder bei der Methodenentwicklung + – darin, eine Forschungsdateninfrastruktur einzurichten, die ein exploratives + Vorgehen unterstützt, sodass die Urheberrechtsfrage nicht länger per se ein + Ausschlusskriterium für die Verwendung eines Textes oder eines Textkorpus ist. + Neben dem langfristigen (politischen) Ziel einer verbesserten urheberrechtlichen + Ausgangslage für die Forschung sollte dafür der bestehende rechtliche Korridor für + eine Weitergabe von Forschungsergebnissen zu geschützten Texten ausgenutzt + werden.</p> + <p>Schöch et al. schlagen zum Umgang mit der bestehenden Rechtslage eine + Konvertierung der Texte in sogenannte abgeleitete Formate vor, welche für eine + Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus + urheberrechtlicher Perspektive hinreichend verfremden.<note type="footnote"> Vgl. + <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>.</note> Diese abgeleiteten Textformate halten beispielsweise + für Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der + enthaltenen Einzelwörter oder <term type="dh">n-Gramme</term> (also kurzen + Wortsequenzen) fest. Gängige Verfahren der Makroanalyse,<note type="footnote"> + Vgl. <ref type="bibliography" target="#jockers_methods_2012">Jockers 2013</ref>. </note> die etwa lexikalische Indikatoren für die Dynamik + des Textverlaufs heranziehen, können auf dieser Basis zur Anwendung kommen. Der + Urheberrechtsschutz wird dabei durch den Aufbruch der Textstruktur aufgehoben, + sodass Restriktionen zur Archivierung, Weitergabe und Veröffentlichung der + Datensätze nicht mehr zum Tragen kommen. Das Konzept der abgeleiteten Textformate + leistet somit einen großen Beitrag zur Replizierbarkeit von Forschung und + Nachnutzbarkeit von Forschungsdaten.</p> + <p>Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo + die eigentliche Textgestalt forschungsrelevant wird. Dies ist nicht nur bei einer + Mikroanalyse, also etwa beim <term type="dh">Close Reading</term>, der Fall + (welches ohne Frage einen urheberrechtlich geklärten Gesamtzugriff auf den Text + voraussetzt). Vor dem Hintergrund geisteswissenschaftlicher Fragestellungen macht + häufig auch die Interpretation von Ergebnissen einer aggregierenden Makroanalyse + den Zugriff auf einige relevante Textpassagen in ihrer Gesamtgestalt erforderlich. </p> + <p>Das <term type="figure">XSample</term>-Projekt hat daher einen Ansatz entwickelt, + der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann + (vgl.<ref type="graphic" target="#nachnutzung_2021_001"> Abbildung 1</ref>). Dieser + Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten + Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (<ref target="https://www.gesetze-im-internet.de/urhg/__60c.html">§ 60c + UrhG</ref>) und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte + Umfang dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der + XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle + Forschungsanliegen zugeschnittene Auswahl der ›hilfreichsten 15 Prozent‹. Hierzu + können Nachnutzer*innen in Suchanfragen auf den Texten und gegebenenfalls + vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie + relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer + zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit + urheberrechtlich geschützten Texten begünstigt, ohne den Urheberrechtsschutz + aufzuheben. Insbesondere können auch Forschungsfragen bearbeitet werden, die den + Rückgriff auf den exakten Wortlaut ausgewählter Textpassagen und umfangreichere + Kontexte erfordern. Eine besondere Rolle nehmen dabei die + Forschungsinfrastruktureinrichtungen ein, die Wissenschaftler*innen auf + institutioneller Ebene unterstützen, indem sie ihnen digitale Werkzeuge, die z. B. + der Verwaltung und Veröffentlichung ihrer Forschungsdaten dienen, zur Verfügung + stellen. Zu diesen Forschungsinfrastruktureinrichtungen zählen heute vorwiegend + die wissenschaftlichen Bibliotheken. Das im Projekt entwickelte Tool wird + exemplarisch an die lokale Infrastruktur der Universität Stuttgart und das dort + vorhandene Forschungsdatenrepositorium angebunden. Die im Projekt entwickelte + Software steht frei zur Verfügung, sodass sie und die nötige Infrastruktur anderen + Forschungsinfrastruktureinrichtungen bereitgestellt werden können.</p> + <figure> + <graphic xml:id="nachnutzung_2021_001" url=".../medien/nachnutzung_2021_001.png"> + <desc> + <ref type="graphic" target="#abb1">Abb. 1</ref>: In XSample entwickeltes + Auszugskonzept. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" + target="#nachnutzung_2021_001"/> + </desc> + </graphic> + </figure> + <p>Der vorliegende Beitrag geht in <ref type="intern" target="#hd2">Kapitel 2</ref> + zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des <term type="dh" + >Text- und Data-Mining</term> (TDM)<note type="footnote"> Unter TDM versteht + das Urheberrecht <quote>die automatisierte Analyse von einzelnen oder mehreren + digitalen oder digitalisierten Werken, um daraus Informationen insbesondere + über Muster, Trends und Korrelationen zu gewinnen</quote> (<ref target="https://www.gesetze-im-internet.de/urhg/__44b.html">§§ 44b Abs. 1</ref>, + <ref target="https://www.gesetze-im-internet.de/urhg/__60d.html">60d Abs. 1 UrhG</ref>). Unterschieden wird rechtlich zwischen der eigentlichen + automatisierten Analyse, die urheberrechtlich freigestellt ist, und den dafür + notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich relevant + sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil + textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre + Analyse selbst möglicherweise nicht als Text- und Data-Mining bezeichnen + würden.</note> gelten und die Rahmenbedingungen für das hier präsentierte + Auszugskonzept schaffen. <ref type="intern" target="#hd6">Kapitel 3</ref> stellt + dar, wie die Verfügbarmachung von individuell zugeschnittenen Textauszügen + innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden + insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte + der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung + vorgestellt. Anschließend werden in <ref type="intern" target="#hd12">Kapitel + 4</ref> zwei Nutzungsszenarien präsentiert, die im Kontext konkreter + Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das + Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung + ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der + Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft, + Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135 + urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario + beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem + ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen + Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem + Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die + Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung + gestellt werden. Das Fazit in <ref type="intern" target="#hd15">Kapitel 5</ref> + fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und + Desiderate ab.</p> + </div> + <div type="chapter"> + <head>2. Urheberrechtliche Rahmenbedingungen für das Text- und Data-Mining </head> + + <p>Bei der Beforschung insbesondere neuerer Texte und Korpora müssen sich die + digitalen Geisteswissenschaften mit Fragen des Urheberrechts auseinandersetzen. + Der urheberrechtliche Rahmen für die Forschung mit TDM hat sich in den letzten + Jahren mehrfach geändert, was es zusätzlich erschwert, aus + geisteswissenschaftlicher Perspektive zu überblicken, wie bzw. in welchem Umfang + mit geschützten Werken geforscht werden darf. Die letzten Änderungen ergaben sich + im Juni 2021, als die <term type="dh">Richtlinie zum Urheberrecht im digitalen + Binnenmarkt</term> (Digital Single Market-, kurz DSM-Richtlinie) im <term type="dh" + >Urheberrechtsgesetz</term> (UrhG) umgesetzt wurde. Um einen kurzen Überblick + über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (<ref + type="intern" target="#hd3">Kapitel 2.1</ref>) skizziert, in welchem Umfang + Vervielfältigungen (<ref target="https://www.gesetze-im-internet.de/urhg/__16.html">§ 16 UrhG</ref>) und öffentliche Zugänglichmachungen (<ref target="https://www.gesetze-im-internet.de/urhg/__19a.html">§ 19a UrhG</ref>) + für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in + den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.<note type="footnote"> + Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses + bieten zum alten Recht <ref type="bibliography" target="#dreier_urhg_2018">Dreier / Schulze 2018</ref>, § 60d; + <ref type="bibliography" target="#kleinkopf_text_2021">Kleinkopf et al. 2021</ref>; + vorwiegend auch <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 5–14; zu § 60d in seiner neuen Fassung, + vgl. <ref type="bibliography" target="#dreier_urhg_2022">Dreier in Dreier / Schulze 2022</ref>, § 44b und § 60d; + <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>; + <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 645–647; + eine Betrachtung auf EU-Ebene bieten + <ref type="bibliography" target="#gaertner_corpus_2021">Gärtner et + al. 2021</ref>, S. 11–13.</note> Daran anschließend werden Fragen nach der + Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze + diskutiert (<ref type="intern" target="#hd4">Kapitel 2.2.</ref>), darunter + insbesondere die rechtliche Grundlage für das in diesem Artikel vorgestellte + Auszugskonzept. Abschließend werden die wesentlichen Anforderungen an + Forschungsinfrastruktureinrichtungen zusammengefasst, die sich aus den + juristischen Rahmenbedingungen ergeben (<ref type="intern" target="#hd5">Kapitel + 2.3</ref>).</p> + <div type="subchapter"> + <head>2.1. Die Gesetzesentwicklung</head> + + <p>Bis zum 1. März 2018 enthielt das UrhG keine gesonderte Erlaubnis, Werke zu + Zwecken des TDM zu nutzen. Deswegen waren TDM-Analysen an urheberrechtlich + geschützten Werken nur insoweit möglich, wie die Werke nicht kopiert oder + weitergegeben wurden: Diese Handlungen sind nach den Regelungen in §§ 16, 19a + UrhG urheberrechtlich relevant, die das ausschließliche Recht des Urhebers + enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen. + Eine ausdrückliche Erlaubnis<note type="footnote"> Erlaubnisnormen werden im + deutschen Urheberrecht als <quote>Schranken</quote> bzw. + <quote>Schrankenbestimmungen</quote> bezeichnet.</note> dieser Handlungen + wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die + aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG) mit einem neuen + § 60d UrhG geschaffen. Unter der Voraussetzung des rechtmäßigen Zugriffs + erlaubt § 60d UrhG der nicht-kommerziellen wissenschaftlichen Forschung seither + die Vervielfältigung (§ 16 Abs. 1 UrhG) und die öffentliche Zugänglichmachung + (§ 19a UrhG) geschützter Werke zu Zwecken des TDM. Seitdem existiert im + deutschen Urheberrecht erstmalig eine explizite Erlaubnis, geschützte Werke für + das TDM auch umfangreich zu verarbeiten. Defizitär war bereits zu jenem + Zeitpunkt, dass die Korpora zwar bei bestimmten Einrichtungen, darunter auch + den in diesem Artikel adressierten Forschungsinfrastruktureinrichtungen, + aufbewahrt werden durften, aber keine Möglichkeit bestand, die Korpora zu + Zwecken von Anschlussforschungen nachzunutzen.</p> + <p>Aufgrund des <term type="dh">Gesetzes zum Urheberrecht im digitalen + Binnenmarkt</term> vom 7. Juni 2021<note type="footnote"> Bundesgesetzblatt Jahrgang + 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.</note> hat sich der + Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu + anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese + ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse, + praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die + Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser + rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform + vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert + wurden.<note type="footnote"> Vertraglich oder technisch darf das TDM im + Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht + ausgeschlossen werden (<ref target="https://www.gesetze-im-internet.de/urhg/__60g.html">§ 60g Abs. 1</ref>, <ref target="https://www.gesetze-im-internet.de/urhg/__95b.html">95b Abs. 1, 3 UrhG</ref>). Etwas anderes gilt + für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der + Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG).</note> § 60d + UrhG wurde außerdem um Befugnisse zugunsten von sogenannten + Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für + Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt + (<ref target="https://www.gesetze-im-internet.de/urhg/__60h.html">§ 60h Abs. 2 Nr. 3 UrhG</ref>). Diese war zuvor durch die jeweiligen Einrichtungen + zu tragen.</p> + </div> + <div> + <p></p> + <p></p> + </div> + <div type="subchapter"> + <head>2.2. Die Erlaubnisse für Forschungsinfrastruktureinrichtungen</head> + + <p>§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und + sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz + adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu + Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen + (d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame + wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie + einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich + zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu + beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist + (Abs. 4 S. 2).</p> + <p>Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also + deutlich enger gefasst, als es ein allgemeiner Verweis auf die öffentliche + Zugänglichmachung (§ 19a UrhG) zur Folge hätte: Sie erlaubt die öffentliche + Zugänglichmachung eines Werks in einer Weise, dass es <quote>Mitgliedern der + Öffentlichkeit von Orten und zu Zeiten ihrer Wahl zugänglich ist</quote>. + Das bedeutet, dass das Werk Personen zugänglich gemacht wird, die der + Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert, + vgl. <ref target="https://www.gesetze-im-internet.de/urhg/__15.html">§ 15 Abs. 3 UrhG</ref>, und die einer <quote>unbestimmten Zahl potentieller + Adressaten</quote> und einer <quote>ziemlich großen Zahl von + Personen</quote> angehören.<note type="footnote"> Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier / + Schulze 2022</ref>, § 15 Randnummer 38 mit Verweis auf den EuGH.</note> Die Erlaubnis, + Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 4 S. 1 + UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter + eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei + Forschungsgruppen handelt es sich in der Regel nicht um eine + Öffentlichkeit,<note type="footnote"> Vgl. <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>, S. 799.</note> + weswegen es auf diese Erlaubnis in den meisten Fällen nicht ankommt.</p> + <p>Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für + die Forschung oder für Überprüfungszwecke erforderlich ist. Die Dauer erfasst + im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn + Jahre,<note type="footnote"> Vgl. Leitlinien zur Sicherung der guten wissenschaftlichen Praxis, + <ref type="bibliography" target="#dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft 2019</ref>, + Leitlinie 17.</note> sie kann im Einzelfall aber auch kürzer oder länger bemessen + sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der + Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.<note + type="footnote"> Vgl. <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>, S. 799.</note> + </p> + <p>Eine Erlaubnis, die Korpora zur Aufbewahrung an + Forschungsinfrastruktureinrichtungen weiterzugeben, ist nicht mehr ausdrücklich + enthalten. Die Weitergabemöglichkeit kann allenfalls mittels einer extensiven + Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von + einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:<note + type="footnote"> Vgl. <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 647.</note> + <quote>Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich + zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und + nicht durch die Forschungseinrichtung selbst erfolgt</quote>.<note + type="footnote"> <ref target="https://dserver.bundestag.de/btd/19/274/1927426.pdf">Bundestagsdrucksache 19/27426</ref>, S. 97.</note> Möglich ist aber in jedem + Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern + bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die + Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man + sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und + vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG).</p> + <p>Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die + Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora + (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)<note + type="footnote"> Etwas anderes kann gelten, wenn die Ursprungsdaten + entsprechend lizenziert sind, vgl. dazu auch <ref + type="intern" target="#hd8">Kapitel 3.2</ref>.</note> so lange aufbewahrt + werden, wie es für Zwecke der Überprüfung der Qualität der wissenschaftlichen + Forschung oder für die Forschung selbst erforderlich ist. Das impliziert, dass + es auch abseits der Überprüfung wissenschaftliches Interesse an den Korpora + geben kann. Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der + Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an + weiterer Beforschung der Korpora bestehen kann:<note type="footnote"> Vgl. + <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 647.</note> + <quote>Die Nutzung zum Zwecke der wissenschaftlichen + Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter + wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte + nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5 + Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese + Bestimmung anwendbar ist.</quote> + <note type="footnote"> Erwägungsgrund 15 S. 5 <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref>.</note> Für eine + Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten + abgeleiteten Textformaten sogenannte <term type="dh">Closed-Room-Zugänge</term> + <note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 4 f.</note> (<ref target="https://www.gesetze-im-internet.de/urhg/__60e.html">§§ 60e Abs. 4</ref>, + <ref target="https://www.gesetze-im-internet.de/urhg/__60f.html">60f UrhG</ref>) und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der + wissenschaftlichen Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese + beiden Optionen dargestellt und gegeneinander abgewogen.</p> + <p>§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen + Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen + Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder + private Studien zugänglich zu machen (sogenannte <term type="dh" + >Terminal-Schranke</term>). Die Nutzer*innen dürfen sogenannte <term + type="dh">Anschlusskopien</term> + <note type="footnote"> Der Terminus ›Anschlusskopie‹ meint, dass sich die + Erlaubnis der Erstellung einer zehnprozentigen Kopie von Nutzer*innen an die + Erlaubnis der Einrichtung, Werke an Terminals zugänglich zu machen, + anschließt; vgl. dazu auch Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60e Randnummer + 21-24.</note> im Umfang von zehn Prozent erstellen. Einzelne Werke geringen + Umfangs<note type="footnote"> Unter ›geringem Umfang‹ werden gemeinhin 25 + Seiten verstanden, vgl. Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60c Randnummer 15, + § 60a Randnummer 22; <ref target="https://dserver.bundestag.de/btd/18/123/1812329.pdf">Bundestagsdrucksache 18/12329</ref>, S. 35.</note> wie Beiträge aus + wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden. + Auf Grundlage des § 60e Abs. 4 UrhG kann also durch Kulturerbe-Einrichtungen + Vollzugriff gewährt werden, außerdem können die Anschlusskopien + interessengerecht erstellt werden. Ein entscheidender Nachteil an § 60e Abs. 4 + UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an + Terminals vor Ort erfolgen kann (sogenannte Closed-room-Zugänge).<note + type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 5.</note> + </p> + <p>Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der + nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier + vorgestellte Konzept stützt. § 60c UrhG basiert auf Art. 5 Abs. 3 lit. a + InfoSoc-Richtlinie, der den EU-Mitgliedsstaaten ermöglicht, in ihrem nationalen + Urheberrecht Erlaubnisse von Vervielfältigungen und öffentlicher + Zugänglichmachung <quote>für Zwecke der wissenschaftlichen Forschung, sofern – + außer in Fällen, in denen sich das als unmöglich erweist – die Quelle, + einschließlich des Namens des Urhebers, wann immer das möglich ist, + angegeben wird und soweit das zur Verfolgung nicht kommerzieller Zwecke + gerechtfertigt ist</quote> vorzusehen. </p> + <p>§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen + wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige + Werke geringen Umfangs zu vervielfältigen und an bestimmt abgegrenzte + Personenkreise für deren eigene wissenschaftliche Forschung öffentlich + zugänglich zu machen, d. h. weiterzugeben. Auf dieser Grundlage können + geschützte Werke auf individuelle Anfrage teils vollständig, teils + auszugsweise, weitergegeben werden, auch digital und ohne Ortsbindung. Nicht + erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu + stellen.<note type="footnote"> Das entspräche einer Einstellung in ein + Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in + <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60c Randnummer 9; <ref target="https://dserver.bundestag.de/btd/15/008/1500837.pdf">Bundestagsdrucksache 15 / 837</ref>, S. 34.</note> + </p> + <p>Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung + erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden + zwei Erlaubnisnormen, die auf unterschiedlichen Richtlinien beruhen (nämlich + einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie), + miteinander kombiniert. Das ist rechtlich möglich.<note type="footnote"> Nach + der <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref> ist es zulässig, weitere Nutzungen der TDM-Korpora auf + die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen + Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref>. Auch die + Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche + Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen + erfüllt sind, EuGH GRUR 2014, 1078 – TU Darmstadt / Ulmer; BGH GRUR 2015, + 1101 – Elektronische Leseplätze II; so bereits <ref type="bibliography" target="#kleinkopf_text_2021">Kleinkopf et al. 2021</ref>, S. + 198f.</note> + </p> + <p>Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den + Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG + vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für + die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung gemäß + § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen finanziellen + Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen rechtmäßigen Zugang + allerdings nicht voraus. Die Vergütung stellt also einen Ausgleich der + urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c UrhG insofern + eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, weswegen sich + das in XSample entwickelte Konzept auf § 60c UrhG stützt.</p> + </div> + <div type="subchapter"> + <head>2.3. Rahmenbedingungen für das Auszugskonzept</head> + + <p>Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an + folgenden rechtlichen Einschränkungen, die von + Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind:</p> + <p> + <hi rend="italic">Einbeziehung der Forschungsinfrastruktureinrichtungen</hi>: + Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und + gegebenenfallsbereitstellen, sollten von Beginn an in die Projektkonzeptionen + integriert werden.</p> + <p> + <hi rend="italic">Aufbewahrungsdauer</hi>: Forscher*innen, die die Korpora + bereitstellen möchten, sollten eine der Forschung angemessenen + Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG + vorgeschlagenen zehn Jahren<note type="footnote"> Leitlinien zur Sicherung + der guten wissenschaftlichen Praxis, <ref type="bibliography" target="#dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft 2019</ref>, Leitlinie 17.</note> abweicht, + sollte eine explizite Begründung erfolgen.</p> + <p> + <hi rend="italic">Inhalt der Korpora</hi>: Die gespeicherten und gegebenenfalls + bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten + enthalten, es sei denn, die betreffende Einrichtung hat hierzu entsprechende + Lizenzen erworben.</p> + <p> + <hi rend="italic">Nachnutzung</hi>: Nachnutzer*innen müssen nicht-kommerzielle, + wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt + abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle + Anfrage. </p> + <p> + <hi rend="italic">Umfang der Korpusauszüge</hi>: Korpusauszüge dürfen maximal + 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus + Zeitschriften (maximal 25 Seiten) können dagegen vollständig herausgegeben + werden.</p> + </div> + </div> + <div type="chapter"> + <head>3. Technische Umsetzung</head> + + <p>Wie im <ref type="intern" target="#hd2">vorigen Kapitel</ref> beschrieben, bedient + sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu + einem Umfang von 15 Prozent eines Werks für Forschungszwecke weiterzugeben. Dieses + Auszugskonzept wurde im Rahmen des Projekts prototypisch implementiert und zielt + insbesondere darauf ab, den Nutzer*innen die für ihre Forschungsfrage + ›hilfreichsten‹ Auszüge zu liefern. Die technische Umsetzung wird im Folgenden + umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (<ref type="intern" + target="#hd7">Kapitel 3.1</ref>) und die im Workflow eingesetzten + Serverkomponenten (<ref type="intern" target="#hd8">Kapitel 3.2</ref>) vorgestellt. + Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs + (<ref type="intern" target="#hd9">Kapitel 3.3</ref>) sowie verschiedene + Möglichkeiten der Auszugsgenerierung (<ref type="intern" target="#hd10">Kapitel + 3.4</ref>) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus + enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal + auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die + Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur + thematisiert (<ref type="intern" target="#hd11">Kapitel 3.5</ref>).</p> + <div type="subchapter"> + <head>3.1 Workflow-Akteur*innen</head> + + <p>XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den + Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / -lieferant*innen und + drittens den Nachnutzer*innen. Infrastrukturbetreiber*innen gehören zu den oben + adressierten Forschungsinfrastruktureinrichtungen und bieten die + infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im + Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der + Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement + zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung + für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen + Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche + gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten + Akteur*innen. Als Datenlieferant*innen werden im XSample-Kontext sämtliche + Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf + geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die + dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten. + Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG + bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten + Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.</p> + </div> + <div type="subchapter"> + <head>3.2 Infrastruktur: Repositorium und Auszugsgenerierung</head> + + <p>Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum + Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der + Verwaltung der Infrastrukturbetreiber*innen und verfügen über jeweils eigene + Weboberflächen.</p> + <p>Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und + eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine + Dataverse-Instanz realisiert. Die <ref target="https://dataverse.org/" + >Dataverse</ref> Software ist ein Open-Source-Projekt auf Basis des <ref + target="https://github.com/jakartaee/faces">JSF-Frameworks</ref> mit einer + aktiven Community aus Entwickler*innen und regelmäßigen Nutzer*innen. Dataverse + bietet die Möglichkeit, abgelegte Daten auf verschiedene Weise zu organisieren + oder zu gruppieren, und verfügt überdies über eine Rechteverwaltung, die es + erlaubt, bis auf die Ebene einzelner Datensätze zu entscheiden, ob ein komplett + öffentlicher Zugang (<term type="dh">Public Domain</term>), das Teilen mit + einzelnen Individuen oder Gruppen (<term type="dh">Shared Domain</term>), oder + eine für andere uneinsehbare Ablage (<term type="dh">Private Domain</term>) + gewünscht ist. Dies ist im Kontext von XSample besonders relevant, da zwar + während eines laufenden Forschungsprojekts § 60d UrhG das Teilen der Daten + innerhalb von Forschungsgruppen und zu Überprüfungszwecken erlaubt (Shared + Domain), allerdings nach Projektende diese in ihrer Gesamtheit nicht mehr + (ausdrücklich) öffentlich zugänglich gemacht oder geteilt werden dürfen + (Private Domain). Zusätzlich unterscheidet Dataverse zwischen der + Auffindbarkeit von Ressourcen und dem direkten Zugriff auf dieselben. Somit + lassen sich die Metadaten als eigenständiger Datensatz veröffentlichen, während + die eigentlichen Dateien innerhalb des Datensatzes aber vor jeglichem direkten + Zugriff abgeschirmt sind.</p> + <p>Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die + zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer + Weboberfläche durch die individuelle Auszugskonfiguration und stellt am Ende + des XSample-Workflows die im Auszug enthaltenen Daten als Download zur + Verfügung. Dieser Server basiert ebenfalls auf JSF und kommuniziert mit der + Dataverse-Instanz über eine Webschnittstelle, um auf dort abgelegte Ressourcen + und Metadaten zuzugreifen. Um auf nicht-öffentliche Datensätze zugreifen zu + können, benötigt der XSample-Server einen eigenen Account für das entsprechende + Dataverse, der allerdings nur Leserechte beinhalten muss, denn der + XSample-Server selbst schreibt oder modifiziert keine Daten im Repositorium. + Zur Integration des Servers in die bestehende Dataverse-Infrastruktur wird + dieser in der Dataverse-Instanz als sogenanntes <ref + target="https://guides.dataverse.org/en/latest/api/external-tools.html" + >external tool</ref> registriert. Diese Schnittstelle in Dataverse + ermöglicht es, für bestimmte Dateitypen oder Datensätze externe Server zu + registrieren, die den Nutzer*innen dann als zusätzliche Optionen neben Download + oder Betrachtung angezeigt werden (vgl.<ref type="graphic" + target="#nachnutzung_2021_002"> Abbildung 2</ref>). Dies ermöglicht eine + Integration der XSample-Komponenten, ohne Code-Modifikationen an Dataverse + vornehmen zu müssen, und erlaubt überdies, komplett auf eine eigene + Authentifizierung von Nutzer*innen von Seiten des XSample-Servers zu + verzichten, da diese bereits bei Dataverse vorgeschaltet ist. Auf diese Weise + werden die zur Nachverfolgung der Nutzer*innen nötigen Daten bei der + Weiterleitung zum XSample-Server sogleich mit übermittelt.</p> + </div> + <div type="subchapter"> + <head>3.3 Datenaufbereitung für die Auszugsgenerierung</head> + + <p>Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere + Vorbereitungsschritte notwendig:</p> + <p> + <hi rend="italic">Zulässige Formate</hi>: Alle für die Auszüge zu verwendenden + Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich + (Private Domain) des Repositoriums abgelegt werden. Im Kontext der + Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für + Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und + <term type="dh">CoNLL</term>-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte + Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen + und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke + Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen, + wie in <ref type="intern" target="#hd5">Kapitel 2.3</ref> beschrieben.</p> + <p> + <hi rend="italic">Alignierung</hi>: Neben den reinen Annotationen im Korpus + muss auch eine Abbildung einzelner Annotationen auf die zugrunde liegenden + Segmente der Ursprungsdaten geliefert werden, um beide innerhalb von XSample + alignieren zu können. Da beispielsweise im Fall von Dateien im PDF-Format + Auszüge zwangsläufig als Sammlung vollständiger Seiten erzeugt werden und die + Zusammensetzung der Auszüge mittels Suchanfragen auf Basis der Annotationen + gesteuert werden kann, müssen diese Annotationen (bzw. die dazugehörigen + Suchergebnisse) auf die ursprünglichen Seiten abbildbar sein. Aktuell sieht der + XSample-Prototyp für diese Alignierung entweder die Verwendung zusätzlicher + Annotationsebenen direkt im Korpus vor, oder aber das Erstellen und Mitliefern + zusätzlicher tabellarischer Dateien, welche eine simple Abbildung relevanter + Segmentierungseinheiten seitens der Annotationen (z. B. Sätze) auf die primären + Segmente der Ursprungsdaten enthält. Abhängig vom jeweiligen Projektinhalt und + dem Anteil manueller Vorverarbeitung kann dieser Vorbereitungsschritt eine + große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant + werden, damit die notwendigen und nicht selten ›format-fremden‹<note + type="footnote"> Metainformationen wie Seitenzahlen auf der Ebene von Sätzen + oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder + Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen Aufwand, bzw. + spezielle Anpassungen.</note> Informationen nicht im Forschungsprozess + verloren gehen und entweder durch manuellen Zusatzaufwand oder Anpassung + automatischer Verarbeitungsschritte wiederhergestellt werden müssen. Die Ablage + der Alignierungsinformationen erfolgt analog zu obigen Ursprungs- und + Annotationsdateien in einem nicht-öffentlichen Bereich.</p> + <p> + <hi rend="italic">Erzeugung eines Manifests</hi>: Als letztes muss ein + sogenanntes XSample-Manifest (siehe Beispielcode unten) erzeugt und im + Repositorium abgelegt werden. Dieses Manifest ist eine Datei im <ref + target="https://json-ld.org/">JSON-LD</ref> Format, die Metadaten zu den + einzelnen für die weitere Verarbeitung relevanten Ressourcen im Korpus enthält. + Primär bestehen diese Informationen aus Angaben zum Ablageort, Format und + Umfang einzelner Dateien. Daneben sind aber auch Informationen zu + Rechteinhaber*innen der einzelnen Werke im Korpus enthalten, damit der + XSample-Server bei der Auszugsgenerierung der Namensnennungspflicht nachkommen + kann. Im Manifest kann zusätzlich ein fixer Bereich für die statische + Auszugsgenerierung festgelegt werden. Dies erlaubt es Datenlieferant*innen + beispielsweise, besonders interessante Passagen als Teil des Standard-Auszugs + zu definieren. Der Umfang des statisch definierten Auszugs muss nicht + zwangsläufig die vollen 15 Prozent ausschöpfen, wenn interessante Inhalte auch + in Auszügen geringeren Umfangs präsentiert werden können. Somit können + Nachnutzer*innen den Rest ihrer Quote beispielsweise für zielgerichtete + Varianten der Auszugserstellung nutzen. Derzeit erfolgt die Erstellung eines + XSample-Manifests komplett händisch. Als zukünftige Erweiterung ist ein + Assistent geplant, der Datenlieferant*innen auf der XSample-Webseite dabei + helfen soll, Inhalte für Manifeste zu definieren, ohne direkt im JSON-LD-Format + schreiben zu müssen. Im Gegensatz zu den restlichen Dateien muss das Manifest + öffentlich auffindbar sein (Shared oder Public Domain), um den Nachnutzer*innen + als Einstiegspunkt für die Auszugsgenerierung zu dienen. Da Dataverse für + veröffentlichte Ressourcen DOIs (<term type="dh">Digital Object + Identifier</term>) vergibt und ein breites Spektrum an deskriptiven + Metadaten unterstützt, kann ein Manifest auch zu Zitationszwecken oder + allgemein zur Verlinkung des damit verbundenen Korpus genutzt werden. Es + fungiert somit als öffentlicher Platzhalter für die nicht direkt einsehbaren + geschützten Korpusinhalte.</p> + <p>Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu + Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten für die + statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine + 100-seitige PDF-Datei (verlinkt im <code>"xmp:primaryData"</code>-Block), bei + der die ersten 10 Prozent im Falle von statischer Auszugsgenerierung geliefert + werden sollen (spezifiziert im <code>"xmp:staticExcerpt"</code>-Block). Aus + Platzgründen ist der <code>"xmp:manifests"</code>-Block für zusätzliche + Korpus-Metadaten ohne Inhalt dargestellt: </p> + <p> + <code>{ "@type": "xmp:manifest", "@context": + "http://www.uni-stuttgart.de/xsample/json-ld/manifest", "xmp:description": + "Plain manifest with no customization (first 10%)", "xmp:corpora": [ { + "@type": "xmp:corpus", "xmp:primaryData": { "@type": "xmp:dataverseFile", + "xmp:segments": 100, "xmp:sourceType": "xmp:pdf", "xmp:id": 26 }, + "xmp:legalNote": { "@type": "xmp:legalNote", "xmp:author": "The XSample + Team", "xmp:title": "XSample Test Corpus", "xmp:publisher": "The XSample + Project", "xmp:year": 2021 }, "xmp:description": "100 page test corpus", + "xmp:id": "root" } ], "xmp:staticExcerpt": { "@type": "xmp:span", + "xmp:begin": 0, "xmp:end": 10, "xmp:spanType": "xmp:relative" }, + "xmp:manifests": []}</code> + </p> + <p>Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die + Dataverse-Oberfläche (<ref type="graphic" target="#nachnutzung_2021_002">Abbildung + 2</ref>) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese + durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die + Nachnutzer*innen auf den XSample-Server (<ref type="graphic" + target="#nachnutzung_2021_003">Abbildung 3</ref>) weitergeleitet werden, wo die + eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen + Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten + Werkes ausgegeben werden dürfen und diese Obergrenze auch über wiederholte + Anfragen hinweg eingehalten werden muss, bedarf es einer sehr genauen + Protokollierung bereits ausgegebener Auszüge. Zu diesem Zweck werden die + eindeutig identifizierbaren Dataverse-Accounts verwendet, was wiederum zur + Folge hat, dass zur Nutzung des XSample-Services zwingend ein Account im + jeweils verknüpften Dataverse-Repositorium notwendig ist und unregistrierte + Dritte keinen Zugriff erhalten können.</p> + <figure> + <graphic xml:id="nachnutzung_2021_002" + url=".../medien/nachnutzung_2021_002.png"> + <desc> + <ref type="graphic" target="#abb2">Abb. 2</ref>: Dataverse-Oberfläche für + ein XSample-Manifest. Rechts unten kann die Weiterleitung auf den + XSample-Server angestoßen werden. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref + type="graphic" target="#nachnutzung_2021_002"/> + </desc> + </graphic> + </figure> + </div> + + <div type="subchapter"> + <head>3.4 Auswahl der Auszüge</head> + <figure> + <graphic xml:id="nachnutzung_2021_003" + url=".../medien/nachnutzung_2021_003.png"> + <desc> + <ref type="graphic" target="#abb3">Abb. 3</ref>: Startseite des + XSample-Servers nach Weiterleitung aus dem zugehörigen Dataverse und + Validierung der Manifest-Datei. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" + target="#nachnutzung_2021_003"/> + </desc> + </graphic> + </figure> + <p>Nach der Weiterleitung auf den XSample-Server erfolgt zunächst eine Validierung + des Manifests auf formale Korrektheit und Verfügbarkeit der verlinkten + (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen + drei Arten der Auszugsgenerierung (vgl. <ref type="graphic" + target="#nachnutzung_2021_003">Abbildung 3</ref>, unten links) auszuwählen: Als + simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die + ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt + werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht, + bietet die zweite Alternative (vgl.<ref type="graphic" target="#nachnutzung_2021_004" + > Abbildung 4</ref>) die Möglichkeit, die Auszugsgrenzen innerhalb der + Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird + eine zusammenhängende Sequenz an Seiten / Segmenten geliefert.</p> + <figure> + <graphic xml:id="nachnutzung_2021_004" + url=".../medien/nachnutzung_2021_004.png"> + <desc> + <ref type="graphic" target="#abb4">Abb. 4</ref>: Grafische Oberfläche zur + flexiblen Auswahl der Auszugsgrenzen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref + type="graphic" target="#nachnutzung_2021_004"/> + </desc> + </graphic> + </figure> + + <p>Die ersten beiden Verfahren der Auszugsgenerierung bieten den Nachnutzer*innen + verhältnismäßig wenig Flexibilität bei der Auswahl der Textausschnitte, sodass + sie für bestimmte Forschungsanliegen ungeeignet sind. Dies ist insbesondere + dann der Fall, wenn sich die Nutzer*innen nur für sehr spezifische Phänomene + oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte + Alternative eine Korpusanfrageschnittstelle<note type="footnote"> Vgl. <ref type="bibliography" target="#gaertner_corpus_2020">Gärtner + 2020</ref>.</note> integriert, die Suchanfragen auf Basis der im Korpus + enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt + bestimmte syntaktische Konstruktionen finden<note type="footnote"> Sofern + entsprechende Annotationen vorliegen.</note>, die dann als Kandidaten für + die Auszugserstellung genutzt werden (vgl. <ref type="graphic" + target="#nachnutzung_2021_005">Abbildung 5</ref>). Basierend auf diesen + Suchergebnissen und den Alignierungsinformationen werden die auszugebenden + Segmente der Primärdaten (zumeist Seiten) bestimmt. Somit lässt sich + sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der + Nutzer*innen zugeschnitten sind.</p> + <figure> + <graphic xml:id="nachnutzung_2021_005" + url=".../medien/nachnutzung_2021_005.png"> + <desc> + <ref type="graphic" target="#abb5">Abb. 5</ref>: Exemplarische Oberfläche + zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen + Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird + direkt visualisiert und Nutzer*innen anschließend die Möglichkeit + gegeben, die für sie relevanten Segmente exakt auszuwählen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" target="#nachnutzung_2021_005"/> + </desc> + </graphic> + </figure> + </div> + <div type="subchapter"> + <head>3.5 Nachhaltigkeit</head> + + <p>Um eine langfristige Nachnutzung des XSample-Servers zu gewährleisten, muss + dieser dauerhaft an der Universitätsbibliothek Stuttgart (in ihrer Rolle als + Forschungsinfrastruktureinrichtung) als Dienst zur Verfügung stehen. Wie in + <ref type="intern" target="#hd8">Kapitel 3.2</ref> beschrieben, wird an der + Universität Stuttgart ein Datenrepositorium auf Basis von Dataverse eingesetzt. + Das Datenrepositorium der Universität Stuttgart (<ref target="https://darus.uni-stuttgart.de/">DaRUS</ref>) steht bereits als + etablierter Dienst zur Verfügung. Mit dem XSample-Server zur Auszugsgenerierung + kommt ein weiterer Dienst hinzu, der ebenfalls gewartet und weiterentwickelt + werden muss. Bisher läuft dieser Dienst nicht im Produktivbetrieb, eine + Verstetigung wird angestrebt. Dazu wird gerade im + Forschungsdatenmanagement-Team ein Betriebskonzept für Code-Output von + Forschungsprojekten erarbeitet. Während der Projektphase sollen die technischen + Abhängigkeiten und notwendigen Informationen über den Code dokumentiert werden, + darüber hinaus muss eine fachliche Ansprechperson benannt werden, die auch noch + nach Projektende inhaltlich Auskunft geben kann. In einer zweiten Phase nach + Projektende startet eine Bewährungsphase, in der evaluiert wird, ob der Dienst + genutzt wird. In dieser Phase finden notwendige Wartungen statt. Damit soll + verhindert werden, dass die Anwendung nach Projektende nicht mehr weiter + nutzbar ist. Da aber nicht alle Dienste weiterentwickelt und gepflegt werden + können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben.</p> + <p>Die Software für den Prototypen ist open-source öffentlich verfügbar und kann + somit auch von anderen Einrichtungen genutzt werden, um eine eigene Instanz des + XSample-Servers zu betreiben. Neben einem laufenden Dataverse-Server wird + lediglich eine SQL-basierte Datenbank benötigt, um den XSample-Server in + bestehende Infrastruktur integrieren zu können. Die Anforderungen an + Rechenleistung und Speicherplatz für den Prototypen sind hierbei + überschaubar.</p> + <p>Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt, + der XSample-Workflow lässt sich aber auf beliebige Repositoriensoftware mit + ähnlichen Eigenschaften übertragen. Entsprechend kann mit mäßigem Aufwand auch + der XSample-Server angepasst werden, um mit anderen Repositorien interagieren + zu können. Etwas komplexer gestaltet sich die Unterstützung zusätzlicher + Formate, da hierbei sichergestellt werden muss, dass sowohl die Implementierung + des XSample-Servers selbst als auch die Korpusanfrageschnittstelle im + Hintergrund ein gegebenes Format lesen können. Im Falle der Auszugskomponente + im XSample-Server kommt noch das Schreiben der im Auszug enthaltenen Daten im + entsprechenden Format hinzu. </p> + </div> + </div> + <div type="chapter"> + <head>4. Nutzungsszenarien</head> + + <p>Der Bedarfsermittlung und Erprobung der XSample-Infrastruktur dienen zwei + Anwendungsfälle aus Linguistik und Literaturwissenschaft, anhand derer die + konkrete Umsetzung vor dem Hintergrund möglicher (Nach-)Nutzungsszenarien + veranschaulicht wird. Der Fokus liegt dabei auf den jeweiligen Vor- und Nachteilen + des Auszugsverfahrens im Vergleich zum Prinzip der abgeleiteten Textformate.</p> + <div type="subchapter"> + <head>4.1 Erstes Nutzungsszenario: Wissenschaftssprache</head> + + <p>Das erste Nutzungsszenario beschäftigt sich mit den Wissenschaftssprachen der + Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich + dabei um die Replikation einer Studie<note type="footnote"> Bei der + Originalstudie handelt es sich um <ref type="bibliography" target="#andresen_sprachbeschreibung_2022">Andresen 2022</ref>.</note> zur Frage, wie sich + die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander + unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30 + Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden + Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem + Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der + deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer + Merkmale der beiden Disziplinen. In der Replikationsstudie werden im + Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung + der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln. + Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre + Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen + Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie + werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als + repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten + können. Zweitens wird die Datengrundlage um die Philosophie als drittes + geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft + und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im + Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches + ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der + Geisteswissenschaften im Allgemeinen zu treffen.</p> + <p>Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach. + Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen + Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im + CoNLL-Format an der Universitätsbibliothek Stuttgart + gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den + Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den + annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen + werden kann, müssen hierbei Informationen zur Alignierung der beiden + Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies + in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend + nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im + PDF-Dokument er zu finden ist. </p> + <p>Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (<term + type="dh">Unigramme</term>), während die vorausgehende Studie<note + type="footnote"> Vgl. <ref type="bibliography" target="#andresen_sprachbeschreibung_2022">Andresen 2022</ref>.</note> einen besonderen Schwerpunkt auf + Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet + werden. Hiervon abgesehen orientiert sich die Replikationsstudie in + methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale + mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise + ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der <term + type="dh">Support-Vector-Machine</term> (SVM) ein Klassifikator trainiert, + der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. + Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die + für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe + war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in <ref + type="graphic" target="#tab01">Tabelle 1</ref> erstellt, das die + größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der + zweite Schritt der Analyse besteht dann in der Interpretation dieses + Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den + Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der + Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet + arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen + zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus + notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet + wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der + Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den + vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen + Zusammenhang setzen und gegebenenfalls erklären zu können.</p> + <table> + <row> + <cell>Rang</cell> + <cell>Philosophie</cell> + <cell>Score</cell> + <cell>Literaturwissenschaft</cell> + </row> + <row> + <cell>1</cell> + <cell/> + <cell>-77,07</cell> + <cell>ADJA</cell> + </row> + <row> + <cell>2</cell> + <cell>PPER</cell> + <cell>38,19</cell> + <cell/> + </row> + <row> + <cell>3</cell> + <cell/> + <cell>-34,98</cell> + <cell>NE</cell> + </row> + <row> + <cell>4</cell> + <cell/> + <cell>-33,23</cell> + <cell>VVFIN</cell> + </row> + <row> + <cell>5</cell> + <cell>PDAT</cell> + <cell>29,00</cell> + <cell/> + </row> + <row> + <cell>6</cell> + <cell>FM</cell> + <cell>20,20</cell> + <cell/> + </row> + <row> + <cell>7</cell> + <cell>VAFIN</cell> + <cell>17,55</cell> + <cell/> + </row> + <row> + <cell>8</cell> + <cell>KON</cell> + <cell>14,84</cell> + <cell/> + </row> + <row> + <cell>9</cell> + <cell>PDS</cell> + <cell>12,39</cell> + <cell/> + </row> + <row> + <cell>10</cell> + <cell>PROAV</cell> + <cell>12,10</cell> + <cell/> + </row> + <row> + <cell>11</cell> + <cell/> + <cell>-11,65</cell> + <cell>PRF</cell> + </row> + <row> + <cell>12</cell> + <cell>PPOSAT</cell> + <cell>11,18</cell> + <cell/> + </row> + <row> + <cell>13</cell> + <cell/> + <cell>-10,73</cell> + <cell>ART</cell> + </row> + <row> + <cell>14</cell> + <cell/> + <cell>-10,16</cell> + <cell>VVPP</cell> + </row> + <row> + <cell>15</cell> + <cell/> + <cell>-8,10</cell> + <cell>VVINF</cell> + </row> + <trailer xml:id="tab01"> + <ref type="intern" target="#tab1">Tab. 1</ref>: Die distinktivsten + Wortarten für die Unterscheidung von Philosophie und Literaturwissenschaft + im Sinne der SVM. Das verwendete Tagset ist das STTS (<ref type="bibliography" target="#schiller_guidelines_1999">Schiller et al. + 1999</ref>). [Andresen 2022] <ref type="graphic" + target="#nachnutzung_2021_t1"/> + </trailer> + </table> + + <p>Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des + Pronomens <term type="figure">wir</term> in den drei Disziplinen + veranschaulicht. Im Zuge dessen wird auch diskutiert, welche Daten zur + Überprüfung und Re-Validierung der Analyseresultate vonnöten sind.</p> + <p> + <ref type="graphic" target="#tab01">Tabelle 1</ref> zeigt das Ranking + der 15 distinktivsten Wortarten für den Vergleich von Philosophie und + Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante + Rückschlüsse auf die Unterschiede zwischen den Wissenschaftssprachen der beiden + Disziplinen ziehen lassen, wird hier nur ein Merkmal in den Fokus genommen: Im + Vergleich mit der Literaturwissenschaft zeichnet sich die Philosophie durch + eine hohe Verwendungsfrequenz von Personalpronomen (PPER) aus. Der zusätzliche + Rückgriff auf die <term type="dh">Token</term>-Ebene zeigt, dass dieser + Unterschied insbesondere durch die Pronomen <term type="figure">wir</term> und + <term type="figure">es</term> erzeugt wird. Dies wird hier zum Anlass + genommen, die fachspezifische (bzw. gegebenenfalls auch + zeitschriften-spezifische) <term type="figure">wir</term>-Verwendung + differenzierter zu betrachten. Zu diesem Zwecke wurde aus jedem Korpus eine + Stichprobe von 100 Sätzen, in denen <term type="figure">wir</term> verwendet + wird, nach dem Zufallsprinzip ausgewählt und manuell klassifiziert. Dabei wurde + auf die Klassifikation von <term type="figure">wir</term>-Verwendungen im + deutschsprachigen akademischen Diskurs von Kresta<note type="footnote"> Vgl. + <ref type="bibliography" target="#kresta_realisierungsformen_1995">Kresta 1995</ref>, S.130–147, vgl. auch + <ref type="bibliography" target="#steinhoff_textkompetenz_2007">Steinhoff 2007</ref>, S. 206f.</note> + zurückgegriffen. Kresta unterscheidet vier Gebrauchsweisen von <term + type="figure">wir</term> in deutschsprachigen akademischen Texten: Das + Pronomen wird verwendet, </p> + <list type="unordered"> + <item>a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen + (Autor*innen-<term type="figure">wir</term>), </item> + <item>b.) um ein Kollektiv, bestehend aus Verfasser*innen und Leser*innen eines + Textes, zu bezeichnen (Teamwork-<term type="figure">wir</term>), </item> + <item>c.) zur Bezeichnung fachspezifischer Kollektiva aus akademischen + Verfasser*innen und Leser*innen (Fachkreis-<term type="figure">wir</term>) + sowie </item> + <item>d.) um auf alle Menschen zu referieren (Gemeinschafts-<term type="figure" + >wir</term>).</item> + </list> + <p>Die Stichproben zeigen (vgl. <ref type="graphic" target="#tab02" + >Tabelle 2</ref>) in den Texten fachspezifische Muster der <term + type="figure">wir</term>-Verwendungen: So sind sich die + literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in + beiden Gruppen die Verwendung des Gemeinschafts-<term type="figure">wir</term> + dominiert, während in den linguistischen Aufsätzen die Verwendung des + Autor*innen-<term type="figure">wir</term> vorherrscht. Die Dominanz des + Autor*innen-<term type="figure">wir</term> in der Linguistik lässt sich + dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren + Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der + Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die + Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des + Gemeinschafts-<term type="figure">wir</term> mag hingegen verwundern, da die + beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen. + Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen + Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt + desselben.<note type="footnote"> Vgl. zum Beispiel Jürgen Habermas’ Kritik + an der <bibl> + <title type="desc">Einebnung des Gattungsunterschiedes zwischen + Philosophie und Literatur</title> + </bibl>, <ref type="bibliography" target="#habermas_diskurs_1998">Habermas 1988</ref>, S. 217.</note> Eine Auswertung der konkreten + Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um + unterschiedlich geartete Manifestationen des Gemeinschafts-<term type="figure" + >wir</term> handelt, die man wiederum mit landläufigen Kennzeichen der + beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus + der Philosophie ein Gebrauch des Gemeinschafts-<term type="figure">wir</term> + der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und + Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der + Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und + Interpretation von Texten sind, wird in 31 der 54 Verwendungen des + Gemeinschafts-<term type="figure">wir</term> genau auf jene Praxis + verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird (siehe Beispiel + 3), weswegen in diesem Fall auch vom Leser*innen-<term type="figure">wir</term> + gesprochen werden kann.</p> + <table> + <row> + <cell/> + <cell>Linguistik</cell> + <cell>Philosophie</cell> + <cell>Literaturwissenschaft</cell> + </row> + <row> + <cell>Autor*innen-<term type="figure">wir</term> + </cell> + <cell>58</cell> + <cell>7</cell> + <cell>11</cell> + </row> + <row> + <cell>Teamwork-<term type="figure">wir</term> + </cell> + <cell>32</cell> + <cell>31</cell> + <cell>16</cell> + </row> + <row> + <cell>Fachkreis-<term type="figure">wir</term> + </cell> + <cell>3</cell> + <cell>10</cell> + <cell>17</cell> + </row> + <row> + <cell>Gemeinschafts-<term type="figure">wir</term> + </cell> + <cell>7</cell> + <cell>48</cell> + <cell>54</cell> + </row> + <row> + <cell> davon: Leser*innen-<term type="figure">wir</term> + </cell> + <cell/> + <cell/> + <cell>(31)</cell> + </row> + <row> + <cell>Sonstige</cell> + <cell>–</cell> + <cell>4</cell> + <cell>2</cell> + </row> + <trailer xml:id="tab02"> + <ref type="intern" target="#tab2">Tab. 2</ref>: Manuelle Kategorisierung + der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022] <ref type="graphic" target="#nachnutzung_2021_t2"/> + </trailer> + </table> + + <p>Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung + unterschiedlichen <term type="figure">wir</term>-Verwendungen dienen: </p> + <list type="ordered"> + <item>Im Folgenden werden <hi rend="bold">wir </hi>die Datengrundlage näher + erläutern und anschließend kurz auf die von uns verwendeten + korpuspragmatischen Analysewerkzeuge eingehen. (Lin_16)</item> + <item>Diese Fähigkeit wird im Gegenteil schrittweise erlernt bzw. angeeignet – + so wie <hi rend="bold">wir </hi>z. B. unsere Muttersprache lernen oder + aneignen – nämlich durch einen Prozess der ›unbewussten induktiven + Schlussfolgerung‹, die auf Regelmäßigkeiten oder Assoziationen unter unseren + Sinneswahrnehmungen zurückzuführen ist. (Philo_33)</item> + <item>Zugespitzt könnte man sagen, dass der Begriff ›literarische Präsenz‹ ein + Widerspruch in sich ist, weil die Erzählung zwar von den Präsenzerfahrungen + ihrer Figuren erzählen kann, doch diese stets allein auf der Ebene der + histoire ›präsent‹ sind, präsent also für den Erzähler – doch <hi + rend="bold">wir</hi>, die Leser, sind nicht der Erzähler; [...] + (Lit_03)</item> + </list> + <p>Vor dem Hintergrund möglicher Nachnutzungsszenarien lassen sich für das erste + Nutzungsszenario verschiedene Datenbedarfe feststellen, die mit + unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete + Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form + von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der + Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt + reproduziert werden.<note type="footnote"> Der Schritt von den Originaldaten zu + den Frequenzdaten kann weder auf Grundlage dieser Daten noch basierend auf + Auszügen überprüft werden. Das ist bedauerlich, da bereits in dieser Phase + richtungsweisende Entscheidungen getroffen werden (Findet eine + Lemmatisierung statt? Werden Stoppwörter ausgeschlossen? Werden bestimmte + Teile der Originaltexte nicht einbezogen? etc.).</note> Außerdem ist es etwa + möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer + Verfahren zu ermitteln und methodische Vergleiche anzustellen. Naturgemäß wird + die weiterführende Analyse auf genau solche Frequenzen eingeschränkt, die auch + zur Verfügung gestellt werden. Eine flexible Anpassung der n-Gramme (etwa ihrer + Länge oder der Art ihrer Generierung) ist nicht ohne weiteres möglich, im + Großen und Ganzen werden die Bedarfe dieser Analysephase aber durch abgeleitete + Textformate gedeckt.</p> + <p>Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen + nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu + können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext + zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des + untersuchten Phänomens ab. Für die <term type="figure">wir</term>-Analyse + wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest + stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz + ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen + treffen und nachvollziehbar machen zu können.</p> + </div> + <div> + <p></p> + <p></p> + <p></p> + <p></p> + </div> + <div type="subchapter"> + <head>4.2 Zweites Nutzungsszenario: Unzuverlässiges Erzählen</head> + + <p>Der zweite Anwendungsfall setzt sich mit dem Phänomen des unzuverlässigen + Erzählens (genauer: mit faktenbezogener Unzuverlässigkeit) auseinander, das in + einigen literarischen Erzählungen auftritt. Faktenbezogenes unzuverlässiges + Erzählen liegt in einem fiktionalen Text dann vor, wenn die Erzählinstanz + unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen + über die Fakten oder Ereignisse der erzählten Welt tätigt.<note type="footnote" + > Vgl. <ref type="bibliography" target="#martinez_einfuehrung_2009">MartÃnez / Scheffel 2009</ref>, S. 100; + <ref type="bibliography" target="#kindt_erzaehlen_2008">Kindt 2008</ref>, S. 48.</note> + </p> + <p>Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um + eine Replikationsstudie, sondern um eine Pilotstudie zu einem kürzlich + gestarteten, auf drei Jahre ausgelegten Forschungsprojekt (<ref + target="https://dfg-spp-cls.github.io/projects_en/2020/01/24/TP-Caution/" + >CAUTION</ref>), das der Untersuchung der Schluss- und + Argumentationsprozesse bei der Identifikation unzuverlässigen Erzählens durch + Literaturwissenschaftler*innen bzw. Leser*innen gewidmet ist. Unzuverlässiges + Erzählen gilt in der Literaturwissenschaft einerseits als stark + interpretationsabhängiges Phänomen,<note type="footnote"> Vgl. <ref type="bibliography" target="#yacobi_reliability_1981">Yacobi 1981</ref>; + <ref type="bibliography" target="#nuenning_unreliable_1999">Nünning 1999</ref>.</note> andererseits listet die Forschung zahlreiche + sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen + können.<note type="footnote"> Vgl. <ref type="bibliography" target="#nuenning_narration_1998">Nünning 1998</ref>; + <ref type="bibliography" target="#allrath_signale_1998">Allrath 1998</ref>.</note> + Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen + sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen, + der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In + diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation<note + type="footnote"> Vgl. <ref type="bibliography" target="#folde_interpretation_2015">Folde 2015</ref>, S. 366.</note> des Textes, d. h. sie + bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was + falsch ist.</p> + <p>Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw. + Zuschreibung unzuverlässigen Erzählens systematisch untersuchen zu können, sind + in einer ersten Annäherung folgende Teilfragen relevant: </p> + <list type="ordered"> + <item>Welche Erzähler*innen bzw. Figuren treten in einer Erzählung auf? </item> + <item>Welche Äußerungen über die fiktive Welt der Erzählung treffen diese + Instanzen? </item> + <item>Welche dieser Äußerungen betreffen Propositionen, deren Zutreffen in der + fiktiven Welt in Frage steht? </item> + <item>Wie positionieren sich die relevanten Instanzen zu diesen Propositionen? </item> + <item>Gibt es textuelle Hinweise auf die Vertrauens(un)würdigkeit der + relevanten Instanzen?</item> + </list> + <p>Zur Beantwortung dieser Fragen wird im Rahmen des zweiten Nutzungsszenarios + explorativ-heuristisch eine Mischung aus automatisierten Text-Mining-Verfahren + und manueller Annotation auf ein Testkorpus aus vier kurzen bis mittellangen + Erzählungen und vier langen Erzählungen aus dem 19. bis 21. Jahrhundert + angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur + Erkennung von Named Entities<note type="footnote"> Verwendet wurde hier der + <ref target="https://nlp.stanford.edu/software/CRF-NER.shtml">Stanford Named Entity + Recognizer</ref>.</note> und <term type="dh">Redewiedergabe</term> + <note type="footnote"> Für die Erkennung von direkter Rede wurde ein simpler + Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert; + indirekte Rede wurde mithilfe eines verfügbaren <ref + target="https://github.com/redewiedergabe/tagger">Taggers</ref> annotiert. Alle erzeugten Annotationen wurden anschließend gesichtet und + gegebenenfalls korrigiert.</note> verwendet, zusätzlich wurden Koreferenzen + exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der + Untersuchung genuin literaturwissenschaftlicher Konzepte oft notwendig ist – + zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen + manueller Annotation auf die Texte angewandt wird.<note type="footnote"> Für + die manuelle Annotation wurde die Annotations- und Analyseumgebung <ref + target="https://catma.de/">CATMA</ref> verwendet.</note> Für Frage (5) + wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in + den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für + deren Erkennung eine Kombination aus automatischer <term type="dh" + >Sentimentanalyse</term> + <note type="footnote"> Zum Einsatz kam hier SentText, vgl. <ref type="bibliography" target="#schmidt_tool_2021">Schmidt et al. 2021</ref>. + </note> und manueller <term type="dh">Emotionsanalyse</term> + eingesetzt wird.</p> + <p>Für den Einsatz computergestützter Verfahren in der Literaturwissenschaft ist + oft erheblicher Entwicklungsaufwand notwendig, sowohl konzeptionell im Rahmen + der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch + technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.<note + type="footnote"> Vgl. <ref type="bibliography" target="#gius_textanalysen_2019">Gius 2019</ref>; + <ref type="bibliography" target="#pichler_operationalisierung_2021">Pichler / Reiter 2021</ref>.</note> Deswegen kann + es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete + Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der + Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein + Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein. + Generell ist Forschung im Bereich der Digital Humanities (und besonders im + Bereich der <term type="dh">Computational Literary Studies</term>) stärker als + in den traditionellen Geisteswissenschaften durch <quote>Prozessualität, + Vorläufigkeit und ›Nichtwissen‹</quote> + <note type="footnote"> <ref type="bibliography" target="#schruhl_objektumgangsnormen">Schruhl 2018</ref>.</note> gekennzeichnet. Dies lässt sich + durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte + der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar) + werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft + implizit bleiben.</p> + <p>Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte + also hauptsächlich dem Zweck, einen Einblick in den Operationalisierungsprozess + der übergeordneten literaturwissenschaftlichen Fragestellung zu erhalten, oder + ist dem Interesse an bestimmten Einzelphänomenen (etwa dem Sentiment) + geschuldet. Nachnutzer*innen können beispielsweise prüfen, inwieweit die + eingesetzten Text-Mining-Verfahren bereits für die Anwendung auf literarischen + Texten adäquat sind oder ob die für die manuelle Annotation entwickelten + Annotationsschemata geeignet sind, die im Fokus stehenden literarischen + Phänomene zu fassen.</p> + <p>Für die Form, in der die Textdaten Dritten zugänglich gemacht werden sollten, + bedeutet das im vorliegenden Zusammenhang Folgendes:</p> + <list type="ordered"> + <item> + <hi rend="italic">Named Entity Recognition</hi>: Inwieweit die <term + type="dh">Named Entity Recognition</term> (mit zu diesem Zeitpunkt noch + nicht eigens für das Korpus trainierten Modellen) auf literarischen Texten + zu brauchbaren Ergebnissen führt, kann unter Umständen noch teilweise + mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter + Formate<note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>.</note>) geprüft + werden. Zusätzlich können Nachnutzer*nnen sich damit ebenfalls einen ersten + Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren + verschaffen.<note type="footnote"> Tatsächlich ist (auch eine eigens + trainierte) Named Entity Recognition nur in eingeschränktem Maße für die + Identifikation der relevanten Akteur*innen / Instanzen geeignet, da gerade in + potenziell unzuverlässigen Erzählungen häufig homodiegetische + Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder + selten mit Eigennamen referiert wird.</note> + </item> + <item> + <hi rend="italic">Automatische Sentimentanalyse</hi>: Um zu beurteilen, ob + durch das lexikonbasierte Vorgehen der automatischen Sentimentanalyse + einzelne Wörter falsch klassifiziert wurden, ist der Rekurs auf den + textuellen Kontext notwendig, den abgeleitete Textformate nicht ermöglichen. + Ein erster Einblick in die Ergebnisse der automatischen Sentimenanalyse ist + allerdings noch mit abgeleiteten Textformaten möglich, sofern für + Nachnutzer*innen interessant ist, ob ein Text bzw. Korpus eher von negativen + oder positiven Wörtern geprägt ist oder welche Wörter bzw. Wortfelder mit + positiver oder negativer Polarität vorherrschen.</item> + <item> + <hi rend="italic">Redewiedergabeerkennung</hi>: Für die Prüfung der + automatisch generierten Redewiedergabe-Annotationen sind abgeleitete + Textformate ebenfalls nicht funktional, da die Annotationen längere Passagen + betreffen bzw. ihre Korrektheit (insbesondere im Fall indirekter Rede) nur + unter Rückgriff auf die fraglichen Textpassagen beurteilt werden kann. Auch + der für die weitere Bearbeitung der übergeordneten Forschungsfrage + ausschlaggebende Inhalt der Figurenrede kann nur durch Konsultation + zusammenhängender Textpassagen untersucht werden.</item> + <item> + <hi rend="italic">Koreferenzauflösung</hi>: Bei den manuellen Annotationen + zur Koreferenzauflösung sind sowohl zur Prüfung der Korrektheit als auch für + die Bearbeitung der inhaltlichen Fragestellung (›Wer sagt was?‹) textuelle + Kontexte notwendig.</item> + <item> + <hi rend="italic">Manuelle Emotionsanalyse</hi>: Für die manuelle + Emotionsanalyse wurde im Rahmen des Nutzungsszenarios ein eigenes Tagset + entwickelt, das auf den sprachlichen Indikatoren basiert, die in der + erzähltheoretischen Forschungsliteratur als Hinweise auf die Emotionalität + von Erzähler*innen (und damit auf ihre mögliche Unzuverlässigkeit) + identifiziert werden. Derartige Operationalisierungen + literaturwissenschaftlicher Forschungsfragen für die computergestützte + Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller + (und meist kollaborativer) Annotation häufig mehrere Durchläufe.<note + type="footnote"> Vgl. <ref type="bibliography" target="#gius_profit_2017">Gius / Jacke 2017</ref>; + <ref type="bibliography" target="#reiter_anleitung_2020">Reiter 2020</ref>.</note> Im Rahmen + des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe + stattgefunden, in dem Forscher*innen bzw. Datenlieferant*innen einige + Entscheidungen treffen mussten, die für den Nachvollzug der Ergebnisse durch + Dritte relevant sein können. Hierfür ist nicht nur ein Einblick in die + Annotationsschemata und Anwendungsrichtlinien notwendig, sondern ebenso der + Zugriff auf zusammenhängende Textteile, die den textuellen Kontext zeigen + und damit individuelle Annotationsentscheidungen potenziell nachvollziehbar + machen. Einen ersten Eindruck von den Ergebnissen der manuellen + Emotionsanalyse können sich Nachnutzer*innen – analog zur verwandten + Sentimentanalyse – allerdings auch auf der Basis abgeleiteter Textformate + verschaffen.</item> + <item> + <hi rend="italic">Wahre Propositionen der erzählten Welt</hi>: Den + komplexesten und zugleich wichtigsten Operationalisierungs- und + Annotationsschritt stellt im Rahmen des zweiten Nutzungsszenarios die + manuelle Annotation der Sätze dar, die diejenigen Propositionen betreffen, + deren Wahrheit in der fiktiven Welt eines Textes in Frage stehen. Genau wie + im Fall der manuellen Emotionsanalyse müssen die Annotationskategorien erst + in mehreren Durchläufen entwickelt werden, von denen der erste im Rahmen des + vorliegenden Nutzungsszenarios stattfindet. Allerdings muss für die + Entwicklung von Annotationsschemata und Guidelines hier noch mehr Vorarbeit + geleistet werden als bei der Emotionsanalyse, da in der + Unzuverlässigkeitsforschung für letztere bereits Listen mit textuellen + Indikatoren zur Verfügung stehen, die vergleichsweise direkt in + Annotationsschemata übertragen werden können. Die Annotation in Frage + stehender Sätze erfordert dagegen grundsätzliche konzeptionelle und + praktische Entscheidungen. Im Rahmen dieses Nutzungsszenarios wurden + beispielsweise zunächst jeweils textspezifische Kategorien entwickelt, d. h. + dass für jeden Text ca. zwölf zentrale, in Frage stehende Propositionen + identifiziert und als Tagset umgesetzt wurden (z. B. für E. T. A. Hoffmanns <bibl> + <title type="desc">Der Sandmann</title> + </bibl> die Propositionen <quote>Der dämonische Sandmann existiert</quote>, + <quote>Der Sandmann will Nathanaels Leben zerstören</quote>, + <quote>Advokat Coppelius und Wetterglashändler Coppola sind dieselbe + Person</quote> etc.). Mithilfe dieser spezifischen Tagsets wurden in den + Texten jeweils Sätze annotiert, in denen die fraglichen Propositionen + thematisiert werden, um überhaupt erst einmal die grundsätzliche + Umsetzbarkeit des Ansatzes zu testen. Perspektivisch ist die Entwicklung + eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem + beispielsweise Propositionen in Typen (z. B. in <term type="dh" + >singular</term>, <term type="dh">particularized</term> und <term + type="dh">general</term>) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und + Konklusion) unterschieden werden. + Deshalb ist zu erwarten, dass sich die Annotationskategorien und + Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann + der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von + besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf + Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens) + zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein + weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der + Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter + annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind + deswegen weder für den Nachvollzug der Kategorienentwicklung oder der + Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse + der Annotation bzw. Analyse funktional.</item> + </list> + <p>Zusammenfassend lässt sich also festhalten, dass abgeleitete Textformate für + den Nachvollzug der Operationalisierung literaturwissenschaftlicher + Forschungsfragen, die in der durch das zweite Nutzungsszenario abgebildeten + Forschungsphase im Vordergrund steht, nur schwer oder gar nicht verwendbar + sind. Ein Auszugskonzept kann dagegen vielen der genannten Anforderungen + begegnen.</p> + <p>Wie eingangs deutlich gemacht wurde, dient das zweite Nutzungsszenario als + Pilotstudie zu einem umfangreicheren Projekt, das die Schluss- und + Argumentationsprozesse bei der Feststellung bzw. Zuschreibung unzuverlässigen + Erzählens untersucht. In diesem Zusammenhang wird für Nachnutzer*innen die + Notwendigkeit, auf zusammenhängende Textteile zugreifen zu können, noch stärker + in den Vordergrund rücken, denn unzuverlässiges Erzählen gilt als Phänomen, + dessen Feststellung sich aus dem Zusammenspiel verschiedener sprachlicher + Indikatoren, über den Text verteilter Informationen und Kontextinformationen + ergibt. Aus diesem Grund bleibt letztlich noch zu prüfen, inwieweit (d. h. bei + welchen Phänomenvarianten oder Texten) der Zugriff auf Textauszüge für + Nachnutzer*innen ausreichend ist. Fest steht allerdings, dass sich ein + Auszugsmodell, wie es in XSample entwickelt wurde, den Bedarfen dieser + Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und + Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten Texten solch komplexe literarische + Phänomene zu untersuchen.</p> + </div> + </div> + <div type="chapter"> + <head>5. Fazit</head> + + <p>Um urheberrechtlichen Einschränkungen bei der Auswahl, Verbreitung und Nachnutzung + von Forschung von vornherein aus dem Weg zu gehen, konzentrieren viele digitale + Geisteswissenschaftler*innen ihre korpusorientierte Forschung auf gemeinfreie + Texte. In der Breite führt dies zu Verzerrungen der Forschungslandschaft, die + inhaltlich wie methodologisch problematisch sind. Dieser Artikel ging daher von + folgendem Desiderat für die Forschungscommunity in den digitalen + Geisteswissenschaften aus: Der bestehende urheberrechtliche Rahmen sollte in der + Praxis so gut es geht ausgenutzt werden, nicht zuletzt um die Relevanz von + korpusorientierter Forschung auf geschützten Texten forschungspolitisch zu + unterstreichen. Hier kommt einer forschungsgeleiteten Dateninfrastruktur die + wichtige Rolle zu, Forscher*innen eine möglichst weitgehende, rechtskonforme + Verwendung geschützter Texte zu ermöglichen. </p> + <p>Zwei Ansätze hierzu sind zum einen individuelle Lizenzvereinbarungen, zum anderen + das jüngst vorgestellte Prinzip abgeleiteter Textformate. Der Austausch von + Ergebnissen einer explorativen Forschungspraxis auf Basis von Fragestellungen, die + für eine Interpretation die Einbeziehung relevanten Kontexts erforderlich machen, + ist mit beiden Ansätzen aber nur sehr eingeschränkt möglich. Der vorliegende + Beitrag schlägt daher eine infrastrukturelle Erweiterung des Instrumentariums vor, + die auf der urheberrechtlich zulässigen Weitergabe von Textauszügen aufbaut. Um + die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu + maximieren, ermöglicht der XSample-Workflow den Nutzer*nnen, Textauszüge flexibel + anhand von Suchanfragen an den Text und seine Annotationen auszuwählen.</p> + <p>Anhand zweier Nutzungsszenarien aus Sprach- und Literaturwissenschaft wurde + beispielhaft gezeigt, welche Möglichkeiten und Grenzen sich aus dem Prinzip + abgeleiteter Textformate sowie dem Auszugskonzept im Kontext konkreter + geisteswissenschaftlicher Forschungsprojekte ergeben. Das linguistische Szenario + vergleicht Wortfrequenzen zwischen drei Korpora, eine Aufgabe, die problemlos + anhand von einfachen Frequenzlisten – d. h. auf Basis abgeleiteter Textformate – + reproduziert werden kann. Jedoch erfordert der nächste Schritt, die Interpretation + der quantitativen Befunde, eine Rekontextualisierung der Ergebnisse und damit + Zugriff auf die zu untersuchenden Textstellen in ihrem Kontext. Hier stößt das + Prinzip abgeleiteter Textformate an seine Grenzen; durch das Auszugskonzept kann + dieser Schritt hingegen in einem für den Anwendungsfall ausreichendem Maße + geleistet werden. </p> + <p>Das zweite Szenario beschäftigt sich mit dem Phänomen des unzuverlässigen + Erzählens, bei dem sich schnell zeigt, dass abgeleitete Textformate nicht sinnvoll + eingesetzt werden können. Das betrifft zum einen den Nachvollzug der + Operationalisierung der literaturwissenschaftlichen Kategorien, für den der nähere + textuelle Kontext notwendig ist, zum anderen die Analyse und Interpretation der + Annotationen als Indikatoren für Vorkommnisse unzuverlässigen Erzählens, für die + auch der weitere textuelle Kontext von Bedeutung ist. Lediglich + Vorverarbeitungsschritte wie eine Named Entity Recognition können über abgeleitete + Formate, etwa mittels Frequenzdaten, nachgenutzt werden. Der Zugriff auf + individuell ausgewählte Textauszüge ist für den literaturwissenschaftlichen + Anwendungsfall somit deutlich vielversprechender. Allerdings ist anzumerken, dass + für gewisse Interpretationen auch der ganze Text vorliegen muss. Hier könnte das + Auszugskonzept zu einer ersten Sichtung und Bewertung des Materials dienen, vor + dem Hintergrund komplexer literaturwissenschaftlicher Fragestellung aber an seine + Grenzen stoßen. </p> + <p>Die zwei Nutzungsszenarien können die Breite geisteswissenschaftlicher + Fragestellungen und Methoden nur in begrenztem Maß abbilden. Sie machen jedoch + deutlich, dass selbst Analysen, die einen quantitativen, auf automatisierte + Verfahren bauenden Zugang zu den Daten nutzen, für die Interpretation am Ende auf + Kontextinformationen angewiesen sind. Nur dieser Schritt macht die Analyse an die + Geisteswissenschaften anschlussfähig und für die Forschungscommunity + nachvollziehbar. Die Arbeit mit Frequenzdaten, zu denen keine Kontextinformationen + zur Verfügung stehen, birgt auch die Gefahr, zu Interpretationen zu verleiten, die + nicht durch die Daten gedeckt sind. Insofern erscheint es für viele + Forschungsszenarien in den digitalen Geisteswissenschaften sinnvoll, eine + Kombination beider Verfahren anzustreben.</p> + <p>Alle hier diskutierten Verfahren bleiben selbstverständlich Behelfslösungen. Aus + Sicht der Forschung wäre die generelle Möglichkeit, Forschungsdaten einschließlich + der zugrundeliegenden Texte für wissenschaftliche Zwecke uneingeschränkt zu + teilen, das bei weitem produktivste Vorgehen. Die Interessen der + Rechteinhaber*innen müssen dabei natürlich berücksichtigt werden. Gegebenenfalls + müssten langfristig etwa die Richtlinien der Forschungsfinanzierung aus + öffentlichen Quellen angepasst werden, um bei der Verwendung von urheberrechtlich + geschützten Werken in berechtigten Fällen eine vorgelagerte Kompensation für eine + langfristige Nachnutzung zu ermöglichen. In vielen Fällen ließe sich ein + Interessenausgleich von Forschung und Rechteinhaber*innen erreichen. Langfristig + ist zu hoffen, dass die Politik den rechtlichen Rahmen mit dieser Zielsetzung + weiterentwickelt. Unter den aktuell gegebenen Umständen erlauben zum einen die + Veröffentlichung von abgeleiteten Textformaten und zum anderen der gezielte + Zugriff auf genau die Auszüge des Textes, die für eine gegebene Fragestellung + relevant sind, eine zwar eingeschränkte, in vielen Fällen aber hinreichende + Reproduktion und Nachnutzung urheberrechtlich geschützter Forschungsdaten.</p> + </div> + <div type="bibliography"> + <head>Bibliografische Angaben</head> + <listBibl> + <bibl xml:id="allrath_signale_1998">Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für + die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur + Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen + Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier + 1998, S. 59–80. <ptr type="gbv" cRef="24851167X"/></bibl> + <bibl xml:id="andresen_sprachbeschreibung_2022">Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen + Annotationen. Eine Korpusanalyse am Beispiel der germanistischen + Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre + Perspektiven auf Sprache (CLIP), 10). <ptr type="gbv" cRef="1786523841"/></bibl> + <bibl xml:id="dreier_urhg_2018">Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, + Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage. + München 2018. <ptr type="gbv" cRef="896763692"/></bibl> + <bibl xml:id="dreier_urhg_2022">Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, + Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz, + Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022. + <ptr type="gbv" cRef="1769737332"/></bibl> + <bibl xml:id="folde_interpretation_2015">Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics + 55 (2015), H. 3, S. 361–374. <ptr type="gbv" cRef="129077933"/></bibl> + <bibl xml:id="dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten + wissenschaftlichen Praxis, Kodex, 2019. DOI: <ref + target="https://doi.org/10.5281/zenodo.6472827">10.5281/zenodo.6472827</ref> + </bibl> + <bibl xml:id="gaertner_corpus_2020">Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a + Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on + Challenges in the Management of Large Corpora. Hg. von Piotr BaÅ„ski / Adrien + Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta. + (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [<ref + target="https://www.aclweb.org/anthology/2020.cmlc-1.5">online</ref>] </bibl> + <bibl xml:id="gaertner_corpus_2021">Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann: + Corpus Reusability and Copyright – Challenges and Opportunities. In: + Proceedings of the Workshop on Challenges in the Management of Large Corpor. + Hg. von Harald Lüngen / Marc Kupietz / Piotr BaÅ„ski / Adrien Barbaresi / Simon + Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S. + 10–19. DOI: <ref target="https://doi.org/10.14618/ids-pub-10467" + >10.14618/ids-pub-10467</ref> <ptr type="gbv" cRef="1788941780"/></bibl> + <bibl xml:id="gius_textanalysen_2019">Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein + Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [<ref + target="https://www.digitalhumanitiescooperation.de/pamphlet-8-computationelle-textanalysen/" + >online</ref>] </bibl> + <bibl xml:id="gius_profit_2017">Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On + Preventing and Fostering Disagreement in Literary Analysis. In: International + Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: <ref + target="https://doi.org/10.3366/ijhac.2017.0194" + >10.3366/ijhac.2017.0194</ref> <ptr type="gbv" cRef="569610923"/></bibl> + <bibl xml:id="habermas_diskurs_1998">Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen. + Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749). + <ptr type="gbv" cRef="863033091"/></bibl> + <bibl xml:id="jockers_methods_2012">Matthew Lee Jockers: Macroanalysis: Digital methods and literary history. + Urbana, IL u. a. 2013. <ptr type="gbv" cRef="1603785094"/></bibl> + <bibl xml:id="kindt_erzaehlen_2008">Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine + Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen + Literatur, 184). <ptr type="gbv" cRef="568520025"/></bibl> + <bibl xml:id="kleinkopf_text_2021">Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining – + Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei + computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für + IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: <ref + target="http://dx.doi.org/10.18419/opus-11445">10.18419/opus-11445</ref> <ptr type="gbv" cRef="1679027220"/></bibl> + <bibl xml:id="kleinkopf_bildung_2021">Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und + Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der + DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In: + Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655. + <ptr type="gbv" cRef="130952079"/></bibl> + <bibl xml:id="kresta_realisierungsformen_1995">Ronald Kresta: Realisierungsformen der Interpersonalität in vier + linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und + Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. <ptr type="gbv" cRef="185951988"/></bibl> + <bibl xml:id="martinez_einfuehrung_2009">MatÃas MartÃnez / Michael Scheffel: Einführung in die Erzähltheorie. 8. + Aufage. (= C.-H.-Beck-Studium). München 2009. <ptr type="gbv" cRef="612016773"/></bibl> + <bibl xml:id="nuenning_narration_1998">Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer + kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In: + Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens. + Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39. + <ptr type="gbv" cRef="24851167X"/></bibl> + <bibl xml:id="nuenning_unreliable_1999">Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of + »Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen. + Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg. + von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. <ptr type="gbv" cRef="25045680X"/></bibl> + <bibl xml:id="pichler_operationalisierung_2021">Axel Pichler / Nils Reiter: Zur Operationalisierung + literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine + Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von + Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H. + 1–2, S. 1–29. [<ref + target="http://www.jltonline.de/index.php/articles/article/view/1124/2571" + >online</ref>] <ptr type="gbv" cRef="519206053"/></bibl> + <bibl xml:id="raue_freistellung_2021">Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und + Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021), + H. 10, S. 793-802. <ptr type="gbv" cRef="130952079"/></bibl> + <bibl xml:id="reiter_anleitung_2020">Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In: + Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler / + Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: <ref + target="https://doi.org/10.1515/9783110693973-009" + >10.1515/9783110693973-009</ref> <ptr type="gbv" cRef="1691580465"/></bibl> + <bibl xml:id="DSM-Richtlinie_2019">Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [<ref target="http://data.europa.eu/eli/dir/2019/790/2019-05-17">online</ref>]</bibl> + <bibl xml:id="schiller_guidelines_1999">Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert: + Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes + Tagset). 1999. PDF: [<ref + target="http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf">online</ref>] + </bibl> + <bibl xml:id="schoech_textformate_2020">Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer + Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke: + Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten + Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020). + DOI: <ref target="https://doi.org/10.17175/2020_006">10.17175/2020_006</ref></bibl> + <bibl xml:id="schruhl_objektumgangsnormen">Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften verändert: Neue + Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel 2018. (= + Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: <ref + target="https://doi.org/10.17175/sb003_012">10.17175/sb003_012</ref></bibl> + <bibl xml:id="schmidt_tool_2021">Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for + Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between + Data and Knowledge. Information Science and its Neighbors from Data Science to + Digital Humanities. Proceedings of the 16th International Symposium of + Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16, + Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: <ref + target="http://doi.org/10.5283/epub.44943">10.5283/epub.44943</ref> + <ptr type="gbv" cRef="1747271209"/></bibl> + <bibl xml:id="steinhoff_textkompetenz_2007">Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und + Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten. + Tübingen 2007. (= Reihe Germanistische Linguistik, 280) <ptr type="gbv" cRef="555521087"/></bibl> + <bibl xml:id="wilkinson_fair_2016">Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR + Guiding Principles for scientific data management and stewardship. In: + Scientific Data 3 (2016), Artikelnummer 160018. DOI: <ref target="https://doi.org/10.1038/sdata.2016.18">10.1038/sdata.2016.18</ref> <ptr type="gbv" cRef="788479601"/></bibl> + <bibl xml:id="yacobi_reliability_1981">Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics + Today 2 (1981), H. 2, S. 113–126. <ptr type="gbv" cRef="168640813"/></bibl> + </listBibl> + </div> + <div type="abbildungsnachweis"> + <head>Abbildungs- und Tabellenverzeichnis: </head> + <desc type="graphic" xml:id="abb1">In XSample entwickeltes Auszugskonzept. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" + target="#nachnutzung_2021_001"/></desc> + <desc type="graphic" xml:id="abb2">Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die + Weiterleitung auf den XSample-Server angestoßen werden. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" + target="#nachnutzung_2021_002"/></desc> + <desc type="graphic" xml:id="abb3">Startseite des XSample-Servers nach Weiterleitung aus dem zugehörigen + Dataverse und Validierung der Manifest-Datei. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" + target="#nachnutzung_2021_003"/></desc> + <desc type="graphic" xml:id="abb4">Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" + target="#nachnutzung_2021_004"/></desc> + <desc type="graphic" xml:id="abb5">Exemplarische Oberfläche + zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen + Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird + direkt visualisiert und Nutzer*innen anschließend die Möglichkeit + gegeben, die für sie relevanten Segmente exakt auszuwählen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" + target="#nachnutzung_2021_005"/></desc> + <desc type="table" xml:id="tab1"><ref target="#tab01" type="intern">Tab. 1</ref>: Die + distinktivsten Wortarten für die Unterscheidung von Philosophie und + Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS + (<ref type="bibliography" target="#schiller_guidelines_1999">Schiller et al. 1999</ref>). [Andresen 2022]<ref type="graphic" + target="#nachnutzung_2021_t1"/></desc> + <desc type="table" xml:id="tab2"><ref target="#tab02" type="intern">Tab. 2</ref>: + Manuelle Kategorisierung der wir -Verwendung in einer Stichprobe von 100 Instanzen + pro Disziplin. [Pichler 2022]<ref type="graphic" + target="#nachnutzung_2021_t2"/></desc> + </div> + </div> + </body> + </text> +</TEI>