<?xml version="1.0" encoding="utf-8"?>
<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
    ?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html"
   xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink"
   xmlns:xhtml="http://www.w3.org/1999/xhtml">
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>
               <biblStruct>
                  <analytic>
                     <title level="a">Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in
                        den digitalen Geisteswissenschaften (nach-)nutzen</title>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Melanie</forename>
                                 <surname>Andresen</surname>
                              </name>
                              <email>melanie.andresen@ims.uni-stuttgart.de</email>
                              <idno type="gnd">1143061535</idno>
                              <idno type="orcid">0000-0002-3913-1273</idno>
                           </persName>
                        </resp>
                        <orgName>Universität Stuttgart, Institut für Maschinelle
                           Sprachverarbeitung</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Markus</forename>
                                 <surname>Gärtner</surname>
                              </name>
                              <email>markus.gaertner@ims.uni-stuttgart.de</email>
                              <idno type="gnd">1268973939</idno>
                              <idno type="orcid">0000-0002-2687-4350</idno>
                           </persName>
                        </resp>
                        <orgName>Universität Stuttgart, Institut für Maschinelle
                           Sprachverarbeitung</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Sibylle</forename>
                                 <surname>Hermann</surname>
                              </name>
                              <email>sibylle.hermann@ub.uni-stuttgart.de</email>
                              <idno type="gnd">1073989070</idno>
                              <idno type="orcid">0000-0001-9239-8789</idno>
                           </persName>
                        </resp>
                        <orgName>Universitätsbibliothek Stuttgart</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Janina</forename>
                                 <surname>Jacke</surname>
                              </name>
                              <email>janina.jacke@uni-goettingen.de</email>
                              <idno type="gnd">108423968X</idno>
                              <idno type="orcid">0000-0001-7217-3136</idno>
                           </persName>
                        </resp>
                        <orgName>Georg August Universität Göttingen, Seminar für Deutsche
                           Philologie</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Nora</forename>
                                 <surname>Ketschik</surname>
                              </name>
                              <email>nora.ketschik@ims.uni-stuttgart.de</email>
                              <idno type="gnd">1268974390</idno>
                              <idno type="orcid">0000-0001-8758-5432</idno>
                           </persName>
                        </resp>
                        <orgName>Universität Stuttgart, Institut für Maschinelle
                           Sprachverarbeitung</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Felicitas</forename>
                                 <surname>Kleinkopf</surname>
                              </name>
                              <email>felicitas.kleinkopf@kit.edu</email>
                              <idno type="gnd">1268974757</idno>
                              <idno type="orcid">0000-0001-8670-2668</idno>
                           </persName>
                        </resp>
                        <orgName>Karlsruher Institut für Technologie, Institut für Informations- und
                           Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Jonas</forename>
                                 <surname>Kuhn</surname>
                              </name>
                              <email>jonas.kuhn@ims.uni-stuttgart.de</email>
                              <idno type="gnd">1064354289</idno>
                              <idno type="orcid">0000-0003-2860-5960</idno>
                           </persName>
                        </resp>
                        <orgName>Universität Stuttgart, Institut für Maschinelle
                           Sprachverarbeitung</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Axel</forename>
                                 <surname>Pichler</surname>
                              </name>
                              <email>axel.pichler@alumni.uni-graz.at</email>
                              <idno type="gnd">14316130X</idno>
                              <idno type="orcid">0000-0002-9177-7645</idno>
                           </persName>
                        </resp>
                        <orgName>Universität Stuttgart, Institut für Maschinelle
                           Sprachverarbeitung</orgName>
                     </respStmt>

                     <idno type="doi">10.17175/2022_007</idno>
                     <idno type="ppn">1816418234</idno>
                     <idno type="zfdg">2022.007</idno>
                     <idno type="url">https://www.zfdg.de/node/362</idno>
                     <date when="2022-11-03">03.11.2022</date>
                  </analytic>
                  <monogr>
                     <title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
                     <respStmt>
                        <resp>Publiziert von</resp>
                        <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>Transformation der Word Vorlage nach TEI</resp>
                        <persName/>
                        <name role="marc_trc">
                           <surname>Baumgarten</surname>
                           <forename>Marcus</forename>
                           <idno type="gnd">1192832655</idno>
                        </name>
                     </respStmt>
                     <availability status="free">
                        <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref>
                        </p>
                     </availability>
                     <biblScope unit="year">2022</biblScope>
                     <biblScope unit="artikel">0a</biblScope>
                  </monogr>
               </biblStruct>
            </title>
         </titleStmt>
         <editionStmt>
            <edition>Elektronische Ausgabe nach TEI P5</edition>
         </editionStmt>
         <publicationStmt>
            <distributor>
               <name>
                  <orgName>Herzog August Bibliothek Wolfenbüttel</orgName>
               </name>
            </distributor>
            <idno type="doi">10.17175/zfdg.01</idno>
            <idno type="ppn">0819494402</idno>
            <authority>
               <name>Herzog August Bibliothek</name>
               <address>
                  <addrLine>Lessingplatz 1</addrLine>
                  <addrLine>38304 Wolfenbüttel</addrLine>
               </address>
            </authority>
            <authority>
               <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name>
               <address>
                  <addrLine>Burgplatz 4</addrLine>
                  <addrLine>99423 Weimar </addrLine>
               </address>
            </authority>
            <availability status="free">
               <p> Sofern nicht anders angegeben </p>
               <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence>
            </availability>
            <availability status="free">
               <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund
                     MWW</ref>
               </p>
            </availability>
         </publicationStmt>
         <sourceDesc>
            <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
         </sourceDesc>
      </fileDesc>
      <encodingDesc>
         <editorialDecl><p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
            XSLT-Skripten</p>
            <p>Medienrechte liegen bei den Autor*innen</p>
            <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Caroline Jansky</persName>.</p>
             <p>All links checked<date when="2022-09-22">06.09.2022</date>
            </p>
         </editorialDecl>
      </encodingDesc>
      <profileDesc>
         <creation>Einreichung als Artikel der Zeitschrift für digitale
            Geisteswissenschaften</creation>
         <langUsage>
            <language ident="de">Text in Deutsch</language>
            <language ident="de">Abstract in Deutsch</language>
            <language ident="en">Abstract in Englisch</language>
         </langUsage>
         <textClass>
            <keywords scheme="gnd">
               <term>Urheberrecht<ref target="4062127-3"/>
               </term>

               <term>Data Mining<ref target="4428654-5"/>
               </term>

               <term>Infrastruktur<ref target="4026944-9"/>
               </term>
               <term>Open Science<ref target="1197084231"/>
               </term>
               <term>Digital Humanities<ref target="1038714850"/>
               </term>
               <term>Forschungsdaten<ref target="1098579690"/>
               </term>

            </keywords>
         </textClass>
      </profileDesc>
      <revisionDesc>
         <change/>
      </revisionDesc>
   </teiHeader>
   <text>
      <body>
         <div>
            <div type="abstract">
               <argument xml:lang="de">
                  <p>Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen
                     von vornherein aus dem Weg zu gehen, konzentrieren sich viele digitale
                     Geisteswissenschaftler*innen auf gemeinfreie Texte. Zur Überwindung dieser
                     problematischen Beschneidung des Gegenstandsbereichs schlagen Schöch et al.
                     2020 sogenannte abgeleitete Textformate vor, die digitale Analyseverfahren
                     unterstützen, den Text jedoch aus urheberrechtlicher Perspektive hinreichend
                     verfremden. Das Projekt XSample entwickelt eine komplementäre Lösung, die die
                     Berechtigung zur Weitergabe von Auszügen aus geschützten Texten (im Klartext)
                     nutzt. Der forschungsgesteuerte Ansatz ermöglicht Gruppen, die an einer
                     Nachnutzung interessiert sind, eine Optimierung des maximal erlaubten
                     Auszugsvolumens entlang eigener Forschungsfragen. </p>
               </argument>
               <argument xml:lang="en">
                  <p>In order to avoid copyright restrictions on the exchange of research results
                     from the outset, many researchers in the digital humanities focus on texts in
                     the public domain. To overcome this problematic limitation of the subject
                     matter, Schöch et al. 2020 propose so-called derived text formats that support
                     digital analysis procedures but sufficiently alienate the text from a copyright
                     perspective. The XSample project is developing a complementary solution that
                     leverages permission to share excerpts from copyrighted text (in plain text).
                     The research-driven approach allows groups interested in reuse to optimize the
                     maximum allowed excerpt volume along their own research questions.</p>
               </argument>
            </div>
            <div type="chapter">
               <head>1. Einleitung</head>
               <p>Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen
                  Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die
                  Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in
                  engen Grenzen erlaubt.<note type="footnote"> Die Namen der Autor*innen sind in den
                     Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische
                     Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner
                     befasste sich mit der technischen Umsetzung der Infrastruktur; das erste
                     Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von
                     Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die
                     Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas
                     Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in
                     diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des <term
                        type="figure">XSample</term>-Projekts, auch über die Zuständigkeitsgrenzen
                     im Projekt hinweg, erstellt. </note> Die Restriktionen erschweren die
                  Einhaltung der guten wissenschaftlichen Praxis sowie der <term type="dh"
                     >FAIR-Prinzipien</term> für Forschungsdateninfrastrukturen.<note
                     type="footnote"> Die FAIR-Prinzipien formulieren vier
                     zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible,
                     Interoperable und Reusable sein, siehe <ref type="bibliography" target="#wilkinson_fair_2016">Wilkinson et al. 2016</ref>.</note> In
                  vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf
                  verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet
                  dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen –
                  nahezu vollständig ausgeblendet werden (müssen).<note type="footnote"> Der Schutz
                     von Texten durch das deutsche Urheberrecht endet siebzig Jahre nach Tod der
                     Autor*innen, sodass kein direkter Zusammenhang zwischen Publikationsjahr und
                     dem Ende des urheberrechtlichen Schutzes besteht. </note> Eine so weitreichende
                  Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der
                  Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen
                  problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung
                  algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer heterogenen
                  Kombination von Quellen behelfen muss. </p>
               <p>Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung
                  auf geschützten Texten in Verhandlungen mit den Rechteinhaber*innen zu treten.
                  Optimal ist, wenn im Vorfeld eine Lizenzvereinbarung ausgehandelt werden kann, die
                  eine unbegrenzte Weitergabe der geschützten Texte an Dritte zu Forschungszwecken
                  einschließt; dies gelingt jedoch nicht in allen Fällen und erfordert einen
                  erheblichen Aufwand und zeitlichen Vorlauf in Bezug auf jede zu verwendende
                  Datenquelle. Damit ist das Vorgehen mit der Praxis datenintensiver
                  Computermodellierung nur bedingt vereinbar, bei der etwa explorative Experimente
                  zu unterschiedlichen Erweiterungen der Datenbasis nur bei einem Bruchteil der
                  Daten eine längerfristige Weiterverfolgung bewirken.</p>
               <p>Dieser Artikel sieht ein Desiderat für die digitalen Geisteswissenschaften – sei
                  es bei der Erschließung eines Gegenstandsbereichs oder bei der Methodenentwicklung
                  – darin, eine Forschungsdateninfrastruktur einzurichten, die ein exploratives
                  Vorgehen unterstützt, sodass die Urheberrechtsfrage nicht länger per se ein
                  Ausschlusskriterium für die Verwendung eines Textes oder eines Textkorpus ist.
                  Neben dem langfristigen (politischen) Ziel einer verbesserten urheberrechtlichen
                  Ausgangslage für die Forschung sollte dafür der bestehende rechtliche Korridor für
                  eine Weitergabe von Forschungsergebnissen zu geschützten Texten ausgenutzt
                  werden.</p>
               <p>Schöch et al. schlagen zum Umgang mit der bestehenden Rechtslage eine
                  Konvertierung der Texte in sogenannte abgeleitete Formate vor, welche für eine
                  Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus
                  urheberrechtlicher Perspektive hinreichend verfremden.<note type="footnote"> Vgl.
                     <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>.</note> Diese abgeleiteten Textformate halten beispielsweise
                  für Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der
                  enthaltenen Einzelwörter oder <term type="dh">n-Gramme</term> (also kurzen
                  Wortsequenzen) fest. Gängige Verfahren der Makroanalyse,<note type="footnote">
                     Vgl. <ref type="bibliography" target="#jockers_methods_2012">Jockers 2013</ref>. </note> die etwa lexikalische Indikatoren für die Dynamik
                  des Textverlaufs heranziehen, können auf dieser Basis zur Anwendung kommen. Der
                  Urheberrechtsschutz wird dabei durch den Aufbruch der Textstruktur aufgehoben,
                  sodass Restriktionen zur Archivierung, Weitergabe und Veröffentlichung der
                  Datensätze nicht mehr zum Tragen kommen. Das Konzept der abgeleiteten Textformate
                  leistet somit einen großen Beitrag zur Replizierbarkeit von Forschung und
                  Nachnutzbarkeit von Forschungsdaten.</p>
               <p>Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo
                  die eigentliche Textgestalt forschungsrelevant wird. Dies ist nicht nur bei einer
                  Mikroanalyse, also etwa beim <term type="dh">Close Reading</term>, der Fall
                  (welches ohne Frage einen urheberrechtlich geklärten Gesamtzugriff auf den Text
                  voraussetzt). Vor dem Hintergrund geisteswissenschaftlicher Fragestellungen macht
                  häufig auch die Interpretation von Ergebnissen einer aggregierenden Makroanalyse
                  den Zugriff auf einige relevante Textpassagen in ihrer Gesamtgestalt erforderlich. </p>
               <p>Das <term type="figure">XSample</term>-Projekt hat daher einen Ansatz entwickelt,
                  der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann
                  (vgl.<ref type="graphic" target="#nachnutzung_2021_001"> Abbildung 1</ref>). Dieser
                  Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten
                  Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (<ref target="https://www.gesetze-im-internet.de/urhg/__60c.html">§ 60c
                     UrhG</ref>) und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte
                  Umfang dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der
                  XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle
                  Forschungsanliegen zugeschnittene Auswahl der ›hilfreichsten 15 Prozent‹. Hierzu
                  können Nachnutzer*innen in Suchanfragen auf den Texten und gegebenenfalls
                  vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie
                  relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer
                  zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit
                  urheberrechtlich geschützten Texten begünstigt, ohne den Urheberrechtsschutz
                  aufzuheben. Insbesondere können auch Forschungsfragen bearbeitet werden, die den
                  Rückgriff auf den exakten Wortlaut ausgewählter Textpassagen und umfangreichere
                  Kontexte erfordern. Eine besondere Rolle nehmen dabei die
                  Forschungsinfrastruktureinrichtungen ein, die Wissenschaftler*innen auf
                  institutioneller Ebene unterstützen, indem sie ihnen digitale Werkzeuge, die z. B.
                  der Verwaltung und Veröffentlichung ihrer Forschungsdaten dienen, zur Verfügung
                  stellen. Zu diesen Forschungsinfrastruktureinrichtungen zählen heute vorwiegend
                  die wissenschaftlichen Bibliotheken. Das im Projekt entwickelte Tool wird
                  exemplarisch an die lokale Infrastruktur der Universität Stuttgart und das dort
                  vorhandene Forschungsdatenrepositorium angebunden. Die im Projekt entwickelte
                  Software steht frei zur Verfügung, sodass sie und die nötige Infrastruktur anderen
                  Forschungsinfrastruktureinrichtungen bereitgestellt werden können.</p>
               <figure>
                  <graphic xml:id="nachnutzung_2021_001" url=".../medien/nachnutzung_2021_001.png">
                     <desc>
                        <ref type="graphic" target="#abb1">Abb. 1</ref>: In XSample entwickeltes
                        Auszugskonzept. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
                           target="#nachnutzung_2021_001"/>
                     </desc>
                  </graphic>
               </figure>
               <p>Der vorliegende Beitrag geht in <ref type="intern" target="#hd2">Kapitel 2</ref>
                  zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des <term type="dh"
                     >Text- und Data-Mining</term> (TDM)<note type="footnote"> Unter TDM versteht
                     das Urheberrecht <quote>die automatisierte Analyse von einzelnen oder mehreren
                        digitalen oder digitalisierten Werken, um daraus Informationen insbesondere
                        über Muster, Trends und Korrelationen zu gewinnen</quote> (<ref target="https://www.gesetze-im-internet.de/urhg/__44b.html">§§ 44b Abs. 1</ref>,
                        <ref target="https://www.gesetze-im-internet.de/urhg/__60d.html">60d Abs. 1 UrhG</ref>). Unterschieden wird rechtlich zwischen der eigentlichen
                     automatisierten Analyse, die urheberrechtlich freigestellt ist, und den dafür
                     notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich relevant
                     sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil
                     textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre
                     Analyse selbst möglicherweise nicht als Text- und Data-Mining bezeichnen
                     würden.</note> gelten und die Rahmenbedingungen für das hier präsentierte
                  Auszugskonzept schaffen. <ref type="intern" target="#hd6">Kapitel 3</ref> stellt
                  dar, wie die Verfügbarmachung von individuell zugeschnittenen Textauszügen
                  innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden
                  insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte
                  der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung
                  vorgestellt. Anschließend werden in <ref type="intern" target="#hd12">Kapitel
                     4</ref> zwei Nutzungsszenarien präsentiert, die im Kontext konkreter
                  Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das
                  Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung
                  ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der
                  Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft,
                  Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135
                  urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario
                  beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem
                  ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen
                  Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem
                  Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die
                  Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung
                  gestellt werden. Das Fazit in <ref type="intern" target="#hd15">Kapitel 5</ref>
                  fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und
                  Desiderate ab.</p>
            </div>
            <div type="chapter">
               <head>2. Urheberrechtliche Rahmenbedingungen für das Text- und Data-Mining </head>

               <p>Bei der Beforschung insbesondere neuerer Texte und Korpora müssen sich die
                  digitalen Geisteswissenschaften mit Fragen des Urheberrechts auseinandersetzen.
                  Der urheberrechtliche Rahmen für die Forschung mit TDM hat sich in den letzten
                  Jahren mehrfach geändert, was es zusätzlich erschwert, aus
                  geisteswissenschaftlicher Perspektive zu überblicken, wie bzw. in welchem Umfang
                  mit geschützten Werken geforscht werden darf. Die letzten Änderungen ergaben sich
                  im Juni 2021, als die <term type="dh">Richtlinie zum Urheberrecht im digitalen
                     Binnenmarkt</term> (Digital Single Market-, kurz DSM-Richtlinie) im <term type="dh"
                     >Urheberrechtsgesetz</term> (UrhG) umgesetzt wurde. Um einen kurzen Überblick
                  über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (<ref
                     type="intern" target="#hd3">Kapitel 2.1</ref>) skizziert, in welchem Umfang
                  Vervielfältigungen (<ref target="https://www.gesetze-im-internet.de/urhg/__16.html">§ 16 UrhG</ref>) und öffentliche Zugänglichmachungen (<ref target="https://www.gesetze-im-internet.de/urhg/__19a.html">§ 19a UrhG</ref>)
                  für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in
                  den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.<note type="footnote">
                     Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses
                     bieten zum alten Recht <ref type="bibliography" target="#dreier_urhg_2018">Dreier / Schulze 2018</ref>, § 60d; 
                        <ref type="bibliography" target="#kleinkopf_text_2021">Kleinkopf et al. 2021</ref>;
                           vorwiegend auch <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 5–14; zu § 60d in seiner neuen Fassung,
                              vgl. <ref type="bibliography" target="#dreier_urhg_2022">Dreier in Dreier / Schulze 2022</ref>, § 44b und § 60d; 
                                 <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>; 
                                    <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 645–647; 
                     eine Betrachtung auf EU-Ebene bieten 
                                          <ref type="bibliography" target="#gaertner_corpus_2021">Gärtner et
                     al. 2021</ref>, S. 11–13.</note> Daran anschließend werden Fragen nach der
                  Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze
                  diskutiert (<ref type="intern" target="#hd4">Kapitel 2.2.</ref>), darunter
                  insbesondere die rechtliche Grundlage für das in diesem Artikel vorgestellte
                  Auszugskonzept. Abschließend werden die wesentlichen Anforderungen an
                  Forschungsinfrastruktureinrichtungen zusammengefasst, die sich aus den
                  juristischen Rahmenbedingungen ergeben (<ref type="intern" target="#hd5">Kapitel
                     2.3</ref>).</p>
               <div type="subchapter">
                  <head>2.1. Die Gesetzesentwicklung</head>

                  <p>Bis zum 1. März 2018 enthielt das UrhG keine gesonderte Erlaubnis, Werke zu
                     Zwecken des TDM zu nutzen. Deswegen waren TDM-Analysen an urheberrechtlich
                     geschützten Werken nur insoweit möglich, wie die Werke nicht kopiert oder
                     weitergegeben wurden: Diese Handlungen sind nach den Regelungen in §§ 16, 19a
                     UrhG urheberrechtlich relevant, die das ausschließliche Recht des Urhebers
                     enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen.
                     Eine ausdrückliche Erlaubnis<note type="footnote"> Erlaubnisnormen werden im
                        deutschen Urheberrecht als <quote>Schranken</quote> bzw.
                           <quote>Schrankenbestimmungen</quote> bezeichnet.</note> dieser Handlungen
                     wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die
                     aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG) mit einem neuen
                     § 60d UrhG geschaffen. Unter der Voraussetzung des rechtmäßigen Zugriffs
                     erlaubt § 60d UrhG der nicht-kommerziellen wissenschaftlichen Forschung seither
                     die Vervielfältigung (§ 16 Abs. 1 UrhG) und die öffentliche Zugänglichmachung
                     (§ 19a UrhG) geschützter Werke zu Zwecken des TDM. Seitdem existiert im
                     deutschen Urheberrecht erstmalig eine explizite Erlaubnis, geschützte Werke für
                     das TDM auch umfangreich zu verarbeiten. Defizitär war bereits zu jenem
                     Zeitpunkt, dass die Korpora zwar bei bestimmten Einrichtungen, darunter auch
                     den in diesem Artikel adressierten Forschungsinfrastruktureinrichtungen,
                     aufbewahrt werden durften, aber keine Möglichkeit bestand, die Korpora zu
                     Zwecken von Anschlussforschungen nachzunutzen.</p>
                  <p>Aufgrund des <term type="dh">Gesetzes zum Urheberrecht im digitalen
                        Binnenmarkt</term> vom 7. Juni 2021<note type="footnote"> Bundesgesetzblatt Jahrgang
                        2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.</note> hat sich der
                     Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu
                     anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese
                     ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse,
                     praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die
                     Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser
                     rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform
                     vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert
                        wurden.<note type="footnote"> Vertraglich oder technisch darf das TDM im
                        Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht
                        ausgeschlossen werden (<ref target="https://www.gesetze-im-internet.de/urhg/__60g.html">§ 60g Abs. 1</ref>, <ref target="https://www.gesetze-im-internet.de/urhg/__95b.html">95b Abs. 1, 3 UrhG</ref>). Etwas anderes gilt
                        für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der
                        Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG).</note> § 60d
                     UrhG wurde außerdem um Befugnisse zugunsten von sogenannten
                     Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für
                     Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt
                     (<ref target="https://www.gesetze-im-internet.de/urhg/__60h.html">§ 60h Abs. 2 Nr. 3 UrhG</ref>). Diese war zuvor durch die jeweiligen Einrichtungen
                     zu tragen.</p>
               </div>
               <div>
                  <p></p>
                  <p></p>
               </div>
               <div type="subchapter">
                  <head>2.2. Die Erlaubnisse für Forschungsinfrastruktureinrichtungen</head>

                  <p>§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und
                     sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz
                     adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu
                     Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen
                     (d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame
                     wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie
                     einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich
                     zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu
                     beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist
                     (Abs. 4 S. 2).</p>
                  <p>Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also
                     deutlich enger gefasst, als es ein allgemeiner Verweis auf die öffentliche
                     Zugänglichmachung (§ 19a UrhG) zur Folge hätte: Sie erlaubt die öffentliche
                     Zugänglichmachung eines Werks in einer Weise, dass es <quote>Mitgliedern der
                        Öffentlichkeit von Orten und zu Zeiten ihrer Wahl zugänglich ist</quote>.
                     Das bedeutet, dass das Werk Personen zugänglich gemacht wird, die der
                     Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert,
                     vgl. <ref target="https://www.gesetze-im-internet.de/urhg/__15.html">§ 15 Abs. 3 UrhG</ref>, und die einer <quote>unbestimmten Zahl potentieller
                        Adressaten</quote> und einer <quote>ziemlich großen Zahl von
                           Personen</quote> angehören.<note type="footnote"> Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier /
                        Schulze 2022</ref>, § 15 Randnummer 38 mit Verweis auf den EuGH.</note> Die Erlaubnis,
                     Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 4 S. 1
                     UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter
                     eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei
                     Forschungsgruppen handelt es sich in der Regel nicht um eine
                     Öffentlichkeit,<note type="footnote"> Vgl. <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>, S. 799.</note>
                     weswegen es auf diese Erlaubnis in den meisten Fällen nicht ankommt.</p>
                  <p>Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für
                     die Forschung oder für Überprüfungszwecke erforderlich ist. Die Dauer erfasst
                     im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn
                     Jahre,<note type="footnote"> Vgl. Leitlinien zur Sicherung der guten wissenschaftlichen Praxis, 
                        <ref type="bibliography" target="#dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft 2019</ref>,
                         Leitlinie 17.</note> sie kann im Einzelfall aber auch kürzer oder länger bemessen
                     sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der
                     Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.<note
                        type="footnote"> Vgl. <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>, S. 799.</note>
                  </p>
                  <p>Eine Erlaubnis, die Korpora zur Aufbewahrung an
                     Forschungsinfrastruktureinrichtungen weiterzugeben, ist nicht mehr ausdrücklich
                     enthalten. Die Weitergabemöglichkeit kann allenfalls mittels einer extensiven
                     Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von
                     einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:<note
                        type="footnote"> Vgl. <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 647.</note>
                     <quote>Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich
                        zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und
                        nicht durch die Forschungseinrichtung selbst erfolgt</quote>.<note
                           type="footnote"> <ref target="https://dserver.bundestag.de/btd/19/274/1927426.pdf">Bundestagsdrucksache 19/27426</ref>, S. 97.</note> Möglich ist aber in jedem
                     Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern
                     bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die
                     Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man
                     sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und
                     vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG).</p>
                  <p>Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die
                     Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora
                     (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)<note
                        type="footnote"> Etwas anderes kann gelten, wenn die Ursprungsdaten
                        entsprechend lizenziert sind, vgl. dazu auch <ref
                           type="intern" target="#hd8">Kapitel 3.2</ref>.</note> so lange aufbewahrt
                     werden, wie es für Zwecke der Überprüfung der Qualität der wissenschaftlichen
                     Forschung oder für die Forschung selbst erforderlich ist. Das impliziert, dass
                     es auch abseits der Überprüfung wissenschaftliches Interesse an den Korpora
                     geben kann. Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der
                     Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an
                     weiterer Beforschung der Korpora bestehen kann:<note type="footnote"> Vgl.
                        <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 647.</note>
                     <quote>Die Nutzung zum Zwecke der wissenschaftlichen
                        Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter
                        wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte
                        nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5
                        Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese
                        Bestimmung anwendbar ist.</quote>
                     <note type="footnote"> Erwägungsgrund 15 S. 5 <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref>.</note> Für eine
                     Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten
                     abgeleiteten Textformaten sogenannte <term type="dh">Closed-Room-Zugänge</term>
                     <note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 4 f.</note> (<ref target="https://www.gesetze-im-internet.de/urhg/__60e.html">§§ 60e Abs. 4</ref>,
                     <ref target="https://www.gesetze-im-internet.de/urhg/__60f.html">60f UrhG</ref>) und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der
                     wissenschaftlichen Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese
                     beiden Optionen dargestellt und gegeneinander abgewogen.</p>
                  <p>§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen
                     Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen
                     Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder
                     private Studien zugänglich zu machen (sogenannte <term type="dh"
                        >Terminal-Schranke</term>). Die Nutzer*innen dürfen sogenannte <term
                        type="dh">Anschlusskopien</term>
                     <note type="footnote"> Der Terminus ›Anschlusskopie‹ meint, dass sich die
                        Erlaubnis der Erstellung einer zehnprozentigen Kopie von Nutzer*innen an die
                        Erlaubnis der Einrichtung, Werke an Terminals zugänglich zu machen,
                        anschließt; vgl. dazu auch Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60e Randnummer
                        21-24.</note> im Umfang von zehn Prozent erstellen. Einzelne Werke geringen
                        Umfangs<note type="footnote"> Unter ›geringem Umfang‹ werden gemeinhin 25
                           Seiten verstanden, vgl. Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60c Randnummer 15,
                           § 60a Randnummer 22; <ref target="https://dserver.bundestag.de/btd/18/123/1812329.pdf">Bundestagsdrucksache 18/12329</ref>, S. 35.</note> wie Beiträge aus
                     wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden.
                     Auf Grundlage des § 60e Abs. 4 UrhG kann also durch Kulturerbe-Einrichtungen
                     Vollzugriff gewährt werden, außerdem können die Anschlusskopien
                     interessengerecht erstellt werden. Ein entscheidender Nachteil an § 60e Abs. 4
                     UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an
                     Terminals vor Ort erfolgen kann (sogenannte Closed-room-Zugänge).<note
                        type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 5.</note>
                  </p>
                  <p>Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der
                     nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier
                     vorgestellte Konzept stützt. § 60c UrhG basiert auf Art. 5 Abs. 3 lit. a
                     InfoSoc-Richtlinie, der den EU-Mitgliedsstaaten ermöglicht, in ihrem nationalen
                     Urheberrecht Erlaubnisse von Vervielfältigungen und öffentlicher
                     Zugänglichmachung <quote>für Zwecke der wissenschaftlichen Forschung, sofern –
                        außer in Fällen, in denen sich das als unmöglich erweist – die Quelle,
                        einschließlich des Namens des Urhebers, wann immer das möglich ist,
                        angegeben wird und soweit das zur Verfolgung nicht kommerzieller Zwecke
                        gerechtfertigt ist</quote> vorzusehen. </p>
                  <p>§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen
                     wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige
                     Werke geringen Umfangs zu vervielfältigen und an bestimmt abgegrenzte
                     Personenkreise für deren eigene wissenschaftliche Forschung öffentlich
                     zugänglich zu machen, d. h. weiterzugeben. Auf dieser Grundlage können
                     geschützte Werke auf individuelle Anfrage teils vollständig, teils
                     auszugsweise, weitergegeben werden, auch digital und ohne Ortsbindung. Nicht
                     erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu
                        stellen.<note type="footnote"> Das entspräche einer Einstellung in ein
                        Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in
                           <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60c Randnummer 9; <ref target="https://dserver.bundestag.de/btd/15/008/1500837.pdf">Bundestagsdrucksache 15 / 837</ref>, S. 34.</note>
                  </p>
                  <p>Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung
                     erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden
                     zwei Erlaubnisnormen, die auf unterschiedlichen Richtlinien beruhen (nämlich
                     einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie),
                     miteinander kombiniert. Das ist rechtlich möglich.<note type="footnote"> Nach
                        der <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref> ist es zulässig, weitere Nutzungen der TDM-Korpora auf
                        die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen
                        Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref>. Auch die
                        Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche
                        Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen
                        erfüllt sind, EuGH GRUR 2014, 1078 – TU Darmstadt / Ulmer; BGH GRUR 2015,
                        1101 – Elektronische Leseplätze II; so bereits <ref type="bibliography" target="#kleinkopf_text_2021">Kleinkopf et al. 2021</ref>, S.
                        198f.</note>
                  </p>
                  <p>Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den
                     Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG
                     vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für
                     die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung gemäß
                     § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen finanziellen
                     Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen rechtmäßigen Zugang
                     allerdings nicht voraus. Die Vergütung stellt also einen Ausgleich der
                     urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c UrhG insofern
                     eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, weswegen sich
                     das in XSample entwickelte Konzept auf § 60c UrhG stützt.</p>
               </div>
               <div type="subchapter">
                  <head>2.3. Rahmenbedingungen für das Auszugskonzept</head>

                  <p>Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an
                     folgenden rechtlichen Einschränkungen, die von
                     Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind:</p>
                  <p>
                     <hi rend="italic">Einbeziehung der Forschungsinfrastruktureinrichtungen</hi>:
                     Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und
                     gegebenenfallsbereitstellen, sollten von Beginn an in die Projektkonzeptionen
                     integriert werden.</p>
                  <p>
                     <hi rend="italic">Aufbewahrungsdauer</hi>: Forscher*innen, die die Korpora
                     bereitstellen möchten, sollten eine der Forschung angemessenen
                     Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG
                     vorgeschlagenen zehn Jahren<note type="footnote"> Leitlinien zur Sicherung
                        der guten wissenschaftlichen Praxis, <ref type="bibliography" target="#dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft 2019</ref>, Leitlinie 17.</note> abweicht,
                     sollte eine explizite Begründung erfolgen.</p>
                  <p>
                     <hi rend="italic">Inhalt der Korpora</hi>: Die gespeicherten und gegebenenfalls
                     bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten
                     enthalten, es sei denn, die betreffende Einrichtung hat hierzu entsprechende
                     Lizenzen erworben.</p>
                  <p>
                     <hi rend="italic">Nachnutzung</hi>: Nachnutzer*innen müssen nicht-kommerzielle,
                     wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt
                     abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle
                     Anfrage. </p>
                  <p>
                     <hi rend="italic">Umfang der Korpusauszüge</hi>: Korpusauszüge dürfen maximal
                     15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus
                     Zeitschriften (maximal 25 Seiten) können dagegen vollständig herausgegeben
                     werden.</p>
               </div>
            </div>
            <div type="chapter">
               <head>3. Technische Umsetzung</head>

               <p>Wie im <ref type="intern" target="#hd2">vorigen Kapitel</ref> beschrieben, bedient
                  sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu
                  einem Umfang von 15 Prozent eines Werks für Forschungszwecke weiterzugeben. Dieses
                  Auszugskonzept wurde im Rahmen des Projekts prototypisch implementiert und zielt
                  insbesondere darauf ab, den Nutzer*innen die für ihre Forschungsfrage
                  ›hilfreichsten‹ Auszüge zu liefern. Die technische Umsetzung wird im Folgenden
                  umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (<ref type="intern"
                     target="#hd7">Kapitel 3.1</ref>) und die im Workflow eingesetzten
                  Serverkomponenten (<ref type="intern" target="#hd8">Kapitel 3.2</ref>) vorgestellt.
                  Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs
                     (<ref type="intern" target="#hd9">Kapitel 3.3</ref>) sowie verschiedene
                  Möglichkeiten der Auszugsgenerierung (<ref type="intern" target="#hd10">Kapitel
                     3.4</ref>) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus
                  enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal
                  auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die
                  Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur
                  thematisiert (<ref type="intern" target="#hd11">Kapitel 3.5</ref>).</p>
               <div type="subchapter">
                  <head>3.1 Workflow-Akteur*innen</head>

                  <p>XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den
                     Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / -lieferant*innen und
                     drittens den Nachnutzer*innen. Infrastrukturbetreiber*innen gehören zu den oben
                     adressierten Forschungsinfrastruktureinrichtungen und bieten die
                     infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im
                     Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der
                     Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement
                     zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung
                     für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen
                     Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche
                     gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten
                     Akteur*innen. Als Datenlieferant*innen werden im XSample-Kontext sämtliche
                     Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf
                     geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die
                     dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten.
                     Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG
                     bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten
                     Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.</p>
               </div>
               <div type="subchapter">
                  <head>3.2 Infrastruktur: Repositorium und Auszugsgenerierung</head>

                  <p>Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum
                     Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der
                     Verwaltung der Infrastrukturbetreiber*innen und verfügen über jeweils eigene
                     Weboberflächen.</p>
                  <p>Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und
                     eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine
                     Dataverse-Instanz realisiert. Die <ref target="https://dataverse.org/"
                        >Dataverse</ref> Software ist ein Open-Source-Projekt auf Basis des <ref
                        target="https://github.com/jakartaee/faces">JSF-Frameworks</ref> mit einer
                     aktiven Community aus Entwickler*innen und regelmäßigen Nutzer*innen. Dataverse
                     bietet die Möglichkeit, abgelegte Daten auf verschiedene Weise zu organisieren
                     oder zu gruppieren, und verfügt überdies über eine Rechteverwaltung, die es
                     erlaubt, bis auf die Ebene einzelner Datensätze zu entscheiden, ob ein komplett
                     öffentlicher Zugang (<term type="dh">Public Domain</term>), das Teilen mit
                     einzelnen Individuen oder Gruppen (<term type="dh">Shared Domain</term>), oder
                     eine für andere uneinsehbare Ablage (<term type="dh">Private Domain</term>)
                     gewünscht ist. Dies ist im Kontext von XSample besonders relevant, da zwar
                     während eines laufenden Forschungsprojekts § 60d UrhG das Teilen der Daten
                     innerhalb von Forschungsgruppen und zu Überprüfungszwecken erlaubt (Shared
                     Domain), allerdings nach Projektende diese in ihrer Gesamtheit nicht mehr
                     (ausdrücklich) öffentlich zugänglich gemacht oder geteilt werden dürfen
                     (Private Domain). Zusätzlich unterscheidet Dataverse zwischen der
                     Auffindbarkeit von Ressourcen und dem direkten Zugriff auf dieselben. Somit
                     lassen sich die Metadaten als eigenständiger Datensatz veröffentlichen, während
                     die eigentlichen Dateien innerhalb des Datensatzes aber vor jeglichem direkten
                     Zugriff abgeschirmt sind.</p>
                  <p>Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die
                     zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer
                     Weboberfläche durch die individuelle Auszugskonfiguration und stellt am Ende
                     des XSample-Workflows die im Auszug enthaltenen Daten als Download zur
                     Verfügung. Dieser Server basiert ebenfalls auf JSF und kommuniziert mit der
                     Dataverse-Instanz über eine Webschnittstelle, um auf dort abgelegte Ressourcen
                     und Metadaten zuzugreifen. Um auf nicht-öffentliche Datensätze zugreifen zu
                     können, benötigt der XSample-Server einen eigenen Account für das entsprechende
                     Dataverse, der allerdings nur Leserechte beinhalten muss, denn der
                     XSample-Server selbst schreibt oder modifiziert keine Daten im Repositorium.
                     Zur Integration des Servers in die bestehende Dataverse-Infrastruktur wird
                     dieser in der Dataverse-Instanz als sogenanntes <ref
                        target="https://guides.dataverse.org/en/latest/api/external-tools.html"
                        >external tool</ref> registriert. Diese Schnittstelle in Dataverse
                     ermöglicht es, für bestimmte Dateitypen oder Datensätze externe Server zu
                     registrieren, die den Nutzer*innen dann als zusätzliche Optionen neben Download
                     oder Betrachtung angezeigt werden (vgl.<ref type="graphic"
                        target="#nachnutzung_2021_002"> Abbildung 2</ref>). Dies ermöglicht eine
                     Integration der XSample-Komponenten, ohne Code-Modifikationen an Dataverse
                     vornehmen zu müssen, und erlaubt überdies, komplett auf eine eigene
                     Authentifizierung von Nutzer*innen von Seiten des XSample-Servers zu
                     verzichten, da diese bereits bei Dataverse vorgeschaltet ist. Auf diese Weise
                     werden die zur Nachverfolgung der Nutzer*innen nötigen Daten bei der
                     Weiterleitung zum XSample-Server sogleich mit übermittelt.</p>
               </div>
               <div type="subchapter">
                  <head>3.3 Datenaufbereitung für die Auszugsgenerierung</head>

                  <p>Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere
                     Vorbereitungsschritte notwendig:</p>
                  <p>
                     <hi rend="italic">Zulässige Formate</hi>: Alle für die Auszüge zu verwendenden
                     Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich
                     (Private Domain) des Repositoriums abgelegt werden. Im Kontext der
                     Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für
                     Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und
                     <term type="dh">CoNLL</term>-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte
                     Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen
                     und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke
                     Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen,
                     wie in <ref type="intern" target="#hd5">Kapitel 2.3</ref> beschrieben.</p>
                  <p>
                     <hi rend="italic">Alignierung</hi>: Neben den reinen Annotationen im Korpus
                     muss auch eine Abbildung einzelner Annotationen auf die zugrunde liegenden
                     Segmente der Ursprungsdaten geliefert werden, um beide innerhalb von XSample
                     alignieren zu können. Da beispielsweise im Fall von Dateien im PDF-Format
                     Auszüge zwangsläufig als Sammlung vollständiger Seiten erzeugt werden und die
                     Zusammensetzung der Auszüge mittels Suchanfragen auf Basis der Annotationen
                     gesteuert werden kann, müssen diese Annotationen (bzw. die dazugehörigen
                     Suchergebnisse) auf die ursprünglichen Seiten abbildbar sein. Aktuell sieht der
                     XSample-Prototyp für diese Alignierung entweder die Verwendung zusätzlicher
                     Annotationsebenen direkt im Korpus vor, oder aber das Erstellen und Mitliefern
                     zusätzlicher tabellarischer Dateien, welche eine simple Abbildung relevanter
                     Segmentierungseinheiten seitens der Annotationen (z. B. Sätze) auf die primären
                     Segmente der Ursprungsdaten enthält. Abhängig vom jeweiligen Projektinhalt und
                     dem Anteil manueller Vorverarbeitung kann dieser Vorbereitungsschritt eine
                     große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant
                     werden, damit die notwendigen und nicht selten ›format-fremden‹<note
                        type="footnote"> Metainformationen wie Seitenzahlen auf der Ebene von Sätzen
                        oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder
                        Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen Aufwand, bzw.
                        spezielle Anpassungen.</note> Informationen nicht im Forschungsprozess
                     verloren gehen und entweder durch manuellen Zusatzaufwand oder Anpassung
                     automatischer Verarbeitungsschritte wiederhergestellt werden müssen. Die Ablage
                     der Alignierungsinformationen erfolgt analog zu obigen Ursprungs- und
                     Annotationsdateien in einem nicht-öffentlichen Bereich.</p>
                  <p>
                     <hi rend="italic">Erzeugung eines Manifests</hi>: Als letztes muss ein
                     sogenanntes XSample-Manifest (siehe Beispielcode unten) erzeugt und im
                     Repositorium abgelegt werden. Dieses Manifest ist eine Datei im <ref
                        target="https://json-ld.org/">JSON-LD</ref> Format, die Metadaten zu den
                     einzelnen für die weitere Verarbeitung relevanten Ressourcen im Korpus enthält.
                     Primär bestehen diese Informationen aus Angaben zum Ablageort, Format und
                     Umfang einzelner Dateien. Daneben sind aber auch Informationen zu
                     Rechteinhaber*innen der einzelnen Werke im Korpus enthalten, damit der
                     XSample-Server bei der Auszugsgenerierung der Namensnennungspflicht nachkommen
                     kann. Im Manifest kann zusätzlich ein fixer Bereich für die statische
                     Auszugsgenerierung festgelegt werden. Dies erlaubt es Datenlieferant*innen
                     beispielsweise, besonders interessante Passagen als Teil des Standard-Auszugs
                     zu definieren. Der Umfang des statisch definierten Auszugs muss nicht
                     zwangsläufig die vollen 15 Prozent ausschöpfen, wenn interessante Inhalte auch
                     in Auszügen geringeren Umfangs präsentiert werden können. Somit können
                     Nachnutzer*innen den Rest ihrer Quote beispielsweise für zielgerichtete
                     Varianten der Auszugserstellung nutzen. Derzeit erfolgt die Erstellung eines
                     XSample-Manifests komplett händisch. Als zukünftige Erweiterung ist ein
                     Assistent geplant, der Datenlieferant*innen auf der XSample-Webseite dabei
                     helfen soll, Inhalte für Manifeste zu definieren, ohne direkt im JSON-LD-Format
                     schreiben zu müssen. Im Gegensatz zu den restlichen Dateien muss das Manifest
                     öffentlich auffindbar sein (Shared oder Public Domain), um den Nachnutzer*innen
                     als Einstiegspunkt für die Auszugsgenerierung zu dienen. Da Dataverse für
                     veröffentlichte Ressourcen DOIs (<term type="dh">Digital Object
                        Identifier</term>) vergibt und ein breites Spektrum an deskriptiven
                     Metadaten unterstützt, kann ein Manifest auch zu Zitationszwecken oder
                     allgemein zur Verlinkung des damit verbundenen Korpus genutzt werden. Es
                     fungiert somit als öffentlicher Platzhalter für die nicht direkt einsehbaren
                     geschützten Korpusinhalte.</p>
                  <p>Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu
                     Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten für die
                     statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine
                     100-seitige PDF-Datei (verlinkt im <code>"xmp:primaryData"</code>-Block), bei
                     der die ersten 10 Prozent im Falle von statischer Auszugsgenerierung geliefert
                     werden sollen (spezifiziert im <code>"xmp:staticExcerpt"</code>-Block). Aus
                     Platzgründen ist der <code>"xmp:manifests"</code>-Block für zusätzliche
                     Korpus-Metadaten ohne Inhalt dargestellt: </p>
                  <p>
                     <code>{ "@type": "xmp:manifest", "@context":
                        "http://www.uni-stuttgart.de/xsample/json-ld/manifest", "xmp:description":
                        "Plain manifest with no customization (first 10%)", "xmp:corpora": [ {
                        "@type": "xmp:corpus", "xmp:primaryData": { "@type": "xmp:dataverseFile",
                        "xmp:segments": 100, "xmp:sourceType": "xmp:pdf", "xmp:id": 26 },
                        "xmp:legalNote": { "@type": "xmp:legalNote", "xmp:author": "The XSample
                        Team", "xmp:title": "XSample Test Corpus", "xmp:publisher": "The XSample
                        Project", "xmp:year": 2021 }, "xmp:description": "100 page test corpus",
                        "xmp:id": "root" } ], "xmp:staticExcerpt": { "@type": "xmp:span",
                        "xmp:begin": 0, "xmp:end": 10, "xmp:spanType": "xmp:relative" },
                        "xmp:manifests": []}</code>
                  </p>
                  <p>Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die
                     Dataverse-Oberfläche (<ref type="graphic" target="#nachnutzung_2021_002">Abbildung
                        2</ref>) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese
                     durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die
                     Nachnutzer*innen auf den XSample-Server (<ref type="graphic"
                        target="#nachnutzung_2021_003">Abbildung 3</ref>) weitergeleitet werden, wo die
                     eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen
                     Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten
                     Werkes ausgegeben werden dürfen und diese Obergrenze auch über wiederholte
                     Anfragen hinweg eingehalten werden muss, bedarf es einer sehr genauen
                     Protokollierung bereits ausgegebener Auszüge. Zu diesem Zweck werden die
                     eindeutig identifizierbaren Dataverse-Accounts verwendet, was wiederum zur
                     Folge hat, dass zur Nutzung des XSample-Services zwingend ein Account im
                     jeweils verknüpften Dataverse-Repositorium notwendig ist und unregistrierte
                     Dritte keinen Zugriff erhalten können.</p>
                  <figure>
                     <graphic xml:id="nachnutzung_2021_002"
                        url=".../medien/nachnutzung_2021_002.png">
                        <desc>
                           <ref type="graphic" target="#abb2">Abb. 2</ref>: Dataverse-Oberfläche für
                           ein XSample-Manifest. Rechts unten kann die Weiterleitung auf den
                           XSample-Server angestoßen werden. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref
                              type="graphic" target="#nachnutzung_2021_002"/>
                        </desc>
                     </graphic>
                  </figure>
               </div>

               <div type="subchapter">
                  <head>3.4 Auswahl der Auszüge</head>
                  <figure>
                     <graphic xml:id="nachnutzung_2021_003"
                        url=".../medien/nachnutzung_2021_003.png">
                        <desc>
                           <ref type="graphic" target="#abb3">Abb. 3</ref>: Startseite des
                           XSample-Servers nach Weiterleitung aus dem zugehörigen Dataverse und
                           Validierung der Manifest-Datei. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
                              target="#nachnutzung_2021_003"/>
                        </desc>
                     </graphic>
                  </figure>
                  <p>Nach der Weiterleitung auf den XSample-Server erfolgt zunächst eine Validierung
                     des Manifests auf formale Korrektheit und Verfügbarkeit der verlinkten
                     (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen
                     drei Arten der Auszugsgenerierung (vgl. <ref type="graphic"
                        target="#nachnutzung_2021_003">Abbildung 3</ref>, unten links) auszuwählen: Als
                     simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die
                     ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt
                     werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht,
                     bietet die zweite Alternative (vgl.<ref type="graphic" target="#nachnutzung_2021_004"
                        > Abbildung 4</ref>) die Möglichkeit, die Auszugsgrenzen innerhalb der
                     Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird
                     eine zusammenhängende Sequenz an Seiten / Segmenten geliefert.</p>
                  <figure>
                     <graphic xml:id="nachnutzung_2021_004"
                        url=".../medien/nachnutzung_2021_004.png">
                        <desc>
                           <ref type="graphic" target="#abb4">Abb. 4</ref>: Grafische Oberfläche zur
                           flexiblen Auswahl der Auszugsgrenzen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref
                              type="graphic" target="#nachnutzung_2021_004"/>
                        </desc>
                     </graphic>
                  </figure>

                  <p>Die ersten beiden Verfahren der Auszugsgenerierung bieten den Nachnutzer*innen
                     verhältnismäßig wenig Flexibilität bei der Auswahl der Textausschnitte, sodass
                     sie für bestimmte Forschungsanliegen ungeeignet sind. Dies ist insbesondere
                     dann der Fall, wenn sich die Nutzer*innen nur für sehr spezifische Phänomene
                     oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte
                     Alternative eine Korpusanfrageschnittstelle<note type="footnote"> Vgl. <ref type="bibliography" target="#gaertner_corpus_2020">Gärtner
                        2020</ref>.</note> integriert, die Suchanfragen auf Basis der im Korpus
                     enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt
                     bestimmte syntaktische Konstruktionen finden<note type="footnote"> Sofern
                        entsprechende Annotationen vorliegen.</note>, die dann als Kandidaten für
                     die Auszugserstellung genutzt werden (vgl. <ref type="graphic"
                        target="#nachnutzung_2021_005">Abbildung 5</ref>). Basierend auf diesen
                     Suchergebnissen und den Alignierungsinformationen werden die auszugebenden
                     Segmente der Primärdaten (zumeist Seiten) bestimmt. Somit lässt sich
                     sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der
                     Nutzer*innen zugeschnitten sind.</p>
                  <figure>
                     <graphic xml:id="nachnutzung_2021_005"
                        url=".../medien/nachnutzung_2021_005.png">
                        <desc>
                           <ref type="graphic" target="#abb5">Abb. 5</ref>: Exemplarische Oberfläche
                           zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen
                           Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird
                           direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
                           gegeben, die für sie relevanten Segmente exakt auszuwählen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" target="#nachnutzung_2021_005"/>
                        </desc>
                     </graphic>
                  </figure>
               </div>
               <div type="subchapter">
                  <head>3.5 Nachhaltigkeit</head>

                  <p>Um eine langfristige Nachnutzung des XSample-Servers zu gewährleisten, muss
                     dieser dauerhaft an der Universitätsbibliothek Stuttgart (in ihrer Rolle als
                     Forschungsinfrastruktureinrichtung) als Dienst zur Verfügung stehen. Wie in
                        <ref type="intern" target="#hd8">Kapitel 3.2</ref> beschrieben, wird an der
                     Universität Stuttgart ein Datenrepositorium auf Basis von Dataverse eingesetzt.
                     Das Datenrepositorium der Universität Stuttgart (<ref target="https://darus.uni-stuttgart.de/">DaRUS</ref>) steht bereits als
                     etablierter Dienst zur Verfügung. Mit dem XSample-Server zur Auszugsgenerierung
                     kommt ein weiterer Dienst hinzu, der ebenfalls gewartet und weiterentwickelt
                     werden muss. Bisher läuft dieser Dienst nicht im Produktivbetrieb, eine
                     Verstetigung wird angestrebt. Dazu wird gerade im
                     Forschungsdatenmanagement-Team ein Betriebskonzept für Code-Output von
                     Forschungsprojekten erarbeitet. Während der Projektphase sollen die technischen
                     Abhängigkeiten und notwendigen Informationen über den Code dokumentiert werden,
                     darüber hinaus muss eine fachliche Ansprechperson benannt werden, die auch noch
                     nach Projektende inhaltlich Auskunft geben kann. In einer zweiten Phase nach
                     Projektende startet eine Bewährungsphase, in der evaluiert wird, ob der Dienst
                     genutzt wird. In dieser Phase finden notwendige Wartungen statt. Damit soll
                     verhindert werden, dass die Anwendung nach Projektende nicht mehr weiter
                     nutzbar ist. Da aber nicht alle Dienste weiterentwickelt und gepflegt werden
                     können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben.</p>
                  <p>Die Software für den Prototypen ist open-source öffentlich verfügbar und kann
                     somit auch von anderen Einrichtungen genutzt werden, um eine eigene Instanz des
                     XSample-Servers zu betreiben. Neben einem laufenden Dataverse-Server wird
                     lediglich eine SQL-basierte Datenbank benötigt, um den XSample-Server in
                     bestehende Infrastruktur integrieren zu können. Die Anforderungen an
                     Rechenleistung und Speicherplatz für den Prototypen sind hierbei
                     überschaubar.</p>
                  <p>Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt,
                     der XSample-Workflow lässt sich aber auf beliebige Repositoriensoftware mit
                     ähnlichen Eigenschaften übertragen. Entsprechend kann mit mäßigem Aufwand auch
                     der XSample-Server angepasst werden, um mit anderen Repositorien interagieren
                     zu können. Etwas komplexer gestaltet sich die Unterstützung zusätzlicher
                     Formate, da hierbei sichergestellt werden muss, dass sowohl die Implementierung
                     des XSample-Servers selbst als auch die Korpusanfrageschnittstelle im
                     Hintergrund ein gegebenes Format lesen können. Im Falle der Auszugskomponente
                     im XSample-Server kommt noch das Schreiben der im Auszug enthaltenen Daten im
                     entsprechenden Format hinzu. </p>
               </div>
            </div>
            <div type="chapter">
               <head>4. Nutzungsszenarien</head>

               <p>Der Bedarfsermittlung und Erprobung der XSample-Infrastruktur dienen zwei
                  Anwendungsfälle aus Linguistik und Literaturwissenschaft, anhand derer die
                  konkrete Umsetzung vor dem Hintergrund möglicher (Nach-)Nutzungsszenarien
                  veranschaulicht wird. Der Fokus liegt dabei auf den jeweiligen Vor- und Nachteilen
                  des Auszugsverfahrens im Vergleich zum Prinzip der abgeleiteten Textformate.</p>
               <div type="subchapter">
                  <head>4.1 Erstes Nutzungsszenario: Wissenschaftssprache</head>

                  <p>Das erste Nutzungsszenario beschäftigt sich mit den Wissenschaftssprachen der
                     Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich
                     dabei um die Replikation einer Studie<note type="footnote"> Bei der
                        Originalstudie handelt es sich um <ref type="bibliography" target="#andresen_sprachbeschreibung_2022">Andresen 2022</ref>.</note> zur Frage, wie sich
                     die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander
                     unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30
                     Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden
                     Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem
                     Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der
                     deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer
                     Merkmale der beiden Disziplinen. In der Replikationsstudie werden im
                     Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung
                     der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln.
                     Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre
                     Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen
                     Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie
                     werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als
                     repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten
                     können. Zweitens wird die Datengrundlage um die Philosophie als drittes
                     geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft
                     und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im
                     Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches
                     ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der
                     Geisteswissenschaften im Allgemeinen zu treffen.</p>
                  <p>Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach.
                     Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen
                     Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im
                     CoNLL-Format an der Universitätsbibliothek Stuttgart
                     gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den
                     Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den
                     annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen
                     werden kann, müssen hierbei Informationen zur Alignierung der beiden
                     Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies
                     in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend
                     nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im
                     PDF-Dokument er zu finden ist. </p>
                  <p>Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (<term
                        type="dh">Unigramme</term>), während die vorausgehende Studie<note
                           type="footnote"> Vgl. <ref type="bibliography" target="#andresen_sprachbeschreibung_2022">Andresen 2022</ref>.</note> einen besonderen Schwerpunkt auf
                     Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet
                     werden. Hiervon abgesehen orientiert sich die Replikationsstudie in
                     methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale
                     mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise
                     ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der <term
                        type="dh">Support-Vector-Machine</term> (SVM) ein Klassifikator trainiert,
                     der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll.
                     Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die
                     für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe
                     war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in <ref
                        type="graphic" target="#tab01">Tabelle 1</ref> erstellt, das die
                     größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der
                     zweite Schritt der Analyse besteht dann in der Interpretation dieses
                     Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den
                     Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der
                     Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet
                     arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen
                     zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus
                     notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet
                     wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der
                     Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den
                     vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen
                     Zusammenhang setzen und gegebenenfalls erklären zu können.</p>
                  <table>
                     <row>
                        <cell>Rang</cell>
                        <cell>Philosophie</cell>
                        <cell>Score</cell>
                        <cell>Literaturwissenschaft</cell>
                     </row>
                     <row>
                        <cell>1</cell>
                        <cell/>
                        <cell>-77,07</cell>
                        <cell>ADJA</cell>
                     </row>
                     <row>
                        <cell>2</cell>
                        <cell>PPER</cell>
                        <cell>38,19</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>3</cell>
                        <cell/>
                        <cell>-34,98</cell>
                        <cell>NE</cell>
                     </row>
                     <row>
                        <cell>4</cell>
                        <cell/>
                        <cell>-33,23</cell>
                        <cell>VVFIN</cell>
                     </row>
                     <row>
                        <cell>5</cell>
                        <cell>PDAT</cell>
                        <cell>29,00</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>6</cell>
                        <cell>FM</cell>
                        <cell>20,20</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>7</cell>
                        <cell>VAFIN</cell>
                        <cell>17,55</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>8</cell>
                        <cell>KON</cell>
                        <cell>14,84</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>9</cell>
                        <cell>PDS</cell>
                        <cell>12,39</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>10</cell>
                        <cell>PROAV</cell>
                        <cell>12,10</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>11</cell>
                        <cell/>
                        <cell>-11,65</cell>
                        <cell>PRF</cell>
                     </row>
                     <row>
                        <cell>12</cell>
                        <cell>PPOSAT</cell>
                        <cell>11,18</cell>
                        <cell/>
                     </row>
                     <row>
                        <cell>13</cell>
                        <cell/>
                        <cell>-10,73</cell>
                        <cell>ART</cell>
                     </row>
                     <row>
                        <cell>14</cell>
                        <cell/>
                        <cell>-10,16</cell>
                        <cell>VVPP</cell>
                     </row>
                     <row>
                        <cell>15</cell>
                        <cell/>
                        <cell>-8,10</cell>
                        <cell>VVINF</cell>
                     </row>
                     <trailer xml:id="tab01">
                        <ref type="intern" target="#tab1">Tab. 1</ref>: Die distinktivsten
                        Wortarten für die Unterscheidung von Philosophie und Literaturwissenschaft
                        im Sinne der SVM. Das verwendete Tagset ist das STTS (<ref type="bibliography" target="#schiller_guidelines_1999">Schiller et al.
                        1999</ref>). [Andresen 2022] <ref type="graphic"
                           target="#nachnutzung_2021_t1"/>
                     </trailer>
                  </table>

                  <p>Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des
                     Pronomens <term type="figure">wir</term> in den drei Disziplinen
                     veranschaulicht. Im Zuge dessen wird auch diskutiert, welche Daten zur
                     Überprüfung und Re-Validierung der Analyseresultate vonnöten sind.</p>
                  <p>
                     <ref type="graphic" target="#tab01">Tabelle 1</ref> zeigt das Ranking
                     der 15 distinktivsten Wortarten für den Vergleich von Philosophie und
                     Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante
                     Rückschlüsse auf die Unterschiede zwischen den Wissenschaftssprachen der beiden
                     Disziplinen ziehen lassen, wird hier nur ein Merkmal in den Fokus genommen: Im
                     Vergleich mit der Literaturwissenschaft zeichnet sich die Philosophie durch
                     eine hohe Verwendungsfrequenz von Personalpronomen (PPER) aus. Der zusätzliche
                     Rückgriff auf die <term type="dh">Token</term>-Ebene zeigt, dass dieser
                     Unterschied insbesondere durch die Pronomen <term type="figure">wir</term> und
                        <term type="figure">es</term> erzeugt wird. Dies wird hier zum Anlass
                     genommen, die fachspezifische (bzw. gegebenenfalls auch
                     zeitschriften-spezifische) <term type="figure">wir</term>-Verwendung
                     differenzierter zu betrachten. Zu diesem Zwecke wurde aus jedem Korpus eine
                     Stichprobe von 100 Sätzen, in denen <term type="figure">wir</term> verwendet
                     wird, nach dem Zufallsprinzip ausgewählt und manuell klassifiziert. Dabei wurde
                     auf die Klassifikation von <term type="figure">wir</term>-Verwendungen im
                     deutschsprachigen akademischen Diskurs von Kresta<note type="footnote"> Vgl.
                        <ref type="bibliography" target="#kresta_realisierungsformen_1995">Kresta 1995</ref>, S.130–147, vgl. auch 
                        <ref type="bibliography" target="#steinhoff_textkompetenz_2007">Steinhoff 2007</ref>, S. 206f.</note>
                     zurückgegriffen. Kresta unterscheidet vier Gebrauchsweisen von <term
                        type="figure">wir</term> in deutschsprachigen akademischen Texten: Das
                     Pronomen wird verwendet, </p>
                  <list type="unordered">
                     <item>a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen
                           (Autor*innen-<term type="figure">wir</term>), </item>
                     <item>b.) um ein Kollektiv, bestehend aus Verfasser*innen und Leser*innen eines
                        Textes, zu bezeichnen (Teamwork-<term type="figure">wir</term>), </item>
                     <item>c.) zur Bezeichnung fachspezifischer Kollektiva aus akademischen
                        Verfasser*innen und Leser*innen (Fachkreis-<term type="figure">wir</term>)
                        sowie </item>
                     <item>d.) um auf alle Menschen zu referieren (Gemeinschafts-<term type="figure"
                           >wir</term>).</item>
                  </list>
                  <p>Die Stichproben zeigen (vgl. <ref type="graphic" target="#tab02"
                        >Tabelle 2</ref>) in den Texten fachspezifische Muster der <term
                        type="figure">wir</term>-Verwendungen: So sind sich die
                     literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in
                     beiden Gruppen die Verwendung des Gemeinschafts-<term type="figure">wir</term>
                     dominiert, während in den linguistischen Aufsätzen die Verwendung des
                        Autor*innen-<term type="figure">wir</term> vorherrscht. Die Dominanz des
                        Autor*innen-<term type="figure">wir</term> in der Linguistik lässt sich
                     dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren
                     Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der
                     Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die
                     Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des
                        Gemeinschafts-<term type="figure">wir</term> mag hingegen verwundern, da die
                     beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen.
                     Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen
                     Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt
                        desselben.<note type="footnote"> Vgl. zum Beispiel Jürgen Habermas’ Kritik
                        an der <bibl>
                           <title type="desc">Einebnung des Gattungsunterschiedes zwischen
                              Philosophie und Literatur</title>
                        </bibl>, <ref type="bibliography" target="#habermas_diskurs_1998">Habermas 1988</ref>, S. 217.</note> Eine Auswertung der konkreten
                     Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um
                     unterschiedlich geartete Manifestationen des Gemeinschafts-<term type="figure"
                        >wir</term> handelt, die man wiederum mit landläufigen Kennzeichen der
                     beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus
                     der Philosophie ein Gebrauch des Gemeinschafts-<term type="figure">wir</term>
                     der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und
                     Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der
                     Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und
                     Interpretation von Texten sind, wird in 31 der 54 Verwendungen des
                        Gemeinschafts-<term type="figure">wir</term> genau auf jene Praxis
                     verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird (siehe Beispiel
                     3), weswegen in diesem Fall auch vom Leser*innen-<term type="figure">wir</term>
                     gesprochen werden kann.</p>
                  <table>
                     <row>
                        <cell/>
                        <cell>Linguistik</cell>
                        <cell>Philosophie</cell>
                        <cell>Literaturwissenschaft</cell>
                     </row>
                     <row>
                        <cell>Autor*innen-<term type="figure">wir</term>
                        </cell>
                        <cell>58</cell>
                        <cell>7</cell>
                        <cell>11</cell>
                     </row>
                     <row>
                        <cell>Teamwork-<term type="figure">wir</term>
                        </cell>
                        <cell>32</cell>
                        <cell>31</cell>
                        <cell>16</cell>
                     </row>
                     <row>
                        <cell>Fachkreis-<term type="figure">wir</term>
                        </cell>
                        <cell>3</cell>
                        <cell>10</cell>
                        <cell>17</cell>
                     </row>
                     <row>
                        <cell>Gemeinschafts-<term type="figure">wir</term>
                        </cell>
                        <cell>7</cell>
                        <cell>48</cell>
                        <cell>54</cell>
                     </row>
                     <row>
                        <cell> davon: Leser*innen-<term type="figure">wir</term>
                        </cell>
                        <cell/>
                        <cell/>
                        <cell>(31)</cell>
                     </row>
                     <row>
                        <cell>Sonstige</cell>
                        <cell>–</cell>
                        <cell>4</cell>
                        <cell>2</cell>
                     </row>
                     <trailer xml:id="tab02">
                        <ref type="intern" target="#tab2">Tab. 2</ref>: Manuelle Kategorisierung
                        der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022] <ref type="graphic" target="#nachnutzung_2021_t2"/>
                     </trailer>
                  </table>

                  <p>Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung
                     unterschiedlichen <term type="figure">wir</term>-Verwendungen dienen: </p>
                  <list type="ordered">
                     <item>Im Folgenden werden <hi rend="bold">wir </hi>die Datengrundlage näher
                        erläutern und anschließend kurz auf die von uns verwendeten
                        korpuspragmatischen Analysewerkzeuge eingehen. (Lin_16)</item>
                     <item>Diese Fähigkeit wird im Gegenteil schrittweise erlernt bzw. angeeignet –
                        so wie <hi rend="bold">wir </hi>z. B. unsere Muttersprache lernen oder
                        aneignen – nämlich durch einen Prozess der ›unbewussten induktiven
                        Schlussfolgerung‹, die auf Regelmäßigkeiten oder Assoziationen unter unseren
                        Sinneswahrnehmungen zurückzuführen ist. (Philo_33)</item>
                     <item>Zugespitzt könnte man sagen, dass der Begriff ›literarische Präsenz‹ ein
                        Widerspruch in sich ist, weil die Erzählung zwar von den Präsenzerfahrungen
                        ihrer Figuren erzählen kann, doch diese stets allein auf der Ebene der
                        histoire ›präsent‹ sind, präsent also für den Erzähler – doch <hi
                           rend="bold">wir</hi>, die Leser, sind nicht der Erzähler; [...]
                        (Lit_03)</item>
                  </list>
                  <p>Vor dem Hintergrund möglicher Nachnutzungsszenarien lassen sich für das erste
                     Nutzungsszenario verschiedene Datenbedarfe feststellen, die mit
                     unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete
                     Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form
                     von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der
                     Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt
                     reproduziert werden.<note type="footnote"> Der Schritt von den Originaldaten zu
                        den Frequenzdaten kann weder auf Grundlage dieser Daten noch basierend auf
                        Auszügen überprüft werden. Das ist bedauerlich, da bereits in dieser Phase
                        richtungsweisende Entscheidungen getroffen werden (Findet eine
                        Lemmatisierung statt? Werden Stoppwörter ausgeschlossen? Werden bestimmte
                        Teile der Originaltexte nicht einbezogen? etc.).</note> Außerdem ist es etwa
                     möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer
                     Verfahren zu ermitteln und methodische Vergleiche anzustellen. Naturgemäß wird
                     die weiterführende Analyse auf genau solche Frequenzen eingeschränkt, die auch
                     zur Verfügung gestellt werden. Eine flexible Anpassung der n-Gramme (etwa ihrer
                     Länge oder der Art ihrer Generierung) ist nicht ohne weiteres möglich, im
                     Großen und Ganzen werden die Bedarfe dieser Analysephase aber durch abgeleitete
                     Textformate gedeckt.</p>
                  <p>Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen
                     nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu
                     können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext
                     zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des
                     untersuchten Phänomens ab. Für die <term type="figure">wir</term>-Analyse
                     wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest
                     stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz
                     ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen
                     treffen und nachvollziehbar machen zu können.</p>
               </div>
               <div>
                  <p></p>
                  <p></p>
                  <p></p>
                  <p></p>
               </div>
               <div type="subchapter">
                  <head>4.2 Zweites Nutzungsszenario: Unzuverlässiges Erzählen</head>

                  <p>Der zweite Anwendungsfall setzt sich mit dem Phänomen des unzuverlässigen
                     Erzählens (genauer: mit faktenbezogener Unzuverlässigkeit) auseinander, das in
                     einigen literarischen Erzählungen auftritt. Faktenbezogenes unzuverlässiges
                     Erzählen liegt in einem fiktionalen Text dann vor, wenn die Erzählinstanz
                     unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen
                     über die Fakten oder Ereignisse der erzählten Welt tätigt.<note type="footnote"
                        > Vgl. <ref type="bibliography" target="#martinez_einfuehrung_2009">Martínez / Scheffel 2009</ref>, S. 100; 
                           <ref type="bibliography" target="#kindt_erzaehlen_2008">Kindt 2008</ref>, S. 48.</note>
                  </p>
                  <p>Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um
                     eine Replikationsstudie, sondern um eine Pilotstudie zu einem kürzlich
                     gestarteten, auf drei Jahre ausgelegten Forschungsprojekt (<ref
                        target="https://dfg-spp-cls.github.io/projects_en/2020/01/24/TP-Caution/"
                        >CAUTION</ref>), das der Untersuchung der Schluss- und
                     Argumentationsprozesse bei der Identifikation unzuverlässigen Erzählens durch
                     Literaturwissenschaftler*innen bzw. Leser*innen gewidmet ist. Unzuverlässiges
                     Erzählen gilt in der Literaturwissenschaft einerseits als stark
                     interpretationsabhängiges Phänomen,<note type="footnote"> Vgl. <ref type="bibliography" target="#yacobi_reliability_1981">Yacobi 1981</ref>;
                        <ref type="bibliography" target="#nuenning_unreliable_1999">Nünning 1999</ref>.</note> andererseits listet die Forschung zahlreiche
                     sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen
                     können.<note type="footnote"> Vgl. <ref type="bibliography" target="#nuenning_narration_1998">Nünning 1998</ref>; 
                        <ref type="bibliography" target="#allrath_signale_1998">Allrath 1998</ref>.</note>
                     Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen
                     sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen,
                     der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In
                     diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation<note
                        type="footnote"> Vgl. <ref type="bibliography" target="#folde_interpretation_2015">Folde 2015</ref>, S. 366.</note> des Textes, d. h. sie
                     bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was
                     falsch ist.</p>
                  <p>Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw.
                     Zuschreibung unzuverlässigen Erzählens systematisch untersuchen zu können, sind
                     in einer ersten Annäherung folgende Teilfragen relevant: </p>
                  <list type="ordered">
                     <item>Welche Erzähler*innen bzw. Figuren treten in einer Erzählung auf? </item>
                     <item>Welche Äußerungen über die fiktive Welt der Erzählung treffen diese
                        Instanzen? </item>
                     <item>Welche dieser Äußerungen betreffen Propositionen, deren Zutreffen in der
                        fiktiven Welt in Frage steht? </item>
                     <item>Wie positionieren sich die relevanten Instanzen zu diesen Propositionen? </item>
                     <item>Gibt es textuelle Hinweise auf die Vertrauens(un)würdigkeit der
                        relevanten Instanzen?</item>
                  </list>
                  <p>Zur Beantwortung dieser Fragen wird im Rahmen des zweiten Nutzungsszenarios
                     explorativ-heuristisch eine Mischung aus automatisierten Text-Mining-Verfahren
                     und manueller Annotation auf ein Testkorpus aus vier kurzen bis mittellangen
                     Erzählungen und vier langen Erzählungen aus dem 19. bis 21. Jahrhundert
                     angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur
                     Erkennung von Named Entities<note type="footnote"> Verwendet wurde hier der
                        <ref target="https://nlp.stanford.edu/software/CRF-NER.shtml">Stanford Named Entity
                           Recognizer</ref>.</note> und <term type="dh">Redewiedergabe</term>
                     <note type="footnote"> Für die Erkennung von direkter Rede wurde ein simpler
                        Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert;
                        indirekte Rede wurde mithilfe eines verfügbaren <ref
                           target="https://github.com/redewiedergabe/tagger">Taggers</ref> annotiert. Alle erzeugten Annotationen wurden anschließend gesichtet und
                        gegebenenfalls korrigiert.</note> verwendet, zusätzlich wurden Koreferenzen
                     exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der
                     Untersuchung genuin literaturwissenschaftlicher Konzepte oft notwendig ist –
                     zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen
                     manueller Annotation auf die Texte angewandt wird.<note type="footnote"> Für
                        die manuelle Annotation wurde die Annotations- und Analyseumgebung <ref
                           target="https://catma.de/">CATMA</ref> verwendet.</note> Für Frage (5)
                     wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in
                     den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für
                     deren Erkennung eine Kombination aus automatischer <term type="dh"
                        >Sentimentanalyse</term>
                     <note type="footnote"> Zum Einsatz kam hier SentText, vgl. <ref type="bibliography" target="#schmidt_tool_2021">Schmidt et al. 2021</ref>.
                     </note> und manueller <term type="dh">Emotionsanalyse</term>
                     eingesetzt wird.</p>
                  <p>Für den Einsatz computergestützter Verfahren in der Literaturwissenschaft ist
                     oft erheblicher Entwicklungsaufwand notwendig, sowohl konzeptionell im Rahmen
                     der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch
                     technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.<note
                        type="footnote"> Vgl. <ref type="bibliography" target="#gius_textanalysen_2019">Gius 2019</ref>; 
                           <ref type="bibliography" target="#pichler_operationalisierung_2021">Pichler / Reiter 2021</ref>.</note> Deswegen kann
                     es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete
                     Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der
                     Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein
                     Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein.
                     Generell ist Forschung im Bereich der Digital Humanities (und besonders im
                     Bereich der <term type="dh">Computational Literary Studies</term>) stärker als
                     in den traditionellen Geisteswissenschaften durch <quote>Prozessualität,
                        Vorläufigkeit und ›Nichtwissen‹</quote>
                     <note type="footnote"> <ref type="bibliography" target="#schruhl_objektumgangsnormen">Schruhl 2018</ref>.</note> gekennzeichnet. Dies lässt sich
                     durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte
                     der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar)
                     werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft
                     implizit bleiben.</p>
                  <p>Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte
                     also hauptsächlich dem Zweck, einen Einblick in den Operationalisierungsprozess
                     der übergeordneten literaturwissenschaftlichen Fragestellung zu erhalten, oder
                     ist dem Interesse an bestimmten Einzelphänomenen (etwa dem Sentiment)
                     geschuldet. Nachnutzer*innen können beispielsweise prüfen, inwieweit die
                     eingesetzten Text-Mining-Verfahren bereits für die Anwendung auf literarischen
                     Texten adäquat sind oder ob die für die manuelle Annotation entwickelten
                     Annotationsschemata geeignet sind, die im Fokus stehenden literarischen
                     Phänomene zu fassen.</p>
                  <p>Für die Form, in der die Textdaten Dritten zugänglich gemacht werden sollten,
                     bedeutet das im vorliegenden Zusammenhang Folgendes:</p>
                  <list type="ordered">
                     <item>
                        <hi rend="italic">Named Entity Recognition</hi>: Inwieweit die <term
                           type="dh">Named Entity Recognition</term> (mit zu diesem Zeitpunkt noch
                        nicht eigens für das Korpus trainierten Modellen) auf literarischen Texten
                        zu brauchbaren Ergebnissen führt, kann unter Umständen noch teilweise
                        mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter
                        Formate<note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>.</note>) geprüft
                        werden. Zusätzlich können Nachnutzer*nnen sich damit ebenfalls einen ersten
                        Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren
                           verschaffen.<note type="footnote"> Tatsächlich ist (auch eine eigens
                           trainierte) Named Entity Recognition nur in eingeschränktem Maße für die
                           Identifikation der relevanten Akteur*innen / Instanzen geeignet, da gerade in
                           potenziell unzuverlässigen Erzählungen häufig homodiegetische
                           Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder
                           selten mit Eigennamen referiert wird.</note>
                     </item>
                     <item>
                        <hi rend="italic">Automatische Sentimentanalyse</hi>: Um zu beurteilen, ob
                        durch das lexikonbasierte Vorgehen der automatischen Sentimentanalyse
                        einzelne Wörter falsch klassifiziert wurden, ist der Rekurs auf den
                        textuellen Kontext notwendig, den abgeleitete Textformate nicht ermöglichen.
                        Ein erster Einblick in die Ergebnisse der automatischen Sentimenanalyse ist
                        allerdings noch mit abgeleiteten Textformaten möglich, sofern für
                        Nachnutzer*innen interessant ist, ob ein Text bzw. Korpus eher von negativen
                        oder positiven Wörtern geprägt ist oder welche Wörter bzw. Wortfelder mit
                        positiver oder negativer Polarität vorherrschen.</item>
                     <item>
                        <hi rend="italic">Redewiedergabeerkennung</hi>: Für die Prüfung der
                        automatisch generierten Redewiedergabe-Annotationen sind abgeleitete
                        Textformate ebenfalls nicht funktional, da die Annotationen längere Passagen
                        betreffen bzw. ihre Korrektheit (insbesondere im Fall indirekter Rede) nur
                        unter Rückgriff auf die fraglichen Textpassagen beurteilt werden kann. Auch
                        der für die weitere Bearbeitung der übergeordneten Forschungsfrage
                        ausschlaggebende Inhalt der Figurenrede kann nur durch Konsultation
                        zusammenhängender Textpassagen untersucht werden.</item>
                     <item>
                        <hi rend="italic">Koreferenzauflösung</hi>: Bei den manuellen Annotationen
                        zur Koreferenzauflösung sind sowohl zur Prüfung der Korrektheit als auch für
                        die Bearbeitung der inhaltlichen Fragestellung (›Wer sagt was?‹) textuelle
                        Kontexte notwendig.</item>
                     <item>
                        <hi rend="italic">Manuelle Emotionsanalyse</hi>: Für die manuelle
                        Emotionsanalyse wurde im Rahmen des Nutzungsszenarios ein eigenes Tagset
                        entwickelt, das auf den sprachlichen Indikatoren basiert, die in der
                        erzähltheoretischen Forschungsliteratur als Hinweise auf die Emotionalität
                        von Erzähler*innen (und damit auf ihre mögliche Unzuverlässigkeit)
                        identifiziert werden. Derartige Operationalisierungen
                        literaturwissenschaftlicher Forschungsfragen für die computergestützte
                        Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller
                        (und meist kollaborativer) Annotation häufig mehrere Durchläufe.<note
                           type="footnote"> Vgl. <ref type="bibliography" target="#gius_profit_2017">Gius / Jacke 2017</ref>; 
                           <ref type="bibliography" target="#reiter_anleitung_2020">Reiter 2020</ref>.</note> Im Rahmen
                        des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe
                        stattgefunden, in dem Forscher*innen bzw. Datenlieferant*innen einige
                        Entscheidungen treffen mussten, die für den Nachvollzug der Ergebnisse durch
                        Dritte relevant sein können. Hierfür ist nicht nur ein Einblick in die
                        Annotationsschemata und Anwendungsrichtlinien notwendig, sondern ebenso der
                        Zugriff auf zusammenhängende Textteile, die den textuellen Kontext zeigen
                        und damit individuelle Annotationsentscheidungen potenziell nachvollziehbar
                        machen. Einen ersten Eindruck von den Ergebnissen der manuellen
                        Emotionsanalyse können sich Nachnutzer*innen – analog zur verwandten
                        Sentimentanalyse – allerdings auch auf der Basis abgeleiteter Textformate
                        verschaffen.</item>
                     <item>
                        <hi rend="italic">Wahre Propositionen der erzählten Welt</hi>: Den
                        komplexesten und zugleich wichtigsten Operationalisierungs- und
                        Annotationsschritt stellt im Rahmen des zweiten Nutzungsszenarios die
                        manuelle Annotation der Sätze dar, die diejenigen Propositionen betreffen,
                        deren Wahrheit in der fiktiven Welt eines Textes in Frage stehen. Genau wie
                        im Fall der manuellen Emotionsanalyse müssen die Annotationskategorien erst
                        in mehreren Durchläufen entwickelt werden, von denen der erste im Rahmen des
                        vorliegenden Nutzungsszenarios stattfindet. Allerdings muss für die
                        Entwicklung von Annotationsschemata und Guidelines hier noch mehr Vorarbeit
                        geleistet werden als bei der Emotionsanalyse, da in der
                        Unzuverlässigkeitsforschung für letztere bereits Listen mit textuellen
                        Indikatoren zur Verfügung stehen, die vergleichsweise direkt in
                        Annotationsschemata übertragen werden können. Die Annotation in Frage
                        stehender Sätze erfordert dagegen grundsätzliche konzeptionelle und
                        praktische Entscheidungen. Im Rahmen dieses Nutzungsszenarios wurden
                        beispielsweise zunächst jeweils textspezifische Kategorien entwickelt, d. h.
                        dass für jeden Text ca. zwölf zentrale, in Frage stehende Propositionen
                        identifiziert und als Tagset umgesetzt wurden (z. B. für E. T. A. Hoffmanns <bibl>
                           <title type="desc">Der Sandmann</title>
                        </bibl> die Propositionen <quote>Der dämonische Sandmann existiert</quote>,
                           <quote>Der Sandmann will Nathanaels Leben zerstören</quote>,
                           <quote>Advokat Coppelius und Wetterglashändler Coppola sind dieselbe
                           Person</quote> etc.). Mithilfe dieser spezifischen Tagsets wurden in den
                        Texten jeweils Sätze annotiert, in denen die fraglichen Propositionen
                        thematisiert werden, um überhaupt erst einmal die grundsätzliche
                        Umsetzbarkeit des Ansatzes zu testen. Perspektivisch ist die Entwicklung
                        eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem
                        beispielsweise Propositionen in Typen (z. B. in <term type="dh"
                           >singular</term>, <term type="dh">particularized</term> und <term
                              type="dh">general</term>) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und
                        Konklusion) unterschieden werden.
                        Deshalb ist zu erwarten, dass sich die Annotationskategorien und
                        Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann
                        der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von
                        besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf
                        Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens)
                        zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein
                        weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der
                        Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter
                        annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind
                        deswegen weder für den Nachvollzug der Kategorienentwicklung oder der
                        Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse
                        der Annotation bzw. Analyse funktional.</item>
                  </list>
                  <p>Zusammenfassend lässt sich also festhalten, dass abgeleitete Textformate für
                     den Nachvollzug der Operationalisierung literaturwissenschaftlicher
                     Forschungsfragen, die in der durch das zweite Nutzungsszenario abgebildeten
                     Forschungsphase im Vordergrund steht, nur schwer oder gar nicht verwendbar
                     sind. Ein Auszugskonzept kann dagegen vielen der genannten Anforderungen
                     begegnen.</p>
                  <p>Wie eingangs deutlich gemacht wurde, dient das zweite Nutzungsszenario als
                     Pilotstudie zu einem umfangreicheren Projekt, das die Schluss- und
                     Argumentationsprozesse bei der Feststellung bzw. Zuschreibung unzuverlässigen
                     Erzählens untersucht. In diesem Zusammenhang wird für Nachnutzer*innen die
                     Notwendigkeit, auf zusammenhängende Textteile zugreifen zu können, noch stärker
                     in den Vordergrund rücken, denn unzuverlässiges Erzählen gilt als Phänomen,
                     dessen Feststellung sich aus dem Zusammenspiel verschiedener sprachlicher
                     Indikatoren, über den Text verteilter Informationen und Kontextinformationen
                     ergibt. Aus diesem Grund bleibt letztlich noch zu prüfen, inwieweit (d. h. bei
                     welchen Phänomenvarianten oder Texten) der Zugriff auf Textauszüge für
                     Nachnutzer*innen ausreichend ist. Fest steht allerdings, dass sich ein
                     Auszugsmodell, wie es in XSample entwickelt wurde, den Bedarfen dieser
                     Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und
                     Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten Texten solch komplexe literarische
                     Phänomene zu untersuchen.</p>
               </div>
            </div>
            <div type="chapter">
               <head>5. Fazit</head>

               <p>Um urheberrechtlichen Einschränkungen bei der Auswahl, Verbreitung und Nachnutzung
                  von Forschung von vornherein aus dem Weg zu gehen, konzentrieren viele digitale
                  Geisteswissenschaftler*innen ihre korpusorientierte Forschung auf gemeinfreie
                  Texte. In der Breite führt dies zu Verzerrungen der Forschungslandschaft, die
                  inhaltlich wie methodologisch problematisch sind. Dieser Artikel ging daher von
                  folgendem Desiderat für die Forschungscommunity in den digitalen
                  Geisteswissenschaften aus: Der bestehende urheberrechtliche Rahmen sollte in der
                  Praxis so gut es geht ausgenutzt werden, nicht zuletzt um die Relevanz von
                  korpusorientierter Forschung auf geschützten Texten forschungspolitisch zu
                  unterstreichen. Hier kommt einer forschungsgeleiteten Dateninfrastruktur die
                  wichtige Rolle zu, Forscher*innen eine möglichst weitgehende, rechtskonforme
                  Verwendung geschützter Texte zu ermöglichen. </p>
               <p>Zwei Ansätze hierzu sind zum einen individuelle Lizenzvereinbarungen, zum anderen
                  das jüngst vorgestellte Prinzip abgeleiteter Textformate. Der Austausch von
                  Ergebnissen einer explorativen Forschungspraxis auf Basis von Fragestellungen, die
                  für eine Interpretation die Einbeziehung relevanten Kontexts erforderlich machen,
                  ist mit beiden Ansätzen aber nur sehr eingeschränkt möglich. Der vorliegende
                  Beitrag schlägt daher eine infrastrukturelle Erweiterung des Instrumentariums vor,
                  die auf der urheberrechtlich zulässigen Weitergabe von Textauszügen aufbaut. Um
                  die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu
                  maximieren, ermöglicht der XSample-Workflow den Nutzer*nnen, Textauszüge flexibel
                  anhand von Suchanfragen an den Text und seine Annotationen auszuwählen.</p>
               <p>Anhand zweier Nutzungsszenarien aus Sprach- und Literaturwissenschaft wurde
                  beispielhaft gezeigt, welche Möglichkeiten und Grenzen sich aus dem Prinzip
                  abgeleiteter Textformate sowie dem Auszugskonzept im Kontext konkreter
                  geisteswissenschaftlicher Forschungsprojekte ergeben. Das linguistische Szenario
                  vergleicht Wortfrequenzen zwischen drei Korpora, eine Aufgabe, die problemlos
                  anhand von einfachen Frequenzlisten – d. h. auf Basis abgeleiteter Textformate –
                  reproduziert werden kann. Jedoch erfordert der nächste Schritt, die Interpretation
                  der quantitativen Befunde, eine Rekontextualisierung der Ergebnisse und damit
                  Zugriff auf die zu untersuchenden Textstellen in ihrem Kontext. Hier stößt das
                  Prinzip abgeleiteter Textformate an seine Grenzen; durch das Auszugskonzept kann
                  dieser Schritt hingegen in einem für den Anwendungsfall ausreichendem Maße
                  geleistet werden. </p>
               <p>Das zweite Szenario beschäftigt sich mit dem Phänomen des unzuverlässigen
                  Erzählens, bei dem sich schnell zeigt, dass abgeleitete Textformate nicht sinnvoll
                  eingesetzt werden können. Das betrifft zum einen den Nachvollzug der
                  Operationalisierung der literaturwissenschaftlichen Kategorien, für den der nähere
                  textuelle Kontext notwendig ist, zum anderen die Analyse und Interpretation der
                  Annotationen als Indikatoren für Vorkommnisse unzuverlässigen Erzählens, für die
                  auch der weitere textuelle Kontext von Bedeutung ist. Lediglich
                  Vorverarbeitungsschritte wie eine Named Entity Recognition können über abgeleitete
                  Formate, etwa mittels Frequenzdaten, nachgenutzt werden. Der Zugriff auf
                  individuell ausgewählte Textauszüge ist für den literaturwissenschaftlichen
                  Anwendungsfall somit deutlich vielversprechender. Allerdings ist anzumerken, dass
                  für gewisse Interpretationen auch der ganze Text vorliegen muss. Hier könnte das
                  Auszugskonzept zu einer ersten Sichtung und Bewertung des Materials dienen, vor
                  dem Hintergrund komplexer literaturwissenschaftlicher Fragestellung aber an seine
                  Grenzen stoßen. </p>
               <p>Die zwei Nutzungsszenarien können die Breite geisteswissenschaftlicher
                  Fragestellungen und Methoden nur in begrenztem Maß abbilden. Sie machen jedoch
                  deutlich, dass selbst Analysen, die einen quantitativen, auf automatisierte
                  Verfahren bauenden Zugang zu den Daten nutzen, für die Interpretation am Ende auf
                  Kontextinformationen angewiesen sind. Nur dieser Schritt macht die Analyse an die
                  Geisteswissenschaften anschlussfähig und für die Forschungscommunity
                  nachvollziehbar. Die Arbeit mit Frequenzdaten, zu denen keine Kontextinformationen
                  zur Verfügung stehen, birgt auch die Gefahr, zu Interpretationen zu verleiten, die
                  nicht durch die Daten gedeckt sind. Insofern erscheint es für viele
                  Forschungsszenarien in den digitalen Geisteswissenschaften sinnvoll, eine
                  Kombination beider Verfahren anzustreben.</p>
               <p>Alle hier diskutierten Verfahren bleiben selbstverständlich Behelfslösungen. Aus
                  Sicht der Forschung wäre die generelle Möglichkeit, Forschungsdaten einschließlich
                  der zugrundeliegenden Texte für wissenschaftliche Zwecke uneingeschränkt zu
                  teilen, das bei weitem produktivste Vorgehen. Die Interessen der
                  Rechteinhaber*innen müssen dabei natürlich berücksichtigt werden. Gegebenenfalls
                  müssten langfristig etwa die Richtlinien der Forschungsfinanzierung aus
                  öffentlichen Quellen angepasst werden, um bei der Verwendung von urheberrechtlich
                  geschützten Werken in berechtigten Fällen eine vorgelagerte Kompensation für eine
                  langfristige Nachnutzung zu ermöglichen. In vielen Fällen ließe sich ein
                  Interessenausgleich von Forschung und Rechteinhaber*innen erreichen. Langfristig
                  ist zu hoffen, dass die Politik den rechtlichen Rahmen mit dieser Zielsetzung
                  weiterentwickelt. Unter den aktuell gegebenen Umständen erlauben zum einen die
                  Veröffentlichung von abgeleiteten Textformaten und zum anderen der gezielte
                  Zugriff auf genau die Auszüge des Textes, die für eine gegebene Fragestellung
                  relevant sind, eine zwar eingeschränkte, in vielen Fällen aber hinreichende
                  Reproduktion und Nachnutzung urheberrechtlich geschützter Forschungsdaten.</p>
            </div>
            <div type="bibliography">
               <head>Bibliografische Angaben</head>
               <listBibl>
                 <bibl xml:id="allrath_signale_1998">Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für
                     die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur
                     Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen
                     Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier
                     1998, S. 59–80. <ptr type="gbv" cRef="24851167X"/></bibl>
                 <bibl xml:id="andresen_sprachbeschreibung_2022">Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen
                     Annotationen. Eine Korpusanalyse am Beispiel der germanistischen
                     Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre
                     Perspektiven auf Sprache (CLIP), 10). <ptr type="gbv" cRef="1786523841"/></bibl>
                 <bibl xml:id="dreier_urhg_2018">Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
                     Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage.
                     München 2018. <ptr type="gbv" cRef="896763692"/></bibl>
                 <bibl xml:id="dreier_urhg_2022">Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
                     Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz,
                     Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022.
                    <ptr type="gbv" cRef="1769737332"/></bibl>
                 <bibl xml:id="folde_interpretation_2015">Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics
                    55 (2015), H. 3, S. 361–374. <ptr type="gbv" cRef="129077933"/></bibl>
                 <bibl xml:id="dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten
                     wissenschaftlichen Praxis, Kodex, 2019. DOI: <ref
                        target="https://doi.org/10.5281/zenodo.6472827">10.5281/zenodo.6472827</ref>
                  </bibl>
                 <bibl xml:id="gaertner_corpus_2020">Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a
                     Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on
                     Challenges in the Management of Large Corpora. Hg. von Piotr Bański / Adrien
                     Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta.
                     (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [<ref
                        target="https://www.aclweb.org/anthology/2020.cmlc-1.5">online</ref>] </bibl>
                 <bibl xml:id="gaertner_corpus_2021">Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann:
                     Corpus Reusability and Copyright – Challenges and Opportunities. In:
                     Proceedings of the Workshop on Challenges in the Management of Large Corpor.
                     Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien Barbaresi / Simon
                     Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S.
                     10–19. DOI: <ref target="https://doi.org/10.14618/ids-pub-10467"
                        >10.14618/ids-pub-10467</ref> <ptr type="gbv" cRef="1788941780"/></bibl>
                 <bibl xml:id="gius_textanalysen_2019">Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein
                     Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [<ref
                        target="https://www.digitalhumanitiescooperation.de/pamphlet-8-computationelle-textanalysen/"
                        >online</ref>] </bibl>
                 <bibl xml:id="gius_profit_2017">Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On
                     Preventing and Fostering Disagreement in Literary Analysis. In: International
                     Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: <ref
                        target="https://doi.org/10.3366/ijhac.2017.0194"
                        >10.3366/ijhac.2017.0194</ref> <ptr type="gbv" cRef="569610923"/></bibl>
                 <bibl xml:id="habermas_diskurs_1998">Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen.
                     Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749).
                    <ptr type="gbv" cRef="863033091"/></bibl>
                 <bibl xml:id="jockers_methods_2012">Matthew Lee Jockers: Macroanalysis: Digital methods and literary history.
                    Urbana, IL u. a. 2013. <ptr type="gbv" cRef="1603785094"/></bibl>
                 <bibl xml:id="kindt_erzaehlen_2008">Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine
                     Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen
                     Literatur, 184). <ptr type="gbv" cRef="568520025"/></bibl>
                 <bibl xml:id="kleinkopf_text_2021">Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining –
                     Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei
                     computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für
                     IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: <ref
                        target="http://dx.doi.org/10.18419/opus-11445">10.18419/opus-11445</ref> <ptr type="gbv" cRef="1679027220"/></bibl>
                 <bibl xml:id="kleinkopf_bildung_2021">Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und
                     Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der
                     DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In:
                     Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655.
                    <ptr type="gbv" cRef="130952079"/></bibl>
                 <bibl xml:id="kresta_realisierungsformen_1995">Ronald Kresta: Realisierungsformen der Interpersonalität in vier
                     linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und
                     Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. <ptr type="gbv" cRef="185951988"/></bibl>
                 <bibl xml:id="martinez_einfuehrung_2009">Matías Martínez / Michael Scheffel: Einführung in die Erzähltheorie. 8.
                    Aufage. (= C.-H.-Beck-Studium). München 2009. <ptr type="gbv" cRef="612016773"/></bibl>
                 <bibl xml:id="nuenning_narration_1998">Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer
                     kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In:
                     Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens.
                     Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39.
                    <ptr type="gbv" cRef="24851167X"/></bibl>
                 <bibl xml:id="nuenning_unreliable_1999">Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of
                     »Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen.
                     Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg.
                     von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. <ptr type="gbv" cRef="25045680X"/></bibl>
                 <bibl xml:id="pichler_operationalisierung_2021">Axel Pichler / Nils Reiter: Zur Operationalisierung
                     literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine
                     Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von
                     Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H.
                     1–2, S. 1–29. [<ref
                        target="http://www.jltonline.de/index.php/articles/article/view/1124/2571"
                        >online</ref>] <ptr type="gbv" cRef="519206053"/></bibl>
                 <bibl xml:id="raue_freistellung_2021">Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und
                     Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021),
                     H. 10, S. 793-802. <ptr type="gbv" cRef="130952079"/></bibl>
                 <bibl xml:id="reiter_anleitung_2020">Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In:
                     Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler /
                     Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: <ref
                        target="https://doi.org/10.1515/9783110693973-009"
                        >10.1515/9783110693973-009</ref> <ptr type="gbv" cRef="1691580465"/></bibl>
                  <bibl xml:id="DSM-Richtlinie_2019">Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [<ref target="http://data.europa.eu/eli/dir/2019/790/2019-05-17">online</ref>]</bibl>
                 <bibl xml:id="schiller_guidelines_1999">Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert:
                     Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes
                     Tagset). 1999. PDF: [<ref
                        target="http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf">online</ref>]
                  </bibl>
                 <bibl xml:id="schoech_textformate_2020">Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer
                     Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke:
                     Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten
                     Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020).
                        DOI: <ref target="https://doi.org/10.17175/2020_006">10.17175/2020_006</ref></bibl>
                 <bibl xml:id="schruhl_objektumgangsnormen">Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften verändert: Neue
                     Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel 2018. (=
                     Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: <ref
                        target="https://doi.org/10.17175/sb003_012">10.17175/sb003_012</ref></bibl>
                 <bibl xml:id="schmidt_tool_2021">Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for
                     Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between
                     Data and Knowledge. Information Science and its Neighbors from Data Science to
                     Digital Humanities. Proceedings of the 16th International Symposium of
                     Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16,
                     Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: <ref
                        target="http://doi.org/10.5283/epub.44943">10.5283/epub.44943</ref>
                    <ptr type="gbv" cRef="1747271209"/></bibl>
                 <bibl xml:id="steinhoff_textkompetenz_2007">Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und
                     Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten.
                     Tübingen 2007. (= Reihe Germanistische Linguistik, 280) <ptr type="gbv" cRef="555521087"/></bibl>
                  <bibl xml:id="wilkinson_fair_2016">Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR
                     Guiding Principles for scientific data management and stewardship. In:
                     Scientific Data 3 (2016), Artikelnummer 160018. DOI: <ref target="https://doi.org/10.1038/sdata.2016.18">10.1038/sdata.2016.18</ref> <ptr type="gbv" cRef="788479601"/></bibl>
                 <bibl xml:id="yacobi_reliability_1981">Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics
                    Today 2 (1981), H. 2, S. 113–126. <ptr type="gbv" cRef="168640813"/></bibl>
               </listBibl>
            </div>
            <div type="abbildungsnachweis">
               <head>Abbildungs- und Tabellenverzeichnis: </head>
               <desc type="graphic" xml:id="abb1">In XSample entwickeltes Auszugskonzept. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
                  target="#nachnutzung_2021_001"/></desc>
                  <desc type="graphic" xml:id="abb2">Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die
                     Weiterleitung auf den XSample-Server angestoßen werden. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
                        target="#nachnutzung_2021_002"/></desc>
                     <desc type="graphic" xml:id="abb3">Startseite des XSample-Servers nach Weiterleitung aus dem zugehörigen
                        Dataverse und Validierung der Manifest-Datei. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
                           target="#nachnutzung_2021_003"/></desc>
                        <desc type="graphic" xml:id="abb4">Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
                              target="#nachnutzung_2021_004"/></desc>
               <desc type="graphic" xml:id="abb5">Exemplarische Oberfläche
                  zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen
                  Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird
                  direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
                  gegeben, die für sie relevanten Segmente exakt auszuwählen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
                     target="#nachnutzung_2021_005"/></desc>
               <desc type="table" xml:id="tab1"><ref target="#tab01" type="intern">Tab. 1</ref>: Die
                  distinktivsten Wortarten für die Unterscheidung von Philosophie und
                  Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS
                  (<ref type="bibliography" target="#schiller_guidelines_1999">Schiller et al. 1999</ref>). [Andresen 2022]<ref type="graphic"
                     target="#nachnutzung_2021_t1"/></desc>
               <desc type="table" xml:id="tab2"><ref target="#tab02" type="intern">Tab. 2</ref>:
                  Manuelle Kategorisierung der wir -Verwendung in einer Stichprobe von 100 Instanzen
                  pro Disziplin. [Pichler 2022]<ref type="graphic"
                     target="#nachnutzung_2021_t2"/></desc>
            </div>
         </div>
      </body>
   </text>
</TEI>