diff --git a/2022_007_andresen_et_al/nachnutzung_2021_001.png b/2022_007_andresen_et_al/nachnutzung_2021_001.png
new file mode 100644
index 0000000000000000000000000000000000000000..1d5381a9a66f4fad0892208b67820c93d4dd5d80
Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_001.png differ
diff --git a/2022_007_andresen_et_al/nachnutzung_2021_002.png b/2022_007_andresen_et_al/nachnutzung_2021_002.png
new file mode 100644
index 0000000000000000000000000000000000000000..263009def221a6788b3959e95c28ec0542616126
Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_002.png differ
diff --git a/2022_007_andresen_et_al/nachnutzung_2021_003.png b/2022_007_andresen_et_al/nachnutzung_2021_003.png
new file mode 100644
index 0000000000000000000000000000000000000000..c093abe1a8e4aec8d9e92f8a6b1230d623e5f6a2
Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_003.png differ
diff --git a/2022_007_andresen_et_al/nachnutzung_2021_004.png b/2022_007_andresen_et_al/nachnutzung_2021_004.png
new file mode 100644
index 0000000000000000000000000000000000000000..9a125f6a068076c5ad2c9544e8c88a224a84b9e2
Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_004.png differ
diff --git a/2022_007_andresen_et_al/nachnutzung_2021_005.png b/2022_007_andresen_et_al/nachnutzung_2021_005.png
new file mode 100644
index 0000000000000000000000000000000000000000..8f70d439b75314812c6fcea479bb2b9c23b7d659
Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_005.png differ
diff --git a/2022_007_andresen_et_al/nachnutzung_2021_v1_0.pdf b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..20c7a4d01c1557c52882033494005e18f339092a
Binary files /dev/null and b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.pdf differ
diff --git a/2022_007_andresen_et_al/nachnutzung_2021_v1_0.xml b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.xml
new file mode 100644
index 0000000000000000000000000000000000000000..3314aff7313f87c95e57eb4f4994ae456ac9e441
--- /dev/null
+++ b/2022_007_andresen_et_al/nachnutzung_2021_v1_0.xml
@@ -0,0 +1,1839 @@
+<?xml version="1.0" encoding="utf-8"?>
+<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
+    ?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html"
+   xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink"
+   xmlns:xhtml="http://www.w3.org/1999/xhtml">
+   <teiHeader>
+      <fileDesc>
+         <titleStmt>
+            <title>
+               <biblStruct>
+                  <analytic>
+                     <title level="a">Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in
+                        den digitalen Geisteswissenschaften (nach-)nutzen</title>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Melanie</forename>
+                                 <surname>Andresen</surname>
+                              </name>
+                              <email>melanie.andresen@ims.uni-stuttgart.de</email>
+                              <idno type="gnd">1143061535</idno>
+                              <idno type="orcid">0000-0002-3913-1273</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Universität Stuttgart, Institut für Maschinelle
+                           Sprachverarbeitung</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Markus</forename>
+                                 <surname>Gärtner</surname>
+                              </name>
+                              <email>markus.gaertner@ims.uni-stuttgart.de</email>
+                              <idno type="gnd">1268973939</idno>
+                              <idno type="orcid">0000-0002-2687-4350</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Universität Stuttgart, Institut für Maschinelle
+                           Sprachverarbeitung</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Sibylle</forename>
+                                 <surname>Hermann</surname>
+                              </name>
+                              <email>sibylle.hermann@ub.uni-stuttgart.de</email>
+                              <idno type="gnd">1073989070</idno>
+                              <idno type="orcid">0000-0001-9239-8789</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Universitätsbibliothek Stuttgart</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Janina</forename>
+                                 <surname>Jacke</surname>
+                              </name>
+                              <email>janina.jacke@uni-goettingen.de</email>
+                              <idno type="gnd">108423968X</idno>
+                              <idno type="orcid">0000-0001-7217-3136</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Georg August Universität Göttingen, Seminar für Deutsche
+                           Philologie</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Nora</forename>
+                                 <surname>Ketschik</surname>
+                              </name>
+                              <email>nora.ketschik@ims.uni-stuttgart.de</email>
+                              <idno type="gnd">1268974390</idno>
+                              <idno type="orcid">0000-0001-8758-5432</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Universität Stuttgart, Institut für Maschinelle
+                           Sprachverarbeitung</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Felicitas</forename>
+                                 <surname>Kleinkopf</surname>
+                              </name>
+                              <email>felicitas.kleinkopf@kit.edu</email>
+                              <idno type="gnd">1268974757</idno>
+                              <idno type="orcid">0000-0001-8670-2668</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Karlsruher Institut für Technologie, Institut für Informations- und
+                           Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Jonas</forename>
+                                 <surname>Kuhn</surname>
+                              </name>
+                              <email>jonas.kuhn@ims.uni-stuttgart.de</email>
+                              <idno type="gnd">1064354289</idno>
+                              <idno type="orcid">0000-0003-2860-5960</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Universität Stuttgart, Institut für Maschinelle
+                           Sprachverarbeitung</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Axel</forename>
+                                 <surname>Pichler</surname>
+                              </name>
+                              <email>axel.pichler@alumni.uni-graz.at</email>
+                              <idno type="gnd">14316130X</idno>
+                              <idno type="orcid">0000-0002-9177-7645</idno>
+                           </persName>
+                        </resp>
+                        <orgName>Universität Stuttgart, Institut für Maschinelle
+                           Sprachverarbeitung</orgName>
+                     </respStmt>
+
+                     <idno type="doi">10.17175/2022_007</idno>
+                     <idno type="ppn">1816418234</idno>
+                     <idno type="zfdg">2022.007</idno>
+                     <idno type="url">https://www.zfdg.de/node/362</idno>
+                     <date when="2022-11-03">03.11.2022</date>
+                  </analytic>
+                  <monogr>
+                     <title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
+                     <respStmt>
+                        <resp>Publiziert von</resp>
+                        <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>Transformation der Word Vorlage nach TEI</resp>
+                        <persName/>
+                        <name role="marc_trc">
+                           <surname>Baumgarten</surname>
+                           <forename>Marcus</forename>
+                           <idno type="gnd">1192832655</idno>
+                        </name>
+                     </respStmt>
+                     <availability status="free">
+                        <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref>
+                        </p>
+                     </availability>
+                     <biblScope unit="year">2022</biblScope>
+                     <biblScope unit="artikel">0a</biblScope>
+                  </monogr>
+               </biblStruct>
+            </title>
+         </titleStmt>
+         <editionStmt>
+            <edition>Elektronische Ausgabe nach TEI P5</edition>
+         </editionStmt>
+         <publicationStmt>
+            <distributor>
+               <name>
+                  <orgName>Herzog August Bibliothek Wolfenbüttel</orgName>
+               </name>
+            </distributor>
+            <idno type="doi">10.17175/zfdg.01</idno>
+            <idno type="ppn">0819494402</idno>
+            <authority>
+               <name>Herzog August Bibliothek</name>
+               <address>
+                  <addrLine>Lessingplatz 1</addrLine>
+                  <addrLine>38304 Wolfenbüttel</addrLine>
+               </address>
+            </authority>
+            <authority>
+               <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name>
+               <address>
+                  <addrLine>Burgplatz 4</addrLine>
+                  <addrLine>99423 Weimar </addrLine>
+               </address>
+            </authority>
+            <availability status="free">
+               <p> Sofern nicht anders angegeben </p>
+               <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence>
+            </availability>
+            <availability status="free">
+               <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund
+                     MWW</ref>
+               </p>
+            </availability>
+         </publicationStmt>
+         <sourceDesc>
+            <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
+         </sourceDesc>
+      </fileDesc>
+      <encodingDesc>
+         <editorialDecl><p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
+            XSLT-Skripten</p>
+            <p>Medienrechte liegen bei den Autor*innen</p>
+            <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Caroline Jansky</persName>.</p>
+             <p>All links checked<date when="2022-09-22">06.09.2022</date>
+            </p>
+         </editorialDecl>
+      </encodingDesc>
+      <profileDesc>
+         <creation>Einreichung als Artikel der Zeitschrift für digitale
+            Geisteswissenschaften</creation>
+         <langUsage>
+            <language ident="de">Text in Deutsch</language>
+            <language ident="de">Abstract in Deutsch</language>
+            <language ident="en">Abstract in Englisch</language>
+         </langUsage>
+         <textClass>
+            <keywords scheme="gnd">
+               <term>Urheberrecht<ref target="4062127-3"/>
+               </term>
+
+               <term>Data Mining<ref target="4428654-5"/>
+               </term>
+
+               <term>Infrastruktur<ref target="4026944-9"/>
+               </term>
+               <term>Open Science<ref target="1197084231"/>
+               </term>
+               <term>Digital Humanities<ref target="1038714850"/>
+               </term>
+               <term>Forschungsdaten<ref target="1098579690"/>
+               </term>
+
+            </keywords>
+         </textClass>
+      </profileDesc>
+      <revisionDesc>
+         <change/>
+      </revisionDesc>
+   </teiHeader>
+   <text>
+      <body>
+         <div>
+            <div type="abstract">
+               <argument xml:lang="de">
+                  <p>Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen
+                     von vornherein aus dem Weg zu gehen, konzentrieren sich viele digitale
+                     Geisteswissenschaftler*innen auf gemeinfreie Texte. Zur Überwindung dieser
+                     problematischen Beschneidung des Gegenstandsbereichs schlagen Schöch et al.
+                     2020 sogenannte abgeleitete Textformate vor, die digitale Analyseverfahren
+                     unterstützen, den Text jedoch aus urheberrechtlicher Perspektive hinreichend
+                     verfremden. Das Projekt XSample entwickelt eine komplementäre Lösung, die die
+                     Berechtigung zur Weitergabe von Auszügen aus geschützten Texten (im Klartext)
+                     nutzt. Der forschungsgesteuerte Ansatz ermöglicht Gruppen, die an einer
+                     Nachnutzung interessiert sind, eine Optimierung des maximal erlaubten
+                     Auszugsvolumens entlang eigener Forschungsfragen. </p>
+               </argument>
+               <argument xml:lang="en">
+                  <p>In order to avoid copyright restrictions on the exchange of research results
+                     from the outset, many researchers in the digital humanities focus on texts in
+                     the public domain. To overcome this problematic limitation of the subject
+                     matter, Schöch et al. 2020 propose so-called derived text formats that support
+                     digital analysis procedures but sufficiently alienate the text from a copyright
+                     perspective. The XSample project is developing a complementary solution that
+                     leverages permission to share excerpts from copyrighted text (in plain text).
+                     The research-driven approach allows groups interested in reuse to optimize the
+                     maximum allowed excerpt volume along their own research questions.</p>
+               </argument>
+            </div>
+            <div type="chapter">
+               <head>1. Einleitung</head>
+               <p>Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen
+                  Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die
+                  Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in
+                  engen Grenzen erlaubt.<note type="footnote"> Die Namen der Autor*innen sind in den
+                     Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische
+                     Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner
+                     befasste sich mit der technischen Umsetzung der Infrastruktur; das erste
+                     Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von
+                     Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die
+                     Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas
+                     Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in
+                     diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des <term
+                        type="figure">XSample</term>-Projekts, auch über die Zuständigkeitsgrenzen
+                     im Projekt hinweg, erstellt. </note> Die Restriktionen erschweren die
+                  Einhaltung der guten wissenschaftlichen Praxis sowie der <term type="dh"
+                     >FAIR-Prinzipien</term> für Forschungsdateninfrastrukturen.<note
+                     type="footnote"> Die FAIR-Prinzipien formulieren vier
+                     zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible,
+                     Interoperable und Reusable sein, siehe <ref type="bibliography" target="#wilkinson_fair_2016">Wilkinson et al. 2016</ref>.</note> In
+                  vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf
+                  verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet
+                  dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen –
+                  nahezu vollständig ausgeblendet werden (müssen).<note type="footnote"> Der Schutz
+                     von Texten durch das deutsche Urheberrecht endet siebzig Jahre nach Tod der
+                     Autor*innen, sodass kein direkter Zusammenhang zwischen Publikationsjahr und
+                     dem Ende des urheberrechtlichen Schutzes besteht. </note> Eine so weitreichende
+                  Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der
+                  Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen
+                  problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung
+                  algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer heterogenen
+                  Kombination von Quellen behelfen muss. </p>
+               <p>Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung
+                  auf geschützten Texten in Verhandlungen mit den Rechteinhaber*innen zu treten.
+                  Optimal ist, wenn im Vorfeld eine Lizenzvereinbarung ausgehandelt werden kann, die
+                  eine unbegrenzte Weitergabe der geschützten Texte an Dritte zu Forschungszwecken
+                  einschließt; dies gelingt jedoch nicht in allen Fällen und erfordert einen
+                  erheblichen Aufwand und zeitlichen Vorlauf in Bezug auf jede zu verwendende
+                  Datenquelle. Damit ist das Vorgehen mit der Praxis datenintensiver
+                  Computermodellierung nur bedingt vereinbar, bei der etwa explorative Experimente
+                  zu unterschiedlichen Erweiterungen der Datenbasis nur bei einem Bruchteil der
+                  Daten eine längerfristige Weiterverfolgung bewirken.</p>
+               <p>Dieser Artikel sieht ein Desiderat für die digitalen Geisteswissenschaften – sei
+                  es bei der Erschließung eines Gegenstandsbereichs oder bei der Methodenentwicklung
+                  – darin, eine Forschungsdateninfrastruktur einzurichten, die ein exploratives
+                  Vorgehen unterstützt, sodass die Urheberrechtsfrage nicht länger per se ein
+                  Ausschlusskriterium für die Verwendung eines Textes oder eines Textkorpus ist.
+                  Neben dem langfristigen (politischen) Ziel einer verbesserten urheberrechtlichen
+                  Ausgangslage für die Forschung sollte dafür der bestehende rechtliche Korridor für
+                  eine Weitergabe von Forschungsergebnissen zu geschützten Texten ausgenutzt
+                  werden.</p>
+               <p>Schöch et al. schlagen zum Umgang mit der bestehenden Rechtslage eine
+                  Konvertierung der Texte in sogenannte abgeleitete Formate vor, welche für eine
+                  Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus
+                  urheberrechtlicher Perspektive hinreichend verfremden.<note type="footnote"> Vgl.
+                     <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>.</note> Diese abgeleiteten Textformate halten beispielsweise
+                  für Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der
+                  enthaltenen Einzelwörter oder <term type="dh">n-Gramme</term> (also kurzen
+                  Wortsequenzen) fest. Gängige Verfahren der Makroanalyse,<note type="footnote">
+                     Vgl. <ref type="bibliography" target="#jockers_methods_2012">Jockers 2013</ref>. </note> die etwa lexikalische Indikatoren für die Dynamik
+                  des Textverlaufs heranziehen, können auf dieser Basis zur Anwendung kommen. Der
+                  Urheberrechtsschutz wird dabei durch den Aufbruch der Textstruktur aufgehoben,
+                  sodass Restriktionen zur Archivierung, Weitergabe und Veröffentlichung der
+                  Datensätze nicht mehr zum Tragen kommen. Das Konzept der abgeleiteten Textformate
+                  leistet somit einen großen Beitrag zur Replizierbarkeit von Forschung und
+                  Nachnutzbarkeit von Forschungsdaten.</p>
+               <p>Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo
+                  die eigentliche Textgestalt forschungsrelevant wird. Dies ist nicht nur bei einer
+                  Mikroanalyse, also etwa beim <term type="dh">Close Reading</term>, der Fall
+                  (welches ohne Frage einen urheberrechtlich geklärten Gesamtzugriff auf den Text
+                  voraussetzt). Vor dem Hintergrund geisteswissenschaftlicher Fragestellungen macht
+                  häufig auch die Interpretation von Ergebnissen einer aggregierenden Makroanalyse
+                  den Zugriff auf einige relevante Textpassagen in ihrer Gesamtgestalt erforderlich. </p>
+               <p>Das <term type="figure">XSample</term>-Projekt hat daher einen Ansatz entwickelt,
+                  der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann
+                  (vgl.<ref type="graphic" target="#nachnutzung_2021_001"> Abbildung 1</ref>). Dieser
+                  Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten
+                  Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (<ref target="https://www.gesetze-im-internet.de/urhg/__60c.html">§ 60c
+                     UrhG</ref>) und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte
+                  Umfang dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der
+                  XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle
+                  Forschungsanliegen zugeschnittene Auswahl der ›hilfreichsten 15 Prozent‹. Hierzu
+                  können Nachnutzer*innen in Suchanfragen auf den Texten und gegebenenfalls
+                  vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie
+                  relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer
+                  zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit
+                  urheberrechtlich geschützten Texten begünstigt, ohne den Urheberrechtsschutz
+                  aufzuheben. Insbesondere können auch Forschungsfragen bearbeitet werden, die den
+                  Rückgriff auf den exakten Wortlaut ausgewählter Textpassagen und umfangreichere
+                  Kontexte erfordern. Eine besondere Rolle nehmen dabei die
+                  Forschungsinfrastruktureinrichtungen ein, die Wissenschaftler*innen auf
+                  institutioneller Ebene unterstützen, indem sie ihnen digitale Werkzeuge, die z. B.
+                  der Verwaltung und Veröffentlichung ihrer Forschungsdaten dienen, zur Verfügung
+                  stellen. Zu diesen Forschungsinfrastruktureinrichtungen zählen heute vorwiegend
+                  die wissenschaftlichen Bibliotheken. Das im Projekt entwickelte Tool wird
+                  exemplarisch an die lokale Infrastruktur der Universität Stuttgart und das dort
+                  vorhandene Forschungsdatenrepositorium angebunden. Die im Projekt entwickelte
+                  Software steht frei zur Verfügung, sodass sie und die nötige Infrastruktur anderen
+                  Forschungsinfrastruktureinrichtungen bereitgestellt werden können.</p>
+               <figure>
+                  <graphic xml:id="nachnutzung_2021_001" url=".../medien/nachnutzung_2021_001.png">
+                     <desc>
+                        <ref type="graphic" target="#abb1">Abb. 1</ref>: In XSample entwickeltes
+                        Auszugskonzept. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
+                           target="#nachnutzung_2021_001"/>
+                     </desc>
+                  </graphic>
+               </figure>
+               <p>Der vorliegende Beitrag geht in <ref type="intern" target="#hd2">Kapitel 2</ref>
+                  zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des <term type="dh"
+                     >Text- und Data-Mining</term> (TDM)<note type="footnote"> Unter TDM versteht
+                     das Urheberrecht <quote>die automatisierte Analyse von einzelnen oder mehreren
+                        digitalen oder digitalisierten Werken, um daraus Informationen insbesondere
+                        über Muster, Trends und Korrelationen zu gewinnen</quote> (<ref target="https://www.gesetze-im-internet.de/urhg/__44b.html">§§ 44b Abs. 1</ref>,
+                        <ref target="https://www.gesetze-im-internet.de/urhg/__60d.html">60d Abs. 1 UrhG</ref>). Unterschieden wird rechtlich zwischen der eigentlichen
+                     automatisierten Analyse, die urheberrechtlich freigestellt ist, und den dafür
+                     notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich relevant
+                     sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil
+                     textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre
+                     Analyse selbst möglicherweise nicht als Text- und Data-Mining bezeichnen
+                     würden.</note> gelten und die Rahmenbedingungen für das hier präsentierte
+                  Auszugskonzept schaffen. <ref type="intern" target="#hd6">Kapitel 3</ref> stellt
+                  dar, wie die Verfügbarmachung von individuell zugeschnittenen Textauszügen
+                  innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden
+                  insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte
+                  der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung
+                  vorgestellt. Anschließend werden in <ref type="intern" target="#hd12">Kapitel
+                     4</ref> zwei Nutzungsszenarien präsentiert, die im Kontext konkreter
+                  Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das
+                  Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung
+                  ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der
+                  Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft,
+                  Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135
+                  urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario
+                  beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem
+                  ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen
+                  Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem
+                  Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die
+                  Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung
+                  gestellt werden. Das Fazit in <ref type="intern" target="#hd15">Kapitel 5</ref>
+                  fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und
+                  Desiderate ab.</p>
+            </div>
+            <div type="chapter">
+               <head>2. Urheberrechtliche Rahmenbedingungen für das Text- und Data-Mining </head>
+
+               <p>Bei der Beforschung insbesondere neuerer Texte und Korpora müssen sich die
+                  digitalen Geisteswissenschaften mit Fragen des Urheberrechts auseinandersetzen.
+                  Der urheberrechtliche Rahmen für die Forschung mit TDM hat sich in den letzten
+                  Jahren mehrfach geändert, was es zusätzlich erschwert, aus
+                  geisteswissenschaftlicher Perspektive zu überblicken, wie bzw. in welchem Umfang
+                  mit geschützten Werken geforscht werden darf. Die letzten Änderungen ergaben sich
+                  im Juni 2021, als die <term type="dh">Richtlinie zum Urheberrecht im digitalen
+                     Binnenmarkt</term> (Digital Single Market-, kurz DSM-Richtlinie) im <term type="dh"
+                     >Urheberrechtsgesetz</term> (UrhG) umgesetzt wurde. Um einen kurzen Überblick
+                  über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (<ref
+                     type="intern" target="#hd3">Kapitel 2.1</ref>) skizziert, in welchem Umfang
+                  Vervielfältigungen (<ref target="https://www.gesetze-im-internet.de/urhg/__16.html">§ 16 UrhG</ref>) und öffentliche Zugänglichmachungen (<ref target="https://www.gesetze-im-internet.de/urhg/__19a.html">§ 19a UrhG</ref>)
+                  für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in
+                  den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.<note type="footnote">
+                     Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses
+                     bieten zum alten Recht <ref type="bibliography" target="#dreier_urhg_2018">Dreier / Schulze 2018</ref>, § 60d; 
+                        <ref type="bibliography" target="#kleinkopf_text_2021">Kleinkopf et al. 2021</ref>;
+                           vorwiegend auch <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 5–14; zu § 60d in seiner neuen Fassung,
+                              vgl. <ref type="bibliography" target="#dreier_urhg_2022">Dreier in Dreier / Schulze 2022</ref>, § 44b und § 60d; 
+                                 <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>; 
+                                    <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 645–647; 
+                     eine Betrachtung auf EU-Ebene bieten 
+                                          <ref type="bibliography" target="#gaertner_corpus_2021">Gärtner et
+                     al. 2021</ref>, S. 11–13.</note> Daran anschließend werden Fragen nach der
+                  Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze
+                  diskutiert (<ref type="intern" target="#hd4">Kapitel 2.2.</ref>), darunter
+                  insbesondere die rechtliche Grundlage für das in diesem Artikel vorgestellte
+                  Auszugskonzept. Abschließend werden die wesentlichen Anforderungen an
+                  Forschungsinfrastruktureinrichtungen zusammengefasst, die sich aus den
+                  juristischen Rahmenbedingungen ergeben (<ref type="intern" target="#hd5">Kapitel
+                     2.3</ref>).</p>
+               <div type="subchapter">
+                  <head>2.1. Die Gesetzesentwicklung</head>
+
+                  <p>Bis zum 1. März 2018 enthielt das UrhG keine gesonderte Erlaubnis, Werke zu
+                     Zwecken des TDM zu nutzen. Deswegen waren TDM-Analysen an urheberrechtlich
+                     geschützten Werken nur insoweit möglich, wie die Werke nicht kopiert oder
+                     weitergegeben wurden: Diese Handlungen sind nach den Regelungen in §§ 16, 19a
+                     UrhG urheberrechtlich relevant, die das ausschließliche Recht des Urhebers
+                     enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen.
+                     Eine ausdrückliche Erlaubnis<note type="footnote"> Erlaubnisnormen werden im
+                        deutschen Urheberrecht als <quote>Schranken</quote> bzw.
+                           <quote>Schrankenbestimmungen</quote> bezeichnet.</note> dieser Handlungen
+                     wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die
+                     aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG) mit einem neuen
+                     § 60d UrhG geschaffen. Unter der Voraussetzung des rechtmäßigen Zugriffs
+                     erlaubt § 60d UrhG der nicht-kommerziellen wissenschaftlichen Forschung seither
+                     die Vervielfältigung (§ 16 Abs. 1 UrhG) und die öffentliche Zugänglichmachung
+                     (§ 19a UrhG) geschützter Werke zu Zwecken des TDM. Seitdem existiert im
+                     deutschen Urheberrecht erstmalig eine explizite Erlaubnis, geschützte Werke für
+                     das TDM auch umfangreich zu verarbeiten. Defizitär war bereits zu jenem
+                     Zeitpunkt, dass die Korpora zwar bei bestimmten Einrichtungen, darunter auch
+                     den in diesem Artikel adressierten Forschungsinfrastruktureinrichtungen,
+                     aufbewahrt werden durften, aber keine Möglichkeit bestand, die Korpora zu
+                     Zwecken von Anschlussforschungen nachzunutzen.</p>
+                  <p>Aufgrund des <term type="dh">Gesetzes zum Urheberrecht im digitalen
+                        Binnenmarkt</term> vom 7. Juni 2021<note type="footnote"> Bundesgesetzblatt Jahrgang
+                        2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.</note> hat sich der
+                     Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu
+                     anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese
+                     ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse,
+                     praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die
+                     Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser
+                     rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform
+                     vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert
+                        wurden.<note type="footnote"> Vertraglich oder technisch darf das TDM im
+                        Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht
+                        ausgeschlossen werden (<ref target="https://www.gesetze-im-internet.de/urhg/__60g.html">§ 60g Abs. 1</ref>, <ref target="https://www.gesetze-im-internet.de/urhg/__95b.html">95b Abs. 1, 3 UrhG</ref>). Etwas anderes gilt
+                        für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der
+                        Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG).</note> § 60d
+                     UrhG wurde außerdem um Befugnisse zugunsten von sogenannten
+                     Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für
+                     Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt
+                     (<ref target="https://www.gesetze-im-internet.de/urhg/__60h.html">§ 60h Abs. 2 Nr. 3 UrhG</ref>). Diese war zuvor durch die jeweiligen Einrichtungen
+                     zu tragen.</p>
+               </div>
+               <div>
+                  <p></p>
+                  <p></p>
+               </div>
+               <div type="subchapter">
+                  <head>2.2. Die Erlaubnisse für Forschungsinfrastruktureinrichtungen</head>
+
+                  <p>§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und
+                     sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz
+                     adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu
+                     Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen
+                     (d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame
+                     wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie
+                     einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich
+                     zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu
+                     beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist
+                     (Abs. 4 S. 2).</p>
+                  <p>Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also
+                     deutlich enger gefasst, als es ein allgemeiner Verweis auf die öffentliche
+                     Zugänglichmachung (§ 19a UrhG) zur Folge hätte: Sie erlaubt die öffentliche
+                     Zugänglichmachung eines Werks in einer Weise, dass es <quote>Mitgliedern der
+                        Öffentlichkeit von Orten und zu Zeiten ihrer Wahl zugänglich ist</quote>.
+                     Das bedeutet, dass das Werk Personen zugänglich gemacht wird, die der
+                     Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert,
+                     vgl. <ref target="https://www.gesetze-im-internet.de/urhg/__15.html">§ 15 Abs. 3 UrhG</ref>, und die einer <quote>unbestimmten Zahl potentieller
+                        Adressaten</quote> und einer <quote>ziemlich großen Zahl von
+                           Personen</quote> angehören.<note type="footnote"> Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier /
+                        Schulze 2022</ref>, § 15 Randnummer 38 mit Verweis auf den EuGH.</note> Die Erlaubnis,
+                     Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 4 S. 1
+                     UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter
+                     eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei
+                     Forschungsgruppen handelt es sich in der Regel nicht um eine
+                     Öffentlichkeit,<note type="footnote"> Vgl. <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>, S. 799.</note>
+                     weswegen es auf diese Erlaubnis in den meisten Fällen nicht ankommt.</p>
+                  <p>Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für
+                     die Forschung oder für Überprüfungszwecke erforderlich ist. Die Dauer erfasst
+                     im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn
+                     Jahre,<note type="footnote"> Vgl. Leitlinien zur Sicherung der guten wissenschaftlichen Praxis, 
+                        <ref type="bibliography" target="#dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft 2019</ref>,
+                         Leitlinie 17.</note> sie kann im Einzelfall aber auch kürzer oder länger bemessen
+                     sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der
+                     Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#raue_freistellung_2021">Raue 2021</ref>, S. 799.</note>
+                  </p>
+                  <p>Eine Erlaubnis, die Korpora zur Aufbewahrung an
+                     Forschungsinfrastruktureinrichtungen weiterzugeben, ist nicht mehr ausdrücklich
+                     enthalten. Die Weitergabemöglichkeit kann allenfalls mittels einer extensiven
+                     Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von
+                     einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 647.</note>
+                     <quote>Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich
+                        zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und
+                        nicht durch die Forschungseinrichtung selbst erfolgt</quote>.<note
+                           type="footnote"> <ref target="https://dserver.bundestag.de/btd/19/274/1927426.pdf">Bundestagsdrucksache 19/27426</ref>, S. 97.</note> Möglich ist aber in jedem
+                     Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern
+                     bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die
+                     Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man
+                     sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und
+                     vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG).</p>
+                  <p>Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die
+                     Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora
+                     (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)<note
+                        type="footnote"> Etwas anderes kann gelten, wenn die Ursprungsdaten
+                        entsprechend lizenziert sind, vgl. dazu auch <ref
+                           type="intern" target="#hd8">Kapitel 3.2</ref>.</note> so lange aufbewahrt
+                     werden, wie es für Zwecke der Überprüfung der Qualität der wissenschaftlichen
+                     Forschung oder für die Forschung selbst erforderlich ist. Das impliziert, dass
+                     es auch abseits der Überprüfung wissenschaftliches Interesse an den Korpora
+                     geben kann. Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der
+                     Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an
+                     weiterer Beforschung der Korpora bestehen kann:<note type="footnote"> Vgl.
+                        <ref type="bibliography" target="#kleinkopf_bildung_2021">Kleinkopf / Pflüger 2021</ref>, S. 647.</note>
+                     <quote>Die Nutzung zum Zwecke der wissenschaftlichen
+                        Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter
+                        wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte
+                        nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5
+                        Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese
+                        Bestimmung anwendbar ist.</quote>
+                     <note type="footnote"> Erwägungsgrund 15 S. 5 <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref>.</note> Für eine
+                     Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten
+                     abgeleiteten Textformaten sogenannte <term type="dh">Closed-Room-Zugänge</term>
+                     <note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 4 f.</note> (<ref target="https://www.gesetze-im-internet.de/urhg/__60e.html">§§ 60e Abs. 4</ref>,
+                     <ref target="https://www.gesetze-im-internet.de/urhg/__60f.html">60f UrhG</ref>) und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der
+                     wissenschaftlichen Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese
+                     beiden Optionen dargestellt und gegeneinander abgewogen.</p>
+                  <p>§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen
+                     Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen
+                     Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder
+                     private Studien zugänglich zu machen (sogenannte <term type="dh"
+                        >Terminal-Schranke</term>). Die Nutzer*innen dürfen sogenannte <term
+                        type="dh">Anschlusskopien</term>
+                     <note type="footnote"> Der Terminus ›Anschlusskopie‹ meint, dass sich die
+                        Erlaubnis der Erstellung einer zehnprozentigen Kopie von Nutzer*innen an die
+                        Erlaubnis der Einrichtung, Werke an Terminals zugänglich zu machen,
+                        anschließt; vgl. dazu auch Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60e Randnummer
+                        21-24.</note> im Umfang von zehn Prozent erstellen. Einzelne Werke geringen
+                        Umfangs<note type="footnote"> Unter ›geringem Umfang‹ werden gemeinhin 25
+                           Seiten verstanden, vgl. Dreier in <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60c Randnummer 15,
+                           § 60a Randnummer 22; <ref target="https://dserver.bundestag.de/btd/18/123/1812329.pdf">Bundestagsdrucksache 18/12329</ref>, S. 35.</note> wie Beiträge aus
+                     wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden.
+                     Auf Grundlage des § 60e Abs. 4 UrhG kann also durch Kulturerbe-Einrichtungen
+                     Vollzugriff gewährt werden, außerdem können die Anschlusskopien
+                     interessengerecht erstellt werden. Ein entscheidender Nachteil an § 60e Abs. 4
+                     UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an
+                     Terminals vor Ort erfolgen kann (sogenannte Closed-room-Zugänge).<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>, Randnummer 5.</note>
+                  </p>
+                  <p>Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der
+                     nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier
+                     vorgestellte Konzept stützt. § 60c UrhG basiert auf Art. 5 Abs. 3 lit. a
+                     InfoSoc-Richtlinie, der den EU-Mitgliedsstaaten ermöglicht, in ihrem nationalen
+                     Urheberrecht Erlaubnisse von Vervielfältigungen und öffentlicher
+                     Zugänglichmachung <quote>für Zwecke der wissenschaftlichen Forschung, sofern –
+                        außer in Fällen, in denen sich das als unmöglich erweist – die Quelle,
+                        einschließlich des Namens des Urhebers, wann immer das möglich ist,
+                        angegeben wird und soweit das zur Verfolgung nicht kommerzieller Zwecke
+                        gerechtfertigt ist</quote> vorzusehen. </p>
+                  <p>§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen
+                     wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige
+                     Werke geringen Umfangs zu vervielfältigen und an bestimmt abgegrenzte
+                     Personenkreise für deren eigene wissenschaftliche Forschung öffentlich
+                     zugänglich zu machen, d. h. weiterzugeben. Auf dieser Grundlage können
+                     geschützte Werke auf individuelle Anfrage teils vollständig, teils
+                     auszugsweise, weitergegeben werden, auch digital und ohne Ortsbindung. Nicht
+                     erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu
+                        stellen.<note type="footnote"> Das entspräche einer Einstellung in ein
+                        Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in
+                           <ref type="bibliography" target="#dreier_urhg_2022">Dreier / Schulze 2022</ref>, § 60c Randnummer 9; <ref target="https://dserver.bundestag.de/btd/15/008/1500837.pdf">Bundestagsdrucksache 15 / 837</ref>, S. 34.</note>
+                  </p>
+                  <p>Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung
+                     erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden
+                     zwei Erlaubnisnormen, die auf unterschiedlichen Richtlinien beruhen (nämlich
+                     einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie),
+                     miteinander kombiniert. Das ist rechtlich möglich.<note type="footnote"> Nach
+                        der <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref> ist es zulässig, weitere Nutzungen der TDM-Korpora auf
+                        die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen
+                        Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 <ref type="bibliography" target="#DSM-Richtlinie_2019">DSM-Richtlinie</ref>. Auch die
+                        Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche
+                        Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen
+                        erfüllt sind, EuGH GRUR 2014, 1078 – TU Darmstadt / Ulmer; BGH GRUR 2015,
+                        1101 – Elektronische Leseplätze II; so bereits <ref type="bibliography" target="#kleinkopf_text_2021">Kleinkopf et al. 2021</ref>, S.
+                        198f.</note>
+                  </p>
+                  <p>Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den
+                     Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG
+                     vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für
+                     die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung gemäß
+                     § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen finanziellen
+                     Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen rechtmäßigen Zugang
+                     allerdings nicht voraus. Die Vergütung stellt also einen Ausgleich der
+                     urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c UrhG insofern
+                     eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, weswegen sich
+                     das in XSample entwickelte Konzept auf § 60c UrhG stützt.</p>
+               </div>
+               <div type="subchapter">
+                  <head>2.3. Rahmenbedingungen für das Auszugskonzept</head>
+
+                  <p>Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an
+                     folgenden rechtlichen Einschränkungen, die von
+                     Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind:</p>
+                  <p>
+                     <hi rend="italic">Einbeziehung der Forschungsinfrastruktureinrichtungen</hi>:
+                     Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und
+                     gegebenenfallsbereitstellen, sollten von Beginn an in die Projektkonzeptionen
+                     integriert werden.</p>
+                  <p>
+                     <hi rend="italic">Aufbewahrungsdauer</hi>: Forscher*innen, die die Korpora
+                     bereitstellen möchten, sollten eine der Forschung angemessenen
+                     Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG
+                     vorgeschlagenen zehn Jahren<note type="footnote"> Leitlinien zur Sicherung
+                        der guten wissenschaftlichen Praxis, <ref type="bibliography" target="#dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft 2019</ref>, Leitlinie 17.</note> abweicht,
+                     sollte eine explizite Begründung erfolgen.</p>
+                  <p>
+                     <hi rend="italic">Inhalt der Korpora</hi>: Die gespeicherten und gegebenenfalls
+                     bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten
+                     enthalten, es sei denn, die betreffende Einrichtung hat hierzu entsprechende
+                     Lizenzen erworben.</p>
+                  <p>
+                     <hi rend="italic">Nachnutzung</hi>: Nachnutzer*innen müssen nicht-kommerzielle,
+                     wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt
+                     abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle
+                     Anfrage. </p>
+                  <p>
+                     <hi rend="italic">Umfang der Korpusauszüge</hi>: Korpusauszüge dürfen maximal
+                     15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus
+                     Zeitschriften (maximal 25 Seiten) können dagegen vollständig herausgegeben
+                     werden.</p>
+               </div>
+            </div>
+            <div type="chapter">
+               <head>3. Technische Umsetzung</head>
+
+               <p>Wie im <ref type="intern" target="#hd2">vorigen Kapitel</ref> beschrieben, bedient
+                  sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu
+                  einem Umfang von 15 Prozent eines Werks für Forschungszwecke weiterzugeben. Dieses
+                  Auszugskonzept wurde im Rahmen des Projekts prototypisch implementiert und zielt
+                  insbesondere darauf ab, den Nutzer*innen die für ihre Forschungsfrage
+                  ›hilfreichsten‹ Auszüge zu liefern. Die technische Umsetzung wird im Folgenden
+                  umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (<ref type="intern"
+                     target="#hd7">Kapitel 3.1</ref>) und die im Workflow eingesetzten
+                  Serverkomponenten (<ref type="intern" target="#hd8">Kapitel 3.2</ref>) vorgestellt.
+                  Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs
+                     (<ref type="intern" target="#hd9">Kapitel 3.3</ref>) sowie verschiedene
+                  Möglichkeiten der Auszugsgenerierung (<ref type="intern" target="#hd10">Kapitel
+                     3.4</ref>) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus
+                  enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal
+                  auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die
+                  Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur
+                  thematisiert (<ref type="intern" target="#hd11">Kapitel 3.5</ref>).</p>
+               <div type="subchapter">
+                  <head>3.1 Workflow-Akteur*innen</head>
+
+                  <p>XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den
+                     Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / -lieferant*innen und
+                     drittens den Nachnutzer*innen. Infrastrukturbetreiber*innen gehören zu den oben
+                     adressierten Forschungsinfrastruktureinrichtungen und bieten die
+                     infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im
+                     Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der
+                     Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement
+                     zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung
+                     für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen
+                     Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche
+                     gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten
+                     Akteur*innen. Als Datenlieferant*innen werden im XSample-Kontext sämtliche
+                     Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf
+                     geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die
+                     dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten.
+                     Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG
+                     bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten
+                     Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.</p>
+               </div>
+               <div type="subchapter">
+                  <head>3.2 Infrastruktur: Repositorium und Auszugsgenerierung</head>
+
+                  <p>Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum
+                     Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der
+                     Verwaltung der Infrastrukturbetreiber*innen und verfügen über jeweils eigene
+                     Weboberflächen.</p>
+                  <p>Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und
+                     eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine
+                     Dataverse-Instanz realisiert. Die <ref target="https://dataverse.org/"
+                        >Dataverse</ref> Software ist ein Open-Source-Projekt auf Basis des <ref
+                        target="https://github.com/jakartaee/faces">JSF-Frameworks</ref> mit einer
+                     aktiven Community aus Entwickler*innen und regelmäßigen Nutzer*innen. Dataverse
+                     bietet die Möglichkeit, abgelegte Daten auf verschiedene Weise zu organisieren
+                     oder zu gruppieren, und verfügt überdies über eine Rechteverwaltung, die es
+                     erlaubt, bis auf die Ebene einzelner Datensätze zu entscheiden, ob ein komplett
+                     öffentlicher Zugang (<term type="dh">Public Domain</term>), das Teilen mit
+                     einzelnen Individuen oder Gruppen (<term type="dh">Shared Domain</term>), oder
+                     eine für andere uneinsehbare Ablage (<term type="dh">Private Domain</term>)
+                     gewünscht ist. Dies ist im Kontext von XSample besonders relevant, da zwar
+                     während eines laufenden Forschungsprojekts § 60d UrhG das Teilen der Daten
+                     innerhalb von Forschungsgruppen und zu Überprüfungszwecken erlaubt (Shared
+                     Domain), allerdings nach Projektende diese in ihrer Gesamtheit nicht mehr
+                     (ausdrücklich) öffentlich zugänglich gemacht oder geteilt werden dürfen
+                     (Private Domain). Zusätzlich unterscheidet Dataverse zwischen der
+                     Auffindbarkeit von Ressourcen und dem direkten Zugriff auf dieselben. Somit
+                     lassen sich die Metadaten als eigenständiger Datensatz veröffentlichen, während
+                     die eigentlichen Dateien innerhalb des Datensatzes aber vor jeglichem direkten
+                     Zugriff abgeschirmt sind.</p>
+                  <p>Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die
+                     zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer
+                     Weboberfläche durch die individuelle Auszugskonfiguration und stellt am Ende
+                     des XSample-Workflows die im Auszug enthaltenen Daten als Download zur
+                     Verfügung. Dieser Server basiert ebenfalls auf JSF und kommuniziert mit der
+                     Dataverse-Instanz über eine Webschnittstelle, um auf dort abgelegte Ressourcen
+                     und Metadaten zuzugreifen. Um auf nicht-öffentliche Datensätze zugreifen zu
+                     können, benötigt der XSample-Server einen eigenen Account für das entsprechende
+                     Dataverse, der allerdings nur Leserechte beinhalten muss, denn der
+                     XSample-Server selbst schreibt oder modifiziert keine Daten im Repositorium.
+                     Zur Integration des Servers in die bestehende Dataverse-Infrastruktur wird
+                     dieser in der Dataverse-Instanz als sogenanntes <ref
+                        target="https://guides.dataverse.org/en/latest/api/external-tools.html"
+                        >external tool</ref> registriert. Diese Schnittstelle in Dataverse
+                     ermöglicht es, für bestimmte Dateitypen oder Datensätze externe Server zu
+                     registrieren, die den Nutzer*innen dann als zusätzliche Optionen neben Download
+                     oder Betrachtung angezeigt werden (vgl.<ref type="graphic"
+                        target="#nachnutzung_2021_002"> Abbildung 2</ref>). Dies ermöglicht eine
+                     Integration der XSample-Komponenten, ohne Code-Modifikationen an Dataverse
+                     vornehmen zu müssen, und erlaubt überdies, komplett auf eine eigene
+                     Authentifizierung von Nutzer*innen von Seiten des XSample-Servers zu
+                     verzichten, da diese bereits bei Dataverse vorgeschaltet ist. Auf diese Weise
+                     werden die zur Nachverfolgung der Nutzer*innen nötigen Daten bei der
+                     Weiterleitung zum XSample-Server sogleich mit übermittelt.</p>
+               </div>
+               <div type="subchapter">
+                  <head>3.3 Datenaufbereitung für die Auszugsgenerierung</head>
+
+                  <p>Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere
+                     Vorbereitungsschritte notwendig:</p>
+                  <p>
+                     <hi rend="italic">Zulässige Formate</hi>: Alle für die Auszüge zu verwendenden
+                     Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich
+                     (Private Domain) des Repositoriums abgelegt werden. Im Kontext der
+                     Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für
+                     Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und
+                     <term type="dh">CoNLL</term>-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte
+                     Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen
+                     und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke
+                     Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen,
+                     wie in <ref type="intern" target="#hd5">Kapitel 2.3</ref> beschrieben.</p>
+                  <p>
+                     <hi rend="italic">Alignierung</hi>: Neben den reinen Annotationen im Korpus
+                     muss auch eine Abbildung einzelner Annotationen auf die zugrunde liegenden
+                     Segmente der Ursprungsdaten geliefert werden, um beide innerhalb von XSample
+                     alignieren zu können. Da beispielsweise im Fall von Dateien im PDF-Format
+                     Auszüge zwangsläufig als Sammlung vollständiger Seiten erzeugt werden und die
+                     Zusammensetzung der Auszüge mittels Suchanfragen auf Basis der Annotationen
+                     gesteuert werden kann, müssen diese Annotationen (bzw. die dazugehörigen
+                     Suchergebnisse) auf die ursprünglichen Seiten abbildbar sein. Aktuell sieht der
+                     XSample-Prototyp für diese Alignierung entweder die Verwendung zusätzlicher
+                     Annotationsebenen direkt im Korpus vor, oder aber das Erstellen und Mitliefern
+                     zusätzlicher tabellarischer Dateien, welche eine simple Abbildung relevanter
+                     Segmentierungseinheiten seitens der Annotationen (z. B. Sätze) auf die primären
+                     Segmente der Ursprungsdaten enthält. Abhängig vom jeweiligen Projektinhalt und
+                     dem Anteil manueller Vorverarbeitung kann dieser Vorbereitungsschritt eine
+                     große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant
+                     werden, damit die notwendigen und nicht selten ›format-fremden‹<note
+                        type="footnote"> Metainformationen wie Seitenzahlen auf der Ebene von Sätzen
+                        oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder
+                        Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen Aufwand, bzw.
+                        spezielle Anpassungen.</note> Informationen nicht im Forschungsprozess
+                     verloren gehen und entweder durch manuellen Zusatzaufwand oder Anpassung
+                     automatischer Verarbeitungsschritte wiederhergestellt werden müssen. Die Ablage
+                     der Alignierungsinformationen erfolgt analog zu obigen Ursprungs- und
+                     Annotationsdateien in einem nicht-öffentlichen Bereich.</p>
+                  <p>
+                     <hi rend="italic">Erzeugung eines Manifests</hi>: Als letztes muss ein
+                     sogenanntes XSample-Manifest (siehe Beispielcode unten) erzeugt und im
+                     Repositorium abgelegt werden. Dieses Manifest ist eine Datei im <ref
+                        target="https://json-ld.org/">JSON-LD</ref> Format, die Metadaten zu den
+                     einzelnen für die weitere Verarbeitung relevanten Ressourcen im Korpus enthält.
+                     Primär bestehen diese Informationen aus Angaben zum Ablageort, Format und
+                     Umfang einzelner Dateien. Daneben sind aber auch Informationen zu
+                     Rechteinhaber*innen der einzelnen Werke im Korpus enthalten, damit der
+                     XSample-Server bei der Auszugsgenerierung der Namensnennungspflicht nachkommen
+                     kann. Im Manifest kann zusätzlich ein fixer Bereich für die statische
+                     Auszugsgenerierung festgelegt werden. Dies erlaubt es Datenlieferant*innen
+                     beispielsweise, besonders interessante Passagen als Teil des Standard-Auszugs
+                     zu definieren. Der Umfang des statisch definierten Auszugs muss nicht
+                     zwangsläufig die vollen 15 Prozent ausschöpfen, wenn interessante Inhalte auch
+                     in Auszügen geringeren Umfangs präsentiert werden können. Somit können
+                     Nachnutzer*innen den Rest ihrer Quote beispielsweise für zielgerichtete
+                     Varianten der Auszugserstellung nutzen. Derzeit erfolgt die Erstellung eines
+                     XSample-Manifests komplett händisch. Als zukünftige Erweiterung ist ein
+                     Assistent geplant, der Datenlieferant*innen auf der XSample-Webseite dabei
+                     helfen soll, Inhalte für Manifeste zu definieren, ohne direkt im JSON-LD-Format
+                     schreiben zu müssen. Im Gegensatz zu den restlichen Dateien muss das Manifest
+                     öffentlich auffindbar sein (Shared oder Public Domain), um den Nachnutzer*innen
+                     als Einstiegspunkt für die Auszugsgenerierung zu dienen. Da Dataverse für
+                     veröffentlichte Ressourcen DOIs (<term type="dh">Digital Object
+                        Identifier</term>) vergibt und ein breites Spektrum an deskriptiven
+                     Metadaten unterstützt, kann ein Manifest auch zu Zitationszwecken oder
+                     allgemein zur Verlinkung des damit verbundenen Korpus genutzt werden. Es
+                     fungiert somit als öffentlicher Platzhalter für die nicht direkt einsehbaren
+                     geschützten Korpusinhalte.</p>
+                  <p>Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu
+                     Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten für die
+                     statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine
+                     100-seitige PDF-Datei (verlinkt im <code>"xmp:primaryData"</code>-Block), bei
+                     der die ersten 10 Prozent im Falle von statischer Auszugsgenerierung geliefert
+                     werden sollen (spezifiziert im <code>"xmp:staticExcerpt"</code>-Block). Aus
+                     Platzgründen ist der <code>"xmp:manifests"</code>-Block für zusätzliche
+                     Korpus-Metadaten ohne Inhalt dargestellt: </p>
+                  <p>
+                     <code>{ "@type": "xmp:manifest", "@context":
+                        "http://www.uni-stuttgart.de/xsample/json-ld/manifest", "xmp:description":
+                        "Plain manifest with no customization (first 10%)", "xmp:corpora": [ {
+                        "@type": "xmp:corpus", "xmp:primaryData": { "@type": "xmp:dataverseFile",
+                        "xmp:segments": 100, "xmp:sourceType": "xmp:pdf", "xmp:id": 26 },
+                        "xmp:legalNote": { "@type": "xmp:legalNote", "xmp:author": "The XSample
+                        Team", "xmp:title": "XSample Test Corpus", "xmp:publisher": "The XSample
+                        Project", "xmp:year": 2021 }, "xmp:description": "100 page test corpus",
+                        "xmp:id": "root" } ], "xmp:staticExcerpt": { "@type": "xmp:span",
+                        "xmp:begin": 0, "xmp:end": 10, "xmp:spanType": "xmp:relative" },
+                        "xmp:manifests": []}</code>
+                  </p>
+                  <p>Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die
+                     Dataverse-Oberfläche (<ref type="graphic" target="#nachnutzung_2021_002">Abbildung
+                        2</ref>) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese
+                     durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die
+                     Nachnutzer*innen auf den XSample-Server (<ref type="graphic"
+                        target="#nachnutzung_2021_003">Abbildung 3</ref>) weitergeleitet werden, wo die
+                     eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen
+                     Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten
+                     Werkes ausgegeben werden dürfen und diese Obergrenze auch über wiederholte
+                     Anfragen hinweg eingehalten werden muss, bedarf es einer sehr genauen
+                     Protokollierung bereits ausgegebener Auszüge. Zu diesem Zweck werden die
+                     eindeutig identifizierbaren Dataverse-Accounts verwendet, was wiederum zur
+                     Folge hat, dass zur Nutzung des XSample-Services zwingend ein Account im
+                     jeweils verknüpften Dataverse-Repositorium notwendig ist und unregistrierte
+                     Dritte keinen Zugriff erhalten können.</p>
+                  <figure>
+                     <graphic xml:id="nachnutzung_2021_002"
+                        url=".../medien/nachnutzung_2021_002.png">
+                        <desc>
+                           <ref type="graphic" target="#abb2">Abb. 2</ref>: Dataverse-Oberfläche für
+                           ein XSample-Manifest. Rechts unten kann die Weiterleitung auf den
+                           XSample-Server angestoßen werden. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref
+                              type="graphic" target="#nachnutzung_2021_002"/>
+                        </desc>
+                     </graphic>
+                  </figure>
+               </div>
+
+               <div type="subchapter">
+                  <head>3.4 Auswahl der Auszüge</head>
+                  <figure>
+                     <graphic xml:id="nachnutzung_2021_003"
+                        url=".../medien/nachnutzung_2021_003.png">
+                        <desc>
+                           <ref type="graphic" target="#abb3">Abb. 3</ref>: Startseite des
+                           XSample-Servers nach Weiterleitung aus dem zugehörigen Dataverse und
+                           Validierung der Manifest-Datei. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
+                              target="#nachnutzung_2021_003"/>
+                        </desc>
+                     </graphic>
+                  </figure>
+                  <p>Nach der Weiterleitung auf den XSample-Server erfolgt zunächst eine Validierung
+                     des Manifests auf formale Korrektheit und Verfügbarkeit der verlinkten
+                     (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen
+                     drei Arten der Auszugsgenerierung (vgl. <ref type="graphic"
+                        target="#nachnutzung_2021_003">Abbildung 3</ref>, unten links) auszuwählen: Als
+                     simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die
+                     ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt
+                     werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht,
+                     bietet die zweite Alternative (vgl.<ref type="graphic" target="#nachnutzung_2021_004"
+                        > Abbildung 4</ref>) die Möglichkeit, die Auszugsgrenzen innerhalb der
+                     Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird
+                     eine zusammenhängende Sequenz an Seiten / Segmenten geliefert.</p>
+                  <figure>
+                     <graphic xml:id="nachnutzung_2021_004"
+                        url=".../medien/nachnutzung_2021_004.png">
+                        <desc>
+                           <ref type="graphic" target="#abb4">Abb. 4</ref>: Grafische Oberfläche zur
+                           flexiblen Auswahl der Auszugsgrenzen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref
+                              type="graphic" target="#nachnutzung_2021_004"/>
+                        </desc>
+                     </graphic>
+                  </figure>
+
+                  <p>Die ersten beiden Verfahren der Auszugsgenerierung bieten den Nachnutzer*innen
+                     verhältnismäßig wenig Flexibilität bei der Auswahl der Textausschnitte, sodass
+                     sie für bestimmte Forschungsanliegen ungeeignet sind. Dies ist insbesondere
+                     dann der Fall, wenn sich die Nutzer*innen nur für sehr spezifische Phänomene
+                     oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte
+                     Alternative eine Korpusanfrageschnittstelle<note type="footnote"> Vgl. <ref type="bibliography" target="#gaertner_corpus_2020">Gärtner
+                        2020</ref>.</note> integriert, die Suchanfragen auf Basis der im Korpus
+                     enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt
+                     bestimmte syntaktische Konstruktionen finden<note type="footnote"> Sofern
+                        entsprechende Annotationen vorliegen.</note>, die dann als Kandidaten für
+                     die Auszugserstellung genutzt werden (vgl. <ref type="graphic"
+                        target="#nachnutzung_2021_005">Abbildung 5</ref>). Basierend auf diesen
+                     Suchergebnissen und den Alignierungsinformationen werden die auszugebenden
+                     Segmente der Primärdaten (zumeist Seiten) bestimmt. Somit lässt sich
+                     sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der
+                     Nutzer*innen zugeschnitten sind.</p>
+                  <figure>
+                     <graphic xml:id="nachnutzung_2021_005"
+                        url=".../medien/nachnutzung_2021_005.png">
+                        <desc>
+                           <ref type="graphic" target="#abb5">Abb. 5</ref>: Exemplarische Oberfläche
+                           zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen
+                           Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird
+                           direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
+                           gegeben, die für sie relevanten Segmente exakt auszuwählen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic" target="#nachnutzung_2021_005"/>
+                        </desc>
+                     </graphic>
+                  </figure>
+               </div>
+               <div type="subchapter">
+                  <head>3.5 Nachhaltigkeit</head>
+
+                  <p>Um eine langfristige Nachnutzung des XSample-Servers zu gewährleisten, muss
+                     dieser dauerhaft an der Universitätsbibliothek Stuttgart (in ihrer Rolle als
+                     Forschungsinfrastruktureinrichtung) als Dienst zur Verfügung stehen. Wie in
+                        <ref type="intern" target="#hd8">Kapitel 3.2</ref> beschrieben, wird an der
+                     Universität Stuttgart ein Datenrepositorium auf Basis von Dataverse eingesetzt.
+                     Das Datenrepositorium der Universität Stuttgart (<ref target="https://darus.uni-stuttgart.de/">DaRUS</ref>) steht bereits als
+                     etablierter Dienst zur Verfügung. Mit dem XSample-Server zur Auszugsgenerierung
+                     kommt ein weiterer Dienst hinzu, der ebenfalls gewartet und weiterentwickelt
+                     werden muss. Bisher läuft dieser Dienst nicht im Produktivbetrieb, eine
+                     Verstetigung wird angestrebt. Dazu wird gerade im
+                     Forschungsdatenmanagement-Team ein Betriebskonzept für Code-Output von
+                     Forschungsprojekten erarbeitet. Während der Projektphase sollen die technischen
+                     Abhängigkeiten und notwendigen Informationen über den Code dokumentiert werden,
+                     darüber hinaus muss eine fachliche Ansprechperson benannt werden, die auch noch
+                     nach Projektende inhaltlich Auskunft geben kann. In einer zweiten Phase nach
+                     Projektende startet eine Bewährungsphase, in der evaluiert wird, ob der Dienst
+                     genutzt wird. In dieser Phase finden notwendige Wartungen statt. Damit soll
+                     verhindert werden, dass die Anwendung nach Projektende nicht mehr weiter
+                     nutzbar ist. Da aber nicht alle Dienste weiterentwickelt und gepflegt werden
+                     können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben.</p>
+                  <p>Die Software für den Prototypen ist open-source öffentlich verfügbar und kann
+                     somit auch von anderen Einrichtungen genutzt werden, um eine eigene Instanz des
+                     XSample-Servers zu betreiben. Neben einem laufenden Dataverse-Server wird
+                     lediglich eine SQL-basierte Datenbank benötigt, um den XSample-Server in
+                     bestehende Infrastruktur integrieren zu können. Die Anforderungen an
+                     Rechenleistung und Speicherplatz für den Prototypen sind hierbei
+                     überschaubar.</p>
+                  <p>Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt,
+                     der XSample-Workflow lässt sich aber auf beliebige Repositoriensoftware mit
+                     ähnlichen Eigenschaften übertragen. Entsprechend kann mit mäßigem Aufwand auch
+                     der XSample-Server angepasst werden, um mit anderen Repositorien interagieren
+                     zu können. Etwas komplexer gestaltet sich die Unterstützung zusätzlicher
+                     Formate, da hierbei sichergestellt werden muss, dass sowohl die Implementierung
+                     des XSample-Servers selbst als auch die Korpusanfrageschnittstelle im
+                     Hintergrund ein gegebenes Format lesen können. Im Falle der Auszugskomponente
+                     im XSample-Server kommt noch das Schreiben der im Auszug enthaltenen Daten im
+                     entsprechenden Format hinzu. </p>
+               </div>
+            </div>
+            <div type="chapter">
+               <head>4. Nutzungsszenarien</head>
+
+               <p>Der Bedarfsermittlung und Erprobung der XSample-Infrastruktur dienen zwei
+                  Anwendungsfälle aus Linguistik und Literaturwissenschaft, anhand derer die
+                  konkrete Umsetzung vor dem Hintergrund möglicher (Nach-)Nutzungsszenarien
+                  veranschaulicht wird. Der Fokus liegt dabei auf den jeweiligen Vor- und Nachteilen
+                  des Auszugsverfahrens im Vergleich zum Prinzip der abgeleiteten Textformate.</p>
+               <div type="subchapter">
+                  <head>4.1 Erstes Nutzungsszenario: Wissenschaftssprache</head>
+
+                  <p>Das erste Nutzungsszenario beschäftigt sich mit den Wissenschaftssprachen der
+                     Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich
+                     dabei um die Replikation einer Studie<note type="footnote"> Bei der
+                        Originalstudie handelt es sich um <ref type="bibliography" target="#andresen_sprachbeschreibung_2022">Andresen 2022</ref>.</note> zur Frage, wie sich
+                     die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander
+                     unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30
+                     Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden
+                     Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem
+                     Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der
+                     deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer
+                     Merkmale der beiden Disziplinen. In der Replikationsstudie werden im
+                     Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung
+                     der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln.
+                     Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre
+                     Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen
+                     Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie
+                     werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als
+                     repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten
+                     können. Zweitens wird die Datengrundlage um die Philosophie als drittes
+                     geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft
+                     und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im
+                     Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches
+                     ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der
+                     Geisteswissenschaften im Allgemeinen zu treffen.</p>
+                  <p>Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach.
+                     Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen
+                     Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im
+                     CoNLL-Format an der Universitätsbibliothek Stuttgart
+                     gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den
+                     Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den
+                     annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen
+                     werden kann, müssen hierbei Informationen zur Alignierung der beiden
+                     Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies
+                     in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend
+                     nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im
+                     PDF-Dokument er zu finden ist. </p>
+                  <p>Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (<term
+                        type="dh">Unigramme</term>), während die vorausgehende Studie<note
+                           type="footnote"> Vgl. <ref type="bibliography" target="#andresen_sprachbeschreibung_2022">Andresen 2022</ref>.</note> einen besonderen Schwerpunkt auf
+                     Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet
+                     werden. Hiervon abgesehen orientiert sich die Replikationsstudie in
+                     methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale
+                     mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise
+                     ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der <term
+                        type="dh">Support-Vector-Machine</term> (SVM) ein Klassifikator trainiert,
+                     der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll.
+                     Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die
+                     für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe
+                     war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in <ref
+                        type="graphic" target="#tab01">Tabelle 1</ref> erstellt, das die
+                     größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der
+                     zweite Schritt der Analyse besteht dann in der Interpretation dieses
+                     Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den
+                     Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der
+                     Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet
+                     arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen
+                     zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus
+                     notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet
+                     wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der
+                     Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den
+                     vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen
+                     Zusammenhang setzen und gegebenenfalls erklären zu können.</p>
+                  <table>
+                     <row>
+                        <cell>Rang</cell>
+                        <cell>Philosophie</cell>
+                        <cell>Score</cell>
+                        <cell>Literaturwissenschaft</cell>
+                     </row>
+                     <row>
+                        <cell>1</cell>
+                        <cell/>
+                        <cell>-77,07</cell>
+                        <cell>ADJA</cell>
+                     </row>
+                     <row>
+                        <cell>2</cell>
+                        <cell>PPER</cell>
+                        <cell>38,19</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>3</cell>
+                        <cell/>
+                        <cell>-34,98</cell>
+                        <cell>NE</cell>
+                     </row>
+                     <row>
+                        <cell>4</cell>
+                        <cell/>
+                        <cell>-33,23</cell>
+                        <cell>VVFIN</cell>
+                     </row>
+                     <row>
+                        <cell>5</cell>
+                        <cell>PDAT</cell>
+                        <cell>29,00</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>6</cell>
+                        <cell>FM</cell>
+                        <cell>20,20</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>7</cell>
+                        <cell>VAFIN</cell>
+                        <cell>17,55</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>8</cell>
+                        <cell>KON</cell>
+                        <cell>14,84</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>9</cell>
+                        <cell>PDS</cell>
+                        <cell>12,39</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>10</cell>
+                        <cell>PROAV</cell>
+                        <cell>12,10</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>11</cell>
+                        <cell/>
+                        <cell>-11,65</cell>
+                        <cell>PRF</cell>
+                     </row>
+                     <row>
+                        <cell>12</cell>
+                        <cell>PPOSAT</cell>
+                        <cell>11,18</cell>
+                        <cell/>
+                     </row>
+                     <row>
+                        <cell>13</cell>
+                        <cell/>
+                        <cell>-10,73</cell>
+                        <cell>ART</cell>
+                     </row>
+                     <row>
+                        <cell>14</cell>
+                        <cell/>
+                        <cell>-10,16</cell>
+                        <cell>VVPP</cell>
+                     </row>
+                     <row>
+                        <cell>15</cell>
+                        <cell/>
+                        <cell>-8,10</cell>
+                        <cell>VVINF</cell>
+                     </row>
+                     <trailer xml:id="tab01">
+                        <ref type="intern" target="#tab1">Tab. 1</ref>: Die distinktivsten
+                        Wortarten für die Unterscheidung von Philosophie und Literaturwissenschaft
+                        im Sinne der SVM. Das verwendete Tagset ist das STTS (<ref type="bibliography" target="#schiller_guidelines_1999">Schiller et al.
+                        1999</ref>). [Andresen 2022] <ref type="graphic"
+                           target="#nachnutzung_2021_t1"/>
+                     </trailer>
+                  </table>
+
+                  <p>Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des
+                     Pronomens <term type="figure">wir</term> in den drei Disziplinen
+                     veranschaulicht. Im Zuge dessen wird auch diskutiert, welche Daten zur
+                     Überprüfung und Re-Validierung der Analyseresultate vonnöten sind.</p>
+                  <p>
+                     <ref type="graphic" target="#tab01">Tabelle 1</ref> zeigt das Ranking
+                     der 15 distinktivsten Wortarten für den Vergleich von Philosophie und
+                     Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante
+                     Rückschlüsse auf die Unterschiede zwischen den Wissenschaftssprachen der beiden
+                     Disziplinen ziehen lassen, wird hier nur ein Merkmal in den Fokus genommen: Im
+                     Vergleich mit der Literaturwissenschaft zeichnet sich die Philosophie durch
+                     eine hohe Verwendungsfrequenz von Personalpronomen (PPER) aus. Der zusätzliche
+                     Rückgriff auf die <term type="dh">Token</term>-Ebene zeigt, dass dieser
+                     Unterschied insbesondere durch die Pronomen <term type="figure">wir</term> und
+                        <term type="figure">es</term> erzeugt wird. Dies wird hier zum Anlass
+                     genommen, die fachspezifische (bzw. gegebenenfalls auch
+                     zeitschriften-spezifische) <term type="figure">wir</term>-Verwendung
+                     differenzierter zu betrachten. Zu diesem Zwecke wurde aus jedem Korpus eine
+                     Stichprobe von 100 Sätzen, in denen <term type="figure">wir</term> verwendet
+                     wird, nach dem Zufallsprinzip ausgewählt und manuell klassifiziert. Dabei wurde
+                     auf die Klassifikation von <term type="figure">wir</term>-Verwendungen im
+                     deutschsprachigen akademischen Diskurs von Kresta<note type="footnote"> Vgl.
+                        <ref type="bibliography" target="#kresta_realisierungsformen_1995">Kresta 1995</ref>, S.130–147, vgl. auch 
+                        <ref type="bibliography" target="#steinhoff_textkompetenz_2007">Steinhoff 2007</ref>, S. 206f.</note>
+                     zurückgegriffen. Kresta unterscheidet vier Gebrauchsweisen von <term
+                        type="figure">wir</term> in deutschsprachigen akademischen Texten: Das
+                     Pronomen wird verwendet, </p>
+                  <list type="unordered">
+                     <item>a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen
+                           (Autor*innen-<term type="figure">wir</term>), </item>
+                     <item>b.) um ein Kollektiv, bestehend aus Verfasser*innen und Leser*innen eines
+                        Textes, zu bezeichnen (Teamwork-<term type="figure">wir</term>), </item>
+                     <item>c.) zur Bezeichnung fachspezifischer Kollektiva aus akademischen
+                        Verfasser*innen und Leser*innen (Fachkreis-<term type="figure">wir</term>)
+                        sowie </item>
+                     <item>d.) um auf alle Menschen zu referieren (Gemeinschafts-<term type="figure"
+                           >wir</term>).</item>
+                  </list>
+                  <p>Die Stichproben zeigen (vgl. <ref type="graphic" target="#tab02"
+                        >Tabelle 2</ref>) in den Texten fachspezifische Muster der <term
+                        type="figure">wir</term>-Verwendungen: So sind sich die
+                     literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in
+                     beiden Gruppen die Verwendung des Gemeinschafts-<term type="figure">wir</term>
+                     dominiert, während in den linguistischen Aufsätzen die Verwendung des
+                        Autor*innen-<term type="figure">wir</term> vorherrscht. Die Dominanz des
+                        Autor*innen-<term type="figure">wir</term> in der Linguistik lässt sich
+                     dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren
+                     Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der
+                     Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die
+                     Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des
+                        Gemeinschafts-<term type="figure">wir</term> mag hingegen verwundern, da die
+                     beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen.
+                     Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen
+                     Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt
+                        desselben.<note type="footnote"> Vgl. zum Beispiel Jürgen Habermas’ Kritik
+                        an der <bibl>
+                           <title type="desc">Einebnung des Gattungsunterschiedes zwischen
+                              Philosophie und Literatur</title>
+                        </bibl>, <ref type="bibliography" target="#habermas_diskurs_1998">Habermas 1988</ref>, S. 217.</note> Eine Auswertung der konkreten
+                     Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um
+                     unterschiedlich geartete Manifestationen des Gemeinschafts-<term type="figure"
+                        >wir</term> handelt, die man wiederum mit landläufigen Kennzeichen der
+                     beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus
+                     der Philosophie ein Gebrauch des Gemeinschafts-<term type="figure">wir</term>
+                     der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und
+                     Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der
+                     Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und
+                     Interpretation von Texten sind, wird in 31 der 54 Verwendungen des
+                        Gemeinschafts-<term type="figure">wir</term> genau auf jene Praxis
+                     verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird (siehe Beispiel
+                     3), weswegen in diesem Fall auch vom Leser*innen-<term type="figure">wir</term>
+                     gesprochen werden kann.</p>
+                  <table>
+                     <row>
+                        <cell/>
+                        <cell>Linguistik</cell>
+                        <cell>Philosophie</cell>
+                        <cell>Literaturwissenschaft</cell>
+                     </row>
+                     <row>
+                        <cell>Autor*innen-<term type="figure">wir</term>
+                        </cell>
+                        <cell>58</cell>
+                        <cell>7</cell>
+                        <cell>11</cell>
+                     </row>
+                     <row>
+                        <cell>Teamwork-<term type="figure">wir</term>
+                        </cell>
+                        <cell>32</cell>
+                        <cell>31</cell>
+                        <cell>16</cell>
+                     </row>
+                     <row>
+                        <cell>Fachkreis-<term type="figure">wir</term>
+                        </cell>
+                        <cell>3</cell>
+                        <cell>10</cell>
+                        <cell>17</cell>
+                     </row>
+                     <row>
+                        <cell>Gemeinschafts-<term type="figure">wir</term>
+                        </cell>
+                        <cell>7</cell>
+                        <cell>48</cell>
+                        <cell>54</cell>
+                     </row>
+                     <row>
+                        <cell> davon: Leser*innen-<term type="figure">wir</term>
+                        </cell>
+                        <cell/>
+                        <cell/>
+                        <cell>(31)</cell>
+                     </row>
+                     <row>
+                        <cell>Sonstige</cell>
+                        <cell>–</cell>
+                        <cell>4</cell>
+                        <cell>2</cell>
+                     </row>
+                     <trailer xml:id="tab02">
+                        <ref type="intern" target="#tab2">Tab. 2</ref>: Manuelle Kategorisierung
+                        der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022] <ref type="graphic" target="#nachnutzung_2021_t2"/>
+                     </trailer>
+                  </table>
+
+                  <p>Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung
+                     unterschiedlichen <term type="figure">wir</term>-Verwendungen dienen: </p>
+                  <list type="ordered">
+                     <item>Im Folgenden werden <hi rend="bold">wir </hi>die Datengrundlage näher
+                        erläutern und anschließend kurz auf die von uns verwendeten
+                        korpuspragmatischen Analysewerkzeuge eingehen. (Lin_16)</item>
+                     <item>Diese Fähigkeit wird im Gegenteil schrittweise erlernt bzw. angeeignet –
+                        so wie <hi rend="bold">wir </hi>z. B. unsere Muttersprache lernen oder
+                        aneignen – nämlich durch einen Prozess der ›unbewussten induktiven
+                        Schlussfolgerung‹, die auf Regelmäßigkeiten oder Assoziationen unter unseren
+                        Sinneswahrnehmungen zurückzuführen ist. (Philo_33)</item>
+                     <item>Zugespitzt könnte man sagen, dass der Begriff ›literarische Präsenz‹ ein
+                        Widerspruch in sich ist, weil die Erzählung zwar von den Präsenzerfahrungen
+                        ihrer Figuren erzählen kann, doch diese stets allein auf der Ebene der
+                        histoire ›präsent‹ sind, präsent also für den Erzähler – doch <hi
+                           rend="bold">wir</hi>, die Leser, sind nicht der Erzähler; [...]
+                        (Lit_03)</item>
+                  </list>
+                  <p>Vor dem Hintergrund möglicher Nachnutzungsszenarien lassen sich für das erste
+                     Nutzungsszenario verschiedene Datenbedarfe feststellen, die mit
+                     unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete
+                     Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form
+                     von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der
+                     Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt
+                     reproduziert werden.<note type="footnote"> Der Schritt von den Originaldaten zu
+                        den Frequenzdaten kann weder auf Grundlage dieser Daten noch basierend auf
+                        Auszügen überprüft werden. Das ist bedauerlich, da bereits in dieser Phase
+                        richtungsweisende Entscheidungen getroffen werden (Findet eine
+                        Lemmatisierung statt? Werden Stoppwörter ausgeschlossen? Werden bestimmte
+                        Teile der Originaltexte nicht einbezogen? etc.).</note> Außerdem ist es etwa
+                     möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer
+                     Verfahren zu ermitteln und methodische Vergleiche anzustellen. Naturgemäß wird
+                     die weiterführende Analyse auf genau solche Frequenzen eingeschränkt, die auch
+                     zur Verfügung gestellt werden. Eine flexible Anpassung der n-Gramme (etwa ihrer
+                     Länge oder der Art ihrer Generierung) ist nicht ohne weiteres möglich, im
+                     Großen und Ganzen werden die Bedarfe dieser Analysephase aber durch abgeleitete
+                     Textformate gedeckt.</p>
+                  <p>Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen
+                     nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu
+                     können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext
+                     zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des
+                     untersuchten Phänomens ab. Für die <term type="figure">wir</term>-Analyse
+                     wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest
+                     stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz
+                     ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen
+                     treffen und nachvollziehbar machen zu können.</p>
+               </div>
+               <div>
+                  <p></p>
+                  <p></p>
+                  <p></p>
+                  <p></p>
+               </div>
+               <div type="subchapter">
+                  <head>4.2 Zweites Nutzungsszenario: Unzuverlässiges Erzählen</head>
+
+                  <p>Der zweite Anwendungsfall setzt sich mit dem Phänomen des unzuverlässigen
+                     Erzählens (genauer: mit faktenbezogener Unzuverlässigkeit) auseinander, das in
+                     einigen literarischen Erzählungen auftritt. Faktenbezogenes unzuverlässiges
+                     Erzählen liegt in einem fiktionalen Text dann vor, wenn die Erzählinstanz
+                     unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen
+                     über die Fakten oder Ereignisse der erzählten Welt tätigt.<note type="footnote"
+                        > Vgl. <ref type="bibliography" target="#martinez_einfuehrung_2009">Martínez / Scheffel 2009</ref>, S. 100; 
+                           <ref type="bibliography" target="#kindt_erzaehlen_2008">Kindt 2008</ref>, S. 48.</note>
+                  </p>
+                  <p>Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um
+                     eine Replikationsstudie, sondern um eine Pilotstudie zu einem kürzlich
+                     gestarteten, auf drei Jahre ausgelegten Forschungsprojekt (<ref
+                        target="https://dfg-spp-cls.github.io/projects_en/2020/01/24/TP-Caution/"
+                        >CAUTION</ref>), das der Untersuchung der Schluss- und
+                     Argumentationsprozesse bei der Identifikation unzuverlässigen Erzählens durch
+                     Literaturwissenschaftler*innen bzw. Leser*innen gewidmet ist. Unzuverlässiges
+                     Erzählen gilt in der Literaturwissenschaft einerseits als stark
+                     interpretationsabhängiges Phänomen,<note type="footnote"> Vgl. <ref type="bibliography" target="#yacobi_reliability_1981">Yacobi 1981</ref>;
+                        <ref type="bibliography" target="#nuenning_unreliable_1999">Nünning 1999</ref>.</note> andererseits listet die Forschung zahlreiche
+                     sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen
+                     können.<note type="footnote"> Vgl. <ref type="bibliography" target="#nuenning_narration_1998">Nünning 1998</ref>; 
+                        <ref type="bibliography" target="#allrath_signale_1998">Allrath 1998</ref>.</note>
+                     Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen
+                     sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen,
+                     der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In
+                     diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#folde_interpretation_2015">Folde 2015</ref>, S. 366.</note> des Textes, d. h. sie
+                     bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was
+                     falsch ist.</p>
+                  <p>Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw.
+                     Zuschreibung unzuverlässigen Erzählens systematisch untersuchen zu können, sind
+                     in einer ersten Annäherung folgende Teilfragen relevant: </p>
+                  <list type="ordered">
+                     <item>Welche Erzähler*innen bzw. Figuren treten in einer Erzählung auf? </item>
+                     <item>Welche Äußerungen über die fiktive Welt der Erzählung treffen diese
+                        Instanzen? </item>
+                     <item>Welche dieser Äußerungen betreffen Propositionen, deren Zutreffen in der
+                        fiktiven Welt in Frage steht? </item>
+                     <item>Wie positionieren sich die relevanten Instanzen zu diesen Propositionen? </item>
+                     <item>Gibt es textuelle Hinweise auf die Vertrauens(un)würdigkeit der
+                        relevanten Instanzen?</item>
+                  </list>
+                  <p>Zur Beantwortung dieser Fragen wird im Rahmen des zweiten Nutzungsszenarios
+                     explorativ-heuristisch eine Mischung aus automatisierten Text-Mining-Verfahren
+                     und manueller Annotation auf ein Testkorpus aus vier kurzen bis mittellangen
+                     Erzählungen und vier langen Erzählungen aus dem 19. bis 21. Jahrhundert
+                     angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur
+                     Erkennung von Named Entities<note type="footnote"> Verwendet wurde hier der
+                        <ref target="https://nlp.stanford.edu/software/CRF-NER.shtml">Stanford Named Entity
+                           Recognizer</ref>.</note> und <term type="dh">Redewiedergabe</term>
+                     <note type="footnote"> Für die Erkennung von direkter Rede wurde ein simpler
+                        Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert;
+                        indirekte Rede wurde mithilfe eines verfügbaren <ref
+                           target="https://github.com/redewiedergabe/tagger">Taggers</ref> annotiert. Alle erzeugten Annotationen wurden anschließend gesichtet und
+                        gegebenenfalls korrigiert.</note> verwendet, zusätzlich wurden Koreferenzen
+                     exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der
+                     Untersuchung genuin literaturwissenschaftlicher Konzepte oft notwendig ist –
+                     zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen
+                     manueller Annotation auf die Texte angewandt wird.<note type="footnote"> Für
+                        die manuelle Annotation wurde die Annotations- und Analyseumgebung <ref
+                           target="https://catma.de/">CATMA</ref> verwendet.</note> Für Frage (5)
+                     wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in
+                     den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für
+                     deren Erkennung eine Kombination aus automatischer <term type="dh"
+                        >Sentimentanalyse</term>
+                     <note type="footnote"> Zum Einsatz kam hier SentText, vgl. <ref type="bibliography" target="#schmidt_tool_2021">Schmidt et al. 2021</ref>.
+                     </note> und manueller <term type="dh">Emotionsanalyse</term>
+                     eingesetzt wird.</p>
+                  <p>Für den Einsatz computergestützter Verfahren in der Literaturwissenschaft ist
+                     oft erheblicher Entwicklungsaufwand notwendig, sowohl konzeptionell im Rahmen
+                     der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch
+                     technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#gius_textanalysen_2019">Gius 2019</ref>; 
+                           <ref type="bibliography" target="#pichler_operationalisierung_2021">Pichler / Reiter 2021</ref>.</note> Deswegen kann
+                     es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete
+                     Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der
+                     Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein
+                     Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein.
+                     Generell ist Forschung im Bereich der Digital Humanities (und besonders im
+                     Bereich der <term type="dh">Computational Literary Studies</term>) stärker als
+                     in den traditionellen Geisteswissenschaften durch <quote>Prozessualität,
+                        Vorläufigkeit und ›Nichtwissen‹</quote>
+                     <note type="footnote"> <ref type="bibliography" target="#schruhl_objektumgangsnormen">Schruhl 2018</ref>.</note> gekennzeichnet. Dies lässt sich
+                     durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte
+                     der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar)
+                     werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft
+                     implizit bleiben.</p>
+                  <p>Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte
+                     also hauptsächlich dem Zweck, einen Einblick in den Operationalisierungsprozess
+                     der übergeordneten literaturwissenschaftlichen Fragestellung zu erhalten, oder
+                     ist dem Interesse an bestimmten Einzelphänomenen (etwa dem Sentiment)
+                     geschuldet. Nachnutzer*innen können beispielsweise prüfen, inwieweit die
+                     eingesetzten Text-Mining-Verfahren bereits für die Anwendung auf literarischen
+                     Texten adäquat sind oder ob die für die manuelle Annotation entwickelten
+                     Annotationsschemata geeignet sind, die im Fokus stehenden literarischen
+                     Phänomene zu fassen.</p>
+                  <p>Für die Form, in der die Textdaten Dritten zugänglich gemacht werden sollten,
+                     bedeutet das im vorliegenden Zusammenhang Folgendes:</p>
+                  <list type="ordered">
+                     <item>
+                        <hi rend="italic">Named Entity Recognition</hi>: Inwieweit die <term
+                           type="dh">Named Entity Recognition</term> (mit zu diesem Zeitpunkt noch
+                        nicht eigens für das Korpus trainierten Modellen) auf literarischen Texten
+                        zu brauchbaren Ergebnissen führt, kann unter Umständen noch teilweise
+                        mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter
+                        Formate<note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_textformate_2020">Schöch et al. 2020</ref>.</note>) geprüft
+                        werden. Zusätzlich können Nachnutzer*nnen sich damit ebenfalls einen ersten
+                        Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren
+                           verschaffen.<note type="footnote"> Tatsächlich ist (auch eine eigens
+                           trainierte) Named Entity Recognition nur in eingeschränktem Maße für die
+                           Identifikation der relevanten Akteur*innen / Instanzen geeignet, da gerade in
+                           potenziell unzuverlässigen Erzählungen häufig homodiegetische
+                           Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder
+                           selten mit Eigennamen referiert wird.</note>
+                     </item>
+                     <item>
+                        <hi rend="italic">Automatische Sentimentanalyse</hi>: Um zu beurteilen, ob
+                        durch das lexikonbasierte Vorgehen der automatischen Sentimentanalyse
+                        einzelne Wörter falsch klassifiziert wurden, ist der Rekurs auf den
+                        textuellen Kontext notwendig, den abgeleitete Textformate nicht ermöglichen.
+                        Ein erster Einblick in die Ergebnisse der automatischen Sentimenanalyse ist
+                        allerdings noch mit abgeleiteten Textformaten möglich, sofern für
+                        Nachnutzer*innen interessant ist, ob ein Text bzw. Korpus eher von negativen
+                        oder positiven Wörtern geprägt ist oder welche Wörter bzw. Wortfelder mit
+                        positiver oder negativer Polarität vorherrschen.</item>
+                     <item>
+                        <hi rend="italic">Redewiedergabeerkennung</hi>: Für die Prüfung der
+                        automatisch generierten Redewiedergabe-Annotationen sind abgeleitete
+                        Textformate ebenfalls nicht funktional, da die Annotationen längere Passagen
+                        betreffen bzw. ihre Korrektheit (insbesondere im Fall indirekter Rede) nur
+                        unter Rückgriff auf die fraglichen Textpassagen beurteilt werden kann. Auch
+                        der für die weitere Bearbeitung der übergeordneten Forschungsfrage
+                        ausschlaggebende Inhalt der Figurenrede kann nur durch Konsultation
+                        zusammenhängender Textpassagen untersucht werden.</item>
+                     <item>
+                        <hi rend="italic">Koreferenzauflösung</hi>: Bei den manuellen Annotationen
+                        zur Koreferenzauflösung sind sowohl zur Prüfung der Korrektheit als auch für
+                        die Bearbeitung der inhaltlichen Fragestellung (›Wer sagt was?‹) textuelle
+                        Kontexte notwendig.</item>
+                     <item>
+                        <hi rend="italic">Manuelle Emotionsanalyse</hi>: Für die manuelle
+                        Emotionsanalyse wurde im Rahmen des Nutzungsszenarios ein eigenes Tagset
+                        entwickelt, das auf den sprachlichen Indikatoren basiert, die in der
+                        erzähltheoretischen Forschungsliteratur als Hinweise auf die Emotionalität
+                        von Erzähler*innen (und damit auf ihre mögliche Unzuverlässigkeit)
+                        identifiziert werden. Derartige Operationalisierungen
+                        literaturwissenschaftlicher Forschungsfragen für die computergestützte
+                        Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller
+                        (und meist kollaborativer) Annotation häufig mehrere Durchläufe.<note
+                           type="footnote"> Vgl. <ref type="bibliography" target="#gius_profit_2017">Gius / Jacke 2017</ref>; 
+                           <ref type="bibliography" target="#reiter_anleitung_2020">Reiter 2020</ref>.</note> Im Rahmen
+                        des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe
+                        stattgefunden, in dem Forscher*innen bzw. Datenlieferant*innen einige
+                        Entscheidungen treffen mussten, die für den Nachvollzug der Ergebnisse durch
+                        Dritte relevant sein können. Hierfür ist nicht nur ein Einblick in die
+                        Annotationsschemata und Anwendungsrichtlinien notwendig, sondern ebenso der
+                        Zugriff auf zusammenhängende Textteile, die den textuellen Kontext zeigen
+                        und damit individuelle Annotationsentscheidungen potenziell nachvollziehbar
+                        machen. Einen ersten Eindruck von den Ergebnissen der manuellen
+                        Emotionsanalyse können sich Nachnutzer*innen – analog zur verwandten
+                        Sentimentanalyse – allerdings auch auf der Basis abgeleiteter Textformate
+                        verschaffen.</item>
+                     <item>
+                        <hi rend="italic">Wahre Propositionen der erzählten Welt</hi>: Den
+                        komplexesten und zugleich wichtigsten Operationalisierungs- und
+                        Annotationsschritt stellt im Rahmen des zweiten Nutzungsszenarios die
+                        manuelle Annotation der Sätze dar, die diejenigen Propositionen betreffen,
+                        deren Wahrheit in der fiktiven Welt eines Textes in Frage stehen. Genau wie
+                        im Fall der manuellen Emotionsanalyse müssen die Annotationskategorien erst
+                        in mehreren Durchläufen entwickelt werden, von denen der erste im Rahmen des
+                        vorliegenden Nutzungsszenarios stattfindet. Allerdings muss für die
+                        Entwicklung von Annotationsschemata und Guidelines hier noch mehr Vorarbeit
+                        geleistet werden als bei der Emotionsanalyse, da in der
+                        Unzuverlässigkeitsforschung für letztere bereits Listen mit textuellen
+                        Indikatoren zur Verfügung stehen, die vergleichsweise direkt in
+                        Annotationsschemata übertragen werden können. Die Annotation in Frage
+                        stehender Sätze erfordert dagegen grundsätzliche konzeptionelle und
+                        praktische Entscheidungen. Im Rahmen dieses Nutzungsszenarios wurden
+                        beispielsweise zunächst jeweils textspezifische Kategorien entwickelt, d. h.
+                        dass für jeden Text ca. zwölf zentrale, in Frage stehende Propositionen
+                        identifiziert und als Tagset umgesetzt wurden (z. B. für E. T. A. Hoffmanns <bibl>
+                           <title type="desc">Der Sandmann</title>
+                        </bibl> die Propositionen <quote>Der dämonische Sandmann existiert</quote>,
+                           <quote>Der Sandmann will Nathanaels Leben zerstören</quote>,
+                           <quote>Advokat Coppelius und Wetterglashändler Coppola sind dieselbe
+                           Person</quote> etc.). Mithilfe dieser spezifischen Tagsets wurden in den
+                        Texten jeweils Sätze annotiert, in denen die fraglichen Propositionen
+                        thematisiert werden, um überhaupt erst einmal die grundsätzliche
+                        Umsetzbarkeit des Ansatzes zu testen. Perspektivisch ist die Entwicklung
+                        eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem
+                        beispielsweise Propositionen in Typen (z. B. in <term type="dh"
+                           >singular</term>, <term type="dh">particularized</term> und <term
+                              type="dh">general</term>) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und
+                        Konklusion) unterschieden werden.
+                        Deshalb ist zu erwarten, dass sich die Annotationskategorien und
+                        Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann
+                        der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von
+                        besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf
+                        Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens)
+                        zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein
+                        weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der
+                        Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter
+                        annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind
+                        deswegen weder für den Nachvollzug der Kategorienentwicklung oder der
+                        Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse
+                        der Annotation bzw. Analyse funktional.</item>
+                  </list>
+                  <p>Zusammenfassend lässt sich also festhalten, dass abgeleitete Textformate für
+                     den Nachvollzug der Operationalisierung literaturwissenschaftlicher
+                     Forschungsfragen, die in der durch das zweite Nutzungsszenario abgebildeten
+                     Forschungsphase im Vordergrund steht, nur schwer oder gar nicht verwendbar
+                     sind. Ein Auszugskonzept kann dagegen vielen der genannten Anforderungen
+                     begegnen.</p>
+                  <p>Wie eingangs deutlich gemacht wurde, dient das zweite Nutzungsszenario als
+                     Pilotstudie zu einem umfangreicheren Projekt, das die Schluss- und
+                     Argumentationsprozesse bei der Feststellung bzw. Zuschreibung unzuverlässigen
+                     Erzählens untersucht. In diesem Zusammenhang wird für Nachnutzer*innen die
+                     Notwendigkeit, auf zusammenhängende Textteile zugreifen zu können, noch stärker
+                     in den Vordergrund rücken, denn unzuverlässiges Erzählen gilt als Phänomen,
+                     dessen Feststellung sich aus dem Zusammenspiel verschiedener sprachlicher
+                     Indikatoren, über den Text verteilter Informationen und Kontextinformationen
+                     ergibt. Aus diesem Grund bleibt letztlich noch zu prüfen, inwieweit (d. h. bei
+                     welchen Phänomenvarianten oder Texten) der Zugriff auf Textauszüge für
+                     Nachnutzer*innen ausreichend ist. Fest steht allerdings, dass sich ein
+                     Auszugsmodell, wie es in XSample entwickelt wurde, den Bedarfen dieser
+                     Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und
+                     Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten Texten solch komplexe literarische
+                     Phänomene zu untersuchen.</p>
+               </div>
+            </div>
+            <div type="chapter">
+               <head>5. Fazit</head>
+
+               <p>Um urheberrechtlichen Einschränkungen bei der Auswahl, Verbreitung und Nachnutzung
+                  von Forschung von vornherein aus dem Weg zu gehen, konzentrieren viele digitale
+                  Geisteswissenschaftler*innen ihre korpusorientierte Forschung auf gemeinfreie
+                  Texte. In der Breite führt dies zu Verzerrungen der Forschungslandschaft, die
+                  inhaltlich wie methodologisch problematisch sind. Dieser Artikel ging daher von
+                  folgendem Desiderat für die Forschungscommunity in den digitalen
+                  Geisteswissenschaften aus: Der bestehende urheberrechtliche Rahmen sollte in der
+                  Praxis so gut es geht ausgenutzt werden, nicht zuletzt um die Relevanz von
+                  korpusorientierter Forschung auf geschützten Texten forschungspolitisch zu
+                  unterstreichen. Hier kommt einer forschungsgeleiteten Dateninfrastruktur die
+                  wichtige Rolle zu, Forscher*innen eine möglichst weitgehende, rechtskonforme
+                  Verwendung geschützter Texte zu ermöglichen. </p>
+               <p>Zwei Ansätze hierzu sind zum einen individuelle Lizenzvereinbarungen, zum anderen
+                  das jüngst vorgestellte Prinzip abgeleiteter Textformate. Der Austausch von
+                  Ergebnissen einer explorativen Forschungspraxis auf Basis von Fragestellungen, die
+                  für eine Interpretation die Einbeziehung relevanten Kontexts erforderlich machen,
+                  ist mit beiden Ansätzen aber nur sehr eingeschränkt möglich. Der vorliegende
+                  Beitrag schlägt daher eine infrastrukturelle Erweiterung des Instrumentariums vor,
+                  die auf der urheberrechtlich zulässigen Weitergabe von Textauszügen aufbaut. Um
+                  die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu
+                  maximieren, ermöglicht der XSample-Workflow den Nutzer*nnen, Textauszüge flexibel
+                  anhand von Suchanfragen an den Text und seine Annotationen auszuwählen.</p>
+               <p>Anhand zweier Nutzungsszenarien aus Sprach- und Literaturwissenschaft wurde
+                  beispielhaft gezeigt, welche Möglichkeiten und Grenzen sich aus dem Prinzip
+                  abgeleiteter Textformate sowie dem Auszugskonzept im Kontext konkreter
+                  geisteswissenschaftlicher Forschungsprojekte ergeben. Das linguistische Szenario
+                  vergleicht Wortfrequenzen zwischen drei Korpora, eine Aufgabe, die problemlos
+                  anhand von einfachen Frequenzlisten – d. h. auf Basis abgeleiteter Textformate –
+                  reproduziert werden kann. Jedoch erfordert der nächste Schritt, die Interpretation
+                  der quantitativen Befunde, eine Rekontextualisierung der Ergebnisse und damit
+                  Zugriff auf die zu untersuchenden Textstellen in ihrem Kontext. Hier stößt das
+                  Prinzip abgeleiteter Textformate an seine Grenzen; durch das Auszugskonzept kann
+                  dieser Schritt hingegen in einem für den Anwendungsfall ausreichendem Maße
+                  geleistet werden. </p>
+               <p>Das zweite Szenario beschäftigt sich mit dem Phänomen des unzuverlässigen
+                  Erzählens, bei dem sich schnell zeigt, dass abgeleitete Textformate nicht sinnvoll
+                  eingesetzt werden können. Das betrifft zum einen den Nachvollzug der
+                  Operationalisierung der literaturwissenschaftlichen Kategorien, für den der nähere
+                  textuelle Kontext notwendig ist, zum anderen die Analyse und Interpretation der
+                  Annotationen als Indikatoren für Vorkommnisse unzuverlässigen Erzählens, für die
+                  auch der weitere textuelle Kontext von Bedeutung ist. Lediglich
+                  Vorverarbeitungsschritte wie eine Named Entity Recognition können über abgeleitete
+                  Formate, etwa mittels Frequenzdaten, nachgenutzt werden. Der Zugriff auf
+                  individuell ausgewählte Textauszüge ist für den literaturwissenschaftlichen
+                  Anwendungsfall somit deutlich vielversprechender. Allerdings ist anzumerken, dass
+                  für gewisse Interpretationen auch der ganze Text vorliegen muss. Hier könnte das
+                  Auszugskonzept zu einer ersten Sichtung und Bewertung des Materials dienen, vor
+                  dem Hintergrund komplexer literaturwissenschaftlicher Fragestellung aber an seine
+                  Grenzen stoßen. </p>
+               <p>Die zwei Nutzungsszenarien können die Breite geisteswissenschaftlicher
+                  Fragestellungen und Methoden nur in begrenztem Maß abbilden. Sie machen jedoch
+                  deutlich, dass selbst Analysen, die einen quantitativen, auf automatisierte
+                  Verfahren bauenden Zugang zu den Daten nutzen, für die Interpretation am Ende auf
+                  Kontextinformationen angewiesen sind. Nur dieser Schritt macht die Analyse an die
+                  Geisteswissenschaften anschlussfähig und für die Forschungscommunity
+                  nachvollziehbar. Die Arbeit mit Frequenzdaten, zu denen keine Kontextinformationen
+                  zur Verfügung stehen, birgt auch die Gefahr, zu Interpretationen zu verleiten, die
+                  nicht durch die Daten gedeckt sind. Insofern erscheint es für viele
+                  Forschungsszenarien in den digitalen Geisteswissenschaften sinnvoll, eine
+                  Kombination beider Verfahren anzustreben.</p>
+               <p>Alle hier diskutierten Verfahren bleiben selbstverständlich Behelfslösungen. Aus
+                  Sicht der Forschung wäre die generelle Möglichkeit, Forschungsdaten einschließlich
+                  der zugrundeliegenden Texte für wissenschaftliche Zwecke uneingeschränkt zu
+                  teilen, das bei weitem produktivste Vorgehen. Die Interessen der
+                  Rechteinhaber*innen müssen dabei natürlich berücksichtigt werden. Gegebenenfalls
+                  müssten langfristig etwa die Richtlinien der Forschungsfinanzierung aus
+                  öffentlichen Quellen angepasst werden, um bei der Verwendung von urheberrechtlich
+                  geschützten Werken in berechtigten Fällen eine vorgelagerte Kompensation für eine
+                  langfristige Nachnutzung zu ermöglichen. In vielen Fällen ließe sich ein
+                  Interessenausgleich von Forschung und Rechteinhaber*innen erreichen. Langfristig
+                  ist zu hoffen, dass die Politik den rechtlichen Rahmen mit dieser Zielsetzung
+                  weiterentwickelt. Unter den aktuell gegebenen Umständen erlauben zum einen die
+                  Veröffentlichung von abgeleiteten Textformaten und zum anderen der gezielte
+                  Zugriff auf genau die Auszüge des Textes, die für eine gegebene Fragestellung
+                  relevant sind, eine zwar eingeschränkte, in vielen Fällen aber hinreichende
+                  Reproduktion und Nachnutzung urheberrechtlich geschützter Forschungsdaten.</p>
+            </div>
+            <div type="bibliography">
+               <head>Bibliografische Angaben</head>
+               <listBibl>
+                 <bibl xml:id="allrath_signale_1998">Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für
+                     die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur
+                     Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen
+                     Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier
+                     1998, S. 59–80. <ptr type="gbv" cRef="24851167X"/></bibl>
+                 <bibl xml:id="andresen_sprachbeschreibung_2022">Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen
+                     Annotationen. Eine Korpusanalyse am Beispiel der germanistischen
+                     Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre
+                     Perspektiven auf Sprache (CLIP), 10). <ptr type="gbv" cRef="1786523841"/></bibl>
+                 <bibl xml:id="dreier_urhg_2018">Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
+                     Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage.
+                     München 2018. <ptr type="gbv" cRef="896763692"/></bibl>
+                 <bibl xml:id="dreier_urhg_2022">Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
+                     Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz,
+                     Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022.
+                    <ptr type="gbv" cRef="1769737332"/></bibl>
+                 <bibl xml:id="folde_interpretation_2015">Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics
+                    55 (2015), H. 3, S. 361–374. <ptr type="gbv" cRef="129077933"/></bibl>
+                 <bibl xml:id="dfg_leitlinien_2019">Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten
+                     wissenschaftlichen Praxis, Kodex, 2019. DOI: <ref
+                        target="https://doi.org/10.5281/zenodo.6472827">10.5281/zenodo.6472827</ref>
+                  </bibl>
+                 <bibl xml:id="gaertner_corpus_2020">Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a
+                     Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on
+                     Challenges in the Management of Large Corpora. Hg. von Piotr Bański / Adrien
+                     Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta.
+                     (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [<ref
+                        target="https://www.aclweb.org/anthology/2020.cmlc-1.5">online</ref>] </bibl>
+                 <bibl xml:id="gaertner_corpus_2021">Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann:
+                     Corpus Reusability and Copyright – Challenges and Opportunities. In:
+                     Proceedings of the Workshop on Challenges in the Management of Large Corpor.
+                     Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien Barbaresi / Simon
+                     Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S.
+                     10–19. DOI: <ref target="https://doi.org/10.14618/ids-pub-10467"
+                        >10.14618/ids-pub-10467</ref> <ptr type="gbv" cRef="1788941780"/></bibl>
+                 <bibl xml:id="gius_textanalysen_2019">Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein
+                     Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [<ref
+                        target="https://www.digitalhumanitiescooperation.de/pamphlet-8-computationelle-textanalysen/"
+                        >online</ref>] </bibl>
+                 <bibl xml:id="gius_profit_2017">Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On
+                     Preventing and Fostering Disagreement in Literary Analysis. In: International
+                     Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: <ref
+                        target="https://doi.org/10.3366/ijhac.2017.0194"
+                        >10.3366/ijhac.2017.0194</ref> <ptr type="gbv" cRef="569610923"/></bibl>
+                 <bibl xml:id="habermas_diskurs_1998">Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen.
+                     Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749).
+                    <ptr type="gbv" cRef="863033091"/></bibl>
+                 <bibl xml:id="jockers_methods_2012">Matthew Lee Jockers: Macroanalysis: Digital methods and literary history.
+                    Urbana, IL u. a. 2013. <ptr type="gbv" cRef="1603785094"/></bibl>
+                 <bibl xml:id="kindt_erzaehlen_2008">Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine
+                     Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen
+                     Literatur, 184). <ptr type="gbv" cRef="568520025"/></bibl>
+                 <bibl xml:id="kleinkopf_text_2021">Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining –
+                     Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei
+                     computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für
+                     IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: <ref
+                        target="http://dx.doi.org/10.18419/opus-11445">10.18419/opus-11445</ref> <ptr type="gbv" cRef="1679027220"/></bibl>
+                 <bibl xml:id="kleinkopf_bildung_2021">Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und
+                     Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der
+                     DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In:
+                     Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655.
+                    <ptr type="gbv" cRef="130952079"/></bibl>
+                 <bibl xml:id="kresta_realisierungsformen_1995">Ronald Kresta: Realisierungsformen der Interpersonalität in vier
+                     linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und
+                     Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. <ptr type="gbv" cRef="185951988"/></bibl>
+                 <bibl xml:id="martinez_einfuehrung_2009">Matías Martínez / Michael Scheffel: Einführung in die Erzähltheorie. 8.
+                    Aufage. (= C.-H.-Beck-Studium). München 2009. <ptr type="gbv" cRef="612016773"/></bibl>
+                 <bibl xml:id="nuenning_narration_1998">Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer
+                     kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In:
+                     Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens.
+                     Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39.
+                    <ptr type="gbv" cRef="24851167X"/></bibl>
+                 <bibl xml:id="nuenning_unreliable_1999">Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of
+                     »Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen.
+                     Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg.
+                     von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. <ptr type="gbv" cRef="25045680X"/></bibl>
+                 <bibl xml:id="pichler_operationalisierung_2021">Axel Pichler / Nils Reiter: Zur Operationalisierung
+                     literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine
+                     Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von
+                     Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H.
+                     1–2, S. 1–29. [<ref
+                        target="http://www.jltonline.de/index.php/articles/article/view/1124/2571"
+                        >online</ref>] <ptr type="gbv" cRef="519206053"/></bibl>
+                 <bibl xml:id="raue_freistellung_2021">Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und
+                     Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021),
+                     H. 10, S. 793-802. <ptr type="gbv" cRef="130952079"/></bibl>
+                 <bibl xml:id="reiter_anleitung_2020">Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In:
+                     Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler /
+                     Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: <ref
+                        target="https://doi.org/10.1515/9783110693973-009"
+                        >10.1515/9783110693973-009</ref> <ptr type="gbv" cRef="1691580465"/></bibl>
+                  <bibl xml:id="DSM-Richtlinie_2019">Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [<ref target="http://data.europa.eu/eli/dir/2019/790/2019-05-17">online</ref>]</bibl>
+                 <bibl xml:id="schiller_guidelines_1999">Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert:
+                     Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes
+                     Tagset). 1999. PDF: [<ref
+                        target="http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf">online</ref>]
+                  </bibl>
+                 <bibl xml:id="schoech_textformate_2020">Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer
+                     Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke:
+                     Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten
+                     Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020).
+                        DOI: <ref target="https://doi.org/10.17175/2020_006">10.17175/2020_006</ref></bibl>
+                 <bibl xml:id="schruhl_objektumgangsnormen">Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften verändert: Neue
+                     Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel 2018. (=
+                     Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: <ref
+                        target="https://doi.org/10.17175/sb003_012">10.17175/sb003_012</ref></bibl>
+                 <bibl xml:id="schmidt_tool_2021">Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for
+                     Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between
+                     Data and Knowledge. Information Science and its Neighbors from Data Science to
+                     Digital Humanities. Proceedings of the 16th International Symposium of
+                     Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16,
+                     Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: <ref
+                        target="http://doi.org/10.5283/epub.44943">10.5283/epub.44943</ref>
+                    <ptr type="gbv" cRef="1747271209"/></bibl>
+                 <bibl xml:id="steinhoff_textkompetenz_2007">Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und
+                     Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten.
+                     Tübingen 2007. (= Reihe Germanistische Linguistik, 280) <ptr type="gbv" cRef="555521087"/></bibl>
+                  <bibl xml:id="wilkinson_fair_2016">Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR
+                     Guiding Principles for scientific data management and stewardship. In:
+                     Scientific Data 3 (2016), Artikelnummer 160018. DOI: <ref target="https://doi.org/10.1038/sdata.2016.18">10.1038/sdata.2016.18</ref> <ptr type="gbv" cRef="788479601"/></bibl>
+                 <bibl xml:id="yacobi_reliability_1981">Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics
+                    Today 2 (1981), H. 2, S. 113–126. <ptr type="gbv" cRef="168640813"/></bibl>
+               </listBibl>
+            </div>
+            <div type="abbildungsnachweis">
+               <head>Abbildungs- und Tabellenverzeichnis: </head>
+               <desc type="graphic" xml:id="abb1">In XSample entwickeltes Auszugskonzept. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
+                  target="#nachnutzung_2021_001"/></desc>
+                  <desc type="graphic" xml:id="abb2">Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die
+                     Weiterleitung auf den XSample-Server angestoßen werden. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
+                        target="#nachnutzung_2021_002"/></desc>
+                     <desc type="graphic" xml:id="abb3">Startseite des XSample-Servers nach Weiterleitung aus dem zugehörigen
+                        Dataverse und Validierung der Manifest-Datei. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
+                           target="#nachnutzung_2021_003"/></desc>
+                        <desc type="graphic" xml:id="abb4">Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
+                              target="#nachnutzung_2021_004"/></desc>
+               <desc type="graphic" xml:id="abb5">Exemplarische Oberfläche
+                  zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen
+                  Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird
+                  direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
+                  gegeben, die für sie relevanten Segmente exakt auszuwählen. [<ref type="bibliography" target="#gaertner_corpus_2021">Gärtner 2021</ref>]<ref type="graphic"
+                     target="#nachnutzung_2021_005"/></desc>
+               <desc type="table" xml:id="tab1"><ref target="#tab01" type="intern">Tab. 1</ref>: Die
+                  distinktivsten Wortarten für die Unterscheidung von Philosophie und
+                  Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS
+                  (<ref type="bibliography" target="#schiller_guidelines_1999">Schiller et al. 1999</ref>). [Andresen 2022]<ref type="graphic"
+                     target="#nachnutzung_2021_t1"/></desc>
+               <desc type="table" xml:id="tab2"><ref target="#tab02" type="intern">Tab. 2</ref>:
+                  Manuelle Kategorisierung der wir -Verwendung in einer Stichprobe von 100 Instanzen
+                  pro Disziplin. [Pichler 2022]<ref type="graphic"
+                     target="#nachnutzung_2021_t2"/></desc>
+            </div>
+         </div>
+      </body>
+   </text>
+</TEI>