turingtest_2015_v1_0.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"?>

<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html"
   xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink"
   xmlns:xhtml="http://www.w3.org/1999/xhtml">
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>
               <biblStruct>
                  <analytic>
                     <title level="a">Turing Test für das Topic Modeling. Von Menschen und Maschinen
                        erstellte inhaltliche Analysen der Korrespondenz von Leo von Thun-Hohenstein
                        im Vergleich</title>
                     <respStmt>
                        <resp>
                           <persName>
                              <name role="marc_aut">
                                 <forename>Peter</forename>
                                 <surname>Andorfer</surname>
                              </name>
                              <email>peterandorfer@oeaw.ac.at</email>
                              <idno type="gnd">1043833846</idno>
                              <idno type="orcid">0000-0002-9575-9372</idno>
                           </persName>
                        </resp>
                        <orgName>Österreichische Akademie der Wissenschaften (OAW), Austrian Centre
                           for Digital Humanities (ACDH)</orgName>
                     </respStmt>
                     <idno type="doi">10.17175/2017_002</idno>
                     <idno type="ppn">882673483</idno>
                     <idno type="zfdg">2017.002</idno>
                     <idno type="url">http://www.zfdg.de/node/210</idno>
                     <date when="2017-04-25">25.04.2017</date>
                  </analytic>
                  <monogr>
                     <title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
                     <respStmt>
                        <resp>Publiziert von</resp>
                        <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
                     </respStmt>
                     <respStmt>
                        <resp>Transformation der Word Vorlage nach TEI</resp>
                        <persName/>
                        <name role="marc_trc">
                           <surname>Steyer</surname>
                           <forename>Timo</forename>
                           <idno type="gnd">1053806175</idno>
                        </name>
                     </respStmt>
                     <respStmt>
                        <resp>Übersetzung des Abstract ins Englische</resp>
                        <name role="marc_trl">
                           <forename>Kathleen Marie</forename>
                           <surname>Smith</surname>
                        </name>
                     </respStmt>
                     <availability status="free">
                        <p>Available at <ref target="http://www.zfdg.de">http://www.zfdg.de</ref>
                        </p>
                     </availability>
                     <biblScope unit="year">2017</biblScope>
                     <biblScope unit="artikel">02</biblScope>
                  </monogr>
               </biblStruct>
            </title>
         </titleStmt>
         <editionStmt>
            <edition>Elektronische Ausgabe nach TEI P5</edition>
         </editionStmt>
         <publicationStmt>
            <distributor>
               <name>
                  <orgName>Herzog August Bibliothek Wolfenbüttel</orgName>
               </name>
            </distributor>
            <idno type="doi">10.17175/zfdg.01</idno>
            <idno type="ppn">0819494402</idno>
            <authority>
               <name>Herzog August Bibliothek</name>
               <address>
                  <addrLine>Lessingplatz 1</addrLine>
                  <addrLine>38304 Wolfenbüttel</addrLine>
               </address>
            </authority>
            <authority>
               <name>Forschungsverbund MWW</name>
               <address>
                  <addrLine>Wallotstraße 19</addrLine>
                  <addrLine>14193 Berlin</addrLine>
               </address>
            </authority>
            <availability status="free">
               <p> Sofern nicht anders angegeben </p>
               <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence>
            </availability>
            <availability status="free">
               <p> Available at <ref target="workID">http://www.zfdg.de; (c) Forschungsverbund
                     MWW</ref>
               </p>
            </availability>
         </publicationStmt>
         <sourceDesc>
            <p>Einreichung als Fachartikel in der ZfdG durch die Autoren</p>
         </sourceDesc>
      </fileDesc>
      <encodingDesc>
         <editorialDecl>
            <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
               XSLT-Skripten</p>
         </editorialDecl>
         <editorialDecl>
            <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von
                  <persName>Constanze Baum</persName>.</p>
         </editorialDecl>
         <editorialDecl>
            <p>Medienrechte liegen bei den Autoren</p>
         </editorialDecl>
         <editorialDecl>
            <p>All links checked<date when="2017">03.04.2017</date>
            </p>
         </editorialDecl>
      </encodingDesc>
      <profileDesc>
         <creation>Einreichung als Artikel der Zeitschrift für digitale
            Geisteswissenschaften</creation>
         <langUsage>
            <language ident="de">Text in Deutsch</language>
            <language ident="en">Abstract in English</language>
         </langUsage>
         <textClass>
            <keywords scheme="gnd">
               <term>Automatische Klassifikation<ref target="4120957-6"/></term>
               <term>Computergestützes Verfahren<ref target="4139030-1"/></term>
               <term>Mustererkennung<ref target="4040936-3"/></term>
            </keywords>
         </textClass>
      </profileDesc>
      <revisionDesc>
         <change/>
      </revisionDesc>
   </teiHeader>
   <text>
      <body>
         <div>

            <div type="abstract">
               <argument xml:lang="de">
                  <p>Wer ist schlauer? Mensch oder Maschine? Die Antwort auf diese Frage wird seit
                     1950 mit Alan Turing und dem von ihm konzipierten Turing Test verknüpft. Daran
                     anknüpfend vergleicht vorliegender Aufsatz inhaltliche Analysen eines
                     historischen Briefwechsels, die einmal ›vom Menschen‹ mittels ›close reading‹
                     und anschließender Vergabe von Schlagworten und einmal ›von der Maschine‹
                     mittels Topic Modeling erzeugt wurden. Neben der konkreten Evaluierung des
                     Topic Modeling Verfahrens wirft dieser Aufsatz auch die Frage auf, ob und
                     wieweit es möglich und vertretbar ist, Methoden einzusetzen, die ohne tiefere
                     Kenntnisse von Wahrscheinlichkeitsberechnungen und Statistik kaum noch gänzlich
                     verstanden werden können.</p>
               </argument>
               <argument xml:lang="en">
                  <p>Who is cleverer, man or machine? Since the 1950s, the answer to this question
                     has been linked to Alan Turing and the Turing test he devised. This paper
                     builds upon this foundation with its comparison of two analyses of a historical
                     collection of correspondence: one created by humans using ›close reading‹ and
                     the application of subject terms, and one generated by machines with the help
                     of topic modeling. In addition to concrete evaluation of the topic modeling
                     process, this paper investigates whether, and, if so, to what extent, it is
                     feasible and justifiable to use methods that can hardly be understood without
                     in-depth knowledge of probability calculations and statistics. </p>
               </argument>
            </div>
            <div type="chapter">
               <head>1. Topic Modeling, Turing Test und Fragestellung</head>

               <p>
                  <emph>Topic Modeling</emph> beschreibt ein Verfahren, das aus einer
                  abgeschlossenen Textmenge eine vorher festgelegte Anzahl von Topics extrahiert.
                  Sehr verkürzend und vereinfachend formuliert werden in mehreren Wiederholungen die
                  Wörter eines jeden Dokuments einem bestimmten Topic zugewiesen, wobei die
                  Zuweisung anhand statistischer Häufigkeiten und den daraus berechneten
                  Wahrscheinlichkeiten erfolgt.</p>
               <p>Bei den so generierten Topics oder Themen handelt es sich um Listen von Wörtern
                  und deren jeweiligen Häufigkeiten, die in einem Topic vermehrt anzutreffen sind
                  und so ein Topic konstituieren.</p>
               <p>Das Thema <emph>Topic Modeling</emph> wurde im Kontext der Digital Humanities in
                  den letzten Jahren bereits breit diskutiert. Einen guten Einstieg in die
                  statistisch-mathematischen Hintergründe des Verfahrens bietet der Aufsatz von
                  David Blei <bibl>
                     <title type="desc">Probabilistic Topic Models</title>
                  </bibl> aus dem Jahr 2012.<note type="footnote">
                     <ref type="bibliography" target="#blei_models_2012">Blei 2012</ref>. </note>
                  Ebenfalls 2012 erschien eine Ausgabe des <bibl>
                     <title type="desc">Journal of Digital Humanities</title>
                  </bibl>, welche in Gänze dem Thema Topic Modeling gewidmet war.<note
                     type="footnote">
                     <ref type="bibliography" target="#cohen_journal_2012">Journal of Digital
                        Humanities 2012</ref>. </note> Neben Artikeln eher genereller und
                  einführender Natur<note type="footnote">
                     <ref type="bibliography" target="#brett_modeling_2013">Brett 2013</ref>.
                  </note> finden sich darin auch konkrete Fallbeispiele, in denen
                  geisteswissenschaftliche Fragestellungen mit Hilfe des Topic Modelings mehr oder
                  weniger erfolgreich bearbeitet wurden.<note type="footnote">
                     <ref type="bibliography" target="#rhody_modeling_2012">Rhody 2012</ref>; <ref
                        type="bibliography" target="#schmidt_words_2012">Schmidt 2012</ref>. </note>
                  Topic Modeling wird auch in einer Fülle von Blogposts vorgestellt. Die Bandbreite
                  der Inhalte reicht dabei von umfassenden Einführungen,<note type="footnote">
                     <ref type="bibliography" target="#weingart_modeling_2012">Weingart
                     2012</ref>.</note> über detaillierte Tutorials<note type="footnote">
                     <ref type="bibliography" target="#graham_modeling_2012">Graham et al.
                        2012</ref>. </note> bis hin zur Beantwortung der ›wahrlich essenziellen
                  Frage‹, ob man mit Hilfe von Topic Modeling die pikanteren Passsagen in <bibl>
                     <title type="desc">Fifty Shades of Grey</title>
                  </bibl><note type="footnote">
                     <ref type="bibliography" target="#james_shades_2012">James 2012</ref>. </note>
                  identifizieren kann, ohne deswegen gleich das ganze Buch lesen zu müssen.<note
                     type="footnote">
                     <ref type="bibliography" target="#andorfer_shades_2015a">Andorfer 2015a</ref>.
                  </note> Von besonderer Bedeutung für diesen Aufsatz ist jedoch die 2014 von
                  Matthew L. Jockers veröffentlichte Monographie <bibl>
                     <title type="desc">Text analysis with R for students of literature</title>
                  </bibl>,<note type="footnote">
                     <ref type="bibliography" target="#jockers_analysis_2014">Jockers 2014</ref>.
                  </note> eine sehr stark methodisch-praktisch orientierte Ergänzung der vom selben
                  Autor 2013 publizierten Studie <bibl>
                     <title type="desc">Macroanalysis: Digital Methods and Literary History</title>
                  </bibl>,<note type="footnote">
                     <ref type="bibliography" target="#jockers_macroanalysis_2013">Jockers
                        2013</ref>. </note> führt Jockers in <bibl>
                     <title type="desc">Text analysis</title>
                  </bibl> doch Schritt für Schritt oder besser Codezeile für Codezeile vor, wie man
                  unter Verwendung der Programmiersprache R, Topic Modeling auf einen Textkorpus
                  anwenden kann. Weite Teile des für diesen Artikel verwendeten Codes wurden aus <bibl>
                     <title type="desc">Text analysis</title>
                  </bibl> übernommen.</p>
               <p>Aufgrund der Fülle vorhandener Einführungen zum Thema <emph>Topic Modeling</emph>
                  wird hier auf weitere einführende und erläuternde Ausführungen verzichtet.
                  Vielmehr wird hier der Versuch unternommen, zu testen, ob Topic Modeling als
                  Werkzeug für die inhaltliche Erschließung großer Textmengen ähnlich brauchbare
                  Ergebnisse liefert, wie dies bei einer Erschließung durch Menschen der Fall ist,
                  welche sämtliche Texte des Korpus lesen und diese mit einem oder mehreren
                  Schlagworten versehen. Verkürzt gesagt handelt es sich hierbei also um einen
                  Wettstreit zwischen Mensch und Maschine, frei nach dem von Alan Turing 1950
                  vorgestelltem, sogenannten <emph>Turing Test</emph>.<note type="footnote">
                     <ref type="bibliography" target="#turing_computing_1950">Turing 1950</ref>.
                  </note> Während dabei aber ein Mensch versucht zu erkennen, ob er mit
                  seinesgleichen oder mit einer Maschine kommuniziert, steht hier dagegen die eben
                  aufgeworfene Frage im Vordergrund, ob eine Maschine respektive ein von einem
                  Computer angewendeter Algorithmus den menschlichen Arbeitseinsatz im Bereich der
                  Texterschließung ersetzen oder wenigstens ergänzen oder erleichtern kann.</p>
               <p>Anhand dieser Fallstudie soll zudem demonstriert werden, dass es prinzipiell
                  möglich ist, Methoden oder Verfahren einzusetzen, deren mathematisch-statistischer
                  Hintergrund nicht zur Gänze durchdrungen wurde.<note type="footnote"> Sämtliche,
                     für das Verfassen dieses Aufsatzes geschriebene Materialien sind im
                     GitHub-Repository <ref target="https://github.com/csae8092/topicModeling">
                        https://github.com/csae8092/topicModeling
                        https://github.com/csae8092/topicModeling</ref> veröffentlicht und können
                     eingesehen und vor allem auch nachgenutzt werden. Da dieser Text in einer
                     Online-Zeitschrift und somit in digitaler Form erscheinen wird, ist es außerdem
                     möglich, direkt auf die jeweils im Text erwähnten Ressourcen (Code, Bilder,
                     Textdaten) zu verlinken, weshalb von einer tatsächlichen Einbindung dieser
                     Materialien in den Text, beispielsweise in Form von ausführlichen
                     Code-Listings, oder der Abbildung von 115 Wortwolken verzichtet wird. </note>
               </p>
            </div>
            <div type="chapter">
               <head>2. Korpus und Datenmaterial</head>

               <p>Bei dem für diesen Feldversuch zu analysierenden Korpus handelt es sich um einen
                  Teil der Korrespondenz von Leo von Thun-Hohenstein (1811–1788) aus der Zeit seiner
                  Tätigkeit als Minister für Kultus und Unterricht (1849–1860). Das Korpus besteht
                  aus etwa 520 Briefen. Hinzu kommen noch rund 250 andere Dokumente wie Protokolle,
                  Konzepte, Memoranden oder Gesetzesentwürfe. Der Großteil dieses Materials befindet
                  sich in Děčín, einer Zweigstelle des <term type="corporate" ref="LINK"
                     >Tschechischen Gebietsarchives Litoměřice.</term><note type="footnote"> Vgl.
                        <ref type="bibliography" target="#aichner_korrespondenz_2015">Aichner
                        2015</ref>. </note> Abgesehen von 38 Dokumenten sind sämtliche Texte in
                  deutscher Sprache verfasst. In einem vom <term type="corporate" ref="LINK">Fonds
                     zur Förderung der wissenschaftlichen Forschung</term> (FWF) geförderten Projekt
                  wird diese Korrespondenz in Form einer Online-Edition sukzessive publiziert. Dafür
                  wurden die einzelnen Dokumente transkribiert und den Richtlinien der TEI
                  entsprechend in XML kodiert.<note type="footnote"> Zu den Editionsrichtlinien vgl.
                        <ref type="bibliography" target="#aichner_korrespondenz_2015">Aichner
                        2015</ref>. </note>
               </p>
               <p>Von gewissem Vorteil für diesen Aufsatz ist es, dass es sich bei dem für die
                  technische Umsetzung der Online-Edition verantwortliche Person auch um den
                  Verfasser dieser Zeilen handelt. Damit geht einerseits eine rudimentäre
                  Vertrautheit mit dem Korpus sowie den projektorientierten Arbeitsabläufen einher,
                  andererseits ist es dadurch auch möglich, einige der für diesen Aufsatz
                  geschriebenen Skripte bzw. Funktionen zur Analyse des Korpus auch gleich in die
                  Online-Edition zu integrieren. Das entsprechende xQuery-Modul kann <ref
                     target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/eXide/index.html?open=/db/apps/Thun-Collection/modules/analysis.xqm"
                     >hier</ref> eingesehen werden. Die damit ›on-the-fly‹ generierten
                  Informationen bilden auch die Basis für die nun folgende kurze Beschreibung des
                     Textmaterials.<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#andorfer_analyse_2015b">Andorfer 2015b</ref>. </note>
               </p>
               <p>Zum Zeitpunkt der Niederschrift dieses Aufsatzes umfasste der von der
                  Projektleiterin Brigitte Mazohl freigegebene Bestand 81 Dokumente, verfasst von 48
                  unterschiedlichen Autoren und einer Autorin, sofern die Verfasser der Texte von
                  den Editoren ermittelt werden konnten. Während sich diese Zahlen aber noch mit
                  ziemlich großer Gewissheit feststellen lassen und im Zweifel durch einfaches
                  Zählen der Dokumente auch nachgeprüft werden kann, bereitet die Frage nach der
                  Anzahl der Wörter in den Dokumenten schon größeres Kopfzerbrechen, kommt es dabei
                  doch auf den jeweils verwendeten Tokenizer an. Für die statistische Auswertung,
                  wie sie auf der Webpage der Online-Edition eingesehen werden kann, wurde dafür die
                  xQuery Funktion <ref
                     target="http://www.xqueryfunctions.com/xq/functx_word-count.html">
                     functx:word-count</ref> verwendet, welche Wortgrenzen entsprechend der Unicode
                  Definition von <quote>word characters</quote> festlegt. Die Anzahl der ›Wörter‹
                  (tokens) der Transkripte dieser 81 Dokumente liegt dabei bei 119.577 ›Wörtern‹ und
                  17.944 distinkten Wortformen (types). Dies entspricht knapp 200 Din-A4 Seiten,
                  beschrieben in Calibri mit einfachem Zeilenabstand und in der Schriftgröße 11
                  Punkt. Lässt man dieselbe Textmenge von LibreOffice zählen, so erhält man ein
                  Ergebnis von 117.939 Wörtern, analysiert man hingegen den Text mit Hilfe von <ref
                     target="http://voyant-tools.org/?input=http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/plaintext-transcripts"
                     >voyant-org</ref>, so werden 132.062 <quote>words</quote> und 17.380
                     <quote>unique words</quote> gezählt. Dabei gilt es aber zu beachten, dass darin
                  auch die vereinzelten Anmerkungen der Editoren enthalten sind, welche jedoch
                  aufgrund des verhältnismäßig geringen Umfanges nicht herausgefiltert wurden. Die
                  Anzahl der Wörter in Anmerkungen pro Dokument liegt nämlich nur bei knapp 24
                  Wörtern. Bei einer durchschnittlichen Dokumentlänge von knapp 1500 Wörtern machen
                  die Anmerkungen somit gerade einmal 1,6 Prozent aus.</p>
               <p>Vor dem Hintergrund einer Standardabweichung von 1693,6 lassen sich alleine aus
                  der durchschnittlichen Textlänge von 1500 Wörtern aber keine weitergehenden
                  Rückschlüsse auf den Umfang der einzelnen Dokumente ziehen. Sinnvoller erscheint
                  hier schon eine Verteilung der Dokumente, gestaffelt nach ihrer Wortanzahl:</p>
               <p> Tabelle 1: Wörter pro Dokument gestaffelt</p>
               <table style="data">
                  <row role="label">
                     <cell>Anzahl der Wörter</cell>
                     <cell>Anzahl der Dokumente</cell>
                  </row>
                  <row role="data">
                     <cell>max 500</cell>
                     <cell>19</cell>
                  </row>
                  <row role="data">
                     <cell>501-1000</cell>
                     <cell>26</cell>
                  </row>
                  <row role="data">
                     <cell>1001-2000</cell>
                     <cell>18</cell>
                  </row>
                  <row role="data">
                     <cell>2001-3000</cell>
                     <cell>9</cell>
                  </row>
                  <row role="data">
                     <cell>3001-4000</cell>
                     <cell>3</cell>
                  </row>
                  <row role="data">
                     <cell>4001-</cell>
                     <cell>6</cell>
                  </row>
               </table>
               <p>Wie in der Tabelle zu sehen ist, umfassen 45 der 81 Dokumente weniger als 1000
                  Wörter. Ein Wert, der im Kontext der Datenvorbereitung für das Topic Modeling noch
                  eine nicht unbedeutende Rolle spielen wird.</p>
            </div>
            <div type="chapter">
               <head>3. Mensch: Inhaltliche Erschließung durch Vergabe von Schlagwörtern</head>

               <p>Die Korrespondenz von Leo von Thun-Hohensteins ist aber nicht nur aufgrund ihres
                  Umfanges und der systematischen Strukturiertheit der Daten prädestiniert für den
                  hier vorzunehmenden Wettstreit zwischen Mensch und Maschine. Das Korpus bzw. die
                  einzelnen Dokumente darin wurden von den Projektmitarbeitern Tanja Kraler und
                  Christof Aichner nämlich gleich in zweierlei Weise inhaltlich erschlossen. So
                  wurde jedes Dokument sowohl mit einem knappen Regest beschrieben als auch mit
                  einem oder mehreren (maximal neun) Schlagwörtern versehen. Insgesamt wurden so 299
                  Schlagwörter vergeben, womit auf ein Dokument im Schnitt 3,7 Schlagwörter kommen.
                  Am häufigsten – 24 mal – begegnet man dem Schlagwort
                  <quote>Personalfragen</quote>, gefolgt von <quote>Kultus</quote> (21),
                     <quote>Gymnasien</quote> (12), <quote>Katholische Kirche</quote> (11) und
                     <quote>Personalvermittlung</quote>, das noch in zehn von 81 Texten anzutreffen
                     ist.<note type="footnote">
                     <ref
                        target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/schlagworte-all.html"
                        >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/schlagworte-all.html</ref>.
                  </note>
               </p>
               <p>Schon an diesem kleinen Beispiel lässt sich erkennen, dass die vergebenen
                  Schlagwörter teils eng miteinander in Verbindung stehen. Wollte man diese Begriffe
                  zu einer Ontologie zusammenführen, so könnte man beispielsweise
                     <quote>Personalvermittlung</quote> als einen spezifischeren Unterbegriff zu der
                  weiter gefassten Bezeichnung <quote>Personalfragen</quote> beschreiben. Ähnliches
                  ließe sich auch beim Begriff <quote>Kultus</quote> bewerkstelligen. Blättert man
                  nämlich jene 21 Dokumente durch, die allesamt unter <quote>Kultus</quote>
                  subsumiert werden, so findet man darin stets weitere Schlagwörter wie:
                     <quote>Katholische Kirche</quote>, <quote>Katholikenvereine</quote>,
                     <quote>Bischofsversammlung</quote>, <quote>Griechisch-katholische
                     Kirche</quote>, <quote>Juden</quote>, <quote>Kirchenbau</quote>,
                     <quote>Konkordat</quote>, <quote>Konfessionen</quote>,
                     <quote>Deutschkatholiken</quote>, <quote>Protestanten</quote>,
                     <quote>Kirchenverfassung</quote>, <quote>Griechisch-orthodoxe Kirche</quote>
                  und <quote>Evangelische Kirche</quote>, also stets Begriffe, die um die
                  Themengebiete Konfessionen und religiöse Einrichtungen kreisen. Einzig bei zwei
                  aus 21 Dokumenten wurden keine religiös-konfessionell konnotierten Schlagwörter
                     vergeben.<note type="footnote"> Vgl. <ref
                        target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=heufler-an-thun_1850-04-13_A3-XXI-D44."
                        >
                        http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=heufler-an-thun_1850-04-13_A3-XXI-D44.xml&amp;searchword=qwertzy</ref>
                     sowie <ref
                        target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=entwurf-wirkungskreis-ministerium-fuer-kultus-und-unterricht_-o.D._A3-XXI-D84.xml&amp;searchword=qwertzy"
                        >
                        http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=entwurf-wirkungskreis-ministerium-fuer-kultus-und-unterricht_-o.D._A3-XXI-D84.xml&amp;searchword=qwertzy</ref>.
                  </note>
               </p>
               <p>Wie in Gesprächen mit den Editoren in Erfahrung gebracht werden konnte, erfolgte
                  die Vergabe der Schlagwörter in unmittelbarem Anschluss an die Kodierung eines
                  jeweiligen Dokumentes. Im Falle bis dahin im Korpus noch nicht aufgetretener
                  Themen mussten somit von den Editoren stets neue Schlagwörter ge- oder erfunden
                  werden, was zwangsläufig zu einem gewachsenen und kaum reglementierten Bestand an
                  Schlagwörtern führt. Eine allfällige Ordnung, Strukturierung oder anderweitige
                  Kuration der Schlagwörter ist bisher nicht erfolgt, wobei dies den Editoren
                  angesichts der begrenzten Projektmittel nicht angelastet werden kann.</p>
               <p>Da die Gretchenfrage des Topics Modelings aber genau die Frage nach der Anzahl der
                  Topics im Korpus ist – immerhin handelt es sich dabei um so ziemlich den einzigen
                  Parameter, welcher dem Algorithmus übergeben werden muss – ist für das hier
                  durchzuführende Experiment zumindest eine rudimentäre Kuration der im Korpus
                  anzutreffenden 115 distinkten Schlagwörter unumgänglich. Denn – soviel sei schon
                  vorweggenommen – erstellt man ein Topic Model mit tatsächlich 115 Topics, so sind
                  diese in ihrer Zusammensetzung sehr ähnlich und lassen sich nur im Ausnahmefall
                  semantisch sinnvoll aufladen.<note type="footnote"> Die Ergebnisse eines Topic
                     Models mit 115 Topics können hier eingesehen werden: <ref
                        target="https://github.com/csae8092/topicModeling/tree/master/results/2000_115/wordclouds"
                        >
                        https://github.com/csae8092/topicModeling/tree/master/results/2000_115/wordclouds</ref>.
                  </note>
               </p>
               <p>Die ›rudimentäre Kuration‹ besteht allerdings bloß darin, nur jene Schlagwörter
                  beizubehalten, die wenigstens zweimal vergeben wurden. Dadurch reduziert sich die
                  Anzahl der Topics von 115 auf 53. Ein solcher Schritt, welcher auf den ersten
                  Blick sehr willkürlich erscheinen mag, lässt sich aber insofern rechtfertigen, als
                  – wie bereits oben angedeutet – eine Fülle von Schlagwörtern keine völlig neuen
                  Themenfelder eröffnet, sondern im Gegenteil bereits von anderen Schlagwörtern grob
                  umrissene Diskurse präzisiert und konkretisiert.</p>
            </div>
            <div type="chapter">
               <head>4. Maschine: Inhaltliche Erschließung durch Topic Modeling</head>

               <div type="subchapter">
                  <head>4.1 Datenbeschaffung</head>

                  <p>Ein großer Reiz, den Topic Modeling auf (digitale) Geisteswissenschaftler
                     ausübt, liegt an den geringen Ansprüchen, die das Verfahren an das zu
                     verarbeitende Datenmaterial stellt. Ist man ausschließlich an den generierten
                     Topics interessiert, genügt schon eine in einzelne Dokumente unterteilte
                     Textmenge, frei von Metadaten jeglicher Art und Weise. Aber auch wenn man den
                     Verlauf, das Vorkommen oder die Abwesenheit von Topics im Korpus verfolgen
                     möchte, ist nicht viel mehr als eine Art Titel des jeweiligen Dokuments
                     notwendig, wobei hierfür in all jenen Fällen, in denen das Korpus aus einer
                     Ansammlung einzelner Dateien (z.B. .txt, .xml) besteht, schon der Dateiname
                     ausreicht. Dies, so zumindest die persönliche Erfahrung, verleitet dazu, Topic
                     Modeling einfach einmal auszuprobieren, um zu sehen, was dabei herauskommt.</p>
                  <p>Die Online-Edition der Korrespondenz von Leo von Thun-Hohenstein basiert auf
                     der xml-Datenbank <ref
                        target="http://exist-db.org/exist/apps/homepage/index.html">eXist-db</ref>,
                     die mit einer integrierten RESTful-API ausgeliefert wird, welche einen
                     einfachen und schnellen Zugriff auf die in der Datenbank gespeicherten
                     Dokumente erlaubt.</p>
                  <p>Die Möglichkeiten, die bereits veröffentlichten Dateien, welche unter der URL
                        <ref
                        target="http://thun-korrespondenz.uibk.ac.at:8080/exist/rest/db/files/thun/xml/"
                        >http://thun-korrespondenz.uibk.ac.at:8080/exist/rest/db/files/thun/xml/</ref>
                     aufgerufen werden können, in einen Topic Modeling-Workflow einzubinden, sind
                     vielfältig. Für dieses Projekt wurde ein Python Skript geschrieben,<note
                        type="footnote">
                        <ref
                           target="https://github.com/csae8092/topicModeling/blob/master/python/getXMLfromThunRegExCleaned.py"
                           >https://github.com/csae8092/topicModeling/blob/master/python/getXMLfromThunRegExCleaned.py</ref>.
                     </note> welches die einzelnen XML-Dokumente in einem eigenen Verzeichnis auf
                     der lokalen Festplatte speichert. Wie anhand des Skripts zu erkennen ist,
                     werden aber nicht die XML-Dateien gespeichert, sondern nur der von allen Tags
                     befreite Text der Transkripte (dies betrifft nun auch die von den Editoren
                     gemachten Anmerkungen). Dasselbe Skript sorgt auch für eine durchgängige
                     Kleinschreibung des gesamten Textes.</p>
                  <p>Es wäre auch möglich gewesen, den Vorgang der Datenbeschaffung direkt in das
                     R-Skript zu integrieren, mit dessen Hilfe das Topic Model und die Auswertung
                     realisiert wird,<note type="footnote">
                        <ref
                           target="https://github.com/csae8092/topicModeling/blob/master/R/TopicModel_txt.R"
                           >
                           https://github.com/csae8092/topicModeling/blob/master/R/TopicModel_txt.R</ref>.
                     </note> wodurch der gesamte Work-Flow, also die Datenbeschaffung, Aufbereitung,
                     Modellierung und Analyse bzw. Visualisierung mit nur einem Knopfdruck hätte
                     erfolgen können. Auf ein solches Vorgehen wurde hier aber verzichtet, da für
                     diesen Artikel mehrere verschiedene Modelle erzeugt wurden, die zu
                     prozessierenden Daten jedoch stets unverändert blieben. Aus diesem Grund wurden
                     die Daten nur einmal heruntergeladen, vorbereitet und in einem Verzeichnis auf
                     dem lokalen Rechner gespeichert, worauf das R-Skript zugreifen kann.</p>
               </div>
               <div type="subchapter">
                  <head>4.2 Datenaufbereitung</head>

                  <p>Wie bereits angemerkt, hält sich der Aufwand für die Datenaufbereitung bei dem
                     hier geplanten Topic Modeling-Verfahren in Grenzen. So müssen die Texte der zu
                     analysierenden Thun-Korrespondenz, die ja bereits als einzelne Dokumente im
                     txt-Format in einem lokalen Verzeichnis liegen, nur noch in R eingelesen und in
                     den R-Datentyp <quote>data frame</quote> transformiert werden. Bei einem data
                     frame handelt es sich um eine Matrix, deren Werte – im Unterschied zu dem
                     R-Datentyp <quote>matrix</quote> – nicht alle vom selben Datentyp sein
                     müssen.</p>
                  <p>Allerdings wird in der gesamten Literatur zum Thema Topic Modeling weitgehend
                     einstimmig darauf hingewiesen, dass die Qualität des Modells und somit auch die
                     Qualität der einzelnen Topics stark von der Anzahl der Dokumente abhängt. Die
                     Faustregel lautet: je weniger Dokumente, je schlechter das Modell.<note
                        type="footnote"> Vgl. <ref type="bibliography" target="#tang_factors_2014"
                           >Tang et al. 2014</ref>. </note> Versteht man unter ›Dokument‹ nun einen
                     für sich alleinstehenden Text wie etwa einen Roman, einen Aufsatz, einen
                     Abstract, einen Lexikonartikel oder auch einen Brief, so würde dies für das
                     hier zu bestreitende Experiment bedeuten, dass das Topic Model aus nur 81
                     Dokumenten berechnet werden müsste. Auch ohne tiefere Kenntnisse in Statistik
                     sollte klar sein, dass diese Zahl tendenziell zu niedrig sein dürfte, um
                     einigermaßen verlässliche Ergebnisse erzielen zu können. Des Weiteren sei an
                     dieser Stelle auf die bereits weiter oben präsentierte Übersicht hinsichtlich
                     der Länge bzw. der Wortanzahl der einzelnen Dokumente verwiesen (Tabelle 1),
                     geht aus dieser doch deutlich hervor, dass die einzelnen Briefe von höchst
                     unterschiedlichem Umfang sind. So umfasst das kürzeste Dokument, ein Schreiben
                     Joseph Jelačičs an Caroline Thun vom 30. März 1850,<note type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=jelacic-an-caroline-thun_1850-03-30_A3"
                           >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=jelacic-an-caroline-thun_1850-03-30_A3-XXI-D37.xml</ref>.
                     </note> gerade einmal 93 ›Wörter‹ während der längste Text, ein Gesuch
                     niederösterreichischer Grundherren an den Ministerrat,<note type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=gesuch-niederoesterreichischer-grundhe"
                           >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=gesuch-niederoesterreichischer-grundherren-an-ministerrat_1850-05-14_A3-XXI-D52.xml</ref>.
                     </note> 9543 ›Wörter‹ zählt. </p>
                  <p>Um sowohl das Problem der unterschiedlichen Längen, als auch jenes der geringen
                     Anzahl der Dokumente in den Griff zu bekommen, müssen die einzelnen Texte des
                     Korpus für das Topic Modeling-Verfahren in kleinere Einheiten unterteilt
                     werden. Dafür bieten sich nun wenigstens zweierlei Herangehensweisen an: </p>
                  <p>Einerseits könnte ein Text entlang einer allfällig gegebenen Binnenstruktur
                     geteilt werden. Im Falle der Texte der Thun-Korrespondenz böten sich die
                     einzelnen Absätze in den Briefen an, insbesondere deshalb, da diese auch
                     entsprechend der Empfehlungen der TEI kodiert wurden. Aus mehreren Überlegungen
                     wurde davon aber Abstand genommen. So wurden von den Editoren der Briefe neben
                     den Absätzen im eigentlichen Brieftext auch die Gruß- und
                     Verabschiedungsformeln als Absätze ausgezeichnet, ebenso wie die meist am
                     Briefbeginn oder -ende anzutreffenden Datierungen, ohne aber diese
                     verschiedenen Arten von Absätzen näher zu typisieren. Eine Summe aller Absätze
                     würde daher viele sehr kurze und inhaltlich mäßig relevante mit längeren und
                     inhaltlich sehr wohl relevanten Textteilen kombinieren. Aber auch wenn die
                     weniger bedeutungsvollen Absätze ausgesondert werden könnten, was mit ein wenig
                     Datenmodellierung einigermaßen gut zu bewerkstelligen wäre, so bestünde auf
                     Ebene der Absätze immer noch das Problem unterschiedlicher Textlängen. Dieses
                     ließe sich jedoch auf ähnliche Art und Weise in den Griff bekommen, wie dies
                     auch auf der Ebene der gesamten Texte erfolgt ist.</p>
                  <p>Andererseits können die Texte auch einfach nach einer bestimmten Anzahl von
                     Wörtern, beispielsweise nach jedem zweihundertsten oder jedem zweitausendsten
                     Wort geteilt werden. Die Vorteile einer solchen Normalisierung bestehen sowohl
                     in der Einfachheit der technischen Realisierung als auch in den daraus
                     resultierenden gleichlangen Dokumenten, sieht man einmal von der Größe des
                     letzten Textteils eines jeden Dokuments ab. Die Nachtteile wiederum liegen in
                     einer gewissen Willkür, in der die Auswahl der Wortanzahl, nach welcher der
                     Text gebrochen werden soll. Außerdem besteht die begründete Gefahr, dass diese
                     künstlich herbeigeführten Bruchlinien thematisch homogene Passagen wie
                     beispielsweise Absätze – sofern diese bewusst gesetzt wurden – trennen können. </p>
                  <p>Für den Turing Test wurde in weiterer Folge mit zwei unterschiedlichen
                     Datensets gearbeitet, welche mit Hilfe der Funktion
                        <quote>makeFlexTextChunks</quote><note type="footnote">
                        <ref
                           target="https://github.com/csae8092/topicModeling/blob/master/R/code/TopicModel_externalFunctions.R"
                           >https://github.com/csae8092/topicModeling/blob/master/R/code/TopicModel_externalFunctions.R</ref>.
                     </note> aus den 81 Dokumenten der Thun-Korrespondenz erstellt wurden.
                        <quote>makeFlexTextChunks</quote> basiert dabei weitgehend auf einer
                     gleichnamigen, von Jockers geschriebenen Funktion.<note type="footnote">
                        <ref type="bibliography" target="#jockers_analysis_2014">Jockers 2014</ref>,
                        S. 138. </note> Die Funktion übernimmt als Parameter einen Text und einen
                     Wert, der festlegt, nach wie vielen Wörtern der übergebene Text geteilt werden
                     soll.</p>
                  <p>Das erste Datenset resultiert auf dem Textteilungsparameter 2000 – jeder Text
                     wird nach 2000 Wörtern geteilt – und umfasst 111 Texteinheiten, -teile, chunks
                     oder Dokumente, um mit letzterem Begriff in der Terminologie des Topic
                     Modelings zu bleiben.<note type="footnote"> Vgl. <ref
                           target="https://github.com/csae8092/topicModeling/tree/master/results/2000_53"
                           >https://github.com/csae8092/topicModeling/tree/master/results/2000_53</ref>.
                     </note> Die Wahl eines Textteilungsparameters in dieser Größenordnung erfolgte
                     mit dem Hintergedanken, die Mehrheit der Texte des Thun-Korpus nicht
                     aufsplitten zu müssen, überlange Texte aber dennoch normalisieren zu können.
                     Bei diesem Datenset kann nun davon ausgegangen werden, dass inhaltlich
                     zusammengehörige Passagen innerhalb eines Texts nicht oder nur in sehr wenigen
                     Fällen getrennt wurden. Bei diesem Datenset muss aber auch davon ausgegangen
                     werden, dass die geringe Anzahl von chunks oder Dokumenten sich negativ auf die
                     Qualität des Topic Models auswirkt.</p>
                  <p>Das zweite Datenset hingegen wurde mit dem Textteilungsparameter 200 erstellt
                     und setzt sich aus 634 Dokumenten zusammen.<note type="footnote"> Vgl. <ref
                           target="https://github.com/csae8092/topicModeling/tree/master/results/200_53"
                           >https://github.com/csae8092/topicModeling/tree/master/results/200_53</ref>.
                     </note> Hier darf davon ausgegangen werden, dass die einzelnen Dokumente
                     hinsichtlich ihrer jeweiligen Textlänge einheitlicher gestaltet sind, als dies
                     beim vorigen Set der Fall ist. Außerdem darf gehofft werden, dass die Qualität
                     des Topic Models besser ausfallen wird. Allerdings muss auch in Kauf genommen
                     werden, dass Themenblöcke in den einzelnen Texten häufiger getrennt wurden als
                     beim ersten Datenset. Zu bedenken gilt es außerdem – und darüber wird gegen
                     Ende dieses Artikels noch zu sprechen sein –, dass eine höhere Anzahl an
                     Dokumenten die Erstellung und Erfassung visualisierter Ergebnisse des Topic
                     Modeling-Vorgangs erschweren.</p>
               </div>
               <div type="subchapter">
                  <head>4.3 Topic Modeling</head>
                  <p>Was das Verhältnis des Arbeitsaufwandes für die Datenaufbereitung gegenüber der
                     Datenverarbeitung in Form von Topic Modeling betrifft, so kann dieses unter
                     anderem anhand der dafür notwendigen Codezeilen abgeschätzt werden. Ausgehend
                     von der Situation, dass die zu prozessierenden Daten bereits auf der lokalen
                     Festplatte und im gewünschten Format vorliegen, sind für die Datenaufbereitung
                     rund 30 Zeilen Code nötig, wobei sich diese Zahl durch Verwendung kompakterer
                     Ausdrücke aber noch reduzieren ließe. Die für die Erstellung des auf diesen
                     aufbereiteten Daten basierenden Topic Models notwendigen Schritte umfassen
                     hingegen gerade einmal sechs Zeilen.</p>
                  <p>Mit dieser Gegenüberstellung soll zum Ausdruck gebracht werden, dass sich der
                     Großteil der fürs Topic Modeling zu erbringenden Eigenleistung auf die
                     vorausgehende Datenmodellierung erstreckt. Dass die eigentliche Erstellung des
                     Topic Models selbst dann ohne weitere große Mühen erfolgen kann, ist jedoch
                     weniger einer möglichen Trivialität dieses Vorganges geschuldet, als vielmehr
                     den dafür existierenden Werkzeugen, Paketen oder Bibliotheken zu danken.</p>
                  <p>Konkret wurde zum Erstellen der Topic Models für diesen Artikel das R-package
                        <quote>mallet</quote> verwendet, ein <quote>wrapper around the Java machine
                        learning tool MALLET</quote>, geschrieben und gewartet von David Mimno.<note
                        type="footnote">
                        <ref type="bibliography" target="#mimno_wrapper_2013">Mimno 2013</ref>.
                     </note> Während es sich bei der Java Version von Mallet aber um ein umfassendes
                     Natural Language Processing Toolkit handelt,<note type="footnote">
                        <ref type="bibliography" target="#mccallum_mallet_2013">MALLET
                           2013</ref>. </note> erschöpft sich das gleichnamige R-Paket in seiner
                     Topic Modeling-Funktionalität.</p>
                  <p>Mallet ermöglicht es, eine Instanz eines Topic Models zu erstellen. Dieser
                     Instanz müssen in Form von Parametern die zu analysierenden Dokumente und deren
                     ›Titel‹ oder Identifikatoren (z. B. Dateinamen) übergeben werden. Außerdem kann
                     festgelegt werden, ob der Text hinsichtlich Groß-Kleinschreibung normalisiert
                     werden soll, wie der Text in einzelne Wörter unterteilt wird (Tokenizer), und
                     es kann eine Liste mit Wörtern übergeben werden, welche bei der Erstellung des
                     Topic Models nicht berücksichtigt werden sollen. </p>

                  <p><code>mallet.instances It- mallet.import(documents$id, documents$text,
                        "./R/stoplist.csv", FALSE)</code></p>

                  <p>Anschließend muss ein Trainingsobjekt erstellt werden, welchem als Parameter
                     auch die Anzahl der zu generierenden Topics übergeben wird.</p>

                  <p><code>topic.model It- MalletLDA(num.topics=53) </code></p>

                  <p>In dieses Trainingsobjekt werden danach die konkreten Daten in Form der zuvor
                     erstellten Instanz geladen.</p>
                  <p><code>topic.model$loadDocuments(mallet.instances)></code></p>
                  <p>Jockers folgend besteht nun die Möglichkeit, <quote>to tweak the optimiziation
                        hyperparameters</quote>, sprich die Anzahl der <quote>burn-in
                        iterations</quote> and <quote>iterations between optimization</quote>
                     festzulegen, deren Standardwerte bei 200 und 50 liegen.</p>
                  <p><code>topic.model$setAlphaOptimization(40, 80)</code></p>
                  <p>In einer Fußnote dazu notiert Jockers: <quote>The ramifications of resetting
                        these values is beyond the scope of this chapter</quote><note
                        type="footnote">
                        <ref type="bibliography" target="#jockers_analysis_2014">Jockers 2014</ref>,
                        S. 146. </note> und verweist auf einen Aufsatz von Wallach, Mimno und
                        McCallum.<note type="footnote">
                        <ref type="bibliography" target="#wallach_rethinking_2009">Wallach et al.
                           2009</ref>. </note> Für die Erstellung der Topic Models für diesen
                     Artikel wurden die von Matthew Jockers verwendeten Parameter übernommen, ohne
                     aber die daraus folgenden Konsequenzen verstehen oder wenigstens abschätzen zu
                     können. Ein Blick in das von Jockers empfohlene Paper macht rasch deutlich,
                     dass die darin verhandelten Überlegungen ein tieferes
                     mathematisch-statistisches Verständnis erfordern, dessen adequate
                     Nachvollziehbarkeit hier nur punktuell angestrebt wird.</p>
                  <p><code>topic.model$train(400)</code></p>
                  <p>Dieser Befehl startet den Topic Modeling-Vorgang und führt diesen 400 Mal
                     durch. Wie Jockers anmerkt, sollte mit jedem Durchlauf die Qualität des Models
                     verbessert werden, seine eigenen Versuche zeigen jedoch, dass ab einer
                     bestimmten Anzahl von Iterationen die Ergebnisse wieder an Qualität
                        verlieren.<note type="footnote">
                        <ref type="bibliography" target="#jockers_analysis_2014">Jockers 2014</ref>,
                        S. 147. </note>
                  </p>
               </div>
               <div type="subchapter">
                  <head>4.4 Analyse durch Visualisierung</head>

                  <p>Nach Ausführung des letztgenannten -Befehls soll, das so erzeugte und in dem
                     R-Objekt gespeicherte Topic Model der Thun-Korrespondenz zu analyisiert werden.
                     Vor dem Hintergrund des hier durchzuführenden Experiments gilt es in erster
                     Linie zwei Fragestellungen zu beantworten: Erstens geht es darum zu überprüfen,
                     ob den von der Maschine generierten Topics sinnvollerweise auch ein Thema, eine
                     Bedeutung eingeschrieben oder zugewiesen werden kann. Zweitens muss es möglich
                     sein zu überprüfen, in welchen Texten bzw. Textabschnitten welche Topics wie
                     stark vertreten sind.</p>
                  <p>Für die Beantwortung der ersten Frage bedarf es einer Aufstellung, die darüber
                     Auskunft gibt, welche Wörter wie oft in jedem einzelnen Topic vorkommen. Eine
                     solche Aufstellung erzeugt die Funktion , welche das trainierte Topic Model als
                     Parameter übernimmt und eine Matrix auswirft, worin die Reihen die Topics, die
                     Spalten die Wörter aus dem gesamten Wortschatz des Datenmaterials benennen und
                     deren Felder die Häufigkeit der Wörter pro Topic beinhalten. Bei 53 Topics und
                     einer Anzahl von 17.173 prozessierten distinkten Wörtern (exklusive der
                     Stoppwörter) ergibt das eine Matrix von 910.169 Feldern.</p>
                  <p>Anhand dieser Matrix ließen sich nun die einzelnen Topics anhand der darin am
                     häufigsten anzutreffenden Wörter beschreiben. Die Funktion erleichtert dieses
                     Unterfangen jedoch, indem sie die häufigsten Wörter eines Topics zurückliefert,
                     wobei die Anzahl der ausgegebenen Wörter und das jeweilige Topic durch die
                     Übergabe entsprechender Parameter frei auswählbar sind. Da die Funktion aber
                     nicht nur die Wörter selbst, sondern auch deren Häufigkeit präsentiert, ist es
                     ein Leichtes, mit diesen Daten für jedes Topic im Model eine Wortwolke der
                     n-häufigsten Wörter zu gestalten. Vor allem auch, weil es für R diverse Pakete
                     für die Erstellung von Wortwolken gibt. Dazu zählt auch das hier verwendete
                     package <quote>wordcloud</quote>. Mittels einfacher Iteration über die Anzahl
                     der Topics wird so von jedem einzelnen Topic eine Wortwolke mit den 150 am
                     häufigsten darin vorkommenden Wörtern erstellt und im .png-Format auf der
                     lokalen Festplatte gespeichert. (<ref type="graphic"
                        target="#turingtest_2015_001">Abbildung 1–3</ref>)</p>
                  <figure>
                     <graphic xml:id="turingtest_2015_001" url=".../medien/turingtest_2015_001.png">
                        <desc>
                           <ref target="#abb1">Abb. 1</ref>: Beispiel von in Form von Wortwolken
                           visualisierten Topics. © Peter Andorfer, 2015: <ref
                              target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/4.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/4.png</ref>.<ref
                              type="graphic" target="#turingtest_2015_001"/>
                        </desc>
                     </graphic>
                  </figure>
                  <figure>
                     <graphic xml:id="turingtest_2015_002" url=".../medien/turingtest_2015_002.png">
                        <desc>
                           <ref target="#abb 2">Abb. 2</ref>: Beispiel von in Form von Wortwolken
                           visualisierten Topics. © Peter Andorfer, 2015: <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/14.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/14.png</ref>.<ref
                              type="graphic" target="#turingtest_2015_002"/>
                        </desc>
                     </graphic>
                  </figure>
                  <figure>
                     <graphic xml:id="turingtest_2015_003" url=".../medien/turingtest_2015_003.png">
                        <desc>
                           <ref target="#abb3">Abb. 3</ref>: Beispiel von in Form von Wortwolken
                           visualisierten Topics. © Peter Andorfer, 2015: <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/20.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/20.png</ref>.<ref
                              type="graphic" target="#turingtest_2015_003"/>
                        </desc>
                     </graphic>
                  </figure>
                  <p>Wortwolken waren und sind im Umfeld der Digital Humanities gehäuft anzutreffen.
                     Nicht zuletzt aufgrund dieses teils inflationären (Stichwort: <ref
                        target="http://www.wordle.net/">Wordl</ref>) und teils wenig reflektierten
                     Gebrauchs (Stichwort: Tokenizer) kann die Verwendung von Wortwolken kritisch
                     gesehen werden. Gerade im Falle von Topic Modeling scheinen Wortwolken aber ein
                     probates Mittel zu sein um auszutesten, ob den generierten Topics Sinn
                     unterstellt werden kann, und falls ja, um abzuschätzen, welcher Themenkomplex
                     von einem Topic beschrieben werden kann.</p>
                  <p>Was die Frage nach der Lokalisierung der Topics bzw. die Frage nach der
                     Häufigkeit jedes einzelnen Topics innerhalb des gesamten Korpus betrifft, so
                     erweist sich hier die Funktion als äußerst hilfreich. Diese liefert eine Matrix
                     zurück, deren Reihen die Dokumente und deren Spalten die Topics bilden. Die
                     Felder dieser Matrix beinhalten wiederum einen Wert, der über den Grad der
                     Wahrscheinlichkeit Auskunft gibt, mit welcher ein Topic in einem Dokument
                     anzutreffen ist. Bei 634 Dokumenten (das sind die 81 Texte der Korrespondenz,
                     gesplittet nach jedem 200. Wort) und 115 Topics ergibt das somit eine Matrix
                     mit 634 Reihen, 115 Spalten und 72.910 Feldern. Diese Matrix kann nun (u.a.)
                     mit Hilfe des R packages <quote>heatmap.2</quote> in Form einer Heatmap
                     visualisiert werden. (<ref type="graphic" target="#turingtest_2015_004"
                        >Abbildung 4–5</ref>)</p>
                  <figure>
                     <graphic xml:id="turingtest_2015_004" url=".../medien/turingtest_2015_004.png">
                        <desc>
                           <ref target="#abb4">Abb. 4</ref>: Topic Model Thun Korrespondenz, 634
                           Dokumente und 53 Topics (chunksize 200). © Peter Andorfer, 2015,
                           hochauflösende Datei unter <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/heatmap.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/200_53/heatmap.png</ref>
                              abrufbar.<ref type="graphic" target="#turingtest_2015_004"/>
                        </desc>
                     </graphic>
                  </figure>
                  <figure>
                     <graphic xml:id="turingtest_2015_005" url=".../medien/turingtest_2015_005.png">
                        <desc>
                           <ref target="#abb5">Abb. 5</ref>: Topic Model Thun Korrespondenz, 111
                           Texte und 115 Topics (chunksize 2000). © Peter Andorfer, 2015,
                           hochauflösende Datei unter <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/200_115/heatmap.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/200_115/heatmap.png</ref>
                              abrufbar.<ref type="graphic" target="#turingtest_2015_005"/>
                        </desc>
                     </graphic>
                  </figure>
               </div>
            </div>
            <div type="chapter">
               <head>5. Maschine gegen Mensch</head>

               <p>Wenn im Titel dieses Artikels ein Turing Test angekündigt wurde, dann muss ein
                  solcher natürlich auch durchgeführt werden, selbst wenn bereits aus dem Untertitel
                  einigermaßen deutlich geworden sein dürfte, dass die Bezeichnung Turing Test hier
                  eher als Chiffre für einen weiter gefassten Vergleich menschlicher und
                  maschineller Verfahren zur inhaltlichen Erschließung großer Textmengen steht als
                  für den konkreten Turing Test selbst.</p>
               <div type="subchapter">
                  <head>5.1 Menschliche Schlagwörter versus maschinelle Labels</head>

                  <p>Ein solch konkreter Test kann in der Form stattfinden, dass man einer Reihe von
                     Personen entweder die Liste der von den Editoren erstellten Schlagwörter
                     vorlegt oder die Liste maschinell erzeugter Schlagwörter (Labels). Die
                     Versuchskandidaten müssen dann entscheiden, ob sie es mit einem Produkt
                     menschlicher oder künstlicher Intelligenz zu tun haben. Klarerweise darf es
                     sich bei den maschinellen Schlagwörtern dabei natürlich nicht um die von einem
                     Menschen auf jeweils ein Wort verdichteten Interpretationen der automatisch
                     generierten Topics handeln, vielmehr müssen diese direkt von der Maschine
                     erzeugt werden. Eine solche Liste könnte etwa aus den am häufigsten verwendetem
                     Wort eines jeden Topics bestehen, die mit der Mallet Funktion sehr einfach
                     erstellt werden kann. Allein aber aus einem direkten Vergleich von zehn
                     weitgehend arbiträr ausgewählten Schlagwörtern aus der Liste von automatisch
                     generierten Labels mit zehn vom Menschen definierten Schlagwörtern, wird
                     offenkundig, dass die Maschine in diesem Turing Test – ohne weitere
                     menschlichen Eingriffe – keine allzu großen Gewinnchancen hat.</p>
                  <p>Tabelle 2: Schlagwörter und Labels</p>

                  <table style="data">
                     <row role="data">
                        <cell>Mensch<note type="footnote">Für eine Liste aller von den Editoren
                              vergebenen Schlagwörtern samt deren Häufigkeit vgl. <ref
                                 target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/schlagworte-all.html"
                                 >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/schlagworte-all.html</ref>.</note></cell>
                        <cell>Maschine<note type="footnote">Die maschinell generierte Liste von
                              Schlagwörtern (Labels) kann hier abgerufen werden: <ref
                                 target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/topicLabes.csv"
                                 >https://github.com/csae8092/topicModeling/blob/master/results/200_53/topicLabes.csv</ref>.</note></cell>
                     </row>
                     <row role="data">
                        <cell>Personalfragen</cell>
                        <cell>lernen</cell>
                     </row>
                     <row role="data">
                        <cell>Kultus</cell>
                        <cell>klasse</cell>
                     </row>
                     <row role="data">
                        <cell>Gymnasium</cell>
                        <cell>kaiserin</cell>
                     </row>
                     <row role="data">
                        <cell>Volksschulen</cell>
                        <cell>ausgesprochen</cell>
                     </row>
                     <row role="data">
                        <cell>Nationalitätenfrage</cell>
                        <cell>berechtigen</cell>
                     </row>
                     <row role="data">
                        <cell>Bischofsversammlung</cell>
                        <cell>hätte</cell>
                     </row>
                     <row role="data">
                        <cell>Siebenbürgen</cell>
                        <cell>geistlichen</cell>
                     </row>
                     <row role="data">
                        <cell>Sprachanfrage</cell>
                        <cell>gemeinden</cell>
                     </row>
                     <row role="data">
                        <cell>Verwaltung</cell>
                        <cell>schulen</cell>
                     </row>
                     <row role="data">
                        <cell>Universität</cell>
                        <cell>wahlen</cell>
                     </row>
                  </table>
                  <p>Die Entscheidung, ob es sich um Mensch oder Maschine handelt, kann bei diesem
                     Beispiel bereits auf formaler Ebene getroffen werden, ohne überhaupt auf die
                     Semantik dieser Wörter eingehen zu müssen. Während es sich bei den von Menschen
                     vergebenen Schlagwörtern ausschließlich um Substantive handelt, befinden sich
                     unter den maschinell erzeugten Labels auch andere Wortarten, beispielsweise die
                     Verbform <quote>hätten</quote>, welches noch dazu in einer flektierten Form und
                     nicht im Infinitiv anzutreffen ist. Hinzukommt – und dies ist vermutlich noch
                     augenfälliger – die konsequente Kleinschreibung der Labels.</p>
                  <p>Diese formalen Probleme ließen sich – auch mit dem vorhandenen Datenmaterial –
                     jedoch lösen. So könnte etwa auf die Normalisierung in Form von
                     ausschließlicher Kleinschreibung verzichtet werden und basierend auf der
                     Unterscheidung zwischen groß- und kleingeschriebenen Wörtern ausschließlich
                     jene Wörter in das Datenmaterial für das Topic Modeling aufgenommen werden,
                     welche mit einem Großbuchstaben beginnen, in der Annahme, dass es sich dabei
                     weitgehend um Substantive handelt. Aber selbst wenn man nur die Substantive in
                     den Labels berücksichtigen würde und diese auch konsequent großgeschrieben
                     wären, könnten menschliche und maschinelle Schlagwörter, sofern sie einen
                     Korpus historischer Texte beschreiben, anhand historischer Schreibweisen,
                     welche in den maschinellen Schlagwörtern angetroffen werden, unterschieden
                     werden. Die Maschine kann für die Generierung von Labels bekanntlich nur auf
                     den konkret im Korpus vorhandenen Wortschatz zurückgreifen. Es sei denn, und
                     dies sei nur als Idee am Rande notiert, man würde versuchen, diesen Wortschatz,
                     vielleicht aber auch nur die aus diesem Wortschatz generierten Labels mit einer
                     Ressource zu verknüpfen, welche in der Lage ist, Wortbedeutungen zu kennen und
                     zu abstrahieren, wozu etwa GermNet<note type="footnote">
                        <ref type="bibliography" target="#tuebingen_germanet_2009">GermaNet
                           2009</ref>; <ref type="bibliography" target="#hamp_germanet_1997">Hamp /
                           Feldweg 1997</ref>; <ref type="bibliography"
                           target="#henrich_gernedit_2010">Henrich / Hinrichs 2010</ref>. </note>
                     herangezogen werden könnte.</p>
                  <p>Aber auch hinsichtlich der semantisch-inhaltlichen Qualität von menschlich
                     erstellten Schlagwörtern und maschinellen Labels können relativ rasch
                     Unterschiede ausgemacht werden. Denn während die Schlagwörter häufig abstrakte
                     Konzepte bezeichnen, finden sich unter den Labels häufig deren konkrete
                     Ausprägungen. In der obigen Tabelle kann man dies am Schlagwort
                        <quote>Verwaltung</quote> und dem Label <quote>gemeinden</quote> festmachen.
                     Aber auch hier könnte GermaNet helfen, die maschinellen Labels zu
                     ›vermenschlichen‹.</p>
               </div>
               <div type="subchapter">
                  <head>5.2 Semantisch aufladbare Topics</head>

                  <p>Die oben vorgenommene implizite Gleichstellung von <quote>Verwaltung</quote>
                     und <quote>gemeinden</quote> ist ohne Kenntnisse weiterer Wörter, die dieses
                     Topic konstituieren, milde ausgedrückt gewagt. Dass sie im konkreten Fall
                     jedoch nicht gänzlich aus der Luft gegriffen ist, zeigt die entsprechende
                     Wortwolke (<ref type="graphic" target="#turingtest_2015_006">Abbildung
                     6</ref>):</p>
                  <figure>
                     <graphic xml:id="turingtest_2015_006" url=".../medien/turingtest_2015_006.png">
                        <desc>
                           <ref target="#abb6">Abb. 6</ref>: Wortwolke zum 28. Topic
                              <quote>gemeinden</quote>. © Peter Andorfer, 2015: <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/28.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/28.png</ref>.<ref
                              type="graphic" target="#turingtest_2015_006"/>
                        </desc>
                     </graphic>
                  </figure>
                  <p> Tabelle 3 zeigt eine Übersicht über die 30 häufigsten Wörter&#xA; dieses
                     Topics. Es gilt jedoch zu beachten, dass diese Wortliste in einem anderen
                     Topic&#xA; Modeling-Durchlauf als die Wortwolke erstellt wurde.Tabelle 3 zeigt
                     eine Übersicht über die 30 häufigsten Wörter dieses Topics. Es gilt jedoch zu
                     beachten, dass diese Wortliste in einem anderen Topic Modeling-Durchlauf als
                     die Wortwolke erstellt wurde. </p>


                  <p>Tabelle 3: Die 30 häufigsten Wörter des 30. Topics</p>
                  <table style="data">
                     <row role="data">
                        <cell>words</cell>
                        <cell>weights</cell>
                     </row>
                     <row role="data">
                        <cell>gemeinden</cell>
                        <cell>0.031447141</cell>
                     </row>
                     <row role="data">
                        <cell>gemeinde</cell>
                        <cell>0.014458827</cell>
                     </row>
                     <row role="data">
                        <cell>alten</cell>
                        <cell>0.010211749</cell>
                     </row>
                     <row role="data">
                        <cell>liblin</cell>
                        <cell>0.010211749</cell>
                     </row>
                     <row role="data">
                        <cell>ortschaften</cell>
                        <cell>0.009362333</cell>
                     </row>
                     <row role="data">
                        <cell>richter</cell>
                        <cell>0.008512917</cell>
                     </row>
                     <row role="data">
                        <cell>seit</cell>
                        <cell>0.007663501</cell>
                     </row>
                     <row role="data">
                        <cell>unsere</cell>
                        <cell>0.007663501</cell>
                     </row>
                     <row role="data">
                        <cell>steuer</cell>
                        <cell>0.007663501</cell>
                     </row>
                     <row role="data">
                        <cell>k</cell>
                        <cell>0.006814086</cell>
                     </row>
                     <row role="data">
                        <cell>endlich</cell>
                        <cell>0.006814086</cell>
                     </row>
                     <row role="data">
                        <cell>müßten</cell>
                        <cell>0.006814086</cell>
                     </row>
                     <row role="data">
                        <cell>verhältnis</cell>
                        <cell>0.006814086</cell>
                     </row>
                     <row role="data">
                        <cell>kleinen</cell>
                        <cell>0.006814086</cell>
                     </row>
                     <row role="data">
                        <cell>fl</cell>
                        <cell>0.006814086</cell>
                     </row>
                     <row role="data">
                        <cell>tag</cell>
                        <cell>0.005115254</cell>
                     </row>
                     <row role="data">
                        <cell>trotz</cell>
                        <cell>0.005115254</cell>
                     </row>
                     <row role="data">
                        <cell>dorfrichter</cell>
                        <cell>0.005115254</cell>
                     </row>
                     <row role="data">
                        <cell>ehemaligen</cell>
                        <cell>0.004265839</cell>
                     </row>
                     <row role="data">
                        <cell>geschäfte</cell>
                        <cell>0.004265839</cell>
                     </row>
                     <row role="data">
                        <cell>neue</cell>
                        <cell>0.004265839</cell>
                     </row>
                     <row role="data">
                        <cell>früher</cell>
                        <cell>0.004265839</cell>
                     </row>
                     <row role="data">
                        <cell>mittelgroßen</cell>
                        <cell>0.004265839</cell>
                     </row>
                     <row role="data">
                        <cell>grundbesitzer</cell>
                        <cell>0.004265839</cell>
                     </row>
                     <row role="data">
                        <cell>obliegenheiten</cell>
                        <cell>0.004265839</cell>
                     </row>
                  </table>
                  <p>Sucht man in dem Korpus nach Dokumenten, in denen dieses Topic häufig vorkommt
                     – was anhand der als Heatmap visualisierten Topic-Dokument-Matrix gut möglich
                     ist – findet man rasch das Dokument <hi rend="italic">Gemeindemitglieder von
                        Liblin an den Ministerrat Liblin, 6. September 1850</hi>,<note
                        type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/results.html?ref=gemeindemitglieder-von-liblin-an-mi"
                           >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/results.html?ref=gemeindemitglieder-von-liblin-an-ministerium_1850_09-06_A3-XXI-D72.xml&amp;searchword=Wurmbrand</ref>.</note>
                     ein Dokument, das von den Editoren – den Menschen also – mit den Schlagwörtern
                        <quote>Gemeindeverwaltung</quote>, <quote>Gemeindeordnung</quote> und
                        <quote>Neoabsolutismus</quote> belegt wurde.</p>
                  <p>Anhand der Heatmap lassen sich jedoch auch noch andere Dokumente ausfindig
                     machen, in denen das Topic <quote>gemeinden</quote> gehäuft anzutreffen ist. So
                     etwa in einem Textteil aus dem Dokument<hi rend="italic"> Konzept eines Briefes
                        von Leo Thun ohne Adresssat.</hi><note type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-oA-konzept_1849_A3-XXI-D2.xml"
                           >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-oA-konzept_1849_A3-XXI-D2.xml</ref>.
                     </note> Im Gegensatz zu dem zuvor genannten Dokument wurde dieses
                        <quote>Konzept</quote> von den Editoren jedoch nicht mit
                        <quote>Gemeindeverwaltung</quote> verschlagwortet, sondern mit
                        <quote>Volksschulen</quote>, <quote>Volksschullehrer</quote> und
                        <quote>Gehaltsfragen</quote>. Hier ein Auszug aus der entsprechenden
                     Passage:</p>
                  <p>
                     <quote type="grosszitat">[...] um <hi rend="bolt">Geschäfte</hi> ihre gut zu
                        besorgen, - und werden zu können, was sie geworden sind, - er aber darbt in
                        bitterer Noth; er der fremde Kinder erzogen hat, weiß vielleicht jetzt
                        nicht, wie er seine eigenen erhalten und ernähren soll! Denn selbst das
                        Schulgeld und die sonstigen Giebigkeiten, die er bisher bezogen hatte,
                        werden ihm jetzt oft verweigert, <hi rend="bolt">seit</hi> in den Zeiten
                        allgemeiner Unordnung, die wir im vorigen Jahr erlebt haben, auch die
                        Meinung ausgesprengt wurde, das Schulgeld müsse aufhören, denn der Staat
                        müsse die Schullehrer <hi rend="bolt">bestohlen</hi>. Nichts ist
                        verderblicher für die gegenwärtige Lage der Schullehrer geworden als die
                        Verbreitung dieses Gedankens. Der Schullehrer arbeitet zunächst nur für
                        seine <hi rend="bolt">Gemeinde</hi>; es ist also das Natürlichste, daß
                        hauptsächlich sie ihn bezahle, und immer und überall wird das wohl so sein.
                        Die <hi rend="bolt">Gemeinde</hi> könnte überdies wenigstens der dringenden
                        Noth gleich abhelfen, während die Regierung es nicht kann, ehe sie durch
                        Gesetze dazu ermächtigt ist.</quote><note type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-oA-konzept_1849_A3-XXI-D2.xml"
                           >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-oA-konzept_1849_A3-XXI-D2.xml</ref>.
                     </note>
                  </p>
                  <p>Aus der Lektüre dieses Auszuges geht deutlich hervor, dass hier ›Gemeinde‹
                     nicht im Kontext von <quote>Gemeindeverwaltung</quote> oder
                        <quote>Gemeindeordnung</quote> gebraucht wird, sondern als lokale
                     Bezugsgröße dient. Gleichzeitig können aber in der Wortwolke dieses Topics eine
                     Reihe weiterer Wörter gefunden werden, welche durchaus auf die zuvor erwähnten
                     Verwaltungskontexte verweisen wie etwa <quote>richter</quote>,
                        <quote>dorfrichter</quote>, <quote>grundbesitzer</quote> oder
                        <quote>steuer</quote>. Die dominierenden Begriffe dieses Topics sind jedoch
                        <quote>gemeinde</quote> und <quote>gemeinden</quote>, weshalb dieses Topic
                     auch für die obige Passage als dominant ausgegeben wird, kommt darin
                        <quote>Gemeinde</quote> doch gleich zweimal vor. Außerdem finden sich in
                     diesem Abschnitt auch noch die Wörter <quote>seit</quote>,
                        <quote>besolden</quote> und <quote>Geschäft</quote> wieder. Eine ähnliches
                     Beispiel stellt das Dokument <hi rend="italic">Ein bosnischer katholischer
                        Priester an Joseph Strossmayer</hi><note type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=priester-an-strossmayer_1850-06-16_A3-XXI-D57.xml"
                           >
                           http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=priester-an-strossmayer_1850-06-16_A3-XXI-D57.xml</ref>.
                     </note> dar.</p>
                  <p>Ohne die Probe aufs Exempel für jedes Topic durchzuführen, darf wohl davon
                     ausgegangen werden, dass bei einer Anzahl von 53 generierten Topics diese meist
                     mehre Themenbereiche umfassen. Eine Beobachtung, die in der einschlägigen
                     Literatur intensiv diskutiert wird.<note type="footnote"> Vgl. dazu <ref
                           type="bibliography" target="#jockers_analysis_2014">Jockers 2014</ref>,
                        S. 144. </note> Folgt man der von Jordan Boyd-Graber und anderen
                     vorgestellten <quote>Categories of Poor Quality Topics</quote>, dann wäre jenes
                        <quote>gemeinden</quote> -Topic wohl am ehesten ein <quote>mixed and chained
                        topic</quote>,<note type="footnote">
                        <ref type="bibliography" target="#graber_care_2015">Boyd-Graber et al.
                           2015</ref>, S. 17.</note> welches außerdem noch mit den erschwerenden
                     Bedingungen zu kämpfen hat, sowohl sehr allgemeine (<quote>gemeinde</quote>)
                     als auch sehr spezifische (<quote>liblin</quote>) Worte (<quote>General and
                        specific words</quote><note type="footnote">
                        <ref type="bibliography" target="#graber_care_2014">Boyd-Graber et al.
                           2014</ref>, S. 16. </note>) zu beinhalten.</p>
                  <p>Resümierend kann also festgehalten werden, dass die semantische Aufladung von
                     mittels Topic Modeling generierten Wortlisten möglich und zulässig ist, sofern
                     die Interpretationen nicht zu eng gefasst sind. Eine gezielte Suche nach sehr
                     konkreten Themengebieten ist mit diesen automatisch genierten Topics jedoch
                     nicht mit jener hohen Präzision möglich, wie manche Diskurse um das Topic
                     Modeling gelegentlich versprechen. Festgehalten werden muss aber auch, dass der
                     Akt der Interpretation der maschinell zusammengestellten Wortlisten
                     zeitaufwendig ist und trotz aller nicht menschlicher Vorarbeiten letztendlich
                     wieder subjektiv und individuell gefärbte Themen/Topics produziert.</p>
                  <p>Die für den Wettstreit Mensch-Maschine entscheidende Frage, ob die Maschine
                     generell im Stande ist, ›sinnvolle‹, sprich semantisch aufladbare Topics oder
                     Wortlisten zu generieren, kann insgesamt also bejaht werden. Denn auch wenn die
                     Maschine einem Topic niemals selbst Sinn und Bedeutung einschreibt, so ist sie
                     dennoch in der Lage, Wortlisten zu produzieren, die vom Menschen als sinnvoll
                     bewertet werden. Dies wurde an anderer Stelle bereits mittels
                        <quote>word-intrusion</quote>- und <quote>topic-intrusion</quote>-Tests
                        belegt<note type="footnote"> Vgl. <ref type="bibliography"
                           target="#chang_tea_2009">Chang et al. 2009</ref>. </note> und dies zeigen
                     auch die meisten aus dem Korpus der Thun-Korrespondenz generierten Topics (<ref
                        type="graphic" target="#turingtest_2015_007">Abbildung 7</ref>)</p>
                  <figure>
                     <graphic xml:id="turingtest_2015_007" url=".../medien/turingtest_2015_007.png">
                        <desc>
                           <ref target="#abb7">Abb.7</ref>: Drei Beispiele ›kohärenter‹, sprich
                           leicht interpretierbarer Topics. Diese Topics basieren auf nur 111
                           Dokumenten (chunksize 2000). © Peter Andorfer, 2015: <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/1.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/1.png</ref>,
                              <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/48.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/48.png</ref>,
                              <ref type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/46.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/46.png</ref>.<ref
                              type="graphic" target="#turingtest_2015_007"/>
                        </desc>
                     </graphic>
                  </figure>
                  <p>Auffallend ist in diesem Kontext außerdem die Beobachtung, dass die Anzahl der
                     Dokumente (634 oder 111) auf die Interpretierbarkeit der daraus generierten
                     Topics keinen erkennbaren Einfluss genommen haben dürfte.<note type="footnote">
                        Topics bei 634 Dokumenten: <ref
                           target="https://github.com/csae8092/topicModeling/tree/master/results/200_53/wordclouds"
                           >https://github.com/csae8092/topicModeling/tree/master/results/200_53/wordclouds</ref>
                        und Topics bei 81 Dokumenten: <ref
                           target="https://github.com/csae8092/topicModeling/tree/master/results/2000_53/wordclouds"
                           >https://github.com/csae8092/topicModeling/tree/master/results/2000_53/wordclouds</ref>.
                     </note>
                  </p>
               </div>
               <div type="subchapter">
                  <head>5.3 Ordnung, Strukturierung und Orientierung von und in Korpora</head>

                  <p>Doch welchen Beitrag können diese mehrheitlich ›sinnvollen‹ Topics zur Ordnung
                     und Strukturierung und besseren Orientierung in den jeweiligen Textmassen
                     leisten? </p>
                  <p>Wie schon in <ref type="intern" target="#hd4">Abschnitt 4</ref> angemerkt,
                     folgte die Schlagwortvergabe im Zuge der Transkription der Texte keinen
                     vorgegebenen und somit heute noch einsehbaren und nachvollziehbaren
                     Richtlinien. Die Konsequenz daraus ist eine nicht strukturierte,
                     unterschiedlich granulare und teils auch redundante Liste von Schlagwörtern.
                     Diese Eigenschaften treffen aber auch auf die maschinell erzeugten Topics zu,
                     weshalb hier Mensch und Maschine gleichauf liegen, auch wenn man fairerweise
                     ins Feld führen muss, dass sich mittels eines korrigierenden Arbeitsschrittes
                     diese flache, ungeordnete und redundante Liste (menschlich erstellter)
                     Schlagwörter relativ rasch in eine in sich schlüssige und ausdifferenzierte
                     Ontologie transformieren ließe. Entsprechende Überlegungen wurden seitens der
                     Editoren bereits formuliert und dürften, vorausgesetzt die dafür notwendigen
                     Ressourcen können aufgetrieben werden, in nicht allzu ferner Zukunft realisiert
                     werden. Ob und wie eine solche Strukturierung von Themen auch maschinell zu
                     realisieren wäre, ist unklar. Möglicherweise könnten auch hier Ressourcen wie
                     GermNet helfen.</p>
                  <p>Mögen Mensch und Maschine hinsichtlich der (Un-)Ordnung der von ihnen
                     generierten Topics noch gleichauf liegen, so basieren die maschinell erzeugten
                     Topics jedoch nicht auf stets subjektiven und individuellen Lesarten und
                     Interpretationen einzelner Texte, wie dies bei den von Menschen vergebenen
                     Schlagwörtern unausweichlich der Fall ist. Topic Modeling funktioniert frei von
                     persönlichem Vorwissen oder speziellen Forschungsinteressen, weshalb die
                     generierten Topics auch nicht entsprechend gefärbt sind und somit einen
                     unvoreingenommenen und nicht bereits von allfälligen Vorannahmen gefilterten
                     Zugriff auf das Korpus ermöglichen. Geht man etwa die von den Editoren
                     vergebenen Schlagwörter der Thun-Korrespondenz durch, lassen sich rasch die
                     Themenblöcke ›Bildung‹, ›Verwaltung‹, ›Politik‹ und ›Kirche‹ als die
                     dominierenden Inhalte des Korpus bestimmen. Dies ist ein Eindruck, der über
                     weite Strecken auch anhand der Durchsicht der maschinell erzeugten Topics
                     bestätigt werden kann. Allerdings generiert die Maschine auch Wortlisten, deren
                     mögliche Interpretationen kaum Entsprechung in einem der menschlichen
                     Schlagwörter findet. Eine solche Wortliste zeigt nachfolgende <ref
                        type="graphic" target="#turingtest_2015_008">Abbildung 8</ref>.</p>
                  <figure>
                     <graphic xml:id="turingtest_2015_008" url=".../medien/turingtest_2015_008.png">
                        <desc>
                           <ref target="#abb8">Abb. 8</ref>: Wortwolke zum 33. Topic. Vgl. <ref
                              type="extern"
                              target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/33.png"
                              >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/33.png</ref>.<ref
                              type="graphic" target="#turingtest_2015_008"/>
                        </desc>
                     </graphic>
                  </figure>
                  <p>Dieses Topic könnte mit <quote>Geld, Finanzen, Ausgaben</quote> überschrieben
                     werden. Ein Themenbereich, welcher von den 115 vergebenen Schlagwörtern in
                     dieser Form nicht abgedeckt wird. Thematisch am nächsten liegt hier nur noch
                     das im Korpus zweimal anzutreffende Schlagwort <quote>Gehaltsfragen</quote>. In
                     diesen beiden mit <quote>Gehaltsfragen</quote> überschriebenen Dokumenten<note
                        type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-oA-konzept_1849_A3-XXI-D2.xml&amp;searchword=qwertzy"
                           >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-oA-konzept_1849_A3-XXI-D2.xml&amp;searchword=qwertzy</ref>;
                           <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-friedrich-an-thun_1849-10-05_A3-XXI-D7.xml&amp;searchword=qwertzy"
                           >http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/show.html?ref=thun-friedrich-an-thun_1849-10-05_A3-XXI-D7.xml&amp;searchword=qwertzy</ref>.
                     </note> ist das Topic 33 (Geld/Finanzen/Ausgaben) aber nicht sehr stark
                     ausgeprägt, wie ein Blick auf die visualisierte <ref
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/heatmap.png"
                        > Topic-Dokument-Matrix</ref> zeigt.</p>
                  <p>Ungleich markanter tritt Topic 33 aber in dem Dokument <hi rend="italic"
                        >Entwurf zur Neuregelung der Kompetenzen des Ministeriums für Kultus und
                        Unterricht</hi><note type="footnote">
                        <ref
                           target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/results.html?ref=entwurf-wirkungskreis-ministerium-fuer-kultus-und-unterricht_-o.D._A3-XXI-D84.xm&amp;lampsearchword=qwertzy"
                           >
                           http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/results.html?ref=entwurf-wirkungskreis-ministerium-fuer-kultus-und-unterricht_-o.D._A3-XXI-D84.xml&amp;searchword=qwertzy</ref>.</note>
                     in Erscheinung. Es handelt sich um ein Dokument, dem die Editoren die
                     Schlagwörter <quote>Ministerium für Kultus und Unterricht</quote>,
                        <quote>Verwaltung</quote> und <quote>Kultur</quote> zugewiesen haben.</p>
                  <p>Im Gegensatz zum Menschen ist die Maschine außerdem im Stande, die Gewichtung
                     der Topics in den Dokumenten systematisch in Zahlen zu beschreiben. Die derart
                     dokumentierte thematische Verteilung ist somit nicht nur ebenfalls frei von
                     jeglicher menschlicher Subjektivität, sondern kann auch sehr gut visualisiert
                     werden. Die Maschine ist also im Stande, Themen aus großen Textmengen zu
                     extrahieren, diese Themen in den Dokumenten zu lokalisieren und diese
                     Informationen auch in einer einzigen Abbildung zu präsentieren. Menschen können
                     so etwas prinzipiell weniger gut.</p>
               </div>
               <div type="subchapter">
                  <head>5.4 Das Ergebnis des Turing Tests</head>

                  <p>Wenn es darum geht konkrete Nutzungspotentiale von Topic Modeling zu
                     skizzieren, so sei hier auf den Schluss von David Mimnos Paper <hi
                        rend="italic">Computational Historiography</hi> verwiesen.<note
                        type="footnote">
                        <ref type="bibliography" target="#mimno_historiography_2012">Mimno
                           2012</ref>. </note> Für den hier vorliegenden Artikel hingegen soll
                     darüber hinaus aber vor allem der im <ref type="intern" target="#hd12">vorigen
                        Abschnitt</ref> zuletzt genannte Aspekt betont werden, insbesondere vor dem
                     Hintergrund des hier angestellten Vergleichs zwischen Mensch und Maschine, denn
                     wie gezeigt werden konnte, kann die Maschine sehr passabel Themen
                     identifizieren und in den Texten lokalisieren. Was die Maschine weniger gut
                     kann, sind Interpretation, Verschlagwortung und semantische Aufladung dieser
                     Themen. Was aber hoffentlich ebenfalls deutlich geworden ist, ist, dass dieser
                     Akt der Interpretation der Topics gar nicht immer notwendig ist. So etwa dann,
                     wenn es darum geht, Texte auf inhaltlicher Ebene ordnen zu können. Dafür genügt
                     es zu erkennen, in welchen Texten Themen ähnlich gewichtet sind, und dies kann
                     die Maschine zweifelsfrei besser und objektiver als jeder Mensch.</p>
                  <p>Nur der Vollständigkeit halber sei außerdem noch darauf hingewiesen, dass Topic
                     Modeling ohne großen Aufwand durchgeführt werden kann. Die entsprechenden Tools
                     und die entsprechenden Tutorials sind vorhanden und auch der
                     methodisch-theoretische Kontext ist breit erforscht. </p>
               </div>
            </div>
            <div type="chapter">
               <head>6. Diskussion und Ausblick</head>
               <p> Dass Topic Modeling ohne großen Aufwand durchzuführen ist, wie eben noch
                  angeführt, ist meist aber nur die halbe Wahrheit und trifft in erster Linie fast
                  ausschließlich auf den eigentlichen Vorgang des Topic Modelings zu, nämlich auf
                  das Konfigurieren der wenigen vorhandenen Parameter und das Einspeisen von Daten.
                  Auf den mit der Datenaufbereitung einhergehenden Aufwand wurde schon verwiesen.
                  Doch auch dieser bewegt sich angesichts der Genügsamkeit der gängigen Topic
                  Modeling Tools, was das verwertbare Datenmaterial betrifft, in überschaubarem
                  Rahmen. Allerdings wäre es sicherlich lohnenswert auszutesten, welche Ergebnisse
                  zu erzielen wären, wenn die Texte desselben Korpus etwa in lemmatisierter Form und
                  mit POS-Tags versehen vorliegen würden. Wie kohärent und ›sinnvoll‹ wären etwa
                  Topics, die nur aus Texten von Adjektiven und Nomen bzw. deren Lemmata generiert
                  werden würden?<note type="footnote"> Vgl. dazu etwa <ref type="bibliography"
                        target="#jockers_analysis_2014">Jockers 2014</ref>, S. 157. </note>
               </p>
               <p>Auszutesten wäre auch, ob sich eine Einbindung einer Ressource wie GermaNet in
                  einen Topic Modeling Workflow positiv auswirken könnte, sei es nun im Sinne einer
                  (semantischen) Normalisierung des Ausgangsmaterials oder der Topics oder der
                  automatisch generierten Labels.</p>
               <p>Der größte Arbeitsaufwand scheint jedoch mit der Interpretation und Evaluation der
                  mit Topic Modeling erzielten Ergebnisse verbunden zu sein. Vor allem dann, wenn
                  man die genauen internen Abläufe dieser Technik nur rudimentär zu begreifen in der
                  Lage ist und daher ein als sinnvoll und brauchbar erachtetes Model nur im trial
                  and error-Verfahren erschaffen kann. Inwieweit es sich hierbei dann aber noch um
                  ein ›objektives‹ oder ›unvoreingenommenes‹ Modell handelt, wie dies im <ref
                     type="intern" target="#hd13">vorigen Abschnitt</ref> ja noch behauptet wurde,
                  ist fraglich.</p>
               <p>Unbefriedigend sind außerdem auch die gängigen Lösungen der Visualisierung und
                  damit einhergehend der Nutzung, Analyse und Evaluation von Topic Models. Die für
                  diesen Aufsatz gewählte Form der Darstellung der Topics in Form von Wortwolken und
                  der Topic-Dokument-Matrix in Form einer Heatmap dürften tendenziell in die
                  richtige Richtung weisen. So umschifft die Wortwolke das Problem der Benennung der
                  Topics und die Heatmap erlaubt eine rasche Orientierung im Korpus. Durch die
                  Veröffentlichung dieser (und weiterer) Daten dürfte auch die notwendige
                  wissenschaftliche Transparenz und Nachvollziehbarkeit der Ergebnisse gewährleistet
                  sein. Die Benutzerfreundlichkeit hält sich aber dennoch in Grenzen. Hier wäre ein
                  Zusammenführen der einzelnen Komponenten in einer interaktiven HTML-Darstellung
                  wünschenswert, deren Kern die Heatmap darstellt, von wo aus einerseits zu den
                  Wortwolken und den Dokumenten verlinkt werden kann und deren Reihen und
                  Spaltenanordnung andererseits frei modifizierbar sind.</p>
               <p>Doch was ist nun mit der Frage nach der wissenschaftlichen Vertretbarkeit der
                  Verwendung von Tools und Methoden, die nicht zur Gänze verstanden wurden? Dazu
                  noch zwei abschließende Bemerkungen. Vorliegender Artikel ist ein Beispiel dafür,
                  dass man auch mit solchen Methoden Ergebnisse und Resultate erzielen kann. Die
                  Wissenschaftlichkeit dieser Resultate, vor allem die mehrmals geäußerte
                  Behauptung, die generierten Topics wären ›sinnvoll‹, mag jedoch berechtigterweise
                  in Frage gestellt werden. Denn wer weiß, ob für die Person eine Reihe von
                  einzelnen Wörtern so viel Sinn ergibt wie für eine andere. Abgesehen davon, dass
                  zu fragen ist, wie ›objektiv‹ und unvoreingenommen solche Topics noch sind, wenn
                  deren Generierung auf relativ willkürlichem Herumspielen mit den Parametern von
                  der Anzahl der Dokumente und der Anzahl der Topics basiert.</p>
               <p>Nichtsdestotrotz eröffnen die mehr oder weniger ›objektiv‹ generierten Topics neue
                  Perspektiven auf ein vielleicht vermeintlich schon als gut erforscht geglaubtes
                  Textkorpus. Vielleicht bestätigen die Topics und ihre Verteilung Theorien oder
                  stoßen neue Fragestellungen an, woraus sich anschließende tatsächlich neue und
                  auch wissenschaftlich haltbare Erkenntnisse gewinnen lassen.</p>
            </div>


            <div type="bibliography">
               <head>Bibliographische Angaben</head>
               <listBibl>
                  <bibl xml:id="aichner_korrespondenz_2015">Christof Aichner: Die Korrespondenz von
                     Leo von Thun-Hohenstein: Eine Dokumentation. In: Thun-App, 2015. [<ref
                        target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/index.html"
                        >online</ref>]</bibl>

                  <bibl xml:id="andorfer_shades_2015a">Peter Andorfer (2015a): The 15 Shades of
                     Grey: oder die Suche nach dem Sex. In: Digital-Archiv. Blogbeitrag vom 15. März
                     2015. [<ref target="http://www.digital-archiv.at/15-shades-of-grey/"
                        >online</ref>] </bibl>

                  <bibl xml:id="andorfer_analyse_2015b">Peter Andorfer (2015b): Quantitative Analyse
                     der Thun-Korrespondenz. In: Thun-App, 2015. [<ref
                        target="http://thun-korrespondenz.uibk.ac.at:8080/exist/apps/Thun-Collection/pages/analyze-corpus.html"
                        >online</ref>]</bibl>

                  <bibl xml:id="blei_models_2012">David Blei: Probabilistic Topic Models. DOI: <ref
                        target="https://dx.doi.org/10.1145/2133806.2133826"
                        >10.1145/2133806.2133826</ref> In: Communications of the ACM 55 (2012), H.
                     4, S. 77–84. [<ref target="http://cacm.acm.org/magazines/2012/4"
                     >online</ref>]</bibl>

                  <bibl xml:id="graber_care_2015">Jordan Boyd-Graber / David Mimno / David Newman:
                     Care and Feeding of Topic Models: Problems, Diagnostics, and Improvements. In:
                     Handbook of Mixed Membership Models and Their Applications. Hg. von Edoard M.
                     Airoldi / David M. Blei / Stephen E. Fienberg / Elena A. Erosheva (= CRC
                     Handbooks of Modern Statistical Methods). Boca Raton 2015, S. 225–254. <ptr
                        type="gbv" cRef="777116316"/></bibl>

                  <bibl xml:id="brett_modeling_2013">Megan R. Brett: Topic Modeling: A Basic
                     Introduction. [<ref
                        target="http://journalofdigitalhumanities.org/2-1/topic-modeling-a-basic-introduction-by-megan-r-brett/"
                        >online</ref>] In: Journal of Digital Humanities 2 (2013), H. 1. [<ref
                        target="http://journalofdigitalhumanities.org/2-1/">online</ref>]</bibl>

                  <bibl xml:id="chang_tea_2009">Jonathan Chang / Sean Gerrish / Chong Wang / Jordan
                     L. Boyd-Graber / David M. Blei: Reading Tea Leaves: How Humans Interpret Topic
                     Models. PDF. [<ref
                        target="http://papers.nips.cc/paper/3700-reading-tea-leaves-how-humans-interpret-topic-models.pdf"
                        >online</ref>] In: Advances in Neural Information Processing Systems 22. Hg.
                     von Yoshua Bengio / Dale Schuurmans / John D. Lafferty / Christopher K. I.
                     Williams / Jaron Culotta (NIPS 22, Vancouver, 07.–10.12.2009). Vancouver 2009.
                        [<ref
                        target="https://papers.nips.cc/book/advances-in-neural-information-processing-systems-22-2009"
                        >online</ref>]</bibl>

                  <bibl xml:id="graham_modeling_2012">Shawn Graham / Scott Weingart / Ian Milligan:
                     Getting Started with Topic Modeling and MALLET. Programming Historian. 2.
                     September 2012. [<ref
                        target="http://programminghistorian.org/lessons/topic-modeling-and-mallet.html"
                        >online</ref>]</bibl>

                  <bibl xml:id="hamp_germanet_1997">Birgit Hamp / Helmut Feldweg: GermaNet - a
                     Lexical-Semantic Net for German. In: Proceedings of the ACL Workshop Automatic
                     Information Extraction and Building of Lexical Semantic Resources for NLP
                     Applications. Madrid 1997, S. 9–15. [<ref
                        target="http://www.aclweb.org/anthology/W97-0800">online</ref>]</bibl>

                  <bibl xml:id="henrich_gernedit_2010">Verena Henrich / Erhard Hinrichs: GernEdiT –
                     The GermaNet Editing Tool. PDF [<ref
                        target="http://www.lrec-conf.org/proceedings/lrec2010/pdf/264_Paper.pdf"
                        >online</ref>] In: Proceedings of the 7 International Conference on
                     International Language Resources and Evaluation (LREC 7, Valetta,
                     17.–23.05.2010). Paris 2010, S. 2228–2235. PDF. [<ref
                        target="http://www.lrec-conf.org/proceedings/lrec2010/index.html"
                        >online</ref>]</bibl>

                  <bibl xml:id="james_shades_2012">E. L. James: Fifty Shades of Grey: Roman.
                     München, 2012. <ptr type="gbv" cRef=" 	
                     719855829"
                     /></bibl>

                  <bibl xml:id="jockers_macroanalysis_2013">Matthew Lee Jockers: Macroanalysis:
                     Digital Methods and Literary History. Urbana 2013. <ptr type="gbv"
                        cRef="726039551"/></bibl>

                  <bibl xml:id="jockers_analysis_2014">Matthew Lee Jockers: Text analysis with R for
                     students of literature. Cham 2014. <ptr type="gbv" cRef="776584596"/></bibl>

                  <bibl xml:id="cohen_journal_2012">Journal of Digital Humanities 2 (2012), H. 1.
                     Hg. Daniel J. Cohen / Joan Fragaszy Troyano / Sasha Hoffman / Jeri Wieringa /
                     Elijah Meeks / Scott Weingart. Fairfax, VA 2012. [<ref
                        target="http://journalofdigitalhumanities.org/2-1/">online</ref>]</bibl>

                  <bibl xml:id="mimno_historiography_2012">David Mimno: Computational
                     Historiography: Data Mining in a Century of Classics Journals. In: ACM journal
                     on computing and cultural heritage 5 (2012), H. 1. PDF. [<ref
                        target="http://www.perseus.tufts.edu/publications/02-jocch-mimno.pdf"
                        >online</ref>] </bibl>

                  <bibl xml:id="mimno_wrapper_2013">David Mimno: Mallet: A Wrapper around the Java
                     Machine Learning Tool MALLET (version 1.0). 2013. [<ref
                        target="https://cran.r-project.org/web/packages/mallet/index.html"
                        >online</ref>] </bibl>

                  <bibl xml:id="rhody_modeling_2012">Lisa M. Rhody: Topic Modeling and Figurative
                     Language. In: Journal of Digital Humanities 2 (2012), H. 1. [<ref
                        target="http://journalofdigitalhumanities.org/2-1/topic-modeling-and-figurative-language-by-lisa-m-rhody/"
                        >online</ref>]</bibl>

                  <bibl xml:id="schmidt_words_2012">Benjamin M. Schmidt: Words Alone: Dismantling
                     Topic Models in the Humanities. In: Journal of Digital Humanities 2 (2012), H.
                     1. [<ref
                        target="http://journalofdigitalhumanities.org/2-1/words-alone-by-benjamin-m-schmidt/"
                        >online</ref>]</bibl>

                  <bibl xml:id="tang_factors_2014">Jian Tang / Zhaoshi Meng / Xuanlong Nguyen /
                     Qiaozhu Mei / Ming Zhang: Understanding the Limiting Factors of Topic Modeling
                     via Posterior Contraction Analysis. In: Proceedings of The 31st International
                     Conference on Machine Learning. Hg. Eric P. Xing / Tony Jebara. (ICML 2014,
                     Beijing, 21–26.06.2014) Red Hook, NY. 2014. (= JMLR Workshop and Conference
                     Proceedings, 32). [<ref target="http://jmlr.org/proceedings/papers/v32/"
                        >online</ref>] </bibl>

                  <bibl xml:id="turing_computing_1950">Allan M. Turing: Computing Machinery and
                     Intelligence. In: Mind LIX 236 (1950), S. 433–460. DOI: <ref
                        target="http://dx.doi.org/10.1093/mind/LIX.236.433"
                        >10.1093/mind/LIX.236.433</ref></bibl>

                  <bibl xml:id="mccallum_mallet_2002">Andrew Kachites McCallum: MALLET: A Machine Learning for Language Toolkit. Hg. University of Massachusetts Amherst. 2002.
                     [<ref target="http://mallet.cs.umass.edu">online</ref>]</bibl>

                  <bibl xml:id="tuebingen_germanet_2009">GermaNet: a german wordnet. Hg. University
                     of Tübingen. 10.12.2009. [<ref
                        target="http://www.sfs.uni-tuebingen.de/GermaNet/">online</ref>]</bibl>

                  <bibl xml:id="wallach_rethinking_2009">Hanna M. Wallach / David Mimno / Andrew
                     McCallum: Rethinking LDA: Why Priors Matter. [<ref
                        target="http://dirichlet.net/pdf/wallach09rethinking.pdf">online</ref>] In:
                     Advances in Neural Information Processing Systems 22. Hg. von Yoshua Bengio /
                     Dale Schuurmans / John D. Lafferty / Christopher K. I. Williams / Jaron
                     Culotta (NIPS 23, Vancouver, 07.–10.12.2009). Vancouver 2009. [<ref
                        target="https://papers.nips.cc/book/advances-in-neural-information-processing-systems-22-2009"
                        >online</ref>] </bibl>

                  <bibl xml:id="weingart_modeling_2012">Scott Weingart: Topic Modeling for
                     Humanists: A Guided Tour. In: The Scottbot Irregular. Blogbeitrag vom 25. Juli
                     2012. [<ref target="http://www.scottbot.net/HIAL/?p=19113">online</ref>]</bibl>
                  
               </listBibl>

               <div type="abbildungsnachweis">
                  <head>Abbildungslegende und -nachweise</head>

                  <desc type="graphic" xml:id="abb1">Beispiel von in Form von Wortwolken
                     visualisierten Topics. © Peter Andorfer, 2015: <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/4.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/4.png</ref>.<ref
                        type="graphic" target="#turingtest_2015_001"/></desc>

                  <desc type="graphic" xml:id="abb2">Beispiel von in Form von Wortwolken
                     visualisierten Topics. © Peter Andorfer, 2015: <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/14.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/14.png</ref>.<ref
                        type="graphic" target="#turingtest_2015_002"/></desc>

                  <desc type="graphic" xml:id="abb3">Beispiel von in Form von Wortwolken
                     visualisierten Topics. © Peter Andorfer, 2015: <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/20.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/20.png</ref>.<ref
                        type="graphic" target="#turingtest_2015_003"/></desc>

                  <desc type="graphic" xml:id="abb4">Topic Model Thun Korrespondenz, 634 Dokumente
                     und 53 Topics (chunksize 200). © Peter Andorfer, 2015, hochauflösende Datei
                     unter <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/heatmap.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/200_53/heatmap.png</ref>
                        abrufbar.<ref type="graphic" target="#turingtest_2015_004"/></desc>

                  <desc type="graphic" xml:id="abb5">Topic Model Thun Korrespondenz, 111 Texte und
                     115 Topics (chunksize 2000). © Peter Andorfer, 2015, hochauflösende Datei unter
                        <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_115/heatmap.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/200_115/heatmap.png</ref>
                        abrufbar.<ref type="graphic" target="#turingtest_2015_005"/></desc>

                  <desc type="graphic" xml:id="abb6">Wortwolke zum 28. Topic »gemeinden«. © Peter
                     Andorfer, 2015: <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/28.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/28.png</ref>.<ref
                        type="graphic" target="#turingtest_2015_006"/></desc>

                  <desc type="graphic" xml:id="abb7">Drei Beispiele ›kohärenter‹, sprich leicht
                     interpretierbarer Topics. Diese Topics basieren auf nur 111 Dokumenten
                     (chunksize 2000). © Peter Andorfer, 2015: <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/1.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/1.png</ref>,
                        <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/48.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/48.png</ref>,
                        <ref type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/46.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/2000_53/wordclouds/46.png</ref>.<ref
                        type="graphic" target="#turingtest_2015_007"/></desc>


                  <desc type="graphic" xml:id="abb8">Wortwolke zum 33. Topic. Vgl. <ref
                        type="extern"
                        target="https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/33.png"
                        >https://github.com/csae8092/topicModeling/blob/master/results/200_53/wordclouds/33.png</ref>.<ref
                        type="graphic" target="#turingtest_2015_008"/>
                  </desc>
               </div>
            </div>
         </div>
      </body>
   </text>
</TEI>