diff --git a/2022_005_goldberg/urbanonyme_2020_001.png b/2022_005_goldberg/urbanonyme_2020_001.png
new file mode 100644
index 0000000000000000000000000000000000000000..604c92b720708bd4da27e5c8b62156d02096f217
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_001.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_002.png b/2022_005_goldberg/urbanonyme_2020_002.png
new file mode 100644
index 0000000000000000000000000000000000000000..4fc4d8c340fabfe74ac8c80a3bbe2e053b2fa018
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_002.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_003.png b/2022_005_goldberg/urbanonyme_2020_003.png
new file mode 100644
index 0000000000000000000000000000000000000000..683462d856266659b2cef1942249626d101a1f64
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_003.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_004.png b/2022_005_goldberg/urbanonyme_2020_004.png
new file mode 100644
index 0000000000000000000000000000000000000000..0894e25500445f84c46d5ced3ae334bf2a51ecd9
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_004.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_005.png b/2022_005_goldberg/urbanonyme_2020_005.png
new file mode 100644
index 0000000000000000000000000000000000000000..40db02fd093dc722f48f75e70f29edbf6e65a943
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_005.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_006.png b/2022_005_goldberg/urbanonyme_2020_006.png
new file mode 100644
index 0000000000000000000000000000000000000000..51a47e69f6dfa968894aea7cb23787cef3f66dc9
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_006.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_007.png b/2022_005_goldberg/urbanonyme_2020_007.png
new file mode 100644
index 0000000000000000000000000000000000000000..5ca3ae74eec008cd6f40045a0e0e30db32ec49d4
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_007.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_008.png b/2022_005_goldberg/urbanonyme_2020_008.png
new file mode 100644
index 0000000000000000000000000000000000000000..7a47caccee4acf3f7e2f99755cefe11f96258c93
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_008.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_009.png b/2022_005_goldberg/urbanonyme_2020_009.png
new file mode 100644
index 0000000000000000000000000000000000000000..8fd68b3a3e4b9407a794ddb488185e7c9a371787
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_009.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_010.png b/2022_005_goldberg/urbanonyme_2020_010.png
new file mode 100644
index 0000000000000000000000000000000000000000..a11271e44e4145eeb921ef8b71a8bab3858a0c1e
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_010.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_011.png b/2022_005_goldberg/urbanonyme_2020_011.png
new file mode 100644
index 0000000000000000000000000000000000000000..e7aecbb938807a5c5f9cc39cecc30b724780b0b0
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_011.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_012.png b/2022_005_goldberg/urbanonyme_2020_012.png
new file mode 100644
index 0000000000000000000000000000000000000000..09c93a523fef7a851abd4b82e7b3d286081ddfb7
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_012.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_013.png b/2022_005_goldberg/urbanonyme_2020_013.png
new file mode 100644
index 0000000000000000000000000000000000000000..851ab363c7af786ca7bb6bc929da2b5c1956964e
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_013.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_014.png b/2022_005_goldberg/urbanonyme_2020_014.png
new file mode 100644
index 0000000000000000000000000000000000000000..0ee5c033900af6ce2c74e611148b08c74ca10ebb
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_014.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_015.png b/2022_005_goldberg/urbanonyme_2020_015.png
new file mode 100644
index 0000000000000000000000000000000000000000..3697649173c232d02c17353b98a2b8198fad5ea2
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_015.png differ
diff --git a/2022_005_goldberg/urbanonyme_v1_0.pdf b/2022_005_goldberg/urbanonyme_v1_0.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..75212f54be236bf155708ae3f26fa53465d16f8f
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_v1_0.pdf differ
diff --git a/2022_005_goldberg/urbanonyme_v1_0.xml b/2022_005_goldberg/urbanonyme_v1_0.xml
new file mode 100644
index 0000000000000000000000000000000000000000..99d914d2a9ecc1dec93145c8826a8061e3ff8f1e
--- /dev/null
+++ b/2022_005_goldberg/urbanonyme_v1_0.xml
@@ -0,0 +1,2186 @@
+<?xml version="1.0" encoding="utf-8"?>
+<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
+    ?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0"
+     xmlns:html="http://www.w3.org/1999/html"
+     xmlns:tei="http://www.tei-c.org/ns/1.0"
+     xmlns:xlink="http://www.w3.org/1999/xlink"
+     xmlns:xhtml="http://www.w3.org/1999/xhtml">
+   <teiHeader>
+      <fileDesc>
+         <titleStmt>
+            <title>
+               <biblStruct>
+                  <analytic>
+                     <title level="a">Kontextsensitive Entscheidungsfindung zur automatisierten
+                Identifizierung und Clusterung deutschsprachiger Urbanonyme</title>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Jan Michael</forename>
+                                 <surname>Goldberg</surname>
+                              </name>
+                               <email>jan.goldberg@wiwi.uni-halle.de</email>
+                               <idno type="gnd">1240406630</idno>
+                               <idno type="orcid">0000-0002-4817-4283</idno>
+                           </persName>
+                        </resp>
+                         <orgName>Martin-Luther-Universität Halle Wittenberg, Lehrstuhl für empirische Makroökonomik</orgName>
+                     </respStmt>
+                     <idno type="doi">10.17175/2022_005</idno>
+                      <idno type="ppn">1817560271</idno>
+                     <idno type="zfdg">2022.005</idno>
+                     <idno type="url">https://www.zfdg.de/node/339</idno>
+                     <date when="2022-10-10">10.10.2022</date>
+                  </analytic>
+                  <monogr>
+                     <title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
+                     <respStmt>
+                        <resp>Publiziert von</resp>
+                        <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>Transformation der Word Vorlage nach TEI</resp>
+                        <persName/>
+                        <name role="marc_trc">
+                           <surname>Baumgarten</surname>
+                           <forename>Marcus</forename>
+                           <idno type="gnd">1192832655</idno>
+                        </name>
+                     </respStmt>
+                     <availability status="free">
+                        <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref>
+                        </p>
+                     </availability>
+                     <biblScope unit="year">2022</biblScope>
+                     <biblScope unit="artikel">005</biblScope>
+                  </monogr>
+               </biblStruct>
+            </title>
+         </titleStmt>
+         <editionStmt>
+            <edition>Elektronische Ausgabe nach TEI P5</edition>
+         </editionStmt>
+         <publicationStmt>
+            <distributor>
+               <name>
+                  <orgName>Herzog August Bibliothek Wolfenbüttel</orgName>
+               </name>
+            </distributor>
+            <idno type="doi">10.17175/zfdg.01</idno>
+            <idno type="ppn">0819494402</idno>
+            <authority>
+               <name>Herzog August Bibliothek</name>
+               <address>
+                  <addrLine>Lessingplatz 1</addrLine>
+                  <addrLine>38304 Wolfenbüttel</addrLine>
+               </address>
+            </authority>
+            <authority>
+               <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name>
+               <address>
+                  <addrLine>Burgplatz 4</addrLine>
+                  <addrLine>99423 Weimar </addrLine>
+               </address>
+            </authority>
+            <availability status="free">
+               <p> Sofern nicht anders angegeben </p>
+               <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence>
+            </availability>
+            <availability status="free">
+               <p> Available at <ref target="workID">https://www.zfdg.de; (c)
+                                Forschungsverbund MWW</ref>
+               </p>
+            </availability>
+         </publicationStmt>
+         <sourceDesc>
+                        
+                        <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
+         </sourceDesc>
+      </fileDesc>
+      <encodingDesc>
+         <editorialDecl>
+            <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
+                            XSLT-Skripten</p>
+         </editorialDecl>
+         <editorialDecl>
+            <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Martin Wiegand</persName>.</p>
+            <p>Medienrechte liegen bei den Autor*innen</p>
+            <p>All links checked<date when="2022">03.08.2022</date>
+            </p>
+         </editorialDecl>
+      </encodingDesc>
+      <profileDesc>
+         <creation>Einreichung als Artikel der Zeitschrift für digitale
+                        Geisteswissenschaften</creation>
+         <langUsage>
+            <language ident="de">Text in Deutsch</language>
+            <language ident="de">Abstract in Deutsch</language>
+            <language ident="en">Abstract in Englisch</language>
+         </langUsage>
+         <textClass>
+            <keywords scheme="gnd">
+                <term>Historische Geografie<ref target="4025103-2"/>
+               </term>
+                <term>Cluster-Analyse<ref target="4070044-6"/>
+                </term>
+                <term>Lokalisation<ref target="4195351-4"/>
+                </term>
+                <term>Kontextbezogenes System<ref target="4739720-2"/>
+                </term>
+                <term>Klassifikation<ref target="4030958-7"/>
+                </term>
+            </keywords>
+         </textClass>
+      </profileDesc>
+      <revisionDesc>
+         <change/>
+      </revisionDesc>
+   </teiHeader>
+   <text>
+      <body>
+         <div>
+            <div type="abstract">
+               <argument xml:lang="de">
+                  <p>Viele historische Quellen enthalten zahlreiche Ortsangaben,
+                deren manuelle Zuordnung viele Ressourcen bindet. Um hier Abhilfe zu schaffen wird
+                ein Algorithmus beschrieben, mit dem solche Urbanonyme automatisiert geokodiert
+                werden können. Ebenso ist es möglich, die Orte entsprechend ihrer gemeinsamen
+                historischen Verwaltungszugehörigkeit zu clustern. Probleme wie gleiche Namen bei
+                Ortsbezeichnungen werden vor allem durch eine Einbeziehung weiterer Informationen
+                desselben Kontextes (derselben Quelle) gelöst. Eine Validierung geschieht anhand von
+                etwa 3,4 Millionen überwiegend deutschsprachigen Ortsangaben aus der genealogischen
+                Datenbank <hi rend="italic">GEDBAS</hi>. Zusammenfassend lassen sich etwa drei von
+                vier relevanten Ortsangaben identifizieren und lokalisieren. Über 90 Prozent der
+                identifizierten Ortsangaben können ihrer historischen Provinz zugeordnet werden.</p>
+               </argument>            
+               <argument xml:lang="en">
+                  <p>Many historical sources contain numerous names of places, the
+                manual assignment of which ties up a lot of resources. To simpliy this, an algorithm
+                is described with which such urbanonyms can be geocoded automatically. It is also
+                possible to cluster the places according to their common historical administrative
+                affiliation. Problems such as identical terms for place names are solved primarily
+                by including further information from the same context (same source). A validation
+                is done on the basis of about 3.4 million mostly German-language place names from
+                the genealogical database <hi rend="italic">GEDBAS</hi>. In summary, about three out
+                of four relevant place names can be identified and localised. More than 90 percent
+                of the identified place names can be assigned to their historical province.</p>
+               </argument>
+            </div>
+            <div type="chapter">
+               <head>1. Einleitung</head>
+            <p>Orte werden tagtäglich in vielen
+                Applikationen identifiziert und lokalisiert.<note type="footnote"> Die Identifizierung beschreibt die Zuordnung zu
+                        einem Identifikator, der einem physischen Ort zugeordnet ist. Dagegen
+                        umfasst die Lokalisierung die gelungene geographische Verortung des
+                        identifizierten Ortes.</note> Der Bahnticketautomat, das
+                Navigationsgerät im Auto oder die Suchmaschine im Internet stellen dafür nur einige
+                willkürliche Beispiele dar. Das Prinzip dahinter ist vielfach aber gleich: Nach der
+                Eingabe eines Orts oder mindestens eines Teils davon schlägt die Applikation einen
+                oder mehrere auszuwählende(n) Orte vor. Die letztendliche Auswahl kann vom Menschen
+                getroffen werden. Steht jedoch kein Mensch zur Verfügung, um eine abschließende
+                Auswahl zu treffen, muss die Entscheidung auf zuvor definierten Kriterien beruhen.
+                Durch Dopplungen, Ähnlichkeiten und Variationen von Ortsnamen ist dies jedoch kein
+                triviales Unterfangen.</p>
+            <p>In Deutschland (und Europa) gibt es
+                beispielsweise zahlreiche Orte namens Neustadt. Allein 36 davon sind in der
+                Arbeitsgemeinschaft <term type="figure">Neustadt in Europa</term>
+                    zusammengefasst.<note type="footnote"> <ref type="bibliography" target="#working-group_neustadt_2021">Working Group Neustadt in Europa (Hg.) 2021</ref>.</note> Hinzu kommt, dass
+                etliche Stadtteile diese Bezeichnung tragen. Werden die historischen, heute nicht
+                mehr genutzten Bezeichnungen inkludiert, sind es nochmals mehr. Das kann zum einen
+                darin begründet sein, dass die Ortsbezeichnungen heute einfach nicht mehr in
+                Verwendung sind, weil es den Ort entweder nicht mehr gibt oder aber eine Umbenennung
+                stattgefunden hat.<note type="footnote"> <ref type="bibliography" target="#zedlitz_survey_2014">Zedlitz / Luttenberger 2014</ref>, S. 218–231.</note> Zum anderen können die
+                historischen Ortsangaben aber auch einen Ort beschreiben, dessen Relevanz heute
+                nicht mehr ausreichend ist, um diesen durch eine gesonderte Bezeichnung zu würdigen
+                – ohne, dass dieser gänzlich verschwunden wäre. Möglicherweise ist der Ort auch in
+                einem übergeordneten aufgegangen; kleine Siedlungsformen, wie beispielsweise Weiler,
+                verschwanden im Laufe der letzten Jahrhunderte. Die Herausforderungen, die sich
+                heute aus der Lokalisierung von Ortsnamen ergeben, sind bei der Zuordnung
+                historischer Bezeichnungen – im Weiteren als Urbanonyme<note type="footnote"> Der Begriff der Urbanonyme
+                        beschreibt dabei Siedlungsstrukturen (z. B. Städte, Dörfer) und stellt somit
+                        eine Unterkategorie der Toponyme da. Er wird im Folgenden synonym zum
+                        Begriff der Ortsbezeichnung verwendet.</note> bezeichnet – also umso
+                größer. </p>
+            <p>Historische Ortsangaben stehen
+                allerdings selten für sich allein, sondern sind von Kontextinformationen umgeben.
+                Eingebettet in einen Fließtext kann sich aus den weiteren Informationen ergeben, um
+                welchen Ort es sich handelt. Beispielsweise können in einem Adressbuch andere
+                Ortsangaben oder die Angabe einer übergeordneten Gebietskörperschaft vorhanden sein.
+                Diese als Kontext bezeichneten Informationen können zur Identifizierung genutzt
+                werden. Nachfolgend kann auf dieser Basis eine geographische Lokalisierung des Orts
+                angestellt werden. Im Kontext dieser Arbeit meint Lokalisierung eine Ortsbestimmung,
+                die Objekte zu einer Adresse im physischen Raum der Erdoberfläche zuordnet.<note type="footnote"> Die Bestimmung der
+                    Position wird heute oftmals satellitengestützt realisiert (vgl. <ref type="bibliography" target="#gentile_techniques_2013">Gentile et al.
+                        (Hg.) 2013</ref>). Diese Möglichkeit setzt voraus, dass das zu lokalisierende
+                        Objekt (1.) bekannt ist und sich (2.) an der zu lokalisierenden Position
+                        befindet. Historische Ortsangaben hingegen beschreiben Positionen von
+                        (unbekannten) Objekten zu vergangenen Zeitpunkten. Deshalb sind moderne
+                        Möglichkeiten der Lokalisierung auf diese Problematik nicht
+                    anwendbar.</note> Eine gesonderte, automatisierte Lösung zur Identifikation
+                und Lokalisierung (speziell deutschsprachiger) historischer Urbanonyme ist bis dato
+                nicht bekannt. Diese Lücke wird durch den vorliegenden Artikel geschlossen, indem
+                ein Algorithmus als Lösung vorgeschlagen wird, der historische Ortsangaben<note type="footnote"> Als <hi rend="italic">historische Ortsangaben</hi> werden im
+                        Folgenden solche Bezeichnungen beschrieben, die in deutscher Sprache einen
+                        Ort im deutschsprachigen Raum im Zeitfenster der Neuzeit beschreiben. In
+                        Abgrenzung dazu finden Ortsbezeichnungen aus antiken und mittelalterlichen
+                        Quellen keine Verwendung.</note> kontextsensitiv lokalisiert. Eine
+                Übersicht der Begriffliche ist in <ref type="graphic" target="#urbanonyme_2020_001">Abbildung 1</ref>
+                vorhanden.</p>
+            <p>Für viele wissenschaftliche
+                Fragestellungen reicht allein die Lokalisierung der Ortsangaben jedoch nicht aus.
+                Vielmehr ist es auch wichtig, die (historische) administrative Zugehörigkeit der
+                Orte zu ermitteln und alle zusammengehörigen Ortsangaben zu clustern. Darum wird mit
+                dem Algorithmus auch eine Methode bereitgestellt, mit der Orte über die
+                administrative Zugehörigkeit zu einem definierten Zeitpunkt geclustert werden
+                können. Der Algorithmus wird primär mit Hilfe von Urbanonymen aus genealogischen
+                    GEDCOM-Dateien<note type="footnote">
+                        Sie enthalten oftmals sehr viele Ortsangaben zu Lebensereignissen wie
+                        Geburten oder Hochzeiten. GEDCOM-Dateien stellen dabei den gängigen Standard
+                        im Austausch genealogischer Informationen dar (vgl. <ref type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 112;
+                        <ref type="bibliography" target="#harviainen_genealogy_2018">Harviainen / Björk 2018</ref>). </note> aus der Datenbank <bibl>
+                  <title type="desc">Genealogische Datenbasis</title>
+               </bibl> (GEDBAS) getestet, soll aber
+                auch auf andere Quellen adaptiert werden können. Damit wird ebenfalls einem
+                Vorschlag Gellatlys nachgekommen, eine Software zur Geokodierung von Ortsangaben zu
+                    entwickeln.<note type="footnote">
+                        <ref type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 118.</note>
+            </p>
+            <p>Im folgenden Kapitel werden zunächst
+                verschiedene bestehende Lösungsansätze betrachtet, auf deren Basis die Entwicklung
+                des Algorithmus stattfindet. Danach wird der entwickelte Algorithmus in der
+                Programmiersprache Python umgesetzt und am Beispiel von GEDCOM-Dateien aus der
+                GEDBAS validiert. Abschließend erfolgt eine Zusammenfassung.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_001" url=".../medien/urbanonyme_2020_001.png">
+                  <desc>
+                      <ref target="#abb1">Abb. 1</ref>: Übersicht über Begrifflichkeiten und Zusammenhänge.&#xA;
+                      [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_001"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            <div type="chapter">
+               <head>2. Identifizierung und Lokalisierung von Urbanonymen</head>            
+            <p>Die Identifizierung beschreibt die
+                Zuordnung eines Urbanonyms (z. B. ›Berlin‹) zu einer physisch existierenden Entität
+                – einem Ort (z. B. der Hauptstadt Berlin der Bundesrepublik Deutschland). Die
+                Lokalisierung hingegen besteht in der Zuordnung von Koordinaten zu diesem Ort. Auch
+                wenn die Lokalisierung das wesentliche Ziel darstellt, so liegt in der
+                vorhergehenden Identifizierung die maßgebliche Herausforderung. Das ist dadurch
+                bedingt, dass zu nahezu allen (identifizierten) Orten die geographischen Koordinaten
+                leicht zu ermitteln sind, die eindeutige Identifizierung jedoch durch verschiedene
+                historisch bedingte Faktoren erschwert wird.</p>
+            <p>Im Folgenden wird der Stand der
+                Technik verschiedener Teilaspekte dieser Herausforderung beschrieben. Zunächst wird
+                erläutert, wie der Kontext zur Entscheidungsfindung beitragen kann. Danach werden
+                kurz relevante Suchalgorithmen sowie Methoden der Ähnlichkeitsanalyse aufgegriffen.
+                Da eine Identifizierung von Urbanonymen nur unter Hinzunahme (historischer)
+                Ortsverzeichnisse möglich ist, finden auch diese Beachtung. Abschließend wird in die
+                Struktur von GEDCOM-Daten eingeführt, die in dieser Studie zur Validierung des
+                Algorithmus dienen.</p>
+            <div type="subchapter">
+               <head>2.1 Kontextsensitive Entscheidungsfindung</head>            
+            <p>Das oben angeführte Beispiel Berlins
+                zeigt die Problematik deutlich auf: Neben der Hauptstadt könnte ebenso eine andere
+                Entität, z. B. das Land Berlin der Bundesrepublik Deutschland oder der Ortsteil
+                Berlin der schleswig-holsteinischen Gemeinde Seedorf, gemeint sein.<note type="footnote"> In dem Fall würde es
+                        sich bei der Ortsangabe um ein Choronym, nicht um eine Urbanonym,
+                        handeln.</note> Ohne weitere Informationen, worauf sich die Ortsangabe
+                bezieht oder in welchem Zusammenhang diese genannt wird, kann eine Identifizierung
+                nicht eindeutig vorgenommen werden. Die Informationen im Zusammenhang der Verwendung
+                eines Wortes werden dabei als ›Kontext‹ bezeichnet. Nach Dey und Abowd ist Kontext
+                aus informationstechnischer Sicht jede Information, die zur Charakterisierung der
+                Situation einer Entität genutzt werden kann.<note type="footnote"> <ref type="bibliography" target="#abowd_context-awareness_1999">Abowd / Dey 1999</ref>, S. 1, 3-4.</note> Systeme,
+                die diesen Kontext nutzen, werden als ›kontextsensitiv‹ bezeichnet.<note type="footnote"> <ref type="bibliography" target="#sitou_requirements_2009">Sitou 2009</ref>, S. 28,
+                        123.</note> Kontextsensitive Systeme bedingen also eine Flexibilität in
+                der Ausführung eines Prozesses. Der Kontext als externer Einfluss kann dazu führen,
+                dass der interne Prozess der Informationsverarbeitung angepasst wird.<note type="footnote"> <ref type="bibliography" target="#rosemann_process_2006">Rosemann / Recker
+                    2006</ref>, S. 149.</note> Ein Beispiel dafür ist die Anzeige der
+                Wettervorhersage in Abhängigkeit der Position oder die Veränderung der
+                Bildschirmhelligkeit in Abhängigkeit der Umgebungsbeleuchtung. Auch in CARS (Context
+                Based Recommendation Systems) werden Nutzer*innen auf Basis der zu ihnen verfügbaren
+                Kontextinformationen in der Entscheidungsfindung unterstützt.<note type="footnote"> <ref type="bibliography" target="#zheng_integrating_2019">Zheng et al. 2019</ref>, S.
+                    2453.</note> Daneben ist eine eigenständige Entscheidung zwischen mehreren
+                konkreten Alternativen ohne menschliches Zutun auf Basis des Kontextes möglich. </p>
+            <p>Bei der Lokalisierung ist eine
+                Entscheidung notwendig, um die Verbindung zwischen einer konkreten Ortsbezeichnung
+                und einem Ort zu definieren. Solche Entscheidungen können (in Anlehnung an einen
+                binären Klassifikator) richtig oder falsch sein. Jedoch kann auch keine Entscheidung
+                getroffen werden – und auch dieses kann richtig oder falsch sein. Richtig kann eine
+                nicht getroffene Entscheidung für einen Ort beispielsweise sein, wenn die
+                Ortsbezeichnung ›John Michael‹ lautet und kein Urbanonym darstellt, sondern – wie im
+                Beispiel – womöglich aus einem Eingabefehler resultiert und einen Vornamen darstellt
+                (TN). Diese Konstellationen sind in Tabelle 1 dargestellt. Dasselbe Schema ist auf
+                die Lokalisierung und die nachfolgende regionale Klassifizierung anwendbar. Ziel ist
+                es, möglich viele T*-Zuordnungen zu erreichen, gleichzeitig aber die F*-Rate niedrig
+                zu halten.</p>
+            <table>
+               <row>
+                    <cell/>
+                    <cell>Identifizierung korrekt</cell>
+                    <cell>Identifizierung nicht korrekt</cell>
+                </row>
+               <row>
+                    <cell>Identifizierung erfolgt</cell>
+                    <cell>True
+                            positive (TP)</cell>
+                    <cell>False
+                            positive (FP)</cell>
+                </row>
+               <row>
+                    <cell>Identifizierung nicht erfolgt</cell>
+                    <cell>True
+                            negative (TN)</cell>
+                    <cell>False
+                            negative (FN)</cell>
+                </row>
+           
+                <trailer xml:id="tab01">
+                    <ref type ="intern" target="#tab1">Tab. 1</ref>: Konfusionsmatrix&#xA;
+                    zur Identifizierung von Ortsbezeichnungen in Anlehnung an Fawcett. [Fawcett 2006, S.&#xA;
+                862]<ref type="graphic"
+                    target="#urbanonyme_2020_t1"/>
+                </trailer>
+            </table>
+            <p>Um es am Beispiel Berlins
+                auszudrücken: So würde in einer Liste der Bundesländer eher die Entität des Landes
+                aufgegriffen, in einer Liste aller Hauptstädte jedoch die Entität Berlins als
+                Hauptstadt Deutschlands. Der Kontext würde hier den Schluss zulassen, ob es sich um
+                das Land oder die Stadt handelt. Diese Schlussfolgerung ist das Ergebnis einer
+                Heuristik: Alle Werte in der Liste beschreiben Länder, also ist es wahrscheinlich,
+                dass der letzte Wert auch ein Land ist. Jedoch kann der Wert auch kein Land
+                darstellen, wodurch die Schlussfolgerung falsch wäre (FP). Heuristiken garantieren
+                keine richtigen Ergebnisse,<note type="footnote"> <ref
+                    type="bibliography" target="#feigenbaum_computers_1963">Feigenbaum / Feldman (Hg.) 1963</ref>, S. 6.</note> sie
+                dienen der Findung einer wahrscheinlich korrekten Lösung unter begrenztem Wissen und
+                wenig Zeit.<note type="footnote"> Vgl.
+                    <ref
+                        type="bibliography" target="#gigerenzer_heuristics_1999">Gigerenzer / Todd (Hg.) 1999</ref>, S. 147.</note> Insofern sind
+                kontextsensitive Entscheidungen, wenn der Kontext die Entscheidung nicht
+                eineindeutig zulässt, heuristische Verfahren. Um eine Heuristik im
+                Entscheidungsprozess eines technischen Systems einzusetzen, ist ihre Formalisierung
+                notwendig. Eine programmtechnische Formalisierung der Heuristik führt in der Folge
+                zu einem (heuristischen) Algorithmus.</p>
+            <p>Um den Kontext einer Ortsbezeichnung
+                nun für die Zuordnung zu einer Entität zu verwenden, müssen die Heuristiken
+                definiert werden, die die Entscheidungsfindung beeinflussen. Zandhuis et al. nennen
+                drei Möglichkeiten der Einbindung des Kontextes: </p>
+            <list type="ordered">
+                <item>den Ort, an dem die Ortsangabe erstellt wurde, </item>
+                <item>eine Gebietszugehörigkeit und </item>
+                <item>die Zeit, in der die Quelle kreiert wurde in Zusammenhang mit der Information,
+                    wann ein Ort wie bezeichnet wurde, da die Bezeichnung temporalen Schwankungen
+                    unterliegen kann.<note type="footnote">  <ref
+                        type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S. 36.</note>
+                </item>
+            </list>
+            <p>Insbesondere bei Sekundärquellen ist
+                der Ort der (Primär-)Quellenerstellung nicht relevant oder bekannt. Auch
+                Gebietsangaben sind nicht immer vorhanden. Ebenso verhält es sich mit den temporalen
+                Informationen. Zudem kann in Sekundärquellen eine sprachliche Anpassung des
+                Ortsnamens (an die Schreibweise zur Zeit der Erstellung der Sekundärquelle)
+                stattgefunden haben. </p>
+            <p>Aufgrund dieser Schwierigkeiten sind
+                die drei genannten Punkte für eine Identifizierung nicht ausreichend. Es lassen sich
+                jedoch andere Kontextinformationen finden: Der Kontext von Ortsbezeichnungen kann
+                aus weiteren Ortsangaben bestehen, die möglicherweise in einem Zusammenhang stehen.
+                Gegebenenfalls sind im Kontext auch konkrete Angaben zur geographischen Distanz
+                zwischen den Entitäten, zur gemeinsamen administrativen Zugehörigkeit oder einer
+                sonstigen Beziehung vorhanden. Zudem können temporale Angaben im Kontext die
+                Identifizierung der Ortsangaben unterstützen. Aber nicht nur die Nennung von Orten,
+                sondern auch die von Namen kann relevant sein: Die Häufigkeit von Vornamen variiert
+                über die Zeit, sodass hierüber eine Schätzung des Geburtsjahres – und somit eine
+                zeitliche Verortung der Ortsbezeichnung – vorgenommen werden kann.<note type="footnote"> <ref
+                    type="bibliography" target="#gallagher_estimating_2008">Gallagher / Chen 2008</ref>.</note>
+                Wichtiger jedoch erscheint die regionale Dichte und Häufigkeit von Namen: Die
+                Verwendung von Nachnamen ist oftmals geografisch nicht gleichverteilt.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#seibicke_personennamen_1982">Seibicke 1982</ref>,
+                        S. 148.</note> In <ref type="graphic" target="#urbanonyme_2020_002">Abbildung 2</ref> sind
+                beispielhaft die relative und absolute Verteilung des Nachnamens ›Hinse‹ abgebildet.
+                Es ist eine erhöhte Dichte im westfälischen Raum zu erkennen.<note type="footnote"> Die Karte wurde mit <ref target="https://geogen.stoepel.net/legacy.html?">Geogen</ref> erzeugt und basiert auf
+                        etwa 35 Millionen Telefonbucheinträgen. Stöpel 2021b.</note> Demzufolge
+                ist also wahrscheinlicher, dass der Name in Kombination mit Orten im westfälischen
+                Raum genannt wird.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_002" url=".../medien/urbanonyme_2020_002.png">
+                  <desc>
+                      <ref target="#abb2">Abb. 2</ref>: Relative (links) und&#xA;
+                      absolute (rechts) Verteilung des Nachnamens Hinse. [Goldberg 2022, erstellt mit&#xA;
+                Geogen Deutschland, Stöpel 2021a.]<ref type="graphic" target="#urbanonyme_2020_002"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Auch bei der Vornamensgebung sind in
+                Deutschland regionale Unterschiede zu erkennen,<note type="footnote"> <ref
+                    type="bibliography" target="#gesellschaft_vornamen_2019">Gesellschaft für deutsche Sprache e. V. (Hg.)
+                    2019</ref>.</note> was teilweise auf unterschiedliche Präferenzen in der
+                Namensgebung verschiedener Konfessionen zurückzuführen ist.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#seibicke_personennamen_1982">Seibicke 1982</ref>, S.
+                    150.</note>
+            </p>
+            </div>
+            <div type="subchapter">
+               <head>2.2 Suchalgorithmen und Ähnlichkeitsanalyse</head>            
+            <p>Alle (vormals) existierenden Orte
+                können in einer Liste dargestellt werden. Sie stellen eine endliche Menge dar. Da es
+                jedoch hunderttausende Orte gibt (oder gab), von denen jeweils einer ausgewählt
+                werden soll, ist anzunehmen, dass die Auswahl eines Suchalgorithmus erhebliche
+                Auswirkung auf die Performance hat. Zur Suche in Listen existieren verschiedenste
+                Algorithmen, die oftmals an ihre jeweilige Anwendung angepasst werden. Da es sich
+                bei Ortsbezeichnungen um Zeichenketten handelt, sind hier insbesondere
+                String-Matching-Algorithmen relevant. Die Namen der Orte fungieren dabei als
+                Eigenschaft der Entität, die mit der Ortsbezeichnung verglichen werden kann.</p>
+            <p>Suchalgorithmen können grundlegend in
+                einfache und informierte Suchen unterteilt werden. Im Gegensatz zu den einfachen
+                Suchen ist bei den informierten Suchen ein Wissen über den Suchraum vorhanden.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#clarke_principles_2009">Clarke et al.
+                    2009</ref>, S. 34.</note> Bei einer gegebenen Liste von Orten findet ein
+                einfaches Suchverfahren Verwendung, bei der Auswahl eines Suchalgorithmus sind
+                dagegen insbesondere Laufzeit und Genauigkeit von Interesse: Während bei einer
+                linearen Suche in Listen jedes Element betrachtet werden muss, ist bei der binären
+                Suche nur die logarithmische Anzahl von Vergleichen durchzuführen. Es zeigt sich,
+                dass bei der Verarbeitung vieler Urbanonyme soweit wie möglich auf lineare Suchen
+                verzichtet werden sollte; stattdessen ist der Einsatz binärer Suchalgorithmen
+                angebracht. Hierzu ist vorbereitend eine alphabetische Sortierung möglicher Zielorte
+                durchzuführen.</p>
+            <p>Ortsbezeichnungen können jedoch
+                Rechtschreibfehler wie vertauschte Zeichen aufweisen. Ebenso kann die Schreibweise
+                von Orten im Zeitverlauf einer Variation unterliegen, ohne dass eine gänzliche
+                Umbenennung erfolgt ist. Auch wenn die Suche keine eindeutigen Treffer hervorbringt,
+                kann über einen Vergleich der Ähnlichkeit eine Identifizierung erfolgen. Zum
+                Vergleich der Ähnlichkeit gibt es verschiedene Maße. Ein übliches Maß stellt die
+                Levenshtein-Distanz dar, eine Metrik, mit der Schritte der Veränderung zwischen
+                Wörtern gezählt werden.<note type="footnote"> <ref
+                    type="bibliography" target="#levenstejn_codes_1966">Levenštejn 1966</ref>.</note> Die Distanz ist bei
+                identischen Zeichenketten 0 und beträgt maximal die Länge des längeren Strings. Hier
+                besteht die Herausforderung, einen Wert auszuwählen, der für den jeweiligen
+                Vergleich als plausibel gilt,<note type="footnote"> Es sind keine allgemein üblichen Toleranzkriterien bei
+                        dem Vergleich von Ortsstrings bekannt. Möglicherweise ist eine solche Art
+                        der Ähnlichkeitsanalyse bei Orten nicht besonders zielführend, da viele Orte
+                        sehr gleichklingend sind und eine Levenshtein-Distanz von 2 bereits
+                        wesentliche Veränderungen herbeiführen kann.</note> wobei ein Bezug auf
+                die Länge der gesuchten Zeichenkette angebracht sein kann.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#list_distanz_2010">List 2010</ref>, S.
+                8.</note>
+            </p>
+            <p>Statt in einer Liste können Orte auch
+                in Bäumen strukturiert sein. Zur Optimierung des Suchverhaltens in diesen ist ein
+                informierter Ansatz möglich, der beispielsweise nur solche Pfade mit definierten
+                Eigenschaften durchsucht.</p>
+            </div>
+            <div type="subchapter">
+               <head>2.3 Historische Orte und Urbanonyme</head>            
+            <p>Um überhaupt Orte zu haben, die als
+                Entitäten dienen und einem Vergleich mit der Ortsbezeichnung zugefügt sind, ist die
+                Auswahl eines Ortsverzeichnisses eine notwendige Bedingung. Im Weiteren wird dazu
+                das <bibl>
+                  <title type="desc">Geschichtliche Orts-Verzeichnis</title>
+               </bibl> (GOV) des Vereins
+                für Computergenealogie Verwendung finden.<note type="footnote"> Das GOV ist nicht das einzige Verzeichnis, dass
+                        historische Ortsangaben zusammengeführt. Daneben gibt es verschiedene
+                        Ortslexika. Ein online-verfügbares Beispiel stellt das <ref target="https://hov.isgv.de/">Historische
+                            Ortsverzeichnis von Sachsen</ref> dar (vgl. <ref
+                                type="bibliography" target="#institut_ortsverzeichnis_2020">Institut für sächsische
+                                Geschichte und Volkskunde (Hg.) 2020</ref>). Für den gesamten deutschsprachigen
+                        Raum ist das GOV jedoch die einzige digitale, klar strukturierte Sammlung
+                        historischer Ortsangaben. Zudem unterliegt das Mini-GOV einer Creative
+                        Common Lizenz und kann deshalb in diesem Rahmen Verwendung
+                    finden.</note> Dieses enthält etwa 1,2 Millionen Objekte<note type="footnote"> Diese Objekte sind jeweils
+                        sogenannten Typen zugeordnet. Die Typen beschreiben nicht nur Urbanonyme,
+                        sondern auch politische, kirchliche oder gerichtliche Verwaltungen; auch
+                        geographische Objekte oder solche zum Verkehrswesen sind
+                        vorhanden.</note> in Europa.<note type="footnote"> <ref
+                            type="bibliography" target="#verein_gov_2015">Verein für Computergenealogie e. V. (Hg.) 2015</ref>. Das
+                        GOV erscheint insbesondere für den deutschsprachigen Raum geeignet.
+                    </note> Das GOV wird ausgewählt, weil es besonders im deutschsprachigen Raum
+                viele historische Urbanonyme abbildet. Für andere Länder, beispielsweise die
+                Niederlanden, gibt es zudem weitere ausführliche Portale.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S.
+                        24.</note>
+            </p>
+            <p>Zugang zum GOV kann eine externe
+                Anwendung auf zwei Arten erlangen. Zum einen über das sogenannte Mini-GOV worin
+                verschiedene Informationen zu Orten enthalten sind: Als <term type="dh">Uniform Resource Identifier</term> (URI) eines Ortes dient die sogenannte
+                GOV-Kennung. Daneben ist der Typ des Objekts vorhanden, gefolgt von dem aktuellen
+                Namen (im Falle von früheren deutschen Siedlungsgebieten auch der letzte deutsche
+                Name). Auch der Staat, dem das Objekt angehört, sowie vier Angaben zur
+                administrativen Zuordnung werden angegeben.<note type="footnote"> Die administrative Zuordnung unterscheidet sich je
+                        nach heutigem Staat. In Deutschland ist die adm. Zuordnung 1 auf das
+                        Bundesland bezogen, die adm. Zuordnung 2 auf den Regierungsbezirk, die adm.
+                        Zuordnung 3 auf den Kreis, Landkreis, Stadtkreis die kreisfreie Stadt oder
+                        die Region und die adm. Zuordnung 4 auf die Stadt, Gemeinde, den Markt oder
+                        Flecken.</note> Zudem ist die Postleitzahl vorhanden. Abschließend
+                folgen mit der Längen- und Breitengrade die Koordinaten des Objekts. Zum anderen
+                besteht die Möglichkeit über einen Webservice auf die Daten im GOV zuzugreifen.
+                Während durch das Mini-GOV nur die oben genannten Informationen zu einem Ort zur
+                Verfügung stehen, kann über den Webservice auf sämtliche Daten des GOV zugegriffen
+                werden (siehe <ref type="graphic" target="#urbanonyme_2020_003">Abbildung 3</ref>).<note type="footnote"> <ref
+                    type="bibliography" target="#verein_gazetteer_2021a">Verein für Computergenealogie e.
+                    V. (Hg.) 2021a</ref>.</note> Die Abfrage des Webservice ergibt ein assoziatives
+                Datenfeld (im Folgenden Dictionary), in dem verschiedene Informationen zum Ort
+                enthalten sind. Die Beschreibung der Zugehörigkeit zu übergeordneten Objekten
+                erfolgt im Key ›part-of‹. Das in <ref type="graphic" target="#urbanonyme_2020_003">Abbildung 3</ref>
+                dargestellte Beispiel enthält vier Zugehörigkeiten. Die Dauer der Zugehörigkeit kann
+                entweder über ›timespan‹ definiert sein. Im anderen Fall sind – wie im Beispiel –
+                Beginn und Ende gesondert definiert. Auch ist die GOV-ID des übergeordneten Objekts
+                enthalten. Das ermöglicht beispielsweise zusätzlich die administrativen
+                Zusammenhänge der Vergangenheit zu erfassen. Die dadurch entstehende Baumstruktur
+                ist implizit, da sie erst während der Suche erzeugt wird.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_003" url=".../medien/urbanonyme_2020_003.png">
+                  <desc>
+                      <ref target="#abb3">Abb. 3</ref>: Auszug aus einer&#xA;
+                          GOV-Abfrage. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_003"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Urbanonyme kommen in vielen Quellen
+                vor. Besonders konzentriert sind Urbanonyme in genealogischen Datenstrukturen zu
+                finden. Hierin sind es die zentralen Vitaldaten von Personen (Geburt bzw. Taufe,
+                Heirat und Tod bzw. Beerdigung), die oftmals auch mit einer Ortsbezeichnung versehen
+                sind. Durch die verwandtschaftlichen Verknüpfungen liegen zudem verschiedene
+                Kontextdaten vor (Namen, Zeiten, weitere Ortsangaben). Aufgrund der hohen
+                Informationsdichte werden im Zuge dieser Arbeit genealogische Daten in Form von
+                GEDCOM-Dateien zur Validierung des Algorithmus eingesetzt. Einzelne GEDCOM-Dateien
+                bestehen aus Text mit einer definierten Syntax. Eine Person wird beispielsweise wie
+                im nachfolgenden Beispiel definiert (siehe <ref type="graphic" target="#urbanonyme_2020_004">Abbildung 4</ref>). Verschiedenartige Informationen werden dabei mit
+                verschiedenen Tags gekennzeichnet. Standardmäßig definiert der Tag <code>PLAC</code> dabei eine Ortsangabe.<note type="footnote"> Neben dem Standard können
+                        einzelne programmspezifische Tags entwickelt werden. Diesen ist ein
+                        Unterstrich (›_‹) vorangestellt. So ist es prinzipiell möglich, weitere
+                        ortsbezogene Tags zu entwickeln und anzuwenden. Hervorzuheben ist hierbei
+                        insbesondere der Tag <code>_LOC</code>, über den ein eigener
+                        Datensatz zu der Ortsangabe erstellt wird. Darin können u. a. Tags wie <code>_GOV</code> genutzt werden, über welchen direkt die
+                        GOV-URI zugeordnet wird. Über die Tags <code>LATI</code> und
+                            <code>LONG</code> können zudem seit der GEDCOM-Version
+                    5.5.1 direkt Koordinatenangaben gemacht werden (vgl. <ref
+                        type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 118).
+                        In der Validierung werden diese Tags nochmals aufgegriffen.</note> Diese
+                kann sich auf die oben genannten Ereignisse beziehen. Im Beispiel ist sie dem Tag
+                    <code>DEAT</code> zugeordnet, beschreibt also den Ort des Todes.
+                Ortsangaben unter diesem Tag sollten die Verwaltungszugehörigkeit in aufsteigender
+                Reihenfolge enthalten und mit einem Komma voneinander getrennt werden,
+                beispielsweise: Stadt, Kreis, Bundesland, Land.<note type="footnote"> <ref
+                    type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 117.</note>
+            </p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_004" url=".../medien/urbanonyme_2020_004.png">
+                  <desc>
+                      <ref target="#abb4">Abb. 4</ref>: Auszug einer
+                      GEDCOM-Datei. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_004"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            </div>
+            <div type="chapter">
+               <head>3. Entwicklung des (heuristischen) Algorithmus</head>            
+            <p>Um historische Ortsangaben im
+                deutschsprachigen Raum zu identifizieren und nachfolgend lokalisieren zu können,
+                wird in diesem Abschnitt die Entwicklung eines Algorithmus beschrieben. In diesem
+                wird die Heuristik zur kontextbasierten Auswahl eines Orts formalisiert. Zunächst
+                wird die Metaheuristik erläutert, die dem zu entwickelnden Algorithmus zugrunde
+                liegt. Die einzelnen Unteraspekte der Metaheuristik werden danach ausführlicher
+                behandelt. Darunter fallen die Datenbereinigung, der Vergleich mit dem Mini-GOV, die
+                Realisierung einer Ähnlichkeitserkennung, die Hinzuziehung von Kontextdaten und
+                deren Alternativen sowie die Ermittlung historischer administrativer
+                Zugehörigkeiten.</p>
+            <div type="subchapter">
+               <head>3.1 Metaheuristik</head>            
+            <p>Auch der Algorithmus bildet die
+                eingangs eingeführte inhaltliche Zweiteilung ab: Zum einen die Identifizierung eines
+                Ortes, zum anderen die Bestimmung der historischen administrativen Zugehörigkeit zu
+                einem manuell definierten Zeitpunkt (im Folgenden ›Bezugszeit‹ genannt). Die
+                Identifizierung wird zudem in zwei Unterabschnitte getrennt: Im ersten Teil werden
+                zunächst alle Ortsangaben des Kontextes gesammelt und bewertet.<note type="footnote"> Die Metaheuristik beschränkt sich
+                        bei der Hinzuziehung des Kontexts zur Identifizierung auf weitere
+                        Ortsangaben. Eine Erläuterung für diese Auswahl ist in Abschnitt 3.4 zu
+                        finden. Quellenspezifisch muss der Kontext jeweils definiert
+                    werden.</note> Als Erstes werden dabei die Ortsangaben grundlegend
+                bereinigt. Es wird je Ortsangabe geprüft, wie viele Übereinstimmungen mit den
+                Bezeichnungen im Mini-GOV vorliegen. Folgend werden all die Orte, die genau <hi rend="italic">eine</hi> exakte Übereinstimmung aufweisen,
+                identifiziert und in die Kontextdaten mit aufgenommen (siehe <ref type="graphic" target="#urbanonyme_2020_005">Abbildung 5</ref>). Neben den Bezeichnungen und der
+                GOV-ID werden zu den Kontextdaten auch die geographischen Koordinaten
+                gespeichert.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_005" url=".../medien/urbanonyme_2020_005.png">
+                  <desc>
+                     <ref target="#abb5">Abb. 5</ref>: Ermittlung und Bewertung von Kontextdaten, eigene Darstellung als Nassi-Sneiderman-Diagramm.[Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_005"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Mit Hilfe der nun ermittelten
+                Kontextdaten können im zweiten Teil weitere Ortsangaben identifiziert werden (siehe
+                <ref type="graphic" target="#urbanonyme_2020_006">Abbildung 6</ref>): Bei mehreren
+                Übereinstimmungen mit dem Mini-GOV wird geprüft, ob für die zu überprüfende
+                Ortsangabe Kontextdaten zur Verfügung stehen.<note type="footnote"> Es kann sein, dass der Kontext so einen geringen
+                        Umfang hat, dass die vorhergehende Ermittlung der Kontextdaten kein Ergebnis
+                        brachte. Das ist hier konkret der Fall, wenn keine weiteren Ortsangaben
+                        vorliegen.</note> Falls ja, so werden für die verschiedenen
+                Möglichkeiten jeweils die Koordinaten ermittelt und mit den Koordinaten der
+                Kontextdaten verglichen. Der Ort, der nach diesem Vergleich die geringste Distanz
+                aufweist, wird ausgewählt. Sind keine Kontextdaten vorhanden wird über eine
+                Zuordnung auf Basis des Typs der möglichen Orte entschieden.</p>
+            <p>Liegt nach dem eingänglichen Vergleich
+                mit dem Mini-GOV keine genaue Übereinstimmung vor, so findet eine
+                Ähnlichkeitsüberprüfung zwischen der Ortsbezeichnung und den Einträgen im Mini-GOV
+                statt. So können Fehler korrigiert werden, die durch die eingängliche Bereinigung
+                nicht erkannt wurden. Besteht dennoch keine Ähnlichkeit mit einem Objekt aus dem
+                Mini-GOV, bleibt der Ort unidentifiziert. Bei einem oder mehreren Treffern wird wie
+                oben beschrieben verfahren.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_006" url=".../medien/urbanonyme_2020_006.png">
+                  <desc>
+                     <ref target="#abb6">Abb. 6</ref>: Ortsidentifizierung, eigene Darstellung als Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_006"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Der zweite Teil, die Clusterung,
+                beginnt damit, dass für das zu untersuchende Objekt geprüft wird, ob eine Zuordnung
+                zu einer historisch-administrativen Gliederungseinheit bereits früher erfolgt ist
+                (siehe <ref type="graphic" target="#urbanonyme_2020_007">Abbildung 7</ref>). Das dient der Vermeidung
+                doppelter Programmdurchläufe und somit der Laufzeitverkürzung. Wurde das Objekt noch
+                keiner übergeordneten Einheit zugeordnet, so wird diese in der Baumstruktur der
+                übergeordneten Objekte gesucht. Das erfolgt, indem in maximal zehn Iterationen
+                jeweils ein übergeordnetes Objekt ausgewählt und neu untersucht wird. Hierzu wird
+                jeweils geprüft, ob das Objekt Teil einer definierten Menge ist. Diese Menge stellt
+                die historisch-administrative Zielgliederung (im Folgenden ›Provinz‹) zur Bezugszeit
+                dar. Entspricht das Objekt einem Element der Zielmenge, so wird dem ursprünglichen
+                Objekt diese Provinz zuordnet. Ist das nicht der Fall, so werden die Informationen
+                aus dem GOV-Webservice für das entsprechende Objekt ausgelesen. Dieses Objekt kann
+                nun wiederum für sich übergeordnete Objekte aufweisen, von denen eines für die
+                nächste Iteration auszuwählen ist. Das geschieht, indem jedes übergeordnete Objekt
+                dahingehend geprüft wird, ob die Bezugszeit in den Zeitraum der Zugehörigkeit des
+                untergeordneten zum übergeordneten Objekt fällt. Ist das der Fall, wird das
+                übergeordnete Objekt einer Liste A (höhere Priorität) hinzugefügt. Um beim obigen
+                Beispiel zu bleiben, könnte etwa ›Mark Brandenburg‹ als übergeordnetes Objekt für
+                ›Berlin‹ ausgewählt werden, wenn die Bezugszeit beispielsweise ›1301–1400‹ beträgt.
+                Liegt die Bezugszeit hingegen nicht in der Zeitspanne der Zugehörigkeit zum
+                übergeordneten Objekt, so wird das Objekt einer Liste B (niedrigere Priorität)
+                    zugewiesen.<note type="footnote">
+                        Liste A und B dienen der Priorisierung weiterer Schritte. Falls die Liste A
+                        kein Element enthält, ist kein übergeordnetes Objekt zeitlich exakt passend.
+                        Das kann u. a. daran liegen, dass das GOV nicht vollständig gepflegt ist
+                        oder aber ein Objekt erst nach der Bezugszeit entstanden ist und deswegen
+                        keine Zugehörigkeit zur Bezugszeit bestehen kann. Nur im Falle einer leeren
+                        Liste A wird mit der Liste B weiter verfahren.</note> Enthält die
+                entsprechende Liste ein Element, so wird dieses Objekt ausgewählt und mit ihm die
+                neue Iteration begonnen. Enthält die Liste jedoch mehrere Objekte, dann findet ein
+                Vergleich dieser statt. Das ist überwiegend der Fall, wenn die Liste B Verwendung
+                findet. Letztlich wird das Objekt ausgewählt, das zeitlich der Bezugszeit am
+                nächsten ist.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_007" url=".../medien/urbanonyme_2020_007.png">
+                  <desc>
+                     <ref target="#abb7">Abb. 7</ref>: Analyse der provinziellen Zuordnung, eigene Darstellung als Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_007"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            <div type="subchapter">
+               <head>3.2 Datenbereinigung</head>            
+            <p>Da es denkbar ist, dass
+                Ortsbezeichnungen systematische Fehler enthalten, ist eine grundsätzliche
+                Bereinigung der Daten angebracht.<note type="footnote"> Je nach Ermittlung der Bezeichnungen sind dabei andere
+                        Fehler denkbar. So wird eine automatisierte Texterkennung andere Fehler
+                        machen als ein Mensch.</note> Der Algorithmus sollte auf die jeweils
+                auftretenden systematischen Fehler der Quelle spezifisch angepasst werden. Die
+                Veränderung der Ortsbezeichnungen ist dabei nicht unkritisch, da mit dieser eine
+                Interpretation der Daten einhergeht. Auf große Datenmengen angewendet kann es bei
+                verallgemeinerten Korrekturregeln zu vermehrten Fehlinterpretationen kommen (FP). An
+                dieser Stelle werden darum nur allgemeine Fehler abgedeckt (zum Beispiel die
+                Entfernung von Sonderzeichen oder sonstiger unerwünschter Bestandteile). Spezifische
+                Regeln können vom Anwender jeweils ergänzt werden.</p>
+            </div>
+                <div type="subchapter">
+               <head>3.3 Suche</head>            
+            <p>Grundlage der Suche eines passenden
+                Ortes sind die Angaben über Namen von Orten im Mini-GOV – und der (teilweisen)
+                Übereinstimmungen mit der gegebenen Ortsbezeichnung aus den Quellen. Das Mini-GOV
+                liegt als CSV-Datei für jeden heute existierenden
+                Staat vor. Aus diesem Grund müssen (neben dem Deutschland-Mini-GOV) weitere Länder,
+                in denen es vormals deutschsprachige Gebiete gab, integriert werden. Die einzelnen
+                Mini-GOVs werden zu einem gemeinsamen zusammengeführt. Dadurch ergibt sich eine
+                Liste mit mehreren Hunderttausend Orten. Zur Reduzierung der Suchdauer des
+                Algorithmus ist es hier wichtig, keine lineare Suche zu verwenden, sondern das
+                Mini-GOV vorher zu sortieren.<note type="footnote"> Beispielsweise bei einer GOV-Liste von 100.000 Orten
+                        und 10.000 zu lokalisierenden Urbanonymen wären bei einer einfachen Suche
+                        eine Milliarde einzelne Vergleiche durchzuführen.</note> Die Sortierung
+                ermöglicht den Einsatz einer binären Suche.<note type="footnote"> Diese wird so ausgeführt, dass zunächst der
+                        mittlere Eintrag der sortierten Instanz des Mini-GOVs identifiziert wird.
+                        Liegt die zu suchende Bezeichnung in alphabetischer Reihenfolge vor dem Ort,
+                        der in der Mitte steht, wird in einem nächsten Durchlauf die Mitte der
+                        vorderen alphabetischen Hälfte analysiert. Das wird so lange wiederholt, bis
+                        die nächste Mitte nur noch 10 Positionen von der vorherigen entfernt ist. Da
+                        es in einer alphabetischen Reihenfolge in einer Liste mehrere
+                        aufeinanderfolgende Treffer geben kann, ist eine vollständige Ausführung der
+                        binären Suche nicht angebracht. Diese würde nur ein Element zum Resultat
+                        haben. Aus diesem Grund werden die 30 Positionen vor und 30 Positionen nach
+                        der letzten ermittelten Mitte zusätzlich linear durchsucht. Das liegt darin
+                        begründet, dass kein einzelner Ortsname mehr als 30 Mal im GOV
+                    vorkommt.</note> Die Suche kann drei Ergebnisse hervorbringen:</p>
+            <list type="unordered">
+                <item>Kein Treffer: Es gibt keinen Wert im definierten Bereich des Mini-GOVs, der
+                    genau der bereinigten Ortsbezeichnung entspricht.</item>
+                <item>Genau ein Treffer: Es gibt nur einen Wert im definierten Bereich des
+                    Mini-GOVs, der genau der bereinigten Ortsbezeichnung entspricht.</item>
+                <item>Viele Treffer: Es gibt mehr als einen Wert im definierten Bereich des
+                    Mini-GOVs, der genau der bereinigten Ortsbezeichnung entspricht.</item>
+            </list>
+            <p>Bei genau einem Treffer wird eben
+                dieser ausgewählt. In den anderen beiden Fällen ist eine weitere Analyse notwendig.
+                Beim Ausbleiben eines Treffers werden ähnliche Zeichenketten gesucht, da u. a.
+                Tippfehler in den Ortsbezeichnungen eine genaue Übereinstimmung verhindern. Im Fall
+                mehrerer Treffer wird der Kontext der Ortsangabe zur weiteren Identifikation
+                herangezogen (siehe <ref type="intern" target="#hd10">Abschnitt 3.4</ref>).</p>
+            <p>Wird keine genaue Übereinstimmung
+                zwischen Ortsbezeichnung und dem Namen eines Ortes im Mini-GOV gefunden, kann eine
+                teilweise Übereinstimmung bei der Identifizierung helfen. Eine Berechnung zwischen
+                der Ähnlichkeit aller Namen im GOV und der zuzuordnenden Ortsbezeichnung ist vor dem
+                Hintergrund der Rechenkapazität nicht erstrebenswert. Aus diesem Grund werden
+                lediglich die Orte verglichen, die zuvor schon eingegrenzt wurden.<note type="footnote"> Das führt dazu, dass Fehler bei
+                        anfänglichen Buchstaben nicht erkannt werden. Die Vorteile durch die
+                        schnellere Suche scheinen jedoch für die praktische Durchführung wichtiger
+                        zu sein.</note> Zum Vergleich von Strings existieren, wie in <ref type="intern" target="#hd4">Abschnitt 2.2</ref> erörtert, verschiedene
+                    Distanzmaße.<note type="footnote">
+                        Zandhuis et al. empfehlen zwar initial die Levenshtein-Distanz, bei mehreren
+                        Treffern sollte jedoch ein Vergleich der geographischen Entfernung
+                        vorgenommen werden.  <ref
+                            type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S. 37.</note> Die Verwendung
+                unterschiedlicher Distanzmaße wird im <ref type="intern" target="#hd13">Abschnitt 5.
+                    Validierung</ref> diskutiert.</p>
+                </div>
+            <div type="subchapter">
+               <head>3.4 Kontextdaten</head>            
+            <p>Ansatzpunkte zur Ermittlung der
+                Kontextdaten können sich aus der Quelle der zu lokalisierenden Ortsangabe ergeben.
+                Als Kontext für eine Bezeichnung in einem Buch kann so unter Umständen das ganze
+                Buch dienen. Wie in <ref type="intern" target="#hd3">Abschnitt 2.1</ref> gezeigt, gibt es
+                verschiedene Informationen im Kontext von Ortsbezeichnungen (insbesondere andere
+                Ortsbezeichnungen, Vor- und Nachnamen, Zeitangaben). Im Weiteren werden
+                ausschließlich die anderen Ortsangaben als Kontextangaben genutzt. Der Ausschluss
+                von Vor- und Familiennamen sowie Zeitangaben geschieht vor dem Hintergrund, dass zu
+                den Namen einerseits keine Studie zur geografischen Verteilung ab dem 17.
+                Jahrhundert existiert,<note type="footnote"> Allenfalls gibt es solche Betrachtungen für einzelne
+                        Regionen oder bestimmte Namen, beispielsweise in der Verteilung
+                        verschiedener Schreibweisen des Namens ›Mayer‹ (vgl. <ref type="bibliography" target="#hohensinner_name_2011">Hohensinner 2011</ref>).</note>
+                andererseits wird die geographische Zuordnung von Vornamen mit zunehmender Zeit
+                    unschärfer.<note type="footnote"> Die
+                        Namensgebung passiert heute in Deutschland weniger formalisiert als noch vor
+                        100 Jahren, sondern bietet mehr individuelle Freiheiten (u. a. eine deutlich
+                        größere Variation der Vornamen).</note> Eine fehlende Übersicht zur
+                Veränderung der Ortsnamen im Zeitverlauf führt dazu, dass auch der temporale Aspekt
+                nicht weiter herangezogen wird. Zudem betrifft die Veränderung der Bezeichnung
+                innerhalb der Neuzeit nur einen kleinen Teil der Orte. Dagegen sind weitere
+                Ortsangaben als Kontext besonders geeignet, vor allem wenn eine Dichte Nennung von
+                Orten erfolgt. Bei einer Ortsangabe in einem Buch, in dem der nächste Ort erst 200
+                Seiten später genannt wird, ist der Kontext hingegen zur Identifizierung
+                voraussichtlich nicht geeignet. Sind in einer Quelle auf 20 Seiten aber 200
+                Ortsangaben, erscheint es wahrscheinlicher, dass diese in einer inhaltlichen
+                Beziehung zueinander stehend genannt werden.<note type="footnote"> Auch diese Aussage ist nicht allgemeingültig: In
+                        einer alphabetisch sortierten Ortsliste ist das nicht der Fall.</note>
+                Vor der Anwendung dieses Algorithmus sollten eine Quelle und ihr Kontext dahingehend
+                begutachtet werden.</p>
+            <p>Eine Eigenschaft dieser Vorgehensweise
+                ist, dass Ortsangaben, sollen sie als Kontext zur Identifizierung anderer
+                Ortsangaben genutzt werden, selbst zunächst einmal identifiziert werden müssen. Aus
+                diesem Grund werden alle Ortsangaben zunächst auf Übereinstimmung mit dem Mini-GOV
+                geprüft. Die Ortsangaben, bei denen eine eindeutige Zuordnung zu einem Eintrag im
+                Mini-GOV vorgenommen werden kann, bilden die Kontextdaten. Hier wird deutlich, dass
+                nur ein Teil der Ortsangaben in die Kontextdaten eingeht.</p>
+            <p>Um anhand der Kontextdaten nun eine
+                Auswahl zwischen verschiedenen Orten zu treffen, ist die geographische Nähe das
+                wesentliche Kriterium. Den Grundgedanken, dass die <quote>geographical unit that has the smallest geographic distance to the place of
+                    origin</quote> für die Zuordnung von Ortsangaben genutzt werden kann, hatten
+                bereits Zandhuis et al.<note type="footnote"> <ref type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S. 37.</note> Wobei der <quote>place of origin</quote> in dem Fall der Entstehungsort der Quelle
+                der Ortsangabe ist, der (1.) selten vorliegen dürfte und (2.) auch erstmal
+                identifiziert werden müsste. Der Ansatz hingegen, andere Ortsangaben desselben
+                Kontextes zu nutzten, ist neu und basiert auf der Annahme, dass zusammen genannte
+                Orte oftmals auch nah beieinanderliegen. Insbesondere bei genealogischen Quellen
+                trifft diese Annahme zu. So werden oftmals Ehepartner
+                aus einer engeren räumlichen Entfernung gewählt.<note type="footnote"> Vgl. <ref type="bibliography" target="#kocka_familie_1980">Kocka et al. 1980</ref>.</note>
+                Oftmals wurden auch Ehepartner aus dem gleichen Ort gewählt.<note type="footnote"> Vgl. <ref type="bibliography" target="#baehr_bevoelkerungsgeographie_1992">Bähr et al. 1992</ref>.</note> Ein
+                hoher Anteil der Bevölkerung war lange nur sehr eingeschränkt mobil. Diese Methodik
+                ist also insbesondere geeignet für Urbanonyme, die zusammen mit Personen genannt
+                werden (beispielsweise in prosopografischen Quellen). Weniger geeignet ist sie für
+                Quellen, bei denen die Orte eindeutig in keinem räumlichen Zusammenhang stehen (z.
+                B. eine alphabetische Liste aller Städte).</p>
+            <p>Zu jedem Ort in den Kontextdaten
+                liegen durch das Mini-GOV Koordinaten vor. Das geographische Mittel<note type="footnote"> Es gibt keine
+                        allgemeingültige Norm des geographischen Mittels, da neben den Koordinaten
+                        beispielsweise die Topographie in die Gewichtung mit einfließen kann. An
+                        dieser Stelle wird das arithmetische Mittel jeweils von Längen- und
+                        Breitengrad genutzt.</note> dieser Orte stellt dabei eine Position dar,
+                die zu allen anderen Orten durchschnittlich die geringste Distanz hat. In dieser
+                Vorgehensweise wird ein weiterer Nachteil ersichtlich: Die Quelle kann Orte
+                enthalten, die geografisch sehr weit voneinander entfernt sind. Wenn diese sich
+                nicht gleichflächig über den Raum verteilen (wovon auszugehen ist), können sich
+                verschiedene Räume mit einer großen Dichte an Datenpunkten ausbilden.<note type="footnote"> Eine alternative
+                        Idee ist es aus diesem Grund, nicht alle Orte in die Kontextdaten einfließen
+                        zu lassen, sondern vormals nochmal zu selektieren. Bei genealogischen Daten
+                        könnten z. B. nur die Orte der Personen, die eine nahe verwandtschaftliche
+                        Verknüpfung aufweisen, einbezogen werden. Die Verwandtschaftsbeziehungen
+                        stellen weitere Kontextdaten dar. Die wenigsten historischen Quellen
+                        verfügen jedoch speziell über diese Kontextdaten. Aus diesem Grund findet
+                        dieser Aspekt keine Anwendung.</note> Die geographische Mitte würde in
+                keinem dieser Ballungsgebiete liegen. Hierbei schafft die Bildung dezentraler
+                    Cluster<note type="footnote"> Diese
+                        Bildung von Cluster aus den Kontextdaten ist nicht mit der (späteren)
+                        Clusterung der identifizierten Orte entsprechen ihrer regionalen
+                        Zusammengehörigkeit identisch. Vielmehr dürfen diese nicht verwechselt
+                        werden. In beiden Fällen wird geclustert, weshalb der Begriff derselbe ist.
+                        Zur Unterscheidung ist ein genauer Blick auf den Zusammenhang zu werfen, in
+                        dem der Begriff verwendet wird.</note> Abhilfe. Die Validierung wird
+                zeigen, welche praktischen Auswirkungen diese Art der Clusterung mit sich
+                bringt.</p>
+            <p>Für den Fall, dass keine Kontextdaten
+                vorhanden sind, jedoch trotzdem eine Auswahl zwischen verschiedenen Orten
+                stattfinden soll, ist eine alternative Entscheidungsfindung zu definieren. So kann –
+                unter Hinzuziehung weiterer Heuristiken – auf die Wahrscheinlichkeit für die
+                Zugehörigkeit eines Urbanonyms zu einem bestimmten Ort geschlossen werden. Wenn z.
+                B. gleichnamig eine Stadt und ein kleiner Weiler mit demselben Namen existieren,
+                dann ist es wahrscheinlicher, dass die Stadt gemeint ist. Dahinter wiederum verbirgt
+                sich die Annahme, dass mehr Menschen in einer Stadt als in einer kleinen Ansammlung
+                von Häusern gelebt haben. Diese Unterscheidung wird durch die Objekttypen im
+                Mini-GOV ermöglicht. Dazu wird folgende Reihenfolge definiert: </p>
+            <list type="ordered">
+                <item>Kreisfreie Stadt</item>
+                <item>Stadt</item>
+                <item>Dorf</item>
+                <item>Pfarrdorf</item>
+                <item>Ort</item>
+                <item>Ortsteil</item>
+                <item>Ortschaft</item>
+                <item>Wohnplatz</item>
+                <item>Weiler </item>
+            </list>
+            <p>Sollten zwei Orte gleichen Objekttyps
+                übrigbleiben, ist eine Identifizierung fehlgeschlagen.</p>
+            </div>
+                <div type="subchapter">
+               <head>3.5 Clusterung zur historischen administrativen Zugehörigkeit</head>            
+            <p>Sind die Orte (im Folgenden ›Objekte‹)
+                identifiziert, so stehen zu ihnen verschiedene Metadaten aus dem Mini-GOV zur
+                Verfügung. Angaben zur historischen administrativen Zugehörigkeit sind dort
+                allerdings nicht zu finden. Über den Webservice des GOV können diese Angaben jedoch
+                ermittelt werden, da dort die historische Zugehörigkeit eingesehen werden kann. Die
+                hierarchische Anordnung von unter- und übergeordneten Objekten ergibt eine
+                Baumstruktur. Jedes Objekt hat Informationen über seine übergeordneten Objekte. In
+                der Folge liegt die Baumstruktur nicht zu Beginn vor, sondern wird mit der Abfrage
+                jedes übergeordneten Objektes implizit weiter aufgebaut. Durch die Verknüpfung der
+                Zugehörigkeiten ergibt sich eine Baumstruktur (Beispiel in <ref type="graphic" target="#urbanonyme_2020_008">Abbildung 8</ref>). Um eine administrative
+                Zugehörigkeit zu ermitteln, ist es Ziel, den richtigen Pfad in der Baumstruktur zu
+                finden. Das geht nur, wenn zuvor mögliche Ziele (Cluster, Provinzen) definiert
+                werden. Die Zielmenge ist dabei zeitabhängig: Je nach gewünschter Zeit kann die
+                Clusterung anders ausgestaltet sein. Dazu muss die Zielmenge für verschiedene
+                Bezugszeiten definiert werden. Fertig et al. strukturieren das deutschsprachige
+                Gebiet in 39 Einheiten, die den Zeitraum von 1816 bis 1871 abdecken.<note type="footnote"> Vgl. <ref type="bibliography" target="#fertig_zeitalter_2018">Fertig et al.
+                    2018</ref>.</note> Für einen möglichen Bezug auf die heute existierende
+                Gliederung werden die sechzehn Bundesländer Deutschlands genutzt.<note type="footnote"> Beispiel: Bei einem Interesse an
+                        der Zuordnung Dresdens wäre im Jahr 2000 der Freistaat Sachsen korrekt
+                        (GOV-Objekt ›object_218149‹), 1850 aber beispielsweise das Königreich
+                        Sachsen (GOV-Objekt ›object_218149‹).</note> Allerdings könnte auch eine
+                Gliederung heutiger Daten in den Grenzen von 1850 – oder andersherum, die Einteilung
+                historischer Daten in den heutigen Grenzen – interessant sein. Diese wird durch eine
+                Variation der Bezugszeit ermöglicht. Eine Zuordnung möglicher Provinzen mit
+                GOV-Objekten ist folgend aufgeführt (siehe <ref type="graphic" target="#urbanonyme_2020_t2">Tabelle
+                    2</ref>). Weitere Regionen – oder eine detailliertere Skalierung der möglichen
+                Cluster (u. a. Kreise, Regierungsbezirke) – können bei Bedarf implementiert
+                werden.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_008" url=".../medien/urbanonyme_2020_008.png">
+                  <desc>
+                      <ref target="#abb8">Abb. 8</ref>: GOV-Struktur der Stadt  <ref target="http://gov.genealogy.net/item/show/object_113700">Wiedenbrück</ref>, Stand: 30. Januar 2021. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_008"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <table>
+               <row>
+                    <cell>Provinz<note type="footnote"> Die mit A angeführten Provinzen sind Preußen zugehörig, dem mit
+                                dem B stellen weitere Territorien dar.</note>
+                  </cell>
+                    <cell>GOV-Identikator</cell>
+                    <cell>Bemerkung</cell>
+                </row>
+               <row>
+                    <cell>ab hier Bezugszeit
+                        &lt;= 1871</cell>
+                </row>
+               <row>
+                    <cell>A 01 Provinz Holstein</cell>
+                    <cell>object_190122</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 02 Provinz Lauenburg</cell>
+                    <cell>adm_131053</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 03 Provinz Brandenburg (ohne
+                        Berlin)</cell>
+                    <cell>object_1081716</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 04 Provinz
+                        Hessen-Nassau</cell>
+                    <cell>object_190330</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 05 Provinz
+                        Hohenzollern</cell>
+                    <cell>object_268785</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 05 Provinz
+                        Hohenzollern</cell>
+                    <cell>object_284443</cell>
+                    <cell>Hohenzollern-Sigmaringen 1850
+                        nach Hohenzollerschen Landen</cell>
+                </row>
+               <row>
+                    <cell>A 06 Provinz Ostpreußen</cell>
+                    <cell>adm_368500</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 07 Provinz Pommern</cell>
+                    <cell>adm_368480</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 08 Provinz Posen</cell>
+                    <cell>object_211667</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 09 Provinz Sachsen</cell>
+                    <cell>object_279654</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 10 Provinz Schlesien</cell>
+                    <cell>adm_368470</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 11 Provinz Westfalen</cell>
+                    <cell>object_190325</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 12 Provinz Westpreußen</cell>
+                    <cell>object_213750</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 13 Rheinprovinz</cell>
+                    <cell>object_1047283</cell>
+                    <cell>Provinz Jülich-Kleve-Berg bis
+                        1822</cell>
+                </row>
+               <row>
+                    <cell>A 13 Rheinprovinz</cell>
+                    <cell>object_405464</cell>
+                    <cell>Provinz Großherzogtum
+                        Niederrhein bis 1822</cell>
+                </row>
+               <row>
+                    <cell>A 13 Rheinprovinz</cell>
+                    <cell>object_190337</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 14 Provinz Berlin</cell>
+                    <cell>BERLINJO62PM</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 01 Amt Bergedorf</cell>
+                    <cell>object_257607</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 02 Hansestadt Bremen</cell>
+                    <cell>adm_369040</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 03 Stadt Hamburg</cell>
+                    <cell>adm_369020</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 04 Stadt Lübeck</cell>
+                    <cell>LUBECKJO53IU</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 05 Stadt Frankfurt am
+                        Main</cell>
+                    <cell>adm_136412</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 06 Fürstentum
+                        Lippe-Detmold</cell>
+                    <cell>object_217406</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 07 Fürstentum
+                        Schaumburg-Lippe</cell>
+                    <cell>object_217818</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 08 Fürstentum
+                        Waldeck-Pyrmont</cell>
+                    <cell>object_218152</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 09 Großherzogtum
+                        Oldenburg</cell>
+                    <cell>object_352387</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 10 Großherzogtum Baden</cell>
+                    <cell>object_217952</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 11 Hessen</cell>
+                    <cell>object_218147</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 12 Großherzogtum
+                        Mecklenburg-Schwerin</cell>
+                    <cell>object_217750</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 13 Großherzogtum
+                        Mecklenburg-Strelitz (einschließlich des Fürstentums Ratzeburg)</cell>
+                    <cell>object_217749</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 14 Herzogtum Anhalt</cell>
+                    <cell>object_190873</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 15 Herzogtum
+                        Braunschweig</cell>
+                    <cell>object_217954</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 16 Herzogtum Nassau</cell>
+                    <cell>object_218153</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 17 Herzogtum Schleswig</cell>
+                    <cell>object_190098</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 18 Königreich
+                        Württemberg</cell>
+                    <cell>object_190729</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 19 Königreich Bayern</cell>
+                    <cell>object_217953</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 20 Königreich Hannover</cell>
+                    <cell>object_190327</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 21 Königreich Sachsen</cell>
+                    <cell>object_218149</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 22 Kurfürstentum
+                        Hessen</cell>
+                    <cell>object_275299</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 23 Landgrafschaft
+                        Hessen-Homburg</cell>
+                    <cell>object_284442</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218143</cell>
+                    <cell>Sachsen-Weimar-Eisenach</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_284441</cell>
+                    <cell>Reuß Jüngere Linie</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218134</cell>
+                    <cell>Reuß Ältere Linie</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218137</cell>
+                    <cell>Sachsen-Altenburg</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218138</cell>
+                    <cell>Sachsen-Coburg-Gotha</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_265487</cell>
+                    <cell>Sachsen Gotha</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218142</cell>
+                    <cell>Sachsen-Meiningen</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218150</cell>
+                    <cell>Schwarzburg-Rudolstadt</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218151</cell>
+                    <cell>Schwarzburg-Sondershausen</cell>
+                </row>
+               <row>
+                    <cell>B 24 Thüringische
+                        Staaten</cell>
+                    <cell>object_218141</cell>
+                    <cell>Sachsen-Hildburghausen</cell>
+                </row>
+               <row>
+                    <cell>ab hier Bezugszeit
+                        &gt;= 1990</cell>
+                </row>
+               <row>
+                    <cell>Land Baden-Württemberg</cell>
+                    <cell>adm_369080</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freistaat Bayern</cell>
+                    <cell>adm_369090</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Berlin<note type="footnote"> Berlin heute stellt das
+                                gleiche GOV-Objekt dar wie bei der historischen Klassifizierung.
+                                Insofern wir hier die Bezeichnung <hi rend="italic">A 14
+                                    Provinz Berlin</hi> und nicht <hi rend="italic">Land
+                                    Berlin</hi> ausgegeben.</note>
+                  </cell>
+                    <cell>BERLINJO62PM</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Brandenburg</cell>
+                    <cell>adm_369120</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freie Hansestadt Bremen</cell>
+                    <cell>adm_369040</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freie und Hansestadt
+                        Hamburg</cell>
+                    <cell>object_1259992</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Hessen</cell>
+                    <cell>adm_369060</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land
+                        Mecklenburg-Vorpommern</cell>
+                    <cell>adm_369130</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Niedersachsen</cell>
+                    <cell>adm_369030</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Nordrhein-Westfalen</cell>
+                    <cell>adm_369050</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Rheinland-Pfalz</cell>
+                    <cell>adm_369070</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Saarland</cell>
+                    <cell>adm_369100</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freistaat Sachsen<note type="footnote"> Hier besteht
+                                die gleiche Situation wie bei Berlin (siehe vorherige
+                            Fußnote).</note>
+                  </cell>
+                    <cell>object_218149</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Sachsen-Anhalt</cell>
+                    <cell>adm_369150</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Schleswig-Holstein</cell>
+                    <cell>adm_369010</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freistaat Thüringen</cell>
+                    <cell>adm_369160</cell>
+                    <cell/>
+                </row>
+
+                    <trailer xml:id="tab02">
+                        <ref type="intern" target="#tab2">Tab. 2</ref>: Zuordnung von Provinzen zum GOV. [Goldberg 2022]<ref type="graphic"
+                            target="#urbanonyme_2020_t2"/>
+                    </trailer> </table>
+            
+            <p>Zur Suche in der Baumstruktur über-
+                und untergeordneter Objekte wird im Folgenden ein informiertes Vorgehen genutzt.
+                Dazu wird jeweils geprüft, ob das derzeitige Objekt Teil der Zielmenge ist. Ist es
+                das nicht, werden die übergeordneten Objekte durchsucht. Hierbei wird überprüft, ob
+                es ein Objekt gibt, welches in den Zeitraum der Bezugszeit fällt. Kann auf die Weise
+                kein übergeordnetes Objekt identifiziert werden, wird dasjenige ausgewählt, dessen
+                Grenzen der zeitlichen Zugehörigkeit am nächsten an der Bezugszeit liegen (z. B. die
+                Bezugszeit 1820 und die zeitlichen Grenzen des nächsten Objektes von
+                    1822-1838).<note type="footnote"> Die
+                        Nähe der Grenzen zur Bezugszeit ist auch in dem seltenen Fall das Kriterium,
+                        in dem mehrere übergeordnete Objekte in der Bezugszeit liegen.</note>
+                Sind ausschließlich übergeordnete Objekte ohne Zeitangaben vorhanden, weisen sie den
+                gleichen Abstand zur Bezugszeit auf. In dem Fall wird die nächste Iteration mit dem
+                erstgenannten Objekt der GOV-Abfrage durchgeführt. Solche Objekte, die einen
+                kirchlichen oder juristischen Typ<note type="footnote"> Objekte können im Zeitverlauf verschiedenen Typen
+                        unterliegen, dieser Umstand wird nicht weiter betrachtet, weil sich die
+                        Objektkategorie nicht ändert. Ein Dorf kann beispielsweise zur Stadt werden,
+                        eine Kirche aber nicht zur Stadt.</note> aufweisen oder nur im
+                nicht-deutschsprachigen Raum vorkommen, werden ausgeschlossen.<note type="footnote"> Beispielsweise bei dem Objekt
+                        ›NEUTE1JO44XB‹ gibt es zwei übergeordnete Objekte ohne zeitliche Angaben.
+                        Hier erfolgt jedoch eine konkrete Zuordnung zu dem Objekt, das keinen
+                        kirchlichen Typ aufweist.</note> Wird ein übergeordnetes Objekt
+                identifiziert, das Teil der Zielmenge ist, ist die Suche der historischen
+                administrativen Gebietskörperschaft gelungen – der Ort wird der Provinz
+                    zugeordnet.<note type="footnote">
+                        Eine Alternative dazu wäre eine klassische Tiefen- oder Breitensuche.
+                        Hierbei würden alle Zweige des Baumes analysiert, bis ein Objekt der
+                        Zielmenge gefunden wird. Das ist vor dem Hintergrund von Laufzeitaspekten
+                        ungünstig, da dazu sehr oft auf das nur online verfügbare GOV zugegriffen
+                        werden müsste und die Internet-Schnittstelle zu einer Verlängerung der
+                        Durchlaufzeit führte.</note>
+            </p>
+            <p>Nach der Ermittlung der Zugehörigkeit
+                zu einer historischen Provinz wird diese gespeichert. Bei einer großen Anzahl von zu
+                identifizierenden Ortsbezeichnungen bietet diese Vorgehensweise den Vorteil, dass
+                doppelt vorkommende Ortsangaben mit denselben Kontextdaten nicht doppelt bearbeitet
+                werden.</p>
+            <p>Dieser Algorithmus findet die
+                entsprechende Provinz nicht, wenn </p>
+            <list type="ordered">
+                <item>durch die GOV-Abfrage keine übergeordneten Objekte ausgegeben werden
+                    (Beispielobjekt ›LIEHA2JO62RV‹) oder </item>
+                <item>kein Objekt der Zielmenge in den übergeordneten Objekten auftaucht,<note type="footnote"> Das ist derzeit
+                            bei allen Orten der ehemaligen Provinz Holstein der Fall, da diese nicht
+                            mit dem entsprechenden Objekt im GOV verknüpft sind. Allerdings kann
+                            dieses auch einzelne Orte anderer Provinzen betreffen, z. B. Wesel
+                            (›WESSELJO31HQ‹, Stand 18. Juni 2020). Dadurch, dass das GOV stetig
+                            erweitert wird, können die fehlenden Verknüpfungen in der Zukunft
+                            nachgeholt werden.</note> was </item>
+                <item>auch daran liegen kann, dass der identifizierte Ort im Ausland (also außerhalb
+                    der Zielmenge) liegt.</item>
+            </list>
+                </div>
+            </div>
+             <div>
+                 <p></p>
+                 <p></p>
+                 <p></p>
+                 <p></p>
+             </div>
+            <div type="chapter">
+               <head>4. Anpassung auf GEDCOM-Dateien</head>            
+            <p>Zur Vorbereitung der Validierung wurde der entwickelte Algorithmus in der
+                Programmiersprache Python 3.7 umgesetzt. Der Programmcode ist im <ref target="https://git.hab.de/forschungsdaten/zeitschrift-fuer-digitale-geisteswissenschaften/goldberg-urbanonyme">Online-Repositorium</ref>
+                einsehbar. Er gliedert sich in verschiedene Funktionen, die zunächst einzeln
+                erläutert und dann in ihrem Zusammenhang dargestellt werden. Die Kommentare im
+                Programmcode beschreiben die konkrete Umsetzung des Algorithmus detailliert, sodass
+                hier auf eine tief gehende Erläuterung verzichtet wird. Zum besseren Verständnis des
+                Programms wird hier vielmehr der Aufbau beschrieben. Das Verständnis der Struktur
+                hilft dabei, das Programm anzupassen. Grundlegend ist das Programm in die drei
+                Bestandteile aufgeteilt, die auch schon zur Teilung des Algorithmus dienten (siehe
+                    <ref type="graphic" target="#urbanonyme_2020_009">Abbildung 9</ref>). Hierzu werden in jedem
+                Schritt eigene CSV-Dateien mit den Zwischenergebnissen erstellt und ausgegeben.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_009" url=".../medien/urbanonyme_2020_009.png">
+                  <desc>
+                     <ref target="#abb9">Abb. 9</ref>: Aufbau des Programms. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_009"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Vor der Main-Funktion wird dieser
+                Prozess einmal je GEDCOM-Datei angestoßen (siehe <ref type="graphic" target="#urbanonyme_2020_010">Abbildung 10</ref>, die Pfeile zeigen an, in welcher Systematik die Funktionen
+                aufgerufen werden). Bevor das geschehen kann, werden die zu untersuchenden
+                GEDCOM-Datei vorbereitend so verändert, dass die Dateinamen eine Zahl gefolgt von
+                der Dateinamen-Endung ›.ged‹ beinhaltet (d. h. ›1.ged‹, ›2.ged‹ etc.). Zahlen dürfen
+                nicht doppelt vorkommen, jedoch ausgelassen werden. Eine durchlaufende Nummerierung
+                ist empfohlen. </p>
+            <p>Über die Funktion <code>importMiniGOV()</code> findet ein Import des Mini-GOV statt. Hier runter sind
+                verschiedene Textdateien zu verstehen, die zuvor je (heutigem) Staat vom CompGen
+                bereitgestellt werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#verein_index_2021b">Verein für Computergenealogie e. V. (Hg.)
+                    2021b</ref>.</note> Es werden die Mini-GOV-Dateien zu Deutschland, Polen,
+                Österreich, der Schweiz, Tschechien, Dänemark, Frankreich und den Niederlanden
+                integriert. Deutschsprachige Ortsnamen sind als <hi rend="italic">aktueller Name</hi> oder <hi rend="italic">letzter deutscher
+                    Name</hi> gekennzeichnet. Falls es Letzteren gibt, so wird ein zusätzlicher
+                Eintrag kreiert, indem der alte Name den neuen überschreibt.<note type="footnote"> Die Eintragungen der anderen
+                        europäischen Staaten, die keinen letzten deutschen Namen aufweisen, werden
+                        bewusst nicht gelöscht, da das Programm unnötig verschlechtert würde und so
+                        ein Ansatz gelegt ist, um auch auf internationale Ortsangaben adaptiert zu
+                        werden.</note> Ansonsten werden die Mini-GOVs aneinandergesetzt und
+                alphabetisch sortiert. Hintergrund der Sortierung ist die Ermöglichung einer binären
+                Suche darin.</p>
+            <p>Da viele GEDCOM-Dateien einzeln und
+                voneinander unabhängig zu bearbeiten sind, ist eine Parallelisierung des
+                Programmcodes sinnvoll. Die Funktion <code>parallel()</code> wird dazu
+                parallel aufgerufen und bearbeiten. Wesentlich darin ist der nacheinander folgende
+                Aufruf von <code>mainMetadataInspector()</code>,
+                <code>mainPlaceFinder() </code>und <code>mainProvinceFiner()</code>. Die Ergebnisse aus diesen jeweiligen
+                Funktionsaufrufen werden mit der Funktion <code>appendFile()</code> den
+                CSV-Dateien hinzugefügt. Diese Dateien sind zuvor über die Funktion <code>createFile()</code> erstellt worden. Dazu dient unterstützend die
+                Funktion <code>loadData()</code>. Ebenso wurden zuvor die Daten der
+                jeweiligen GEDCOM-Datei über <code>loadGedcomFile()</code> geladen.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_010" url=".../medien/urbanonyme_2020_010.png">
+                  <desc>
+                      <ref target="#abb10">Abb. 10</ref>: Funktionsweise der&#xA; Main. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_010"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Für die Inspektion des Kontextes wird
+                eine Liste von Metadaten zu den einzelnen GEDCOM-Dateien geschaffen (siehe <ref type="graphic" target="#urbanonyme_2020_011">Abbildung 11</ref>). Dazu werden in der Funktion <code>prePlaceFinder()</code> die Ortsangaben über den Tag <code>PLAC</code> erkannt und über die Funktion
+                <code>minigovSearch() </code>geprüft, ob sie nur
+                eine Übereinstimmung im Mini-GOV aufweist. Hierzu wird über eine binäre Suche nach
+                der Anzahl an Übereinstimmungen gesucht. Die jeweilige Ortsangabe wird dadurch
+                bereinigt, indem nur der Teil nach einem möglichen ersten Komma entfernt wird. Wenn
+                nur ein Treffer erzielt wurde, so wird der Ort in eine Liste eindeutiger Orte mit
+                aufgenommen – die selektierten Kontextdaten.</p>
+            <p>Nachfolgend wird in der Funktion <code>qualityChecker()</code> zunächst geprüft, ob die untersuchte
+                Datei schon einmal vollständig verarbeitet wurde. In dem Fall wird für jede
+                Ortsangabe zunächst nochmal geprüft, ob sie in der Liste der eindeutigen Werte
+                vorhanden ist. Nicht zu allen eindeutigen Bezeichnungen gibt es jedoch
+                Koordinatenangaben. Einträge, bei denen diese fehlen, finden keine weitere
+                Beachtung. Mit den restlichen wird ein Clusterungsverfahren durchgeführt. Das
+                gröbste mögliche Cluster stellt dabei den Mittelpunkt aus allen selektierten
+                Kontextdaten dar. Sinnvolle Parameter für die Feinheit der Clusterung werden in der
+                Validierung ermittelt. Die Koordinaten der Cluster werden zurückgegeben und ergänzen
+                die Metadaten der Datei. <code>qualityChecker()</code> greift auf
+                verschiedene Funktionen zu: Mithilfe der Funktion <code>gedcomRowParser()</code> werden die Bestandteile einer GEDCOM-Zeile separiert;
+                    <code>stringDoublingCounter()</code> dient der Zählung von
+                Clustern.</p>
+            <p>Im Ergebnis bestehen die Metadaten aus
+                der Bezeichnung der Datei, den Durchschnittskoordinaten der selektierten
+                Kontextdaten, der Anzahl eindeutiger Ortsbezeichnungen, der Anzahl daraus gebildeter
+                Cluster sowie den Mittelpunkten jedes einzelnen Clusters. Die durchschnittlichen
+                Koordinaten ergeben sich aus dem arithmetischen Mittel der Längen- und Breitengrade
+                aller so gefundenen Ortsangaben.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_011" url=".../medien/urbanonyme_2020_011.png">
+                  <desc>
+                      <ref target="#abb11">Abb. 11</ref>: Funktionsweise der&#xA; Kontextdatenanalyse. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_011"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>In der Funktion <code>mainPlaceFinder()</code> werden die Daten durch die Funktion <code>dataCleaner()</code> zunächst einer weitreichenden Bereinigung unterzogen (siehe
+                <ref type="graphic" target="#urbanonyme_2020_012">Abbildung 12</ref>). In der Funktion <code>stringFunc1()</code> wird dazu unter anderem geprüft, ob eine
+                bestimmte Zeichenkette am Anfang steht; diese wird sodann gelöscht, andernfalls wird
+                alles vor dem Teilstring beibehalten. In <code>stringFunc2()</code>
+                fehlt diese alternative Bedingung. Wie im <ref type="intern" target="#hd11">vorherigen
+                    Abschnitt</ref> zerteilt die Funktion
+                <code>gedcomRowParser() </code>die einzelnen
+                GEDCOM-Zeilen in ihre Bestandteile.</p>
+            <p>Die konkrete Auswahl eines Orts zu
+                einer gegeben Ortsbezeichnung auf Basis der Kontextdaten findet in der Funktion <code>find()</code> statt, die durch die Funktion <code>placefinder()</code> vorbereitet wird. Hier wird im näheren der in <ref type="graphic" target="#urbanonyme_2020_006">Abbildung 6</ref> gegebene Prozess umgesetzt. Unter
+                anderem findet die kontextsensitive Zuordnung von Ortsbezeichnungen und Orten hier
+                statt. Die Suche nach Clustern im Umkreis der Koordinate ist in die Funktion <code>areaSearch()</code> ausgegliedert. Hier wird auch die
+                typenbasierte Zuordnung realisiert, falls die Umkreissuche fehlschlägt.</p>
+            <p>Als Ergebnis steht eine Tabelle zur
+                Verfügung, die für jede (unbereinigte) Ortsbezeichnung in jeder Quelle eine Zeile
+                mit der GOV-URI, ihren ermittelten Koordinaten, der Information, über welche Art und
+                Weise die Funktion <code>find()</code> die Zuordnung getroffen hat, der
+                bereinigten und unbereinigten Ortsangabe sowie den Dateinamen enthält.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_012" url=".../medien/urbanonyme_2020_012.png">
+                  <desc>
+                      <ref target="#abb12">Abb. 12</ref>: Funktionsweise der&#xA; Ortssuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_012"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Zuletzt wird die Provinzsuche durch
+                die Funktion <code>mainProvincefinder()</code> realisiert (siehe <ref type="graphic" target="#urbanonyme_2020_013">Abbildung 13</ref>). Zu jedem zuvor identifizierten
+                Objekt wird die Funktion <code>provincefinder()</code> initiiert.
+                Hierin findet die Suche in der übergeordneten Baumstruktur des GOVs statt. Die dazu
+                notwendigen Informationen werden über die Funktion <code>callWebservice()</code> aus dem Internet abgerufen; es ist also eine
+                Internetverbindung vom ausführenden Gerät vonnöten. Es wird angenommen, dass kein
+                Baum mehr als zehn Ebenen besitzt. Deswegen wird in maximal zehn Iterationen immer
+                eines der übergeordneten Objekte ausgewählt und untersucht. Zunächst wird dazu
+                geprüft, ob eines der Objekte bereits Teil der Zielmenge ist.<note type="footnote"> Die Zuordnung von Provinzen zu
+                        GOV-Objekten ist in Tabelle 6 definiert. Diese GOV-URIs bilden die Zielmenge
+                        für die Clusterung der identifizierten Orte.</note> Wenn das nicht der
+                Fall ist, wird die Zeitspanne der Zugehörigkeit zur Auswahl herangezogen. Zur
+                Berechnung von Beginn- oder Endjahren aus Zeitspannen der Zugehörigkeit zu
+                übergeordneten Objekten im GOV werden die Funktionen <code>beginCalculator()</code> bzw. <code>endCalculator()</code> genutzt.
+                In diesem wird aus der julianischen Angabe der Zeitspanne eine gregorianische
+                Jahresangabe ermittelt. Da die Zeitangaben im GOV oftmals unvollständig sind,
+                existiert ein System, dass mögliche Objekte priorisiert und so die
+                Wahrscheinlichkeit vergrößert, das richtige Objekt auszuwählen. Dabei existieren
+                auszuschließende Objekte (hier: Objekte kirchlichen Typus, ausschließlich
+                Verwaltungsgliederungen anderer Staaten oder gerichtliche Institutionen), die nicht
+                ausgewählt werden sollen. Hieraus folgt das Endergebnis: Eine Tabelle, die die
+                ursprüngliche Bezeichnung, den Namen der Quelldatei, die GOV-URI sowie die
+                Bezeichnung der zugeordneten Provinz enthält.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_013" url=".../medien/urbanonyme_2020_013.png">
+                  <desc>
+                      <ref target="#abb13">Abb. 13</ref>: Funktionsweise der&#xA; Provinzsuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_013"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            <div type="chapter">
+               <head>5. Validierung und Diskussion</head>            
+            <p>Zur Validierung des Algorithmus werden
+                GEDCOM-Dateien aus GEDBAS genutzt. Hier können GEDCOM-Dateien von Nutzer*innen ohne
+                grundsätzliche Beschränkung hochgeladen werden. Dabei können die Nutzer*innen beim
+                Hochladen zulassen, dass ihre Datei anderen zum Download frei zur Verfügung steht.
+                Diese downloadbaren Dateien stellen die Datenbasis für die Validierung dar. Dazu
+                wird der bei Goldberg und Moeller beschriebene Scraper genutzt.<note type="footnote"> Vgl. <ref type="bibliography" target="#goldberg_extraktion_2021">Goldberg / Moeller
+                    2021</ref>.</note> Eine Ausführung des Scrapers am 15. April 2020 erbrachte 1.899
+                GEDCOM-Dateien. Diese enthalten 3.371.825 durch den Tag <code>PLAC</code>
+               <note type="footnote">
+                        Neben dem Tag <code>PLAC</code> gibt es auch die Tags <code>FORM</code> (wenn er sich auf <code>PLAC</code> bezieht) oder <code>_LOC</code>, ja sogar die
+                        direkte Möglichkeit der Angabe von Koordinaten über <code>LATI</code> und <code>LONG</code>. Ebenso existiert der Tag
+                            <code>_GOV</code>, mit dem zu einem Ort direkt die GOV-URI
+                        zugeordneten werden kann. Diese finden allerdings in GEDBAS eher weniger
+                        Verwendung (<code>FORM</code> in Bezug auf <code>PLAC</code>: 2.085 Verwendungen über alle Dateien (diese allerdings in
+                        nur 8 verschiedenen Dateien), <code>_LOC</code>: 101.603 (50),
+                            <code>LATI</code>: 54.719 (88), <code>LONG</code>: 54.718 (88), <code>_GOV</code>: 5.043 (26)).
+                        Das Ergebnis bestätigt die Auffassung von Gellatly, dass diese Art der Geokodierung mehrheitlich nicht genutzt
+                        wird, vgl. Gellatly 2015, S. 118. Aufgrund dieser sehr geringen Verwendung
+                        wird sich im Weiteren auf den Tag <code>PLAC</code> bezogen. Es
+                        ist nachdrücklich erstrebenswert, dass Genealogen diese Felder künftig
+                        direkt pflegen.</note> definierte Ortsangaben. Eine Separierung der
+                Verwaltungszugehörigkeit durch ein Komma wird in den GEDCOM-Dateien in den
+                überwiegenden Fällen nicht eingehalten, sodass diese Regelung schwerlich zu
+                Identifizierung genutzt werden kann – und da wo sie eingehalten wird, werden
+                unterschiedliche Verfahren genutzt.<note type="footnote"> In 1.629.274 <code>PLAC</code>-Angaben
+                        (48 Prozent) kommen insgesamt 3.933.251 Kommata vor – bei einer konsistenten
+                        Verwendung wären es etwa zehn Millionen. Allerdings ist zu erkennen, dass
+                        die Kommasetzung in einigen großen (meist englischsprachigen) Dateien stark
+                        konzentriert ist: 80 Prozent der Kommata fallen in 2,6 Prozent der Dateien
+                        an. Allein 13 Dateien (von 2.899) enthalten die Hälfte aller <code>PLAC</code>-Kommata. Das zeigt deutlich, dass diese
+                        Ordnungssystematik bei der Identifizierung von GEDBAS-Urbanonymen keine
+                        breite Hilfestellung sein kann.</note>
+            </p>
+            <p>Etwa 12 Prozent dieser
+                Ortsbezeichnungen sind einem Objekt im Mini-GOV direkt zuzuordnen. Sie stellen
+                demnach die Kontextdaten dar. Für weitere 34 Prozent gibt es mehrere, für 54 Prozent
+                keinen Treffer. Diese 12 Prozent bilden die selektierten Kontextdaten, mit denen
+                eine Clusterung durchgeführt werden kann. Für diese Anforderungen ist eine
+                Clusterung gemäß DBSCAN-Verfahren geeignet (Density-Based Spatial Clustering of
+                Applications with Noise). Der von Ester et al. beschriebene Algorithmus besagt, dass
+                jeder Datenpunkt für sich betrachtet werden soll; ist er noch nicht klassifiziert
+                wird die Bildung eines neuen Clusters oder die Zuordnung zu einem bestehenden
+                    angestoßen.<note type="footnote">
+                        Vgl. <ref type="bibliography" target="#ester_noise_1996">Ester et al. 1996</ref>, S. 229.</note> In Anlehnung daran ist eine
+                Clusterung auch für die Kontextdaten realisiert (siehe Funktion <code>qualityChecker()</code>). Um die Parameter der Clusterung anzupassen ist eine
+                Betrachtung der Streuung der Cluster in einzelnen GEDCOM-Dateien von Interesse. Zum
+                einen kann die Mindestanzahl von Orten variiert werden, die nötig sind, um ein
+                Cluster zu bilden. Zum anderen ist die Mindestdistanz entscheidend, die ein Ort von
+                einem Cluster entfernt sein muss, um diesem nicht zugeschlagen zu werden. Im
+                Folgenden wird dieses für die GEDCOM-Dateien untersucht.<note type="footnote"> Bei der Validierung durch andere
+                        Quellen würden gegebenenfalls andere Ergebnisse resultieren.</note> Bei
+                einem Vergleich der Mittelpunkte von Clustern einer Quelle bei Variation der
+                Parameter (Kilometer zur Zusammenführung zweier Orte, Mindestanzahl von Orten für
+                ein Cluster, siehe <ref type="graphic" target="#urbanonyme_2020_014">Abbildung 14</ref>) zeigt sich,
+                dass eine Distanz von 10 km (links) dazu führt, dass es sehr viele Cluster gibt, die
+                nah beieinander liegen. Dieses ist ein unerwünschter Effekt, da diese Cluster aus
+                der Perspektive des gesamten deutschen Sprachraumes zu wenig voneinander entfernt
+                sind. Es deutet sich ein weiteres lokales Maximum bei der Distanz von etwa 450 km
+                an. Auch bei 25 km zeigt sich dieses Bild (Mitte), allerdings in sehr abgeschwächter
+                Form. Erst bei 50 km ist der starke Anstieg nach Erreichen des Mindestabstandes
+                abgeflacht (rechts). Der Erwartungswert der Verteilung liegt etwa bei 450 km.
+                Gleiches gilt bei einer Variation der Mindestanzahl an Koordinatendatenpunkten je
+                Cluster zu erkennen. Hierdurch wird jedoch die absolute Zahl der Cluster stark
+                geschrumpft.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_014" url=".../medien/urbanonyme_2020_014.png">
+                  <desc>
+                      <ref target="#abb14">Abb. 14</ref>: Anzahl an&#xA;&#xA; Clustern nach durchschnittlichem Abstand in km bei Variation des Mindestabstandes zwischen&#xA; Clustern (10 km, 25 km, 50 km) und Mindestgröße von Clustern (2, 6, und 11), jeweils 200 Bins. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_014"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Bei einer Betrachtung der Anzahl von
+                Clustern pro Datei für jede dieser neun Optionen ergibt sich, dass die
+                unterschiedlichen Optionen vor allem bei Dateien mit vielen Clustern eine Auswirkung
+                aufzeigen. Liegen eine geringere Mindestgröße und ein geringer Minimalabstand
+                zwischen zwei Punkten von Clustern vor, erhöht sich die Anzahl der gesamten Cluster
+                stark (siehe <ref type="graphic" target="#urbanonyme_2020_015">Abbildung 15</ref>). Das bedeutet, dass
+                bei einer niedrigen Mindestdistanz sehr viele nah beieinanderliegende Cluster
+                existieren. Aus diesem Grund wurde die Mindestdistanz von 50 km gewählt. Als
+                Mindestgröße eines Clusters wird &gt;5 gewählt, um einerseits die starke Erhöhung
+                der Clusteranzahl bei einem weiteren Absenken der Mindestgröße zu vermeiden, auf der
+                anderen Seite aber auch in wenig umfangreichen Dateien eine Clusterbildung zu
+                ermöglichen. </p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_015" url=".../medien/urbanonyme_2020_015.png">
+                  <desc>
+                      <ref target="#abb15">Abb. 15</ref>: Zusammenhang&#xA; zwischen Mindestdistanz, Mindestclustergröße und Clusteranzahl, links mit&#xA; logarithmischer Skalierung. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_015"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Definiert wird also, dass ein Cluster
+                mindestens aus sechs Orten bestehen muss. Ferner muss jeder Ort eines Clusters 50
+                Kilometer von dem Ort eines anderen Clusters entfernt liegen; ansonsten würden sie
+                in einem gemeinsamen Cluster zusammengeführt. Es zeigt sich, dass dadurch 66 Prozent
+                der GEDCOM-Dateien, die überhaupt ein Cluster aufweisen,<note type="footnote"> 52 Prozent GEDCOM-Dateien weisen
+                        kein Cluster auf. Das liegt darin begründet, dass kein Cluster von
+                        mindestens fünf Ortsangaben gebildet werden konnte.</note> nur ein
+                einziges Cluster aufweisen, das den oben definierten Eigenschaften (50 km, mind. 6
+                zusammenhängende Orte) entspricht. 19 Prozent jedoch weisen zwei Cluster auf, 15
+                Prozent sogar mehr als zwei. Die Entfernung der Optionen einer unidentifizierten
+                Ortsangabe werden für alle Clustermittelpunkte berechnet. Der Ort mit der geringsten
+                Distanz zu einem der Clusterpunkte wird für die Identifizierung gewählt.</p>
+            <p>Ein weiterer Bestandteil der
+                Validierung bezieht sich auf die Ähnlichkeitsanalyse. Diese ist zwar nicht primär
+                zum kontextbasierten Aspekt des Algorithmus zu zählen, wird aufgrund der Relevanz
+                für das Gesamtergebnis aber trotzdem diskutiert. Die Ortsangaben, zu denen keine
+                Übereinstimmung gefunden werden konnten, werden einer Ähnlichkeitsanalyse
+                unterzogen. Dazu werden zwei Varianten verglichen. Zum einen ist das die
+                Levenshtein-Distanz (bereits in <ref type="intern" target="#hd4">Abschnitt 2.2</ref>
+                erläutert). Zum anderen wird ein Maß gesetzt, dass sich hierarchisch auf
+                verschiedene Bestandteile stützt: Zunächst werden vertauschte Zeichen erkannt, indem
+                die 61 Orte<note type="footnote"> Siehe
+                        hierzu Anm. 41.</note> einer Anagrammdetektion unterzogen werden.<note type="footnote"> Der Nachteil dieses
+                        Vorgehens liegt auch hier darin, dass vertauschte Zeichen am Anfang der
+                        Zeichenkette nicht erkannt werden, weil sie in einer alphabetischen
+                        Sortierung weit entfernt sind. Zudem erkennt eine Ähnlichkeitsanalyse durch
+                        ein Anagramm nur vertauschte Zeichen, nicht aber ausgelassene oder
+                        zusätzlich vorhandene Buchstaben.</note> Falls kein Anagramm erkannt
+                wird, werden zunächst aufeinanderfolgende doppelte Buchstaben in beiden
+                Zeichenketten entfernt. Sind diese dann gleich, besteht eine Zuordnung. Ist das
+                nicht der Fall, so wird mit dem verbleibenden Zeichen ein Vergleich nach der Kölner
+                Phonetik angestellt. Bei einem gleichen Ergebnis findet eine Auswahl statt.</p>
+            <p>Bei einem initialen Grenzwert von 0,25
+                (Verhältnis von Anzahl der Änderungen zur Länge der Zeichenkette<note type="footnote"> Bei der Kölner Phonetik wird dazu
+                        die Levenshtein-Distanz der ursprünglichen Zeichenketten
+                    herangezogen.</note>) ergeben sich sowohl bei der Levenshtein-Distanz als
+                auch bei dem alternativen Maß viele Falschpositive (75 bzw. 74 Prozent). Ein
+                Großteil dieser ist zum einen durch Ortsangaben zu Orten außerhalb des
+                Betrachtungsgebietes bedingt, die dennoch deutschen Ortsnamen ähneln. Zum anderen
+                sind dort überproportional viele Bezeichnungen vorhanden, die Orte in den ehemaligen
+                Ostgebieten beschreiben und bei denen die zeitliche Konsistenz der Ortsbezeichnung
+                (u. a. aufgrund von Umbenennungen) gering ist. Auch liegt das darin begründet, dass
+                Ortsbezeichnungen teilweise sehr ähnlich sind.<note type="footnote"> Bei einer zulässigen Levenshtein-Distanz von 2
+                        sind beispielsweise Orte wie Nehmten und Nehren, Neiden und Nehren, Bövingen
+                        und Böttingen, Muron und Murr, Murow und Murr, Balden und Belsen, Weißstein
+                        und Beilstein oder Hattingen und Böttingen als gleich anzusehen. Selbst bei
+                        einer Verringerung der Toleranz auf eine Distanz von 1 würden viele
+                        FP-Ergebnisse produziert, beispielsweise bei Nehden und Nehren, Bötzingen
+                        und Böttingen oder Oderthal und Odenthal.</note> Vermeintlich korrekte
+                TP-Ergebnisse (z. B. ›Stuttgardt‹ zugeordnet zu ›Stuttgart‹) sind in der Minderheit.
+                Aus diesem Grund wird die Grenze auf 0,17 (ab sechs Buchstaben eine Veränderung, ab
+                12 Buchstaben zwei Veränderungen etc.) verringert. In der Folge kommt die
+                Ähnlichkeitsanalyse über die Levenshtein-Distanz etwa bei jedem sechsten Fall zu
+                einem Ergebnis, das alternative Maß in jedem fünften Fall (siehe <ref type="graphic" target="#urbanonyme_2020_t3">Tabelle 3</ref>). Bei 9,34 bzw. 11,90 Prozent
+                ergeben sich mehrere Übereinstimmungen, von denen eine ausgewählt wird. Beide
+                Ähnlichkeitsanalysen produzieren mehr falsche als richtige Ergebnisse. Dieses zeigt,
+                dass die Ähnlichkeitsanalyse insbesondere bei einer schlechten Datenqualität und vor
+                dem Hintergrund einer großen Ähnlichkeit von Ortsbezeichnungen eine Herausforderung
+                ist, die hier nicht zur vollkommenen Zufriedenheit gelöst werden kann. Künftige
+                Forschungen sollten sich diesem Aspekt verstärkt annehmen. Aber auch wenn der Wert
+                bezogen auf die GEDCOM-Dateien nicht zufriedenstellend ist, so sollte dieses Element
+                im Algorithmus dennoch beibehalten werden. Es ist zu erwarten, dass bei anderen
+                Quellen mit einer besseren Datenqualität auch eine bessere Erkennung
+                    einhergeht.<note type="footnote">
+                        Eine Idee für die künftige Erweiterung des Algorithmus besteht darin, dass
+                        unklare Ortsangaben zunächst innerhalb des Kontextes verglichen werden.
+                        Insbesondere in GEDCOM-Dateien besteht eine hohe Wahrscheinlichkeit, dass
+                        Orte doppelt genannt werden; Schreibfehler könnten hierüber gegebenenfalls
+                        effektiv erkannt werden.</note> Da der alternative Vergleich über
+                Anagramme und die Kölner Phonetik bessere Werte (mehr TP-Ereignisse<note type="footnote"> Zur Ermittlung
+                        wurden 100 zufällige Ergebnisse ausgewählt und manuell eingeschätzt, ob es
+                        sich um ein richtiges oder falsches Ergebnis handelt.</note>) aufweist,
+                wird diese Alternative im Weiteren ausgewählt.</p>
+            <table>
+               <row>
+                    <cell>Ähnlichkeitsmaß</cell>
+                    <cell>Erkennung = 1</cell>
+                    <cell>FP</cell>
+                    <cell>TP</cell>
+                    <cell>Erkennung &gt; 1<note type="footnote"> Die Angabe zu den Falschpositiven und
+                                Falschnegativen bezieht sich zudem auf die nachfolgende Auswahllogik
+                                eines der erkannten Orte (anhand geographischer Nähe, Typ etc.); nur
+                                dieses wird untersucht.</note>
+                  </cell>
+                    <cell>FP</cell>
+                    <cell>TP</cell>
+                </row>
+               <row>
+                    <cell>Levenshtein-Distanz</cell>
+                    <cell>6,23 %</cell>
+                    <cell>68</cell>
+                    <cell>32</cell>
+                    <cell>9,34 %</cell>
+                    <cell>71</cell>
+                    <cell>29</cell>
+                </row>
+               <row>
+                    <cell>Anagramm und Kölner
+                        Phonetik</cell>
+                    <cell>7,22 %</cell>
+                    <cell>65</cell>
+                    <cell>35</cell>
+                    <cell>11,90 %</cell>
+                    <cell>67</cell>
+                    <cell>33</cell>
+                </row>
+                <trailer xml:id="tab03">
+                    <ref type ="intern" target="#tab3">Tab. 3</ref>: Vergleich&#xA;
+                verschiedener Ähnlichkeitsmaße, alle Angaben in Prozent, Grenze: 0,17. [Goldberg
+                2022]<ref type="graphic" target="#urbanonyme_2020_t3"/>
+                  </trailer>
+               </table>
+            <p>Eine Ausführung des Algorithmus unter
+                den oben festgelegten Variationen ergibt das in <ref type="graphic" target="#urbanonyme_2020_t4">Tabelle 4</ref> dargestellte Ergebnis. 49,72 Prozent der Urbanonyme wird ein
+                GOV-URI zugeordnet, 50,28 Prozent hingegen nicht. Der prozentuale Anteil der jeweils
+                möglichen Ereignisse zeigt, dass fast jedes dritte Urbanonym dem weiteren Verfahren
+                entzogen wird, weil es unerlaubte Bestandteile enthält. Hierzu dienen insbesondere
+                Hinweise auf eine Angabe außerhalb des Betrachtungsgebiets (z. B. Kürzel von
+                US-Bundesstaaten). Die kontextbasierte Auswahl auf Basis der geographischen Nähe
+                bekommt daher eine hohe Relevanz. Auffällig ist auch der hohe Anteil an Ortsangaben,
+                zu denen kein Pendant (also auch keine Ähnlichkeit) zu den Orten des Mini-GOVs
+                vorhanden ist. Dem zugrunde liegen viele Berufsangaben und Orte außerhalb des
+                Betrachtungsgebiets, aber auch vermeintlich korrekte Ortsangaben, die in einem
+                unüblichen Format vorliegen (z. B. als Wikipedia-Verlinkung) oder sehr falsch
+                geschrieben sind. Ansonsten finden sich auch hier überproportional viele Angaben,
+                die auf ehemalige deutsche Ostgebiete hinweisen und nicht in der Ausführlichkeit im
+                Mini-GOV gepflegt sind. Wenig relevant sind dagegen die Fälle, die die Typen der
+                Objekte einbeziehen. Von diesen ist einzig allein die Option, bei der nur ein Objekt
+                einen passenden Typ besitzt, mit 7,44 Prozent bedeutend.</p>
+            <table>
+               <row>
+                    <cell>Auswahlkriterium</cell>
+                    <cell>Anteil
+                        in Prozent</cell>
+                </row>
+               <row>
+                    <cell>Unerlaubte Bestandteile</cell>
+                    <cell>31,51</cell>
+                </row>
+               <row>
+                    <cell>Unerlaubter Angabe</cell>
+                    <cell>0,07</cell>
+                </row>
+               <row>
+                    <cell>Einziger passender Treffer in
+                        Ähnlichkeitsanalyse</cell>
+                    <cell>2,05</cell>
+                </row>
+               <row>
+                    <cell>Einziger mit Koordinaten nach
+                        Ähnlichkeitsanalyse</cell>
+                    <cell>0,58</cell>
+                </row>
+               <row>
+                    <cell>Geographische Nähe nach
+                        Ähnlichkeitsanalyse</cell>
+                    <cell>2,42</cell>
+                </row>
+               <row>
+                    <cell>Einziger gültiger Typ nach
+                        Ähnlichkeitsanalyse</cell>
+                    <cell>0,02</cell>
+                </row>
+               <row>
+                    <cell>Keiner mit gültigem Typ nach
+                        Ähnlichkeitsanalyse</cell>
+                    <cell>0,00</cell>
+                </row>
+               <row>
+                    <cell>Ein passender Typ nach
+                        Ähnlichkeitsanalyse</cell>
+                    <cell>0,05</cell>
+                </row>
+               <row>
+                    <cell>Zu viele passende Typen nach
+                        Ähnlichkeitsanalyse</cell>
+                    <cell>0,00</cell>
+                </row>
+               <row>
+                    <cell>Ein einziger passender
+                        Treffer</cell>
+                    <cell>11,25</cell>
+                </row>
+               <row>
+                    <cell>Ein einziger Treffer mit
+                        Koordinaten</cell>
+                    <cell>6,53</cell>
+                </row>
+               <row>
+                    <cell>Geographische Nähe</cell>
+                    <cell>18,87</cell>
+                </row>
+               <row>
+                    <cell>Einziger gültigen Typ</cell>
+                    <cell>0,41</cell>
+                </row>
+               <row>
+                    <cell>Keiner mit gültigem Typ</cell>
+                    <cell>0,05</cell>
+                </row>
+               <row>
+                    <cell>Ein passender Typ</cell>
+                    <cell>7,44</cell>
+                </row>
+               <row>
+                    <cell>Zu viele passende Typen</cell>
+                    <cell>0,00</cell>
+                </row>
+               <row>
+                    <cell>Kein Auswahlkriterium
+                        entscheidend</cell>
+                    <cell>0,48</cell>
+                </row>
+               <row>
+                    <cell>Kein Pendant im Mini-GOV
+                        gefunden</cell>
+                    <cell>18,17</cell>
+                </row>
+                <trailer xml:id="tab04">
+                    <ref type ="intern" target="#tab4">Tab. 4</ref>: Endzustände des&#xA;
+                Algorithmus am Beispiel Ortsangaben in GEDCOM-Dateien, Grundgesamtheit von 262.741
+                Einträgen.<note type="footnote"> Die&#xA;
+                erhebliche Verkleinerung der Anzahl zu untersuchender Ortsangaben (von&#xA;
+                3.057.810 auf 262.741) ist auf die Löschung doppelter Ortsangaben in einer&#xA;
+                        Datei zurückzuführen.</note> [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t4"/>
+                </trailer>
+            </table>
+            <p>Eine Stichprobe von 100 Werten
+                erbrachte 36 TP-Werte<note type="footnote"> Erkannte Orte aus den nicht-deutschen Mini-GOVs fallen
+                        in diese Kategorie.</note>, 42 TN-Werte, 11 FP-Werte<note type="footnote"> Nicht erkannte Orte aus den
+                        nicht-deutschen Mini-GOVs fallen in diese Kategorie.</note> und 11
+                    FN-Werte.<note type="footnote"> Die
+                        für die Einordnung in die vier Kategorien notwendige manuelle
+                        Klassifizierung basierte dabei auf der Hinzunahme von Informationen, die bei
+                        der Bereinigung gelöscht wurden sowie dem Aufrufen der GEDCOM-Datei und
+                        Vergleich mit den Orten der näheren Verwandtschaft (nicht wie im Algorithmus
+                        mit den Clustern der Quelle generell). Ortsbezeichnungen in den Ländern der
+                        inkludierten Mini-GOVs wurden hierbei wie Orte in Deutschland
+                    behandelt.</note> Der hohe Anteil an Falschnegativen ist dadurch zu
+                erklären, dass das Mini-GOV nicht alle Orte oder Varianten enthält (insbesondere in
+                ehemaligen deutschsprachigen Siedlungsgebieten). Die Gründe für eine wahrnegative
+                Lokalisierung hingegen sind überwiegend dadurch bedingt, dass Ortsangaben außerhalb
+                des Betrachtungsgebiets als solche erkannt werden. Insgesamt sind also 78 Prozent
+                der Ortsangaben korrekt und 22 Prozent nicht korrekt behandelt worden.</p>
+            <p>Der zweite Teil der Validierung
+                bezieht sich auf die Clusterung der GOV-URIs zu den Provinzen. Bei insgesamt 68.011
+                GOV-URIs wurde versucht, mit dem Algorithmus eine Provinz zum Jahr 1820 zuzuordnen.
+                Bei 46.877 GOV-URIs (69 Prozent) war die Zuordnung erfolgreich. Der hohe Anteil an
+                nicht zugeordneten GOV-URIs ist jedoch diskussionswürdig. Aus diesem Grund wurden
+                100 zufällige nicht zuordenbare GOV-URIs manuell überprüft.<note type="footnote"> Dieser Schritt wurde im Verlauf
+                        der Erarbeitung iterativ durchgeführt, um ungünstige Funktionen des
+                        Programmcodes zu entdecken und zu verbessern.</note> Die Fehler sind in
+                    <ref type="graphic" target="#urbanonyme_2020_t5">Tabelle 5</ref> dargestellt.</p>
+            <table>
+               <row>
+                    <cell>Grund
+                        der fehlgeschlagenen Klassifizierung</cell>
+                    <cell>Anzahl</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>Ort liegt außerhalb der Zielprovinzen
+                            </p>
+                     <p>(In heutigen
+                            Staaten: Niederlande 29x, Frankreich 12x, Österreich 9x, Tschechien 5x,
+                            Schweiz 3x, Polen 3x, Dänemark 1x)</p>
+                  </cell>
+                    <cell>62</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>GOV-Daten sind unvollständig</p>
+                     <p>(Klassifiziert nach den
+                            heutigen Bundesländern: Schleswig-Holstein 12x, Rheinland-Pfalz 7x,
+                            Saarland 4x, Sachsen 2x, Baden-Württemberg 2x, Hessen 2x, Bayern 1x,
+                            Thüringen 1x, Sachsen-Anhalt 1x)</p>
+                  </cell>
+                    <cell>32</cell>
+                </row>
+               <row>
+                    <cell>Ausgestaltung des Algorithmus
+                        deckt Fall nicht ab</cell>
+                    <cell>6</cell>
+                </row>
+                <trailer xml:id="tab05">
+                    <ref type="intern" target="#tab5">Tab. 5</ref>: Fehler in der&#xA; Zuordnung der Provinzen bei der Bezugszeit 1820. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t5"/>
+                </trailer>
+            </table>
+                
+            <p>Es zeigt sich, dass der wesentliche
+                Grund für den hohen Grad der Nicht-Erkennung darin liegt, dass die Objekte außerhalb
+                des relevanten Zielgebiets liegen oder aber die GOV-Daten nicht vollständig sind.
+                Letzteres betrifft vor allem die Orte in den heutigen Bundesländern
+                Schleswig-Holstein, Rheinland-Pfalz und im Saarland. Hochgerechnet etwa 94 Prozent
+                der Fehler liegen als nicht primär im Algorithmus begründet. Daraus ergibt sich eine
+                Trefferquote von 97 Prozent<note type="footnote">
+                        [Anzahl gefundener Provinzen] ÷ [Anzahl
+                            gefundener Provinzen + (1 – Anteil Fehler) × Anzahl nicht gefundener
+                            Provinzen].</note> für die gesamte Provinzenzuordnung bezogen
+                auf die GOV-URIs im Betrachtungsgebiet bei denen das GOV vollständig gepflegt ist.
+                Hier zeigt sich, dass das GOV bereits eine breite Datengrundlage enthält und viele
+                Fälle abdecken kann, jedoch in Bezug auf die historischen Verwaltungszugehörigkeiten
+                auch künftig weiter komplettiert werden sollte. </p>
+            <p>Bei einer Änderung der Bezugszeit auf
+                das Jahr 2020 ergibt sich ein ähnliches Bild (siehe <ref type="graphic" target="#urbanonyme_2020_t6">Tabelle 6</ref>). Auffällig ist, dass die GOV-Verwaltungszugehörigkeiten hier
+                vollständiger sind. Am deutlichsten ist das bei Schleswig-Holstein. Für die
+                Bezugszeit 2020 ergibt sich eine Trefferquote von 96 Prozent. Die Fehler sind
+                allerdings etwas anders bedingt. Zwar sind sie auch darauf zurückzuführen, dass das
+                GOV unvollständig ist. Das Bundesland ist jedoch (anders als oben) Teil der
+                übergeordneten Objekte; lediglich die Dauer der Zugehörigkeit ist nicht gepflegt.
+                Das tritt bei einzelnen Orten in Bayern und in Schleswig-Holstein um Lübeck herum
+                auf.</p>
+            <table>
+               <row>
+                    <cell>Grund
+                        der fehlgeschlagenen Klassifizierung</cell>
+                    <cell>Anzahl</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>Ort liegt außerhalb der Zielprovinzen
+                            </p>
+                     <p>(In heutigen
+                            Staaten: Niederlande 41x, Polen 22x, Österreich 12x, Tschechien 10x,
+                            Frankreich 5x, Schweiz 2x, Dänemark 1x)</p>
+                  </cell>
+                    <cell>93</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>Ausgestaltung des Algorithmus deckt Fall
+                            nicht ab</p>
+                     <p>(Klassifiziert nach den heutigen Bundesländern: Schleswig-Holstein 3x,
+                            Bayern 3x, Rheinland-Pfalz 1x)</p>
+                  </cell>
+                    <cell>7</cell>
+                </row>
+                    <trailer xml:id="tab06">
+                        <ref type="intern" target="#tab6">Tab. 6</ref>: Fehler in der&#xA; Zuordnung der Provinzen bei der Bezugszeit 2020. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t6"/>
+                    </trailer>
+            </table>
+            <p>Insgesamt werden mit dem Algorithmus –
+                unabhängig der beiden getesteten Bezugszeiten – etwa drei von vier Ortsangaben
+                richtig identifiziert und lokalisiert. Werden die Ortsangaben isoliert betrachtet,
+                die einer Provinz zugeordnet werden, so sind hier ebenfalls etwa drei von vier
+                Zuordnungen korrekt. Fast jede identifizierte Ortsangabe kann nachfolgend auch
+                regional geclustert werden.</p>
+            </div>
+            <div type="chapter">
+               <head>6. Zusammenfassung</head>
+            
+            <p>Ob das Neustadt an der Aisch oder in
+                Sachsen, an der Weinstraße oder in Hessen gemeint ist, kann durch den vorgestellten
+                Algorithmus nun ermittelt werden – er trifft eine Entscheidung ohne menschliches
+                Zutun. Grundlage hierfür stellt der Kontext dar, in dem die Bezeichnung des Ortes
+                genannt wird. Die Kontextsensitivität wird dadurch erreicht, dass ein Bezug zu
+                anderen Ortsangaben in der gleichen Quelle hergestellt wird. Die grundlegende
+                Heuristik dahinter besagt: Gemeinsam genannte Orte liegen beieinander. Durch die
+                Formalisierung und Automatisierung dieser Heuristik ergibt sich eine
+                kontextsensitive Anwendung, die auf verschiedenen wissenschaftlichen Gebieten
+                genutzt werden kann. Der Algorithmus trifft bei Anwendung auf die GEDCOM-Dateien der
+                öffentlich zugänglichen genealogischen Datenbank GEDBAS – nach einer Bereinigung –
+                in drei von vier Fällen eine korrekte Entscheidung. Das ist vor dem Hintergrund ein
+                guter Wert, dass die Daten oftmals eine schlechte Qualität aufweisen, kein Standard
+                in der Benennung praktiziert wird und sie Urbanonyme aus aller Welt enthalten,
+                wenngleich der Schwerpunkt im zentraleuropäischen Raum zu verorten ist.</p>
+            <p>Die Ortsbezeichnungen werden mithilfe
+                des Kontextes identifiziert, durch die Bestimmung der Koordinaten lokalisiert und
+                anschließend in einer (historischen) Provinz regional geclustert. Für den letzten
+                Aspekt ist eine Bezugszeit zu definieren. Der Algorithmus ist derzeit darauf
+                ausgelegt, Orte innerhalb des deutschsprachigen Raums (ohne Österreich und die
+                Schweiz) in den Grenzen von 1815 bis 1871 sowie ab 1990 zuzuordnen. In diesem Rahmen
+                kann sich auch die Bezugszeit bewegen. Dazu wird das <bibl>
+                  <title type="desc">Geschichtliche Orts-Verzeichnis</title>
+               </bibl> (GOV) genutzt, ein geographisches Lexikon,
+                das stetig erweitert wird. Die Zuordnung zu einer definierten Provinz gelingt in 70
+                Prozent der Fälle. Werden diejenigen Fehler herausgefiltert, die auf einer
+                unvollständigen Datengrundlage und Orten außerhalb des Betrachtungsgebiets basieren,
+                ergibt sich eine Zuordnungsrate von 96 Prozent.</p>
+            <p>Zusammengefasst werden drei von vier
+                relevanten Ortsangaben lokalisiert, wovon wiederum drei Viertel korrekt sind. Über
+                90 Prozent der Orte im Betrachtungsgebiet können nachfolgend regional geclustert
+                werden. Der Algorithmus bietet damit eine geeignete Grundlage, um ihn an
+                verschiedene Anwendungsszenarien anzupassen. Er stellt dadurch ein frei verfügbares
+                Werkzeug insbesondere für wirtschafts- und sozialgeschichtliche Untersuchungen dar.
+                Er kann prädestiniert dafür eingesetzt werden, Fragen der räumlichen Mobilität zu
+                erörtern oder einzelne Datensätze in historischen Provinzen zu klassifizieren. Vor
+                allem der Einsatz in kilometrischen Studien ist vorstellbar. Vorteile ergeben sich
+                insbesondere in der Verarbeitung von Massendaten, wodurch neue Perspektiven für die
+                Wissenschaft eröffnet werden. Er ist besonders dann vorteilhaft, wenn viele
+                Ortsangaben im Kontext erfasst sind. Das ist u. a. der Fall, wenn zahlreiche
+                zusammenhängende Orte ausgewertet und lokalisiert werden müssen. Zur Validierung des
+                Algorithmus wurden zwar genealogische Daten genutzt. Prinzipiell ist der Algorithmus
+                aber bei all solchen Quellen empfehlenswert, bei denen im Kontext weitere
+                Ortsbezeichnungen genannt werden und ein räumlicher Zusammenhang nicht explizit
+                verneint werden kann.<note type="footnote"> Der Algorithmus sollte zudem nicht auf antike oder
+                        mittelalterliche Quellen angewendet werden, da die hier verwendete
+                        Referenzdatenbank, das GOV, keine Daten über solch frühe Strukturen enthält.
+                        Darüber hinaus bestehen andere Herausforderungen, die einer gesonderten
+                        Betrachtung bedürfen. Die Idee der kontextsensitiven Entscheidungsfindung
+                        über geographische Distanzen kann jedoch auch bei solchen Quellen Anwendung
+                        finden.</note>
+            </p>
+            <p>Derzeit deckt der Algorithmus den
+                historischen deutschen Sprachraum ab. Da Informationen des GOVs auch für weitere
+                europäische Länder verfügbar sind, könnten diese samt der dazugehörigen Regionen
+                folgend integriert werden. Der Algorithmus ist zwar auf die deutsche Sprache
+                ausgelegt (z. B. der Einsatz der Kölner Phonetik und die String-Bereinigungsregeln).
+                Dennoch könnte er auf weitere Länder / Sprachen angepasst werden. Auch ist eine
+                Weiterentwicklung des Kontextbezugs denkbar. Ein Beispiel dafür stellen die im
+                Kontext genannten Vor- und Familiennamen dar. Voraussetzung hierfür ist eine
+                vorhergehende Erstellung einer Datenbasis über die zeitliche und räumliche
+                Verbreitung von Namen, auf die sich der Algorithmus beziehen kann.</p>
+            </div>
+            <div type="bibliography">
+               <head>Bibliographische Angaben</head>
+             <listBibl><bibl xml:id="abowd_context-awareness_1999">Gregory Dominic Abowd / Anind
+                    K. Dey / Peter J. Brown / Nigel Davies / Mark Smith / Pete Steggles: Towards a
+                    Better Understanding of Context and Context-Awareness. In: Handheld and
+                    Ubiquitous Computing. Hg. von Hans-Werner Gellersen. Berlin / Heidelberg 1999.
+                    S. 304-307. <ptr type="gbv" cRef="302206205"/></bibl>
+                 <bibl xml:id="baehr_bevoelkerungsgeographie_1992">Jürgen Bähr / Christoph Jentsch / Wolfgang Kuls:
+                     Bevölkerungsgeographie. Berlin u. a. 1992. <ptr type="gbv" cRef="028380339"/></bibl>
+                 <bibl xml:id="clarke_principles_2009">Bertrand Clarke / Ernest Fokoue / Hao Helen Zhang:
+                Principles and Theory for Data Mining and Machine Learning. Dordrecht u. a. 2009. (=
+                Springer Series in Statistics) <ptr type="gbv" cRef="593579658"/> </bibl>
+                 <bibl xml:id="ester_noise_1996">Martin Ester / Hans-Peter Kriegel / Xiaowei Xu: A
+                Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with
+                Noise. In:
+                Proceedings. Second
+                International Conference on Knowledge Discovery &amp; Data Mining. Hg. von Evangelos
+                Simoudis / Jiawei Han / Usama Fayyad (KDD-96: 2,Portland, OR, 02.–04.08.1996) Menlo
+                Park, CA 1996. PDF. [<ref target="https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf">online</ref>] <ptr type="gbv" cRef="223215147"/></bibl>
+                 <bibl xml:id="fawcett_introduction_2006">Tom Fawcett: An introduction to ROC analysis. In: Pattern
+                     Recognition Letters 27 (2006), H. 8, S. 861–874. <ptr type="gbv" cRef="129161756"/></bibl>
+                 <bibl xml:id="feigenbaum_computers_1963">Computers and thought. Hg. von Edward A. Feigenbaum /
+                     Julian Feldman. New York, NY u. a. 1963. <ptr type="gbv" cRef="020732821"/></bibl>
+                 <bibl xml:id="fertig_zeitalter_2018">Georg Fertig / Christian Schlöder / Rolf Gehrmann /
+                Christina Langfeldt / Ulrich Pfister: Das postmalthusianische Zeitalter: Die
+                Bevölkerungsentwicklung in Deutschland, 1815–1871. In: Vierteljahrschrift für
+                Sozial- und Wirtschaftsgeschichte 105 (2018), H. 1, S. 6–33. <ptr type="gbv" cRef="129459623"></ptr></bibl>
+                 <bibl xml:id="gallagher_estimating_2008">Andrew C. Gallagher / Tsuhan Chen: Estimating age, gender,
+                and identity using first name priors. In: IEEE Conference on Computer Vision and
+                Pattern Recognition (2008). DOI: <ref target="https://doi.org/10.1109/CVPR.2008.4587609">10.1109/CVPR.2008.4587609</ref> <ptr type="gbv" cRef="577792776"/></bibl>
+                 <bibl xml:id="gellatly_reconstructing_2015">Corry Gellatly: Reconstructing Historical Populations from
+                Genealogical Data Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft /
+                Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111–128.
+                     <ptr type="gbv" cRef="833549804"/></bibl>
+                 <bibl xml:id="gentile_techniques_2013">Geolocation Techniques: Principles and Applications. Hg.
+                von Camillo Gentile / Nayef Alsindi / Ronald Raulefs / Carole Teolis. New York, NY
+                u. a. 2013. <ptr type="gbv" cRef="73135057X"/></bibl>
+                 <bibl xml:id="gesellschaft_vornamen_2019">Ausführliche Auswertung: Vornamen 2018. Hg. von
+                Gesellschaft für deutsche Sprache e. V. In: gfds.de. Wiesbaden u. a. 2019.
+                Pressemitteilung vom 02.05.2019. [<ref target="https://gfds.de/ausfuehrliche-auswertung-vornamen-2018/">online</ref>] </bibl>
+                 <bibl xml:id="gigerenzer_heuristics_1999">Simple Heuristics that make us smart. Hg. von Gerd
+                     Gigerenzer / Peter M. Todd. New York, NY u. a. 1999. <ptr type="gbv" cRef="252837991"/></bibl>
+                 <bibl xml:id="goldberg_extraktion_2021">Jan Michael Goldberg / Katrin Moeller: Automatisierte
+                Extraktion und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen
+                Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 6 (2021). DOI: <ref target="https://doi.org/10.17175/2022_002">10.17175/2022_002</ref></bibl>
+                 <bibl xml:id="harviainen_genealogy_2018">J. Tuomas Harviainen / Bo-Christer Björk: Genealogy,
+                GEDCOM, and popularity implications. In: Informaatiotutkimus 37 (2018), H. 3, S.
+                4–14. DOI: <ref target="https://doi.org/10.23978/inf.76066">10.23978/inf.76066</ref>
+            </bibl>
+                 <bibl xml:id="hohensinner_name_2011">Karl Hohensinner: Der Name Mayr / Mair / Mayer / Maier etc.
+                im Oberösterreichischen Familiennamenatlas. In:
+                Familiennamengeographie. Ergebnisse
+                und Perspektiven europäischer
+                Forschung. Hg. von Rita
+                Heuser / Damaris Nübling / Mirjam Schmuck. Berlin u. a. 2011, S. 91–106. <ptr type="gbv" cRef="617916810"/> </bibl>
+                 <bibl xml:id="institut_ortsverzeichnis_2020">Das Historische Ortsverzeichnis von Sachsen. Hg. von
+                Institut für sächsische Geschichte und Volkskunde. In: hov.isgv.de. Dresden 2020.
+                    [<ref target="https://hov.isgv.de/">online</ref>] </bibl>
+                 <bibl xml:id="kocka_familie_1980">Jürgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif /
+                Reinhard Schüren: Familie und soziale Plazierung. Studien zum Verhältnis von
+                Familie, sozialer Mobilität und Heiratsverhalten an westfälischen Beispielen im
+                späten 18. und 19. Jahrhundert. Opladen 1980. <ptr type="gbv" cRef="023831081"/></bibl>
+                 <bibl xml:id="levenstejn_codes_1966">Vladimir Iosifovič Levenštejn: Binary Codes Capable of
+                Correcting Deletions, Insertations, and Reversals. Soviet Physics /Doklady 10
+                (1966), H. 8, S. 707–710. <ptr type="gbv" cRef="129482234"/></bibl>
+                 <bibl xml:id="list_distanz_2010">Johann-Mattis List: Distanz- und Alignmentanalysen in
+                derhistorischen Linguistik. Düsseldorf 2010. PDF. [<ref target="http://lingulist.de/documents/sequence.pdf">online</ref>] </bibl>
+                 <bibl xml:id="rosemann_process_2006">Michael Rosemann / Jan Recker: Context-aware Process
+                Design: Exploring the Extrinsic Drivers for Process Flexibility. In: Proceedings of
+                the Workshops and Doctoral Consortium. Hg. von M. Petit / T. Latour. Belgium 2006,
+                S. 149–158. [<ref target="https://eprints.qut.edu.au/4638">online</ref>]</bibl>
+                 <bibl xml:id="seibicke_personennamen_1982">Wilfried Seibicke: Die Personennamen im Deutschen. Berlin
+                     u. a. 1982. <ptr type="gbv" cRef="024283177"/></bibl>
+                 <bibl xml:id="sitou_requirements_2009">Wassiou Olarewaju Sitou: Requirements-Engineering
+                kontextsensitiver Anwendungen. München u. a. 2009. PDF. [<ref target="http://mediatum.ub.tum.de/doc/679228/document.pdf">online</ref>] </bibl>
+                 <bibl xml:id="stoepel_geogen_2021a">Christoph Stöpel (2021a): Geogen v4. In:
+                geogen.stoepel.net. 2005–2021. [<ref target="https://geogen.stoepel.net/legacy.html?">online</ref>] </bibl>
+                 <bibl xml:id="stöpel_geogen_2021b">Christoph Stöpel (2021b): Geogen Onlinedienst. Allgemeine
+                Informationen / Häufige Fragen (FAQ). In: legacy.stoepel.net/. 2005–2021. [<ref target="https://legacy.stoepel.net/de/Infos">online</ref>].</bibl>
+                 <bibl xml:id="verein_gov_2015">GOV/Webservice. Hg. von Verein für Computergenealogie e. V.
+                In: GenWiki. 2015. Beitrag vom 01.11.2015. [<ref target="http://wiki-en.genealogy.net/GOV/Webservice">online</ref>]</bibl>
+                 <bibl xml:id="verein_gazetteer_2021a">The Historic Gazetteer. Hg. von Verein für
+                Computergenealogie e. V. (2021a) In: Genealogy.net. 2021. [<ref target="http://gov.genealogy.net/search/index">online</ref>]</bibl>
+                 <bibl xml:id="verein_index_2021b">Index of /gov/minigov. Hg. von Verein für
+                Computergenealogie e. V. (2021b) In: Genealogy.net. 2021. [<ref target="http://www.genealogy.net/gov/minigov/">online</ref>]</bibl>
+                 <bibl xml:id="working-group_neustadt_2021">Neustadt in Europe - Overview. Hg. von Working Group
+                Neustadt in Europa. Overview. In: neustadt-in-europa.de. Neustadt an der Weinstraße
+                2021. [<ref target="https://www.neustadt-in-europa.de/en/list.html">online</ref>]</bibl>
+                 <bibl xml:id="zandhuis_toponyms_2015">Ivo Zandhuis / Menno den Engelse / Edward Mac Gillavry:
+                Dutch Historical Toponyms in the Semantic Web. In: Population Reconstruction.
+                Hg. von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn
+                Schraagen.Gerrit Bloothooft et al. Cham u. a. 2015, S. 23–41. <ptr type="gbv" cRef="833549804"/>. </bibl>
+                 <bibl xml:id="zedlitz_survey_2014">Jesper Zedlitz / Norbert Luttenberger: A Survey on
+                Modelling Historical Administrative Information on the Semantic Web. In:
+                International Journal on Advances in Internet Technology 7 (2014), H. 3/4, S.
+                218–231. [<ref target="http://www.iariajournals.org/internet_technology/tocv7n34.html">online</ref>]</bibl>
+                 <bibl xml:id="zheng_integrating_2019">Yong Zheng / Shephalika Shekhar / Alisha Anna Jose / Sunil
+                Kumar Rai: Integrating context-awareness and multi-criteria decision making in
+                educational learning. In: Proceedings of the 34th ACM/SIGAPP Symposium on Applied
+                Computing. Hg. von Association for Computing Machinery. (SAC '19: 34, Limasol,
+                08.–12.04.2019) New York, NY 2019, S. 2453–2460. <ptr type="gbv" cRef="1684173736"/> </bibl></listBibl>
+                <div type="abbildungsnachweis">
+                    <head>Abbildungs- und Tabellenverzeichnis</head>                    
+                    <desc type="graphic" xml:id="abb1">Abb. 1:
+                        Übersicht über Begrifflichkeiten und Zusammenhänge. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_001"/></desc>
+                    
+                    <desc type="table" xml:id="tab1"><ref type="intern" target="tab01">Tab. 1</ref>:
+                        Konfusionsmatrix zur Identifizierung von Ortsbezeichnungen in Anlehnung an
+                        Fawcett. [Fawcett 2006, S. 862]<ref type="graphic"
+                            target="#urbanonyme_2020_t1"/></desc>
+                    <desc type="graphic" xml:id="abb2">Abb. 2:
+                        Relative (links) und absolute (rechts) Verteilung des Nachnamens Hinse.
+                        [Goldberg 2022, erstellt mit Geogen Deutschland, Stöpel 2021a.]<ref type="graphic" target="#urbanonyme_2020_002"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb3">Abb. 3:
+                        Auszug aus einer&#xA; GOV-Abfrage. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_003"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb4">Abb. 4:
+                        Auszug einer GEDCOM-Datei. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_004"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb5">Abb. 5:
+                        Ermittlung und Bewertung von Kontextdaten, eigene Darstellung als
+                        Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_005"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb6">Abb. 6:
+                        Ortsidentifizierung, eigene Darstellung als Nassi-Sneiderman-Diagramm. [Goldberg
+                        2022]<ref type="graphic" target="#urbanonyme_2020_006"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb7">Abb. 7:
+                        Analyse der provinziellen Zuordnung, eigene Darstellung als
+                        Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_007"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb8">Abb. 8: GOV-Struktur der Stadt
+                        <ref target="http://gov.genealogy.net/item/show/object_113700">Wiedenbrück</ref>
+                        ,
+                        Stand: 30. Januar 2021. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_008"/></desc>
+                    
+                    <desc type="table" xml:id="tab2"><ref type="intern" target="tab02">Tab. 2</ref>:
+                        Zuordnung von Provinzen zum GOV. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t2"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb9">Abb. 9:
+                        Aufbau des Programms. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_009"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb10">Abb. 10:
+                        Funktionsweise der Main. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_010"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb11">Abb. 11:
+                        Funktionsweise der Kontextdatenanalyse. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_011"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb12">Abb. 12:
+                        Funktionsweise der Ortssuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_012"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb13">Abb. 13:
+                        Funktionsweise der Provinzsuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_013"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb14">Abb. 14:
+                        Anzahl an Clustern nach durchschnittlicher Abstand in km bei Variation des
+                        Mindestabstandes zwischen Clustern (10 km, 25 km, 50 km) und Mindestgröße von
+                        Clustern (2, 6, und 11), jeweils 200 Bins. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_014"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb15">Abb. 15:
+                        Zusammenhang zwischen Mindestdistanz, Mindestclustergröße und Clusteranzahl,
+                        links mit logarithmischer Skalierung. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_015"/></desc>
+                    
+                    <desc type="table" xml:id="tab3"><ref type="intern" target="tab03">Tab. 3</ref>:
+                        Vergleich verschiedener Ähnlichkeitsmaße, alle Angaben in Prozent, Grenze: 0,17.
+                        [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t3"/></desc>
+                    
+                    <desc type="table" xml:id="tab4"><ref type="intern" target="tab04">Tab. 4</ref>:
+                        Endzustände des Algorithmus am Beispiel Ortsangaben in GEDCOM-Dateien,
+                        Grundgesamtheit von 262.741 Einträgen. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t4"/></desc>
+                    
+                    <desc type="table" xml:id="tab5"><ref type="intern" target="tab05">Tab. 5</ref>:
+                        Fehler in der Zuordnung der Provinzen bei der Bezugszeit 1820. [Goldberg
+                        2022]<ref type="graphic" target="#urbanonyme_2020_t5"/></desc>
+                    
+                    <desc type="table" xml:id="tab6"><ref type="intern" target="tab06">Tab. 6</ref>:
+                        Fehler in der Zuordnung der Provinzen bei der Bezugszeit 2020. [Goldberg
+                        2022]<ref type="graphic" target="#urbanonyme_2020_t6"/></desc>
+                </div>
+            </div>
+         </div>
+      </body>
+   </text>
+</TEI>