diff --git a/2022_005_goldberg/urbanonyme_2020_001.png b/2022_005_goldberg/urbanonyme_2020_001.png
new file mode 100644
index 0000000000000000000000000000000000000000..604c92b720708bd4da27e5c8b62156d02096f217
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_001.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_002.png b/2022_005_goldberg/urbanonyme_2020_002.png
new file mode 100644
index 0000000000000000000000000000000000000000..4fc4d8c340fabfe74ac8c80a3bbe2e053b2fa018
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_002.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_003.png b/2022_005_goldberg/urbanonyme_2020_003.png
new file mode 100644
index 0000000000000000000000000000000000000000..683462d856266659b2cef1942249626d101a1f64
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_003.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_004.png b/2022_005_goldberg/urbanonyme_2020_004.png
new file mode 100644
index 0000000000000000000000000000000000000000..0894e25500445f84c46d5ced3ae334bf2a51ecd9
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_004.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_005.png b/2022_005_goldberg/urbanonyme_2020_005.png
new file mode 100644
index 0000000000000000000000000000000000000000..40db02fd093dc722f48f75e70f29edbf6e65a943
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_005.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_006.png b/2022_005_goldberg/urbanonyme_2020_006.png
new file mode 100644
index 0000000000000000000000000000000000000000..51a47e69f6dfa968894aea7cb23787cef3f66dc9
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_006.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_007.png b/2022_005_goldberg/urbanonyme_2020_007.png
new file mode 100644
index 0000000000000000000000000000000000000000..5ca3ae74eec008cd6f40045a0e0e30db32ec49d4
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_007.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_008.png b/2022_005_goldberg/urbanonyme_2020_008.png
new file mode 100644
index 0000000000000000000000000000000000000000..7a47caccee4acf3f7e2f99755cefe11f96258c93
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_008.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_009.png b/2022_005_goldberg/urbanonyme_2020_009.png
new file mode 100644
index 0000000000000000000000000000000000000000..8fd68b3a3e4b9407a794ddb488185e7c9a371787
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_009.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_010.png b/2022_005_goldberg/urbanonyme_2020_010.png
new file mode 100644
index 0000000000000000000000000000000000000000..a11271e44e4145eeb921ef8b71a8bab3858a0c1e
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_010.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_011.png b/2022_005_goldberg/urbanonyme_2020_011.png
new file mode 100644
index 0000000000000000000000000000000000000000..e7aecbb938807a5c5f9cc39cecc30b724780b0b0
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_011.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_012.png b/2022_005_goldberg/urbanonyme_2020_012.png
new file mode 100644
index 0000000000000000000000000000000000000000..09c93a523fef7a851abd4b82e7b3d286081ddfb7
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_012.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_013.png b/2022_005_goldberg/urbanonyme_2020_013.png
new file mode 100644
index 0000000000000000000000000000000000000000..851ab363c7af786ca7bb6bc929da2b5c1956964e
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_013.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_014.png b/2022_005_goldberg/urbanonyme_2020_014.png
new file mode 100644
index 0000000000000000000000000000000000000000..0ee5c033900af6ce2c74e611148b08c74ca10ebb
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_014.png differ
diff --git a/2022_005_goldberg/urbanonyme_2020_015.png b/2022_005_goldberg/urbanonyme_2020_015.png
new file mode 100644
index 0000000000000000000000000000000000000000..3697649173c232d02c17353b98a2b8198fad5ea2
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_2020_015.png differ
diff --git a/2022_005_goldberg/urbanonyme_v1_0.pdf b/2022_005_goldberg/urbanonyme_v1_0.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..75212f54be236bf155708ae3f26fa53465d16f8f
Binary files /dev/null and b/2022_005_goldberg/urbanonyme_v1_0.pdf differ
diff --git a/2022_005_goldberg/urbanonyme_v1_0.xml b/2022_005_goldberg/urbanonyme_v1_0.xml
new file mode 100644
index 0000000000000000000000000000000000000000..99d914d2a9ecc1dec93145c8826a8061e3ff8f1e
--- /dev/null
+++ b/2022_005_goldberg/urbanonyme_v1_0.xml
@@ -0,0 +1,2186 @@
+<?xml version="1.0" encoding="utf-8"?>
+<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
+    ?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0"
+     xmlns:html="http://www.w3.org/1999/html"
+     xmlns:tei="http://www.tei-c.org/ns/1.0"
+     xmlns:xlink="http://www.w3.org/1999/xlink"
+     xmlns:xhtml="http://www.w3.org/1999/xhtml">
+   <teiHeader>
+      <fileDesc>
+         <titleStmt>
+            <title>
+               <biblStruct>
+                  <analytic>
+                     <title level="a">Kontextsensitive Entscheidungsfindung zur automatisierten
+                Identifizierung und Clusterung deutschsprachiger Urbanonyme</title>
+                     <respStmt>
+                        <resp>
+                           <persName>
+                              <name role="marc_aut">
+                                 <forename>Jan Michael</forename>
+                                 <surname>Goldberg</surname>
+                              </name>
+                               <email>jan.goldberg@wiwi.uni-halle.de</email>
+                               <idno type="gnd">1240406630</idno>
+                               <idno type="orcid">0000-0002-4817-4283</idno>
+                           </persName>
+                        </resp>
+                         <orgName>Martin-Luther-UniversitÃ¤t Halle Wittenberg, Lehrstuhl fÃ¼r empirische MakroÃ¶konomik</orgName>
+                     </respStmt>
+                     <idno type="doi">10.17175/2022_005</idno>
+                      <idno type="ppn">1817560271</idno>
+                     <idno type="zfdg">2022.005</idno>
+                     <idno type="url">https://www.zfdg.de/node/339</idno>
+                     <date when="2022-10-10">10.10.2022</date>
+                  </analytic>
+                  <monogr>
+                     <title level="j">Zeitschrift fÃ¼r digitale Geisteswissenschaften</title>
+                     <respStmt>
+                        <resp>Publiziert von</resp>
+                        <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp>Transformation der Word Vorlage nach TEI</resp>
+                        <persName/>
+                        <name role="marc_trc">
+                           <surname>Baumgarten</surname>
+                           <forename>Marcus</forename>
+                           <idno type="gnd">1192832655</idno>
+                        </name>
+                     </respStmt>
+                     <availability status="free">
+                        <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref>
+                        </p>
+                     </availability>
+                     <biblScope unit="year">2022</biblScope>
+                     <biblScope unit="artikel">005</biblScope>
+                  </monogr>
+               </biblStruct>
+            </title>
+         </titleStmt>
+         <editionStmt>
+            <edition>Elektronische Ausgabe nach TEI P5</edition>
+         </editionStmt>
+         <publicationStmt>
+            <distributor>
+               <name>
+                  <orgName>Herzog August Bibliothek WolfenbÃ¼ttel</orgName>
+               </name>
+            </distributor>
+            <idno type="doi">10.17175/zfdg.01</idno>
+            <idno type="ppn">0819494402</idno>
+            <authority>
+               <name>Herzog August Bibliothek</name>
+               <address>
+                  <addrLine>Lessingplatz 1</addrLine>
+                  <addrLine>38304 WolfenbÃ¼ttel</addrLine>
+               </address>
+            </authority>
+            <authority>
+               <name>Forschungsverbund Marbach Weimar WolfenbÃ¼ttel</name>
+               <address>
+                  <addrLine>Burgplatz 4</addrLine>
+                  <addrLine>99423 Weimar </addrLine>
+               </address>
+            </authority>
+            <availability status="free">
+               <p> Sofern nicht anders angegeben </p>
+               <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence>
+            </availability>
+            <availability status="free">
+               <p> Available at <ref target="workID">https://www.zfdg.de; (c)
+                                Forschungsverbund MWW</ref>
+               </p>
+            </availability>
+         </publicationStmt>
+         <sourceDesc>
+                        
+                        <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
+         </sourceDesc>
+      </fileDesc>
+      <encodingDesc>
+         <editorialDecl>
+            <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
+                            XSLT-Skripten</p>
+         </editorialDecl>
+         <editorialDecl>
+            <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Martin Wiegand</persName>.</p>
+            <p>Medienrechte liegen bei den Autor*innen</p>
+            <p>All links checked<date when="2022">03.08.2022</date>
+            </p>
+         </editorialDecl>
+      </encodingDesc>
+      <profileDesc>
+         <creation>Einreichung als Artikel der Zeitschrift fÃ¼r digitale
+                        Geisteswissenschaften</creation>
+         <langUsage>
+            <language ident="de">Text in Deutsch</language>
+            <language ident="de">Abstract in Deutsch</language>
+            <language ident="en">Abstract in Englisch</language>
+         </langUsage>
+         <textClass>
+            <keywords scheme="gnd">
+                <term>Historische Geografie<ref target="4025103-2"/>
+               </term>
+                <term>Cluster-Analyse<ref target="4070044-6"/>
+                </term>
+                <term>Lokalisation<ref target="4195351-4"/>
+                </term>
+                <term>Kontextbezogenes System<ref target="4739720-2"/>
+                </term>
+                <term>Klassifikation<ref target="4030958-7"/>
+                </term>
+            </keywords>
+         </textClass>
+      </profileDesc>
+      <revisionDesc>
+         <change/>
+      </revisionDesc>
+   </teiHeader>
+   <text>
+      <body>
+         <div>
+            <div type="abstract">
+               <argument xml:lang="de">
+                  <p>Viele historische Quellen enthalten zahlreiche Ortsangaben,
+                deren manuelle Zuordnung viele Ressourcen bindet. Um hier Abhilfe zu schaffen wird
+                ein Algorithmus beschrieben, mit dem solche Urbanonyme automatisiert geokodiert
+                werden kÃ¶nnen. Ebenso ist es mÃ¶glich, die Orte entsprechend ihrer gemeinsamen
+                historischen VerwaltungszugehÃ¶rigkeit zu clustern. Probleme wie gleiche Namen bei
+                Ortsbezeichnungen werden vor allem durch eine Einbeziehung weiterer Informationen
+                desselben Kontextes (derselben Quelle) gelÃ¶st. Eine Validierung geschieht anhand von
+                etwa 3,4 Millionen Ã¼berwiegend deutschsprachigen Ortsangaben aus der genealogischen
+                Datenbank <hi rend="italic">GEDBAS</hi>. Zusammenfassend lassen sich etwa drei von
+                vier relevanten Ortsangaben identifizieren und lokalisieren. Ãœber 90 Prozent der
+                identifizierten Ortsangaben kÃ¶nnen ihrer historischen Provinz zugeordnet werden.</p>
+               </argument>            
+               <argument xml:lang="en">
+                  <p>Many historical sources contain numerous names of places, the
+                manual assignment of which ties up a lot of resources. To simpliy this, an algorithm
+                is described with which such urbanonyms can be geocoded automatically. It is also
+                possible to cluster the places according to their common historical administrative
+                affiliation. Problems such as identical terms for place names are solved primarily
+                by including further information from the same context (same source). A validation
+                is done on the basis of about 3.4 million mostly German-language place names from
+                the genealogical database <hi rend="italic">GEDBAS</hi>. In summary, about three out
+                of four relevant place names can be identified and localised. More than 90 percent
+                of the identified place names can be assigned to their historical province.</p>
+               </argument>
+            </div>
+            <div type="chapter">
+               <head>1. Einleitung</head>
+            <p>Orte werden tagtÃ¤glich in vielen
+                Applikationen identifiziert und lokalisiert.<note type="footnote"> Die Identifizierung beschreibt die Zuordnung zu
+                        einem Identifikator, der einem physischen Ort zugeordnet ist. Dagegen
+                        umfasst die Lokalisierung die gelungene geographische Verortung des
+                        identifizierten Ortes.</note> Der Bahnticketautomat, das
+                NavigationsgerÃ¤t im Auto oder die Suchmaschine im Internet stellen dafÃ¼r nur einige
+                willkÃ¼rliche Beispiele dar. Das Prinzip dahinter ist vielfach aber gleich: Nach der
+                Eingabe eines Orts oder mindestens eines Teils davon schlÃ¤gt die Applikation einen
+                oder mehrere auszuwÃ¤hlende(n) Orte vor. Die letztendliche Auswahl kann vom Menschen
+                getroffen werden. Steht jedoch kein Mensch zur VerfÃ¼gung, um eine abschlieÃŸende
+                Auswahl zu treffen, muss die Entscheidung auf zuvor definierten Kriterien beruhen.
+                Durch Dopplungen, Ã„hnlichkeiten und Variationen von Ortsnamen ist dies jedoch kein
+                triviales Unterfangen.</p>
+            <p>In Deutschland (und Europa) gibt es
+                beispielsweise zahlreiche Orte namens Neustadt. Allein 36 davon sind in der
+                Arbeitsgemeinschaft <term type="figure">Neustadt in Europa</term>
+                    zusammengefasst.<note type="footnote"> <ref type="bibliography" target="#working-group_neustadt_2021">Working Group Neustadt in Europa (Hg.) 2021</ref>.</note> Hinzu kommt, dass
+                etliche Stadtteile diese Bezeichnung tragen. Werden die historischen, heute nicht
+                mehr genutzten Bezeichnungen inkludiert, sind es nochmals mehr. Das kann zum einen
+                darin begrÃ¼ndet sein, dass die Ortsbezeichnungen heute einfach nicht mehr in
+                Verwendung sind, weil es den Ort entweder nicht mehr gibt oder aber eine Umbenennung
+                stattgefunden hat.<note type="footnote"> <ref type="bibliography" target="#zedlitz_survey_2014">Zedlitz / Luttenberger 2014</ref>, S. 218â€“231.</note> Zum anderen kÃ¶nnen die
+                historischen Ortsangaben aber auch einen Ort beschreiben, dessen Relevanz heute
+                nicht mehr ausreichend ist, um diesen durch eine gesonderte Bezeichnung zu wÃ¼rdigen
+                â€“ ohne, dass dieser gÃ¤nzlich verschwunden wÃ¤re. MÃ¶glicherweise ist der Ort auch in
+                einem Ã¼bergeordneten aufgegangen; kleine Siedlungsformen, wie beispielsweise Weiler,
+                verschwanden im Laufe der letzten Jahrhunderte. Die Herausforderungen, die sich
+                heute aus der Lokalisierung von Ortsnamen ergeben, sind bei der Zuordnung
+                historischer Bezeichnungen â€“ im Weiteren als Urbanonyme<note type="footnote"> Der Begriff der Urbanonyme
+                        beschreibt dabei Siedlungsstrukturen (z.Â B. StÃ¤dte, DÃ¶rfer) und stellt somit
+                        eine Unterkategorie der Toponyme da. Er wird im Folgenden synonym zum
+                        Begriff der Ortsbezeichnung verwendet.</note> bezeichnet â€“ also umso
+                grÃ¶ÃŸer. </p>
+            <p>Historische Ortsangaben stehen
+                allerdings selten fÃ¼r sich allein, sondern sind von Kontextinformationen umgeben.
+                Eingebettet in einen FlieÃŸtext kann sich aus den weiteren Informationen ergeben, um
+                welchen Ort es sich handelt. Beispielsweise kÃ¶nnen in einem Adressbuch andere
+                Ortsangaben oder die Angabe einer Ã¼bergeordneten GebietskÃ¶rperschaft vorhanden sein.
+                Diese als Kontext bezeichneten Informationen kÃ¶nnen zur Identifizierung genutzt
+                werden. Nachfolgend kann auf dieser Basis eine geographische Lokalisierung des Orts
+                angestellt werden. Im Kontext dieser Arbeit meint Lokalisierung eine Ortsbestimmung,
+                die Objekte zu einer Adresse im physischen Raum der ErdoberflÃ¤che zuordnet.<note type="footnote"> Die Bestimmung der
+                    Position wird heute oftmals satellitengestÃ¼tzt realisiert (vgl. <ref type="bibliography" target="#gentile_techniques_2013">Gentile et al.
+                        (Hg.) 2013</ref>). Diese MÃ¶glichkeit setzt voraus, dass das zu lokalisierende
+                        Objekt (1.) bekannt ist und sich (2.) an der zu lokalisierenden Position
+                        befindet. Historische Ortsangaben hingegen beschreiben Positionen von
+                        (unbekannten) Objekten zu vergangenen Zeitpunkten. Deshalb sind moderne
+                        MÃ¶glichkeiten der Lokalisierung auf diese Problematik nicht
+                    anwendbar.</note> Eine gesonderte, automatisierte LÃ¶sung zur Identifikation
+                und Lokalisierung (speziell deutschsprachiger) historischer Urbanonyme ist bis dato
+                nicht bekannt. Diese LÃ¼cke wird durch den vorliegenden Artikel geschlossen, indem
+                ein Algorithmus als LÃ¶sung vorgeschlagen wird, der historische Ortsangaben<note type="footnote"> Als <hi rend="italic">historische Ortsangaben</hi> werden im
+                        Folgenden solche Bezeichnungen beschrieben, die in deutscher Sprache einen
+                        Ort im deutschsprachigen Raum im Zeitfenster der Neuzeit beschreiben. In
+                        Abgrenzung dazu finden Ortsbezeichnungen aus antiken und mittelalterlichen
+                        Quellen keine Verwendung.</note> kontextsensitiv lokalisiert. Eine
+                Ãœbersicht der Begriffliche ist in <ref type="graphic" target="#urbanonyme_2020_001">Abbildung 1</ref>
+                vorhanden.</p>
+            <p>FÃ¼r viele wissenschaftliche
+                Fragestellungen reicht allein die Lokalisierung der Ortsangaben jedoch nicht aus.
+                Vielmehr ist es auch wichtig, die (historische) administrative ZugehÃ¶rigkeit der
+                Orte zu ermitteln und alle zusammengehÃ¶rigen Ortsangaben zu clustern. Darum wird mit
+                dem Algorithmus auch eine Methode bereitgestellt, mit der Orte Ã¼ber die
+                administrative ZugehÃ¶rigkeit zu einem definierten Zeitpunkt geclustert werden
+                kÃ¶nnen. Der Algorithmus wird primÃ¤r mit Hilfe von Urbanonymen aus genealogischen
+                    GEDCOM-Dateien<note type="footnote">
+                        Sie enthalten oftmals sehr viele Ortsangaben zu Lebensereignissen wie
+                        Geburten oder Hochzeiten. GEDCOM-Dateien stellen dabei den gÃ¤ngigen Standard
+                        im Austausch genealogischer Informationen dar (vgl. <ref type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 112;
+                        <ref type="bibliography" target="#harviainen_genealogy_2018">Harviainen / BjÃ¶rk 2018</ref>). </note> aus der Datenbank <bibl>
+                  <title type="desc">Genealogische Datenbasis</title>
+               </bibl> (GEDBAS) getestet, soll aber
+                auch auf andere Quellen adaptiert werden kÃ¶nnen. Damit wird ebenfalls einem
+                Vorschlag Gellatlys nachgekommen, eine Software zur Geokodierung von Ortsangaben zu
+                    entwickeln.<note type="footnote">
+                        <ref type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 118.</note>
+            </p>
+            <p>Im folgenden Kapitel werden zunÃ¤chst
+                verschiedene bestehende LÃ¶sungsansÃ¤tze betrachtet, auf deren Basis die Entwicklung
+                des Algorithmus stattfindet. Danach wird der entwickelte Algorithmus in der
+                Programmiersprache Python umgesetzt und am Beispiel von GEDCOM-Dateien aus der
+                GEDBAS validiert. AbschlieÃŸend erfolgt eine Zusammenfassung.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_001" url=".../medien/urbanonyme_2020_001.png">
+                  <desc>
+                      <ref target="#abb1">Abb. 1</ref>: Ãœbersicht Ã¼ber Begrifflichkeiten und ZusammenhÃ¤nge.&#xA;
+                      [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_001"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            <div type="chapter">
+               <head>2. Identifizierung und Lokalisierung von Urbanonymen</head>            
+            <p>Die Identifizierung beschreibt die
+                Zuordnung eines Urbanonyms (z. B. â€ºBerlinâ€¹) zu einer physisch existierenden EntitÃ¤t
+                â€“ einem Ort (z. B. der Hauptstadt Berlin der Bundesrepublik Deutschland). Die
+                Lokalisierung hingegen besteht in der Zuordnung von Koordinaten zu diesem Ort. Auch
+                wenn die Lokalisierung das wesentliche Ziel darstellt, so liegt in der
+                vorhergehenden Identifizierung die maÃŸgebliche Herausforderung. Das ist dadurch
+                bedingt, dass zu nahezu allen (identifizierten) Orten die geographischen Koordinaten
+                leicht zu ermitteln sind, die eindeutige Identifizierung jedoch durch verschiedene
+                historisch bedingte Faktoren erschwert wird.</p>
+            <p>Im Folgenden wird der Stand der
+                Technik verschiedener Teilaspekte dieser Herausforderung beschrieben. ZunÃ¤chst wird
+                erlÃ¤utert, wie der Kontext zur Entscheidungsfindung beitragen kann. Danach werden
+                kurz relevante Suchalgorithmen sowie Methoden der Ã„hnlichkeitsanalyse aufgegriffen.
+                Da eine Identifizierung von Urbanonymen nur unter Hinzunahme (historischer)
+                Ortsverzeichnisse mÃ¶glich ist, finden auch diese Beachtung. AbschlieÃŸend wird in die
+                Struktur von GEDCOM-Daten eingefÃ¼hrt, die in dieser Studie zur Validierung des
+                Algorithmus dienen.</p>
+            <div type="subchapter">
+               <head>2.1 Kontextsensitive Entscheidungsfindung</head>            
+            <p>Das oben angefÃ¼hrte Beispiel Berlins
+                zeigt die Problematik deutlich auf: Neben der Hauptstadt kÃ¶nnte ebenso eine andere
+                EntitÃ¤t, z. B. das Land Berlin der Bundesrepublik Deutschland oder der Ortsteil
+                Berlin der schleswig-holsteinischen Gemeinde Seedorf, gemeint sein.<note type="footnote"> In dem Fall wÃ¼rde es
+                        sich bei der Ortsangabe um ein Choronym, nicht um eine Urbanonym,
+                        handeln.</note> Ohne weitere Informationen, worauf sich die Ortsangabe
+                bezieht oder in welchem Zusammenhang diese genannt wird, kann eine Identifizierung
+                nicht eindeutig vorgenommen werden. Die Informationen im Zusammenhang der Verwendung
+                eines Wortes werden dabei als â€ºKontextâ€¹ bezeichnet. Nach Dey und Abowd ist Kontext
+                aus informationstechnischer Sicht jede Information, die zur Charakterisierung der
+                Situation einer EntitÃ¤t genutzt werden kann.<note type="footnote"> <ref type="bibliography" target="#abowd_context-awareness_1999">Abowd / Dey 1999</ref>, S. 1, 3-4.</note> Systeme,
+                die diesen Kontext nutzen, werden als â€ºkontextsensitivâ€¹ bezeichnet.<note type="footnote"> <ref type="bibliography" target="#sitou_requirements_2009">Sitou 2009</ref>, S. 28,
+                        123.</note> Kontextsensitive Systeme bedingen also eine FlexibilitÃ¤t in
+                der AusfÃ¼hrung eines Prozesses. Der Kontext als externer Einfluss kann dazu fÃ¼hren,
+                dass der interne Prozess der Informationsverarbeitung angepasst wird.<note type="footnote"> <ref type="bibliography" target="#rosemann_process_2006">Rosemann / Recker
+                    2006</ref>, S. 149.</note> Ein Beispiel dafÃ¼r ist die Anzeige der
+                Wettervorhersage in AbhÃ¤ngigkeit der Position oder die VerÃ¤nderung der
+                Bildschirmhelligkeit in AbhÃ¤ngigkeit der Umgebungsbeleuchtung. Auch in CARS (Context
+                Based Recommendation Systems) werden Nutzer*innen auf Basis der zu ihnen verfÃ¼gbaren
+                Kontextinformationen in der Entscheidungsfindung unterstÃ¼tzt.<note type="footnote"> <ref type="bibliography" target="#zheng_integrating_2019">Zheng et al. 2019</ref>, S.
+                    2453.</note> Daneben ist eine eigenstÃ¤ndige Entscheidung zwischen mehreren
+                konkreten Alternativen ohne menschliches Zutun auf Basis des Kontextes mÃ¶glich. </p>
+            <p>Bei der Lokalisierung ist eine
+                Entscheidung notwendig, um die Verbindung zwischen einer konkreten Ortsbezeichnung
+                und einem Ort zu definieren. Solche Entscheidungen kÃ¶nnen (in Anlehnung an einen
+                binÃ¤ren Klassifikator) richtig oder falsch sein. Jedoch kann auch keine Entscheidung
+                getroffen werden â€“ und auch dieses kann richtig oder falsch sein. Richtig kann eine
+                nicht getroffene Entscheidung fÃ¼r einen Ort beispielsweise sein, wenn die
+                Ortsbezeichnung â€ºJohn Michaelâ€¹ lautet und kein Urbanonym darstellt, sondern â€“ wie im
+                Beispiel â€“ womÃ¶glich aus einem Eingabefehler resultiert und einen Vornamen darstellt
+                (TN). Diese Konstellationen sind in Tabelle 1 dargestellt. Dasselbe Schema ist auf
+                die Lokalisierung und die nachfolgende regionale Klassifizierung anwendbar. Ziel ist
+                es, mÃ¶glich viele T*-Zuordnungen zu erreichen, gleichzeitig aber die F*-Rate niedrig
+                zu halten.</p>
+            <table>
+               <row>
+                    <cell/>
+                    <cell>Identifizierung korrekt</cell>
+                    <cell>Identifizierung nicht korrekt</cell>
+                </row>
+               <row>
+                    <cell>Identifizierung erfolgt</cell>
+                    <cell>True
+                            positive (TP)</cell>
+                    <cell>False
+                            positive (FP)</cell>
+                </row>
+               <row>
+                    <cell>Identifizierung nicht erfolgt</cell>
+                    <cell>True
+                            negative (TN)</cell>
+                    <cell>False
+                            negative (FN)</cell>
+                </row>
+           
+                <trailer xml:id="tab01">
+                    <ref type ="intern" target="#tab1">Tab. 1</ref>: Konfusionsmatrix&#xA;
+                    zur Identifizierung von Ortsbezeichnungen in Anlehnung an Fawcett. [Fawcett 2006, S.&#xA;
+                862]<ref type="graphic"
+                    target="#urbanonyme_2020_t1"/>
+                </trailer>
+            </table>
+            <p>Um es am Beispiel Berlins
+                auszudrÃ¼cken: So wÃ¼rde in einer Liste der BundeslÃ¤nder eher die EntitÃ¤t des Landes
+                aufgegriffen, in einer Liste aller HauptstÃ¤dte jedoch die EntitÃ¤t Berlins als
+                Hauptstadt Deutschlands. Der Kontext wÃ¼rde hier den Schluss zulassen, ob es sich um
+                das Land oder die Stadt handelt. Diese Schlussfolgerung ist das Ergebnis einer
+                Heuristik: Alle Werte in der Liste beschreiben LÃ¤nder, also ist es wahrscheinlich,
+                dass der letzte Wert auch ein Land ist. Jedoch kann der Wert auch kein Land
+                darstellen, wodurch die Schlussfolgerung falsch wÃ¤re (FP). Heuristiken garantieren
+                keine richtigen Ergebnisse,<note type="footnote"> <ref
+                    type="bibliography" target="#feigenbaum_computers_1963">Feigenbaum / Feldman (Hg.) 1963</ref>, S. 6.</note> sie
+                dienen der Findung einer wahrscheinlich korrekten LÃ¶sung unter begrenztem Wissen und
+                wenig Zeit.<note type="footnote"> Vgl.
+                    <ref
+                        type="bibliography" target="#gigerenzer_heuristics_1999">Gigerenzer / Todd (Hg.) 1999</ref>, S. 147.</note> Insofern sind
+                kontextsensitive Entscheidungen, wenn der Kontext die Entscheidung nicht
+                eineindeutig zulÃ¤sst, heuristische Verfahren. Um eine Heuristik im
+                Entscheidungsprozess eines technischen Systems einzusetzen, ist ihre Formalisierung
+                notwendig. Eine programmtechnische Formalisierung der Heuristik fÃ¼hrt in der Folge
+                zu einem (heuristischen) Algorithmus.</p>
+            <p>Um den Kontext einer Ortsbezeichnung
+                nun fÃ¼r die Zuordnung zu einer EntitÃ¤t zu verwenden, mÃ¼ssen die Heuristiken
+                definiert werden, die die Entscheidungsfindung beeinflussen. Zandhuis et al. nennen
+                drei MÃ¶glichkeiten der Einbindung des Kontextes: </p>
+            <list type="ordered">
+                <item>den Ort, an dem die Ortsangabe erstellt wurde, </item>
+                <item>eine GebietszugehÃ¶rigkeit und </item>
+                <item>die Zeit, in der die Quelle kreiert wurde in Zusammenhang mit der Information,
+                    wann ein Ort wie bezeichnet wurde, da die Bezeichnung temporalen Schwankungen
+                    unterliegen kann.<note type="footnote">  <ref
+                        type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S. 36.</note>
+                </item>
+            </list>
+            <p>Insbesondere bei SekundÃ¤rquellen ist
+                der Ort der (PrimÃ¤r-)Quellenerstellung nicht relevant oder bekannt. Auch
+                Gebietsangaben sind nicht immer vorhanden. Ebenso verhÃ¤lt es sich mit den temporalen
+                Informationen. Zudem kann in SekundÃ¤rquellen eine sprachliche Anpassung des
+                Ortsnamens (an die Schreibweise zur Zeit der Erstellung der SekundÃ¤rquelle)
+                stattgefunden haben. </p>
+            <p>Aufgrund dieser Schwierigkeiten sind
+                die drei genannten Punkte fÃ¼r eine Identifizierung nicht ausreichend. Es lassen sich
+                jedoch andere Kontextinformationen finden: Der Kontext von Ortsbezeichnungen kann
+                aus weiteren Ortsangaben bestehen, die mÃ¶glicherweise in einem Zusammenhang stehen.
+                Gegebenenfalls sind im Kontext auch konkrete Angaben zur geographischen Distanz
+                zwischen den EntitÃ¤ten, zur gemeinsamen administrativen ZugehÃ¶rigkeit oder einer
+                sonstigen Beziehung vorhanden. Zudem kÃ¶nnen temporale Angaben im Kontext die
+                Identifizierung der Ortsangaben unterstÃ¼tzen. Aber nicht nur die Nennung von Orten,
+                sondern auch die von Namen kann relevant sein: Die HÃ¤ufigkeit von Vornamen variiert
+                Ã¼ber die Zeit, sodass hierÃ¼ber eine SchÃ¤tzung des Geburtsjahres â€“ und somit eine
+                zeitliche Verortung der Ortsbezeichnung â€“ vorgenommen werden kann.<note type="footnote"> <ref
+                    type="bibliography" target="#gallagher_estimating_2008">Gallagher / Chen 2008</ref>.</note>
+                Wichtiger jedoch erscheint die regionale Dichte und HÃ¤ufigkeit von Namen: Die
+                Verwendung von Nachnamen ist oftmals geografisch nicht gleichverteilt.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#seibicke_personennamen_1982">Seibicke 1982</ref>,
+                        S. 148.</note> In <ref type="graphic" target="#urbanonyme_2020_002">Abbildung 2</ref> sind
+                beispielhaft die relative und absolute Verteilung des Nachnamens â€ºHinseâ€¹ abgebildet.
+                Es ist eine erhÃ¶hte Dichte im westfÃ¤lischen Raum zu erkennen.<note type="footnote"> Die Karte wurde mit <ref target="https://geogen.stoepel.net/legacy.html?">Geogen</ref> erzeugt und basiert auf
+                        etwa 35 Millionen TelefonbucheintrÃ¤gen. StÃ¶pel 2021b.</note> Demzufolge
+                ist also wahrscheinlicher, dass der Name in Kombination mit Orten im westfÃ¤lischen
+                Raum genannt wird.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_002" url=".../medien/urbanonyme_2020_002.png">
+                  <desc>
+                      <ref target="#abb2">Abb. 2</ref>: Relative (links) und&#xA;
+                      absolute (rechts) Verteilung des Nachnamens Hinse. [Goldberg 2022, erstellt mit&#xA;
+                Geogen Deutschland, StÃ¶pel 2021a.]<ref type="graphic" target="#urbanonyme_2020_002"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Auch bei der Vornamensgebung sind in
+                Deutschland regionale Unterschiede zu erkennen,<note type="footnote"> <ref
+                    type="bibliography" target="#gesellschaft_vornamen_2019">Gesellschaft fÃ¼r deutsche Sprache e. V. (Hg.)
+                    2019</ref>.</note> was teilweise auf unterschiedliche PrÃ¤ferenzen in der
+                Namensgebung verschiedener Konfessionen zurÃ¼ckzufÃ¼hren ist.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#seibicke_personennamen_1982">Seibicke 1982</ref>, S.
+                    150.</note>
+            </p>
+            </div>
+            <div type="subchapter">
+               <head>2.2 Suchalgorithmen und Ã„hnlichkeitsanalyse</head>            
+            <p>Alle (vormals) existierenden Orte
+                kÃ¶nnen in einer Liste dargestellt werden. Sie stellen eine endliche Menge dar. Da es
+                jedoch hunderttausende Orte gibt (oder gab), von denen jeweils einer ausgewÃ¤hlt
+                werden soll, ist anzunehmen, dass die Auswahl eines Suchalgorithmus erhebliche
+                Auswirkung auf die Performance hat. Zur Suche in Listen existieren verschiedenste
+                Algorithmen, die oftmals an ihre jeweilige Anwendung angepasst werden. Da es sich
+                bei Ortsbezeichnungen um Zeichenketten handelt, sind hier insbesondere
+                String-Matching-Algorithmen relevant. Die Namen der Orte fungieren dabei als
+                Eigenschaft der EntitÃ¤t, die mit der Ortsbezeichnung verglichen werden kann.</p>
+            <p>Suchalgorithmen kÃ¶nnen grundlegend in
+                einfache und informierte Suchen unterteilt werden. Im Gegensatz zu den einfachen
+                Suchen ist bei den informierten Suchen ein Wissen Ã¼ber den Suchraum vorhanden.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#clarke_principles_2009">Clarke et al.
+                    2009</ref>, S. 34.</note> Bei einer gegebenen Liste von Orten findet ein
+                einfaches Suchverfahren Verwendung, bei der Auswahl eines Suchalgorithmus sind
+                dagegen insbesondere Laufzeit und Genauigkeit von Interesse: WÃ¤hrend bei einer
+                linearen Suche in Listen jedes Element betrachtet werden muss, ist bei der binÃ¤ren
+                Suche nur die logarithmische Anzahl von Vergleichen durchzufÃ¼hren. Es zeigt sich,
+                dass bei der Verarbeitung vieler Urbanonyme soweit wie mÃ¶glich auf lineare Suchen
+                verzichtet werden sollte; stattdessen ist der Einsatz binÃ¤rer Suchalgorithmen
+                angebracht. Hierzu ist vorbereitend eine alphabetische Sortierung mÃ¶glicher Zielorte
+                durchzufÃ¼hren.</p>
+            <p>Ortsbezeichnungen kÃ¶nnen jedoch
+                Rechtschreibfehler wie vertauschte Zeichen aufweisen. Ebenso kann die Schreibweise
+                von Orten im Zeitverlauf einer Variation unterliegen, ohne dass eine gÃ¤nzliche
+                Umbenennung erfolgt ist. Auch wenn die Suche keine eindeutigen Treffer hervorbringt,
+                kann Ã¼ber einen Vergleich der Ã„hnlichkeit eine Identifizierung erfolgen. Zum
+                Vergleich der Ã„hnlichkeit gibt es verschiedene MaÃŸe. Ein Ã¼bliches MaÃŸ stellt die
+                Levenshtein-Distanz dar, eine Metrik, mit der Schritte der VerÃ¤nderung zwischen
+                WÃ¶rtern gezÃ¤hlt werden.<note type="footnote"> <ref
+                    type="bibliography" target="#levenstejn_codes_1966">LevenÅ¡tejn 1966</ref>.</note> Die Distanz ist bei
+                identischen Zeichenketten 0 und betrÃ¤gt maximal die LÃ¤nge des lÃ¤ngeren Strings. Hier
+                besteht die Herausforderung, einen Wert auszuwÃ¤hlen, der fÃ¼r den jeweiligen
+                Vergleich als plausibel gilt,<note type="footnote"> Es sind keine allgemein Ã¼blichen Toleranzkriterien bei
+                        dem Vergleich von Ortsstrings bekannt. MÃ¶glicherweise ist eine solche Art
+                        der Ã„hnlichkeitsanalyse bei Orten nicht besonders zielfÃ¼hrend, da viele Orte
+                        sehr gleichklingend sind und eine Levenshtein-Distanz von 2 bereits
+                        wesentliche VerÃ¤nderungen herbeifÃ¼hren kann.</note> wobei ein Bezug auf
+                die LÃ¤nge der gesuchten Zeichenkette angebracht sein kann.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#list_distanz_2010">List 2010</ref>, S.
+                8.</note>
+            </p>
+            <p>Statt in einer Liste kÃ¶nnen Orte auch
+                in BÃ¤umen strukturiert sein. Zur Optimierung des Suchverhaltens in diesen ist ein
+                informierter Ansatz mÃ¶glich, der beispielsweise nur solche Pfade mit definierten
+                Eigenschaften durchsucht.</p>
+            </div>
+            <div type="subchapter">
+               <head>2.3 Historische Orte und Urbanonyme</head>            
+            <p>Um Ã¼berhaupt Orte zu haben, die als
+                EntitÃ¤ten dienen und einem Vergleich mit der Ortsbezeichnung zugefÃ¼gt sind, ist die
+                Auswahl eines Ortsverzeichnisses eine notwendige Bedingung. Im Weiteren wird dazu
+                das <bibl>
+                  <title type="desc">Geschichtliche Orts-Verzeichnis</title>
+               </bibl> (GOV) des Vereins
+                fÃ¼r Computergenealogie Verwendung finden.<note type="footnote"> Das GOV ist nicht das einzige Verzeichnis, dass
+                        historische Ortsangaben zusammengefÃ¼hrt. Daneben gibt es verschiedene
+                        Ortslexika. Ein online-verfÃ¼gbares Beispiel stellt das <ref target="https://hov.isgv.de/">Historische
+                            Ortsverzeichnis von Sachsen</ref> dar (vgl. <ref
+                                type="bibliography" target="#institut_ortsverzeichnis_2020">Institut fÃ¼r sÃ¤chsische
+                                Geschichte und Volkskunde (Hg.) 2020</ref>). FÃ¼r den gesamten deutschsprachigen
+                        Raum ist das GOV jedoch die einzige digitale, klar strukturierte Sammlung
+                        historischer Ortsangaben. Zudem unterliegt das Mini-GOV einer Creative
+                        Common Lizenz und kann deshalb in diesem Rahmen Verwendung
+                    finden.</note> Dieses enthÃ¤lt etwa 1,2 Millionen Objekte<note type="footnote"> Diese Objekte sind jeweils
+                        sogenannten Typen zugeordnet. Die Typen beschreiben nicht nur Urbanonyme,
+                        sondern auch politische, kirchliche oder gerichtliche Verwaltungen; auch
+                        geographische Objekte oder solche zum Verkehrswesen sind
+                        vorhanden.</note> in Europa.<note type="footnote"> <ref
+                            type="bibliography" target="#verein_gov_2015">Verein fÃ¼r Computergenealogie e. V. (Hg.) 2015</ref>. Das
+                        GOV erscheint insbesondere fÃ¼r den deutschsprachigen Raum geeignet.
+                    </note> Das GOV wird ausgewÃ¤hlt, weil es besonders im deutschsprachigen Raum
+                viele historische Urbanonyme abbildet. FÃ¼r andere LÃ¤nder, beispielsweise die
+                Niederlanden, gibt es zudem weitere ausfÃ¼hrliche Portale.<note type="footnote"> Vgl. <ref
+                    type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S.
+                        24.</note>
+            </p>
+            <p>Zugang zum GOV kann eine externe
+                Anwendung auf zwei Arten erlangen. Zum einen Ã¼ber das sogenannte Mini-GOV worin
+                verschiedene Informationen zu Orten enthalten sind: Als <term type="dh">Uniform Resource Identifier</term> (URI) eines Ortes dient die sogenannte
+                GOV-Kennung. Daneben ist der Typ des Objekts vorhanden, gefolgt von dem aktuellen
+                Namen (im Falle von frÃ¼heren deutschen Siedlungsgebieten auch der letzte deutsche
+                Name). Auch der Staat, dem das Objekt angehÃ¶rt, sowie vier Angaben zur
+                administrativen Zuordnung werden angegeben.<note type="footnote"> Die administrative Zuordnung unterscheidet sich je
+                        nach heutigem Staat. In Deutschland ist die adm. Zuordnung 1 auf das
+                        Bundesland bezogen, die adm. Zuordnung 2 auf den Regierungsbezirk, die adm.
+                        Zuordnung 3 auf den Kreis, Landkreis, Stadtkreis die kreisfreie Stadt oder
+                        die Region und die adm. Zuordnung 4 auf die Stadt, Gemeinde, den Markt oder
+                        Flecken.</note> Zudem ist die Postleitzahl vorhanden. AbschlieÃŸend
+                folgen mit der LÃ¤ngen- und Breitengrade die Koordinaten des Objekts. Zum anderen
+                besteht die MÃ¶glichkeit Ã¼ber einen Webservice auf die Daten im GOV zuzugreifen.
+                WÃ¤hrend durch das Mini-GOV nur die oben genannten Informationen zu einem Ort zur
+                VerfÃ¼gung stehen, kann Ã¼ber den Webservice auf sÃ¤mtliche Daten des GOV zugegriffen
+                werden (siehe <ref type="graphic" target="#urbanonyme_2020_003">Abbildung 3</ref>).<note type="footnote"> <ref
+                    type="bibliography" target="#verein_gazetteer_2021a">Verein fÃ¼r Computergenealogie e.
+                    V. (Hg.) 2021a</ref>.</note> Die Abfrage des Webservice ergibt ein assoziatives
+                Datenfeld (im Folgenden Dictionary), in dem verschiedene Informationen zum Ort
+                enthalten sind. Die Beschreibung der ZugehÃ¶rigkeit zu Ã¼bergeordneten Objekten
+                erfolgt im Key â€ºpart-ofâ€¹. Das in <ref type="graphic" target="#urbanonyme_2020_003">Abbildung 3</ref>
+                dargestellte Beispiel enthÃ¤lt vier ZugehÃ¶rigkeiten. Die Dauer der ZugehÃ¶rigkeit kann
+                entweder Ã¼ber â€ºtimespanâ€¹ definiert sein. Im anderen Fall sind â€“ wie im Beispiel â€“
+                Beginn und Ende gesondert definiert. Auch ist die GOV-ID des Ã¼bergeordneten Objekts
+                enthalten. Das ermÃ¶glicht beispielsweise zusÃ¤tzlich die administrativen
+                ZusammenhÃ¤nge der Vergangenheit zu erfassen. Die dadurch entstehende Baumstruktur
+                ist implizit, da sie erst wÃ¤hrend der Suche erzeugt wird.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_003" url=".../medien/urbanonyme_2020_003.png">
+                  <desc>
+                      <ref target="#abb3">Abb. 3</ref>: Auszug aus einer&#xA;
+                          GOV-Abfrage. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_003"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Urbanonyme kommen in vielen Quellen
+                vor. Besonders konzentriert sind Urbanonyme in genealogischen Datenstrukturen zu
+                finden. Hierin sind es die zentralen Vitaldaten von Personen (Geburt bzw. Taufe,
+                Heirat und Tod bzw. Beerdigung), die oftmals auch mit einer Ortsbezeichnung versehen
+                sind. Durch die verwandtschaftlichen VerknÃ¼pfungen liegen zudem verschiedene
+                Kontextdaten vor (Namen, Zeiten, weitere Ortsangaben). Aufgrund der hohen
+                Informationsdichte werden im Zuge dieser Arbeit genealogische Daten in Form von
+                GEDCOM-Dateien zur Validierung des Algorithmus eingesetzt. Einzelne GEDCOM-Dateien
+                bestehen aus Text mit einer definierten Syntax. Eine Person wird beispielsweise wie
+                im nachfolgenden Beispiel definiert (siehe <ref type="graphic" target="#urbanonyme_2020_004">Abbildung 4</ref>). Verschiedenartige Informationen werden dabei mit
+                verschiedenen Tags gekennzeichnet. StandardmÃ¤ÃŸig definiert der Tag <code>PLAC</code> dabei eine Ortsangabe.<note type="footnote"> Neben dem Standard kÃ¶nnen
+                        einzelne programmspezifische Tags entwickelt werden. Diesen ist ein
+                        Unterstrich (â€º_â€¹) vorangestellt. So ist es prinzipiell mÃ¶glich, weitere
+                        ortsbezogene Tags zu entwickeln und anzuwenden. Hervorzuheben ist hierbei
+                        insbesondere der Tag <code>_LOC</code>, Ã¼ber den ein eigener
+                        Datensatz zu der Ortsangabe erstellt wird. Darin kÃ¶nnen u.Â a. Tags wie <code>_GOV</code> genutzt werden, Ã¼ber welchen direkt die
+                        GOV-URI zugeordnet wird. Ãœber die Tags <code>LATI</code> und
+                            <code>LONG</code> kÃ¶nnen zudem seit der GEDCOM-Version
+                    5.5.1 direkt Koordinatenangaben gemacht werden (vgl. <ref
+                        type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 118).
+                        In der Validierung werden diese Tags nochmals aufgegriffen.</note> Diese
+                kann sich auf die oben genannten Ereignisse beziehen. Im Beispiel ist sie dem Tag
+                    <code>DEAT</code> zugeordnet, beschreibt also den Ort des Todes.
+                Ortsangaben unter diesem Tag sollten die VerwaltungszugehÃ¶rigkeit in aufsteigender
+                Reihenfolge enthalten und mit einem Komma voneinander getrennt werden,
+                beispielsweise: Stadt, Kreis, Bundesland, Land.<note type="footnote"> <ref
+                    type="bibliography" target="#gellatly_reconstructing_2015">Gellatly 2015</ref>, S. 117.</note>
+            </p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_004" url=".../medien/urbanonyme_2020_004.png">
+                  <desc>
+                      <ref target="#abb4">Abb. 4</ref>: Auszug einer
+                      GEDCOM-Datei. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_004"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            </div>
+            <div type="chapter">
+               <head>3. Entwicklung des (heuristischen) Algorithmus</head>            
+            <p>Um historische Ortsangaben im
+                deutschsprachigen Raum zu identifizieren und nachfolgend lokalisieren zu kÃ¶nnen,
+                wird in diesem Abschnitt die Entwicklung eines Algorithmus beschrieben. In diesem
+                wird die Heuristik zur kontextbasierten Auswahl eines Orts formalisiert. ZunÃ¤chst
+                wird die Metaheuristik erlÃ¤utert, die dem zu entwickelnden Algorithmus zugrunde
+                liegt. Die einzelnen Unteraspekte der Metaheuristik werden danach ausfÃ¼hrlicher
+                behandelt. Darunter fallen die Datenbereinigung, der Vergleich mit dem Mini-GOV, die
+                Realisierung einer Ã„hnlichkeitserkennung, die Hinzuziehung von Kontextdaten und
+                deren Alternativen sowie die Ermittlung historischer administrativer
+                ZugehÃ¶rigkeiten.</p>
+            <div type="subchapter">
+               <head>3.1 Metaheuristik</head>            
+            <p>Auch der Algorithmus bildet die
+                eingangs eingefÃ¼hrte inhaltliche Zweiteilung ab: Zum einen die Identifizierung eines
+                Ortes, zum anderen die Bestimmung der historischen administrativen ZugehÃ¶rigkeit zu
+                einem manuell definierten Zeitpunkt (im Folgenden â€ºBezugszeitâ€¹ genannt). Die
+                Identifizierung wird zudem in zwei Unterabschnitte getrennt: Im ersten Teil werden
+                zunÃ¤chst alle Ortsangaben des Kontextes gesammelt und bewertet.<note type="footnote"> Die Metaheuristik beschrÃ¤nkt sich
+                        bei der Hinzuziehung des Kontexts zur Identifizierung auf weitere
+                        Ortsangaben. Eine ErlÃ¤uterung fÃ¼r diese Auswahl ist in Abschnitt 3.4 zu
+                        finden. Quellenspezifisch muss der Kontext jeweils definiert
+                    werden.</note> Als Erstes werden dabei die Ortsangaben grundlegend
+                bereinigt. Es wird je Ortsangabe geprÃ¼ft, wie viele Ãœbereinstimmungen mit den
+                Bezeichnungen im Mini-GOV vorliegen. Folgend werden all die Orte, die genau <hi rend="italic">eine</hi> exakte Ãœbereinstimmung aufweisen,
+                identifiziert und in die Kontextdaten mit aufgenommen (siehe <ref type="graphic" target="#urbanonyme_2020_005">Abbildung 5</ref>). Neben den Bezeichnungen und der
+                GOV-ID werden zu den Kontextdaten auch die geographischen Koordinaten
+                gespeichert.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_005" url=".../medien/urbanonyme_2020_005.png">
+                  <desc>
+                     <ref target="#abb5">Abb. 5</ref>: Ermittlung und Bewertung von Kontextdaten, eigene Darstellung als Nassi-Sneiderman-Diagramm.[Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_005"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Mit Hilfe der nun ermittelten
+                Kontextdaten kÃ¶nnen im zweiten Teil weitere Ortsangaben identifiziert werden (siehe
+                <ref type="graphic" target="#urbanonyme_2020_006">Abbildung 6</ref>): Bei mehreren
+                Ãœbereinstimmungen mit dem Mini-GOV wird geprÃ¼ft, ob fÃ¼r die zu Ã¼berprÃ¼fende
+                Ortsangabe Kontextdaten zur VerfÃ¼gung stehen.<note type="footnote"> Es kann sein, dass der Kontext so einen geringen
+                        Umfang hat, dass die vorhergehende Ermittlung der Kontextdaten kein Ergebnis
+                        brachte. Das ist hier konkret der Fall, wenn keine weiteren Ortsangaben
+                        vorliegen.</note> Falls ja, so werden fÃ¼r die verschiedenen
+                MÃ¶glichkeiten jeweils die Koordinaten ermittelt und mit den Koordinaten der
+                Kontextdaten verglichen. Der Ort, der nach diesem Vergleich die geringste Distanz
+                aufweist, wird ausgewÃ¤hlt. Sind keine Kontextdaten vorhanden wird Ã¼ber eine
+                Zuordnung auf Basis des Typs der mÃ¶glichen Orte entschieden.</p>
+            <p>Liegt nach dem eingÃ¤nglichen Vergleich
+                mit dem Mini-GOV keine genaue Ãœbereinstimmung vor, so findet eine
+                Ã„hnlichkeitsÃ¼berprÃ¼fung zwischen der Ortsbezeichnung und den EintrÃ¤gen im Mini-GOV
+                statt. So kÃ¶nnen Fehler korrigiert werden, die durch die eingÃ¤ngliche Bereinigung
+                nicht erkannt wurden. Besteht dennoch keine Ã„hnlichkeit mit einem Objekt aus dem
+                Mini-GOV, bleibt der Ort unidentifiziert. Bei einem oder mehreren Treffern wird wie
+                oben beschrieben verfahren.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_006" url=".../medien/urbanonyme_2020_006.png">
+                  <desc>
+                     <ref target="#abb6">Abb. 6</ref>: Ortsidentifizierung, eigene Darstellung als Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_006"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Der zweite Teil, die Clusterung,
+                beginnt damit, dass fÃ¼r das zu untersuchende Objekt geprÃ¼ft wird, ob eine Zuordnung
+                zu einer historisch-administrativen Gliederungseinheit bereits frÃ¼her erfolgt ist
+                (siehe <ref type="graphic" target="#urbanonyme_2020_007">Abbildung 7</ref>). Das dient der Vermeidung
+                doppelter ProgrammdurchlÃ¤ufe und somit der LaufzeitverkÃ¼rzung. Wurde das Objekt noch
+                keiner Ã¼bergeordneten Einheit zugeordnet, so wird diese in der Baumstruktur der
+                Ã¼bergeordneten Objekte gesucht. Das erfolgt, indem in maximal zehn Iterationen
+                jeweils ein Ã¼bergeordnetes Objekt ausgewÃ¤hlt und neu untersucht wird. Hierzu wird
+                jeweils geprÃ¼ft, ob das Objekt Teil einer definierten Menge ist. Diese Menge stellt
+                die historisch-administrative Zielgliederung (im Folgenden â€ºProvinzâ€¹) zur Bezugszeit
+                dar. Entspricht das Objekt einem Element der Zielmenge, so wird dem ursprÃ¼nglichen
+                Objekt diese Provinz zuordnet. Ist das nicht der Fall, so werden die Informationen
+                aus dem GOV-Webservice fÃ¼r das entsprechende Objekt ausgelesen. Dieses Objekt kann
+                nun wiederum fÃ¼r sich Ã¼bergeordnete Objekte aufweisen, von denen eines fÃ¼r die
+                nÃ¤chste Iteration auszuwÃ¤hlen ist. Das geschieht, indem jedes Ã¼bergeordnete Objekt
+                dahingehend geprÃ¼ft wird, ob die Bezugszeit in den Zeitraum der ZugehÃ¶rigkeit des
+                untergeordneten zum Ã¼bergeordneten Objekt fÃ¤llt. Ist das der Fall, wird das
+                Ã¼bergeordnete Objekt einer Liste A (hÃ¶here PrioritÃ¤t) hinzugefÃ¼gt. Um beim obigen
+                Beispiel zu bleiben, kÃ¶nnte etwa â€ºMark Brandenburgâ€¹ als Ã¼bergeordnetes Objekt fÃ¼r
+                â€ºBerlinâ€¹ ausgewÃ¤hlt werden, wenn die Bezugszeit beispielsweise â€º1301â€“1400â€¹ betrÃ¤gt.
+                Liegt die Bezugszeit hingegen nicht in der Zeitspanne der ZugehÃ¶rigkeit zum
+                Ã¼bergeordneten Objekt, so wird das Objekt einer Liste B (niedrigere PrioritÃ¤t)
+                    zugewiesen.<note type="footnote">
+                        Liste A und B dienen der Priorisierung weiterer Schritte. Falls die Liste A
+                        kein Element enthÃ¤lt, ist kein Ã¼bergeordnetes Objekt zeitlich exakt passend.
+                        Das kann u.Â a. daran liegen, dass das GOV nicht vollstÃ¤ndig gepflegt ist
+                        oder aber ein Objekt erst nach der Bezugszeit entstanden ist und deswegen
+                        keine ZugehÃ¶rigkeit zur Bezugszeit bestehen kann. Nur im Falle einer leeren
+                        ListeÂ A wird mit der ListeÂ B weiter verfahren.</note> EnthÃ¤lt die
+                entsprechende Liste ein Element, so wird dieses Objekt ausgewÃ¤hlt und mit ihm die
+                neue Iteration begonnen. EnthÃ¤lt die Liste jedoch mehrere Objekte, dann findet ein
+                Vergleich dieser statt. Das ist Ã¼berwiegend der Fall, wenn die ListeÂ B Verwendung
+                findet. Letztlich wird das Objekt ausgewÃ¤hlt, das zeitlich der Bezugszeit am
+                nÃ¤chsten ist.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_007" url=".../medien/urbanonyme_2020_007.png">
+                  <desc>
+                     <ref target="#abb7">Abb. 7</ref>: Analyse der provinziellen Zuordnung, eigene Darstellung als Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_007"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            <div type="subchapter">
+               <head>3.2 Datenbereinigung</head>            
+            <p>Da es denkbar ist, dass
+                Ortsbezeichnungen systematische Fehler enthalten, ist eine grundsÃ¤tzliche
+                Bereinigung der Daten angebracht.<note type="footnote"> Je nach Ermittlung der Bezeichnungen sind dabei andere
+                        Fehler denkbar. So wird eine automatisierte Texterkennung andere Fehler
+                        machen als ein Mensch.</note> Der Algorithmus sollte auf die jeweils
+                auftretenden systematischen Fehler der Quelle spezifisch angepasst werden. Die
+                VerÃ¤nderung der Ortsbezeichnungen ist dabei nicht unkritisch, da mit dieser eine
+                Interpretation der Daten einhergeht. Auf groÃŸe Datenmengen angewendet kann es bei
+                verallgemeinerten Korrekturregeln zu vermehrten Fehlinterpretationen kommen (FP). An
+                dieser Stelle werden darum nur allgemeine Fehler abgedeckt (zum Beispiel die
+                Entfernung von Sonderzeichen oder sonstiger unerwÃ¼nschter Bestandteile). Spezifische
+                Regeln kÃ¶nnen vom Anwender jeweils ergÃ¤nzt werden.</p>
+            </div>
+                <div type="subchapter">
+               <head>3.3 Suche</head>            
+            <p>Grundlage der Suche eines passenden
+                Ortes sind die Angaben Ã¼ber Namen von Orten im Mini-GOV â€“ und der (teilweisen)
+                Ãœbereinstimmungen mit der gegebenen Ortsbezeichnung aus den Quellen. Das Mini-GOV
+                liegt als CSV-Datei fÃ¼r jeden heute existierenden
+                Staat vor. Aus diesem Grund mÃ¼ssen (neben dem Deutschland-Mini-GOV) weitere LÃ¤nder,
+                in denen es vormals deutschsprachige Gebiete gab, integriert werden. Die einzelnen
+                Mini-GOVs werden zu einem gemeinsamen zusammengefÃ¼hrt. Dadurch ergibt sich eine
+                Liste mit mehreren Hunderttausend Orten. Zur Reduzierung der Suchdauer des
+                Algorithmus ist es hier wichtig, keine lineare Suche zu verwenden, sondern das
+                Mini-GOV vorher zu sortieren.<note type="footnote"> Beispielsweise bei einer GOV-Liste von 100.000 Orten
+                        und 10.000 zu lokalisierenden Urbanonymen wÃ¤ren bei einer einfachen Suche
+                        eine Milliarde einzelne Vergleiche durchzufÃ¼hren.</note> Die Sortierung
+                ermÃ¶glicht den Einsatz einer binÃ¤ren Suche.<note type="footnote"> Diese wird so ausgefÃ¼hrt, dass zunÃ¤chst der
+                        mittlere Eintrag der sortierten Instanz des Mini-GOVs identifiziert wird.
+                        Liegt die zu suchende Bezeichnung in alphabetischer Reihenfolge vor dem Ort,
+                        der in der Mitte steht, wird in einem nÃ¤chsten Durchlauf die Mitte der
+                        vorderen alphabetischen HÃ¤lfte analysiert. Das wird so lange wiederholt, bis
+                        die nÃ¤chste Mitte nur noch 10 Positionen von der vorherigen entfernt ist. Da
+                        es in einer alphabetischen Reihenfolge in einer Liste mehrere
+                        aufeinanderfolgende Treffer geben kann, ist eine vollstÃ¤ndige AusfÃ¼hrung der
+                        binÃ¤ren Suche nicht angebracht. Diese wÃ¼rde nur ein Element zum Resultat
+                        haben. Aus diesem Grund werden die 30 Positionen vor und 30 Positionen nach
+                        der letzten ermittelten Mitte zusÃ¤tzlich linear durchsucht. Das liegt darin
+                        begrÃ¼ndet, dass kein einzelner Ortsname mehr als 30 Mal im GOV
+                    vorkommt.</note> Die Suche kann drei Ergebnisse hervorbringen:</p>
+            <list type="unordered">
+                <item>Kein Treffer: Es gibt keinen Wert im definierten Bereich des Mini-GOVs, der
+                    genau der bereinigten Ortsbezeichnung entspricht.</item>
+                <item>Genau ein Treffer: Es gibt nur einen Wert im definierten Bereich des
+                    Mini-GOVs, der genau der bereinigten Ortsbezeichnung entspricht.</item>
+                <item>Viele Treffer: Es gibt mehr als einen Wert im definierten Bereich des
+                    Mini-GOVs, der genau der bereinigten Ortsbezeichnung entspricht.</item>
+            </list>
+            <p>Bei genau einem Treffer wird eben
+                dieser ausgewÃ¤hlt. In den anderen beiden FÃ¤llen ist eine weitere Analyse notwendig.
+                Beim Ausbleiben eines Treffers werden Ã¤hnliche Zeichenketten gesucht, da u.Â a.
+                Tippfehler in den Ortsbezeichnungen eine genaue Ãœbereinstimmung verhindern. Im Fall
+                mehrerer Treffer wird der Kontext der Ortsangabe zur weiteren Identifikation
+                herangezogen (siehe <ref type="intern" target="#hd10">Abschnitt 3.4</ref>).</p>
+            <p>Wird keine genaue Ãœbereinstimmung
+                zwischen Ortsbezeichnung und dem Namen eines Ortes im Mini-GOV gefunden, kann eine
+                teilweise Ãœbereinstimmung bei der Identifizierung helfen. Eine Berechnung zwischen
+                der Ã„hnlichkeit aller Namen im GOV und der zuzuordnenden Ortsbezeichnung ist vor dem
+                Hintergrund der RechenkapazitÃ¤t nicht erstrebenswert. Aus diesem Grund werden
+                lediglich die Orte verglichen, die zuvor schon eingegrenzt wurden.<note type="footnote"> Das fÃ¼hrt dazu, dass Fehler bei
+                        anfÃ¤nglichen Buchstaben nicht erkannt werden. Die Vorteile durch die
+                        schnellere Suche scheinen jedoch fÃ¼r die praktische DurchfÃ¼hrung wichtiger
+                        zu sein.</note> Zum Vergleich von Strings existieren, wie in <ref type="intern" target="#hd4">Abschnitt 2.2</ref> erÃ¶rtert, verschiedene
+                    DistanzmaÃŸe.<note type="footnote">
+                        Zandhuis et al. empfehlen zwar initial die Levenshtein-Distanz, bei mehreren
+                        Treffern sollte jedoch ein Vergleich der geographischen Entfernung
+                        vorgenommen werden.  <ref
+                            type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S. 37.</note> Die Verwendung
+                unterschiedlicher DistanzmaÃŸe wird im <ref type="intern" target="#hd13">Abschnitt 5.
+                    Validierung</ref> diskutiert.</p>
+                </div>
+            <div type="subchapter">
+               <head>3.4 Kontextdaten</head>            
+            <p>Ansatzpunkte zur Ermittlung der
+                Kontextdaten kÃ¶nnen sich aus der Quelle der zu lokalisierenden Ortsangabe ergeben.
+                Als Kontext fÃ¼r eine Bezeichnung in einem Buch kann so unter UmstÃ¤nden das ganze
+                Buch dienen. Wie in <ref type="intern" target="#hd3">Abschnitt 2.1</ref> gezeigt, gibt es
+                verschiedene Informationen im Kontext von Ortsbezeichnungen (insbesondere andere
+                Ortsbezeichnungen, Vor- und Nachnamen, Zeitangaben). Im Weiteren werden
+                ausschlieÃŸlich die anderen Ortsangaben als Kontextangaben genutzt. Der Ausschluss
+                von Vor- und Familiennamen sowie Zeitangaben geschieht vor dem Hintergrund, dass zu
+                den Namen einerseits keine Studie zur geografischen Verteilung ab dem 17.
+                Jahrhundert existiert,<note type="footnote"> Allenfalls gibt es solche Betrachtungen fÃ¼r einzelne
+                        Regionen oder bestimmte Namen, beispielsweise in der Verteilung
+                        verschiedener Schreibweisen des Namens â€ºMayerâ€¹ (vgl. <ref type="bibliography" target="#hohensinner_name_2011">Hohensinner 2011</ref>).</note>
+                andererseits wird die geographische Zuordnung von Vornamen mit zunehmender Zeit
+                    unschÃ¤rfer.<note type="footnote"> Die
+                        Namensgebung passiert heute in Deutschland weniger formalisiert als noch vor
+                        100 Jahren, sondern bietet mehr individuelle Freiheiten (u.Â a. eine deutlich
+                        grÃ¶ÃŸere Variation der Vornamen).</note> Eine fehlende Ãœbersicht zur
+                VerÃ¤nderung der Ortsnamen im Zeitverlauf fÃ¼hrt dazu, dass auch der temporale Aspekt
+                nicht weiter herangezogen wird. Zudem betrifft die VerÃ¤nderung der Bezeichnung
+                innerhalb der Neuzeit nur einen kleinen Teil der Orte. Dagegen sind weitere
+                Ortsangaben als Kontext besonders geeignet, vor allem wenn eine Dichte Nennung von
+                Orten erfolgt. Bei einer Ortsangabe in einem Buch, in dem der nÃ¤chste Ort erst 200
+                Seiten spÃ¤ter genannt wird, ist der Kontext hingegen zur Identifizierung
+                voraussichtlich nicht geeignet. Sind in einer Quelle auf 20 Seiten aber 200
+                Ortsangaben, erscheint es wahrscheinlicher, dass diese in einer inhaltlichen
+                Beziehung zueinander stehend genannt werden.<note type="footnote"> Auch diese Aussage ist nicht allgemeingÃ¼ltig: In
+                        einer alphabetisch sortierten Ortsliste ist das nicht der Fall.</note>
+                Vor der Anwendung dieses Algorithmus sollten eine Quelle und ihr Kontext dahingehend
+                begutachtet werden.</p>
+            <p>Eine Eigenschaft dieser Vorgehensweise
+                ist, dass Ortsangaben, sollen sie als Kontext zur Identifizierung anderer
+                Ortsangaben genutzt werden, selbst zunÃ¤chst einmal identifiziert werden mÃ¼ssen. Aus
+                diesem Grund werden alle Ortsangaben zunÃ¤chst auf Ãœbereinstimmung mit dem Mini-GOV
+                geprÃ¼ft. Die Ortsangaben, bei denen eine eindeutige Zuordnung zu einem Eintrag im
+                Mini-GOV vorgenommen werden kann, bilden die Kontextdaten. Hier wird deutlich, dass
+                nur ein Teil der Ortsangaben in die Kontextdaten eingeht.</p>
+            <p>Um anhand der Kontextdaten nun eine
+                Auswahl zwischen verschiedenen Orten zu treffen, ist die geographische NÃ¤he das
+                wesentliche Kriterium. Den Grundgedanken, dass die <quote>geographical unit that has the smallest geographic distance to the place of
+                    origin</quote> fÃ¼r die Zuordnung von Ortsangaben genutzt werden kann, hatten
+                bereits Zandhuis et al.<note type="footnote"> <ref type="bibliography" target="#zandhuis_toponyms_2015">Zandhuis et al. 2015</ref>, S. 37.</note> Wobei der <quote>place of origin</quote> in dem Fall der Entstehungsort der Quelle
+                der Ortsangabe ist, der (1.) selten vorliegen dÃ¼rfte und (2.) auch erstmal
+                identifiziert werden mÃ¼sste. Der Ansatz hingegen, andere Ortsangaben desselben
+                Kontextes zu nutzten, ist neu und basiert auf der Annahme, dass zusammen genannte
+                Orte oftmals auch nah beieinanderliegen. Insbesondere bei genealogischen Quellen
+                trifft diese Annahme zu. So werden oftmals Ehepartner
+                aus einer engeren rÃ¤umlichen Entfernung gewÃ¤hlt.<note type="footnote"> Vgl. <ref type="bibliography" target="#kocka_familie_1980">Kocka et al. 1980</ref>.</note>
+                Oftmals wurden auch Ehepartner aus dem gleichen Ort gewÃ¤hlt.<note type="footnote"> Vgl. <ref type="bibliography" target="#baehr_bevoelkerungsgeographie_1992">BÃ¤hr et al. 1992</ref>.</note> Ein
+                hoher Anteil der BevÃ¶lkerung war lange nur sehr eingeschrÃ¤nkt mobil. Diese Methodik
+                ist also insbesondere geeignet fÃ¼r Urbanonyme, die zusammen mit Personen genannt
+                werden (beispielsweise in prosopografischen Quellen). Weniger geeignet ist sie fÃ¼r
+                Quellen, bei denen die Orte eindeutig in keinem rÃ¤umlichen Zusammenhang stehen (z.
+                B. eine alphabetische Liste aller StÃ¤dte).</p>
+            <p>Zu jedem Ort in den Kontextdaten
+                liegen durch das Mini-GOV Koordinaten vor. Das geographische Mittel<note type="footnote"> Es gibt keine
+                        allgemeingÃ¼ltige Norm des geographischen Mittels, da neben den Koordinaten
+                        beispielsweise die Topographie in die Gewichtung mit einflieÃŸen kann. An
+                        dieser Stelle wird das arithmetische Mittel jeweils von LÃ¤ngen- und
+                        Breitengrad genutzt.</note> dieser Orte stellt dabei eine Position dar,
+                die zu allen anderen Orten durchschnittlich die geringste Distanz hat. In dieser
+                Vorgehensweise wird ein weiterer Nachteil ersichtlich: Die Quelle kann Orte
+                enthalten, die geografisch sehr weit voneinander entfernt sind. Wenn diese sich
+                nicht gleichflÃ¤chig Ã¼ber den Raum verteilen (wovon auszugehen ist), kÃ¶nnen sich
+                verschiedene RÃ¤ume mit einer groÃŸen Dichte an Datenpunkten ausbilden.<note type="footnote"> Eine alternative
+                        Idee ist es aus diesem Grund, nicht alle Orte in die Kontextdaten einflieÃŸen
+                        zu lassen, sondern vormals nochmal zu selektieren. Bei genealogischen Daten
+                        kÃ¶nnten z. B. nur die Orte der Personen, die eine nahe verwandtschaftliche
+                        VerknÃ¼pfung aufweisen, einbezogen werden. Die Verwandtschaftsbeziehungen
+                        stellen weitere Kontextdaten dar. Die wenigsten historischen Quellen
+                        verfÃ¼gen jedoch speziell Ã¼ber diese Kontextdaten. Aus diesem Grund findet
+                        dieser Aspekt keine Anwendung.</note> Die geographische Mitte wÃ¼rde in
+                keinem dieser Ballungsgebiete liegen. Hierbei schafft die Bildung dezentraler
+                    Cluster<note type="footnote"> Diese
+                        Bildung von Cluster aus den Kontextdaten ist nicht mit der (spÃ¤teren)
+                        Clusterung der identifizierten Orte entsprechen ihrer regionalen
+                        ZusammengehÃ¶rigkeit identisch. Vielmehr dÃ¼rfen diese nicht verwechselt
+                        werden. In beiden FÃ¤llen wird geclustert, weshalb der Begriff derselbe ist.
+                        Zur Unterscheidung ist ein genauer Blick auf den Zusammenhang zu werfen, in
+                        dem der Begriff verwendet wird.</note> Abhilfe. Die Validierung wird
+                zeigen, welche praktischen Auswirkungen diese Art der Clusterung mit sich
+                bringt.</p>
+            <p>FÃ¼r den Fall, dass keine Kontextdaten
+                vorhanden sind, jedoch trotzdem eine Auswahl zwischen verschiedenen Orten
+                stattfinden soll, ist eine alternative Entscheidungsfindung zu definieren. So kann â€“
+                unter Hinzuziehung weiterer Heuristiken â€“ auf die Wahrscheinlichkeit fÃ¼r die
+                ZugehÃ¶rigkeit eines Urbanonyms zu einem bestimmten Ort geschlossen werden. Wenn z.
+                B. gleichnamig eine Stadt und ein kleiner Weiler mit demselben Namen existieren,
+                dann ist es wahrscheinlicher, dass die Stadt gemeint ist. Dahinter wiederum verbirgt
+                sich die Annahme, dass mehr Menschen in einer Stadt als in einer kleinen Ansammlung
+                von HÃ¤usern gelebt haben. Diese Unterscheidung wird durch die Objekttypen im
+                Mini-GOV ermÃ¶glicht. Dazu wird folgende Reihenfolge definiert: </p>
+            <list type="ordered">
+                <item>Kreisfreie Stadt</item>
+                <item>Stadt</item>
+                <item>Dorf</item>
+                <item>Pfarrdorf</item>
+                <item>Ort</item>
+                <item>Ortsteil</item>
+                <item>Ortschaft</item>
+                <item>Wohnplatz</item>
+                <item>Weiler </item>
+            </list>
+            <p>Sollten zwei Orte gleichen Objekttyps
+                Ã¼brigbleiben, ist eine Identifizierung fehlgeschlagen.</p>
+            </div>
+                <div type="subchapter">
+               <head>3.5 Clusterung zur historischen administrativen ZugehÃ¶rigkeit</head>            
+            <p>Sind die Orte (im Folgenden â€ºObjekteâ€¹)
+                identifiziert, so stehen zu ihnen verschiedene Metadaten aus dem Mini-GOV zur
+                VerfÃ¼gung. Angaben zur historischen administrativen ZugehÃ¶rigkeit sind dort
+                allerdings nicht zu finden. Ãœber den Webservice des GOV kÃ¶nnen diese Angaben jedoch
+                ermittelt werden, da dort die historische ZugehÃ¶rigkeit eingesehen werden kann. Die
+                hierarchische Anordnung von unter- und Ã¼bergeordneten Objekten ergibt eine
+                Baumstruktur. Jedes Objekt hat Informationen Ã¼ber seine Ã¼bergeordneten Objekte. In
+                der Folge liegt die Baumstruktur nicht zu Beginn vor, sondern wird mit der Abfrage
+                jedes Ã¼bergeordneten Objektes implizit weiter aufgebaut. Durch die VerknÃ¼pfung der
+                ZugehÃ¶rigkeiten ergibt sich eine Baumstruktur (Beispiel in <ref type="graphic" target="#urbanonyme_2020_008">Abbildung 8</ref>). Um eine administrative
+                ZugehÃ¶rigkeit zu ermitteln, ist es Ziel, den richtigen Pfad in der Baumstruktur zu
+                finden. Das geht nur, wenn zuvor mÃ¶gliche Ziele (Cluster, Provinzen) definiert
+                werden. Die Zielmenge ist dabei zeitabhÃ¤ngig: Je nach gewÃ¼nschter Zeit kann die
+                Clusterung anders ausgestaltet sein. Dazu muss die Zielmenge fÃ¼r verschiedene
+                Bezugszeiten definiert werden. Fertig et al. strukturieren das deutschsprachige
+                Gebiet in 39 Einheiten, die den Zeitraum von 1816 bis 1871 abdecken.<note type="footnote"> Vgl. <ref type="bibliography" target="#fertig_zeitalter_2018">Fertig et al.
+                    2018</ref>.</note> FÃ¼r einen mÃ¶glichen Bezug auf die heute existierende
+                Gliederung werden die sechzehn BundeslÃ¤nder Deutschlands genutzt.<note type="footnote"> Beispiel: Bei einem Interesse an
+                        der Zuordnung Dresdens wÃ¤re im Jahr 2000 der Freistaat Sachsen korrekt
+                        (GOV-Objekt â€ºobject_218149â€¹), 1850 aber beispielsweise das KÃ¶nigreich
+                        Sachsen (GOV-Objekt â€ºobject_218149â€¹).</note> Allerdings kÃ¶nnte auch eine
+                Gliederung heutiger Daten in den Grenzen von 1850 â€“ oder andersherum, die Einteilung
+                historischer Daten in den heutigen Grenzen â€“ interessant sein. Diese wird durch eine
+                Variation der Bezugszeit ermÃ¶glicht. Eine Zuordnung mÃ¶glicher Provinzen mit
+                GOV-Objekten ist folgend aufgefÃ¼hrt (siehe <ref type="graphic" target="#urbanonyme_2020_t2">Tabelle
+                    2</ref>). Weitere Regionen â€“ oder eine detailliertere Skalierung der mÃ¶glichen
+                Cluster (u.Â a. Kreise, Regierungsbezirke) â€“ kÃ¶nnen bei Bedarf implementiert
+                werden.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_008" url=".../medien/urbanonyme_2020_008.png">
+                  <desc>
+                      <ref target="#abb8">Abb. 8</ref>: GOV-Struktur der Stadt  <ref target="http://gov.genealogy.net/item/show/object_113700">WiedenbrÃ¼ck</ref>, Stand: 30. Januar 2021. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_008"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <table>
+               <row>
+                    <cell>Provinz<note type="footnote"> Die mit A angefÃ¼hrten Provinzen sind PreuÃŸen zugehÃ¶rig, dem mit
+                                dem B stellen weitere Territorien dar.</note>
+                  </cell>
+                    <cell>GOV-Identikator</cell>
+                    <cell>Bemerkung</cell>
+                </row>
+               <row>
+                    <cell>ab hier Bezugszeit
+                        &lt;= 1871</cell>
+                </row>
+               <row>
+                    <cell>A 01 Provinz Holstein</cell>
+                    <cell>object_190122</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 02 Provinz Lauenburg</cell>
+                    <cell>adm_131053</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 03 Provinz Brandenburg (ohne
+                        Berlin)</cell>
+                    <cell>object_1081716</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 04 Provinz
+                        Hessen-Nassau</cell>
+                    <cell>object_190330</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 05 Provinz
+                        Hohenzollern</cell>
+                    <cell>object_268785</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 05 Provinz
+                        Hohenzollern</cell>
+                    <cell>object_284443</cell>
+                    <cell>Hohenzollern-Sigmaringen 1850
+                        nach Hohenzollerschen Landen</cell>
+                </row>
+               <row>
+                    <cell>A 06 Provinz OstpreuÃŸen</cell>
+                    <cell>adm_368500</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 07 Provinz Pommern</cell>
+                    <cell>adm_368480</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 08 Provinz Posen</cell>
+                    <cell>object_211667</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 09 Provinz Sachsen</cell>
+                    <cell>object_279654</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 10 Provinz Schlesien</cell>
+                    <cell>adm_368470</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 11 Provinz Westfalen</cell>
+                    <cell>object_190325</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 12 Provinz WestpreuÃŸen</cell>
+                    <cell>object_213750</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 13 Rheinprovinz</cell>
+                    <cell>object_1047283</cell>
+                    <cell>Provinz JÃ¼lich-Kleve-Berg bis
+                        1822</cell>
+                </row>
+               <row>
+                    <cell>A 13 Rheinprovinz</cell>
+                    <cell>object_405464</cell>
+                    <cell>Provinz GroÃŸherzogtum
+                        Niederrhein bis 1822</cell>
+                </row>
+               <row>
+                    <cell>A 13 Rheinprovinz</cell>
+                    <cell>object_190337</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>A 14 Provinz Berlin</cell>
+                    <cell>BERLINJO62PM</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 01 Amt Bergedorf</cell>
+                    <cell>object_257607</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 02 Hansestadt Bremen</cell>
+                    <cell>adm_369040</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 03 Stadt Hamburg</cell>
+                    <cell>adm_369020</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 04 Stadt LÃ¼beck</cell>
+                    <cell>LUBECKJO53IU</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 05 Stadt Frankfurt am
+                        Main</cell>
+                    <cell>adm_136412</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 06 FÃ¼rstentum
+                        Lippe-Detmold</cell>
+                    <cell>object_217406</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 07 FÃ¼rstentum
+                        Schaumburg-Lippe</cell>
+                    <cell>object_217818</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 08 FÃ¼rstentum
+                        Waldeck-Pyrmont</cell>
+                    <cell>object_218152</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 09 GroÃŸherzogtum
+                        Oldenburg</cell>
+                    <cell>object_352387</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 10 GroÃŸherzogtum Baden</cell>
+                    <cell>object_217952</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 11 Hessen</cell>
+                    <cell>object_218147</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 12 GroÃŸherzogtum
+                        Mecklenburg-Schwerin</cell>
+                    <cell>object_217750</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 13 GroÃŸherzogtum
+                        Mecklenburg-Strelitz (einschlieÃŸlich des FÃ¼rstentums Ratzeburg)</cell>
+                    <cell>object_217749</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 14 Herzogtum Anhalt</cell>
+                    <cell>object_190873</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 15 Herzogtum
+                        Braunschweig</cell>
+                    <cell>object_217954</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 16 Herzogtum Nassau</cell>
+                    <cell>object_218153</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 17 Herzogtum Schleswig</cell>
+                    <cell>object_190098</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 18 KÃ¶nigreich
+                        WÃ¼rttemberg</cell>
+                    <cell>object_190729</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 19 KÃ¶nigreich Bayern</cell>
+                    <cell>object_217953</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 20 KÃ¶nigreich Hannover</cell>
+                    <cell>object_190327</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 21 KÃ¶nigreich Sachsen</cell>
+                    <cell>object_218149</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 22 KurfÃ¼rstentum
+                        Hessen</cell>
+                    <cell>object_275299</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 23 Landgrafschaft
+                        Hessen-Homburg</cell>
+                    <cell>object_284442</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218143</cell>
+                    <cell>Sachsen-Weimar-Eisenach</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_284441</cell>
+                    <cell>ReuÃŸ JÃ¼ngere Linie</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218134</cell>
+                    <cell>ReuÃŸ Ã„ltere Linie</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218137</cell>
+                    <cell>Sachsen-Altenburg</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218138</cell>
+                    <cell>Sachsen-Coburg-Gotha</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_265487</cell>
+                    <cell>Sachsen Gotha</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218142</cell>
+                    <cell>Sachsen-Meiningen</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218150</cell>
+                    <cell>Schwarzburg-Rudolstadt</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218151</cell>
+                    <cell>Schwarzburg-Sondershausen</cell>
+                </row>
+               <row>
+                    <cell>B 24 ThÃ¼ringische
+                        Staaten</cell>
+                    <cell>object_218141</cell>
+                    <cell>Sachsen-Hildburghausen</cell>
+                </row>
+               <row>
+                    <cell>ab hier Bezugszeit
+                        &gt;= 1990</cell>
+                </row>
+               <row>
+                    <cell>Land Baden-WÃ¼rttemberg</cell>
+                    <cell>adm_369080</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freistaat Bayern</cell>
+                    <cell>adm_369090</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Berlin<note type="footnote"> Berlin heute stellt das
+                                gleiche GOV-Objekt dar wie bei der historischen Klassifizierung.
+                                Insofern wir hier die Bezeichnung <hi rend="italic">A 14
+                                    Provinz Berlin</hi> und nicht <hi rend="italic">Land
+                                    Berlin</hi> ausgegeben.</note>
+                  </cell>
+                    <cell>BERLINJO62PM</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Brandenburg</cell>
+                    <cell>adm_369120</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freie Hansestadt Bremen</cell>
+                    <cell>adm_369040</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freie und Hansestadt
+                        Hamburg</cell>
+                    <cell>object_1259992</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Hessen</cell>
+                    <cell>adm_369060</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land
+                        Mecklenburg-Vorpommern</cell>
+                    <cell>adm_369130</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Niedersachsen</cell>
+                    <cell>adm_369030</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Nordrhein-Westfalen</cell>
+                    <cell>adm_369050</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Rheinland-Pfalz</cell>
+                    <cell>adm_369070</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Saarland</cell>
+                    <cell>adm_369100</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freistaat Sachsen<note type="footnote"> Hier besteht
+                                die gleiche Situation wie bei Berlin (siehe vorherige
+                            FuÃŸnote).</note>
+                  </cell>
+                    <cell>object_218149</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Sachsen-Anhalt</cell>
+                    <cell>adm_369150</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Land Schleswig-Holstein</cell>
+                    <cell>adm_369010</cell>
+                    <cell/>
+                </row>
+               <row>
+                    <cell>Freistaat ThÃ¼ringen</cell>
+                    <cell>adm_369160</cell>
+                    <cell/>
+                </row>
+
+                    <trailer xml:id="tab02">
+                        <ref type="intern" target="#tab2">Tab. 2</ref>: Zuordnung von Provinzen zum GOV. [Goldberg 2022]<ref type="graphic"
+                            target="#urbanonyme_2020_t2"/>
+                    </trailer> </table>
+            
+            <p>Zur Suche in der Baumstruktur Ã¼ber-
+                und untergeordneter Objekte wird im Folgenden ein informiertes Vorgehen genutzt.
+                Dazu wird jeweils geprÃ¼ft, ob das derzeitige Objekt Teil der Zielmenge ist. Ist es
+                das nicht, werden die Ã¼bergeordneten Objekte durchsucht. Hierbei wird Ã¼berprÃ¼ft, ob
+                es ein Objekt gibt, welches in den Zeitraum der Bezugszeit fÃ¤llt. Kann auf die Weise
+                kein Ã¼bergeordnetes Objekt identifiziert werden, wird dasjenige ausgewÃ¤hlt, dessen
+                Grenzen der zeitlichen ZugehÃ¶rigkeit am nÃ¤chsten an der Bezugszeit liegen (z. B. die
+                Bezugszeit 1820 und die zeitlichen Grenzen des nÃ¤chsten Objektes von
+                    1822-1838).<note type="footnote"> Die
+                        NÃ¤he der Grenzen zur Bezugszeit ist auch in dem seltenen Fall das Kriterium,
+                        in dem mehrere Ã¼bergeordnete Objekte in der Bezugszeit liegen.</note>
+                Sind ausschlieÃŸlich Ã¼bergeordnete Objekte ohne Zeitangaben vorhanden, weisen sie den
+                gleichen Abstand zur Bezugszeit auf. In dem Fall wird die nÃ¤chste Iteration mit dem
+                erstgenannten Objekt der GOV-Abfrage durchgefÃ¼hrt. Solche Objekte, die einen
+                kirchlichen oder juristischen Typ<note type="footnote"> Objekte kÃ¶nnen im Zeitverlauf verschiedenen Typen
+                        unterliegen, dieser Umstand wird nicht weiter betrachtet, weil sich die
+                        Objektkategorie nicht Ã¤ndert. Ein Dorf kann beispielsweise zur Stadt werden,
+                        eine Kirche aber nicht zur Stadt.</note> aufweisen oder nur im
+                nicht-deutschsprachigen Raum vorkommen, werden ausgeschlossen.<note type="footnote"> Beispielsweise bei dem Objekt
+                        â€ºNEUTE1JO44XBâ€¹ gibt es zwei Ã¼bergeordnete Objekte ohne zeitliche Angaben.
+                        Hier erfolgt jedoch eine konkrete Zuordnung zu dem Objekt, das keinen
+                        kirchlichen Typ aufweist.</note> Wird ein Ã¼bergeordnetes Objekt
+                identifiziert, das Teil der Zielmenge ist, ist die Suche der historischen
+                administrativen GebietskÃ¶rperschaft gelungen â€“ der Ort wird der Provinz
+                    zugeordnet.<note type="footnote">
+                        Eine Alternative dazu wÃ¤re eine klassische Tiefen- oder Breitensuche.
+                        Hierbei wÃ¼rden alle Zweige des Baumes analysiert, bis ein Objekt der
+                        Zielmenge gefunden wird. Das ist vor dem Hintergrund von Laufzeitaspekten
+                        ungÃ¼nstig, da dazu sehr oft auf das nur online verfÃ¼gbare GOV zugegriffen
+                        werden mÃ¼sste und die Internet-Schnittstelle zu einer VerlÃ¤ngerung der
+                        Durchlaufzeit fÃ¼hrte.</note>
+            </p>
+            <p>Nach der Ermittlung der ZugehÃ¶rigkeit
+                zu einer historischen Provinz wird diese gespeichert. Bei einer groÃŸen Anzahl von zu
+                identifizierenden Ortsbezeichnungen bietet diese Vorgehensweise den Vorteil, dass
+                doppelt vorkommende Ortsangaben mit denselben Kontextdaten nicht doppelt bearbeitet
+                werden.</p>
+            <p>Dieser Algorithmus findet die
+                entsprechende Provinz nicht, wenn </p>
+            <list type="ordered">
+                <item>durch die GOV-Abfrage keine Ã¼bergeordneten Objekte ausgegeben werden
+                    (Beispielobjekt â€ºLIEHA2JO62RVâ€¹) oder </item>
+                <item>kein Objekt der Zielmenge in den Ã¼bergeordneten Objekten auftaucht,<note type="footnote"> Das ist derzeit
+                            bei allen Orten der ehemaligen Provinz Holstein der Fall, da diese nicht
+                            mit dem entsprechenden Objekt im GOV verknÃ¼pft sind. Allerdings kann
+                            dieses auch einzelne Orte anderer Provinzen betreffen, z.Â B. Wesel
+                            (â€ºWESSELJO31HQâ€¹, Stand 18. Juni 2020). Dadurch, dass das GOV stetig
+                            erweitert wird, kÃ¶nnen die fehlenden VerknÃ¼pfungen in der Zukunft
+                            nachgeholt werden.</note> was </item>
+                <item>auch daran liegen kann, dass der identifizierte Ort im Ausland (also auÃŸerhalb
+                    der Zielmenge) liegt.</item>
+            </list>
+                </div>
+            </div>
+             <div>
+                 <p></p>
+                 <p></p>
+                 <p></p>
+                 <p></p>
+             </div>
+            <div type="chapter">
+               <head>4. Anpassung auf GEDCOM-Dateien</head>            
+            <p>Zur Vorbereitung der Validierung wurde der entwickelte Algorithmus in der
+                Programmiersprache Python 3.7 umgesetzt. Der Programmcode ist im <ref target="https://git.hab.de/forschungsdaten/zeitschrift-fuer-digitale-geisteswissenschaften/goldberg-urbanonyme">Online-Repositorium</ref>
+                einsehbar. Er gliedert sich in verschiedene Funktionen, die zunÃ¤chst einzeln
+                erlÃ¤utert und dann in ihrem Zusammenhang dargestellt werden. Die Kommentare im
+                Programmcode beschreiben die konkrete Umsetzung des Algorithmus detailliert, sodass
+                hier auf eine tief gehende ErlÃ¤uterung verzichtet wird. Zum besseren VerstÃ¤ndnis des
+                Programms wird hier vielmehr der Aufbau beschrieben. Das VerstÃ¤ndnis der Struktur
+                hilft dabei, das Programm anzupassen. Grundlegend ist das Programm in die drei
+                Bestandteile aufgeteilt, die auch schon zur Teilung des Algorithmus dienten (siehe
+                    <ref type="graphic" target="#urbanonyme_2020_009">Abbildung 9</ref>). Hierzu werden in jedem
+                Schritt eigene CSV-Dateien mit den Zwischenergebnissen erstellt und ausgegeben.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_009" url=".../medien/urbanonyme_2020_009.png">
+                  <desc>
+                     <ref target="#abb9">Abb. 9</ref>: Aufbau des Programms. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_009"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Vor der Main-Funktion wird dieser
+                Prozess einmal je GEDCOM-Datei angestoÃŸen (siehe <ref type="graphic" target="#urbanonyme_2020_010">Abbildung 10</ref>, die Pfeile zeigen an, in welcher Systematik die Funktionen
+                aufgerufen werden). Bevor das geschehen kann, werden die zu untersuchenden
+                GEDCOM-Datei vorbereitend so verÃ¤ndert, dass die Dateinamen eine Zahl gefolgt von
+                der Dateinamen-Endung â€º.gedâ€¹ beinhaltet (d. h. â€º1.gedâ€¹, â€º2.gedâ€¹ etc.). Zahlen dÃ¼rfen
+                nicht doppelt vorkommen, jedoch ausgelassen werden. Eine durchlaufende Nummerierung
+                ist empfohlen. </p>
+            <p>Ãœber die Funktion <code>importMiniGOV()</code> findet ein Import des Mini-GOV statt. Hier runter sind
+                verschiedene Textdateien zu verstehen, die zuvor je (heutigem) Staat vom CompGen
+                bereitgestellt werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#verein_index_2021b">Verein fÃ¼r Computergenealogie e. V. (Hg.)
+                    2021b</ref>.</note> Es werden die Mini-GOV-Dateien zu Deutschland, Polen,
+                Ã–sterreich, der Schweiz, Tschechien, DÃ¤nemark, Frankreich und den Niederlanden
+                integriert. Deutschsprachige Ortsnamen sind als <hi rend="italic">aktueller Name</hi> oder <hi rend="italic">letzter deutscher
+                    Name</hi> gekennzeichnet. Falls es Letzteren gibt, so wird ein zusÃ¤tzlicher
+                Eintrag kreiert, indem der alte Name den neuen Ã¼berschreibt.<note type="footnote"> Die Eintragungen der anderen
+                        europÃ¤ischen Staaten, die keinen letzten deutschen Namen aufweisen, werden
+                        bewusst nicht gelÃ¶scht, da das Programm unnÃ¶tig verschlechtert wÃ¼rde und so
+                        ein Ansatz gelegt ist, um auch auf internationale Ortsangaben adaptiert zu
+                        werden.</note> Ansonsten werden die Mini-GOVs aneinandergesetzt und
+                alphabetisch sortiert. Hintergrund der Sortierung ist die ErmÃ¶glichung einer binÃ¤ren
+                Suche darin.</p>
+            <p>Da viele GEDCOM-Dateien einzeln und
+                voneinander unabhÃ¤ngig zu bearbeiten sind, ist eine Parallelisierung des
+                Programmcodes sinnvoll. Die Funktion <code>parallel()</code> wird dazu
+                parallel aufgerufen und bearbeiten. Wesentlich darin ist der nacheinander folgende
+                Aufruf von <code>mainMetadataInspector()</code>,
+                <code>mainPlaceFinder() </code>und <code>mainProvinceFiner()</code>. Die Ergebnisse aus diesen jeweiligen
+                Funktionsaufrufen werden mit der Funktion <code>appendFile()</code> den
+                CSV-Dateien hinzugefÃ¼gt. Diese Dateien sind zuvor Ã¼ber die Funktion <code>createFile()</code> erstellt worden. Dazu dient unterstÃ¼tzend die
+                Funktion <code>loadData()</code>. Ebenso wurden zuvor die Daten der
+                jeweiligen GEDCOM-Datei Ã¼ber <code>loadGedcomFile()</code> geladen.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_010" url=".../medien/urbanonyme_2020_010.png">
+                  <desc>
+                      <ref target="#abb10">Abb. 10</ref>: Funktionsweise der&#xA; Main. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_010"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>FÃ¼r die Inspektion des Kontextes wird
+                eine Liste von Metadaten zu den einzelnen GEDCOM-Dateien geschaffen (siehe <ref type="graphic" target="#urbanonyme_2020_011">Abbildung 11</ref>). Dazu werden in der Funktion <code>prePlaceFinder()</code> die Ortsangaben Ã¼ber den Tag <code>PLAC</code> erkannt und Ã¼ber die Funktion
+                <code>minigovSearch() </code>geprÃ¼ft, ob sie nur
+                eine Ãœbereinstimmung im Mini-GOV aufweist. Hierzu wird Ã¼ber eine binÃ¤re Suche nach
+                der Anzahl an Ãœbereinstimmungen gesucht. Die jeweilige Ortsangabe wird dadurch
+                bereinigt, indem nur der Teil nach einem mÃ¶glichen ersten Komma entfernt wird. Wenn
+                nur ein Treffer erzielt wurde, so wird der Ort in eine Liste eindeutiger Orte mit
+                aufgenommen â€“ die selektierten Kontextdaten.</p>
+            <p>Nachfolgend wird in der Funktion <code>qualityChecker()</code> zunÃ¤chst geprÃ¼ft, ob die untersuchte
+                Datei schon einmal vollstÃ¤ndig verarbeitet wurde. In dem Fall wird fÃ¼r jede
+                Ortsangabe zunÃ¤chst nochmal geprÃ¼ft, ob sie in der Liste der eindeutigen Werte
+                vorhanden ist. Nicht zu allen eindeutigen Bezeichnungen gibt es jedoch
+                Koordinatenangaben. EintrÃ¤ge, bei denen diese fehlen, finden keine weitere
+                Beachtung. Mit den restlichen wird ein Clusterungsverfahren durchgefÃ¼hrt. Das
+                grÃ¶bste mÃ¶gliche Cluster stellt dabei den Mittelpunkt aus allen selektierten
+                Kontextdaten dar. Sinnvolle Parameter fÃ¼r die Feinheit der Clusterung werden in der
+                Validierung ermittelt. Die Koordinaten der Cluster werden zurÃ¼ckgegeben und ergÃ¤nzen
+                die Metadaten der Datei. <code>qualityChecker()</code> greift auf
+                verschiedene Funktionen zu: Mithilfe der Funktion <code>gedcomRowParser()</code> werden die Bestandteile einer GEDCOM-Zeile separiert;
+                    <code>stringDoublingCounter()</code> dient der ZÃ¤hlung von
+                Clustern.</p>
+            <p>Im Ergebnis bestehen die Metadaten aus
+                der Bezeichnung der Datei, den Durchschnittskoordinaten der selektierten
+                Kontextdaten, der Anzahl eindeutiger Ortsbezeichnungen, der Anzahl daraus gebildeter
+                Cluster sowie den Mittelpunkten jedes einzelnen Clusters. Die durchschnittlichen
+                Koordinaten ergeben sich aus dem arithmetischen Mittel der LÃ¤ngen- und Breitengrade
+                aller so gefundenen Ortsangaben.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_011" url=".../medien/urbanonyme_2020_011.png">
+                  <desc>
+                      <ref target="#abb11">Abb. 11</ref>: Funktionsweise der&#xA; Kontextdatenanalyse. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_011"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>In der Funktion <code>mainPlaceFinder()</code> werden die Daten durch die Funktion <code>dataCleaner()</code> zunÃ¤chst einer weitreichenden Bereinigung unterzogen (siehe
+                <ref type="graphic" target="#urbanonyme_2020_012">Abbildung 12</ref>). In der Funktion <code>stringFunc1()</code> wird dazu unter anderem geprÃ¼ft, ob eine
+                bestimmte Zeichenkette am Anfang steht; diese wird sodann gelÃ¶scht, andernfalls wird
+                alles vor dem Teilstring beibehalten. In <code>stringFunc2()</code>
+                fehlt diese alternative Bedingung. Wie im <ref type="intern" target="#hd11">vorherigen
+                    Abschnitt</ref> zerteilt die Funktion
+                <code>gedcomRowParser() </code>die einzelnen
+                GEDCOM-Zeilen in ihre Bestandteile.</p>
+            <p>Die konkrete Auswahl eines Orts zu
+                einer gegeben Ortsbezeichnung auf Basis der Kontextdaten findet in der Funktion <code>find()</code> statt, die durch die Funktion <code>placefinder()</code> vorbereitet wird. Hier wird im nÃ¤heren der in <ref type="graphic" target="#urbanonyme_2020_006">Abbildung 6</ref> gegebene Prozess umgesetzt. Unter
+                anderem findet die kontextsensitive Zuordnung von Ortsbezeichnungen und Orten hier
+                statt. Die Suche nach Clustern im Umkreis der Koordinate ist in die Funktion <code>areaSearch()</code> ausgegliedert. Hier wird auch die
+                typenbasierte Zuordnung realisiert, falls die Umkreissuche fehlschlÃ¤gt.</p>
+            <p>Als Ergebnis steht eine Tabelle zur
+                VerfÃ¼gung, die fÃ¼r jede (unbereinigte) Ortsbezeichnung in jeder Quelle eine Zeile
+                mit der GOV-URI, ihren ermittelten Koordinaten, der Information, Ã¼ber welche Art und
+                Weise die Funktion <code>find()</code> die Zuordnung getroffen hat, der
+                bereinigten und unbereinigten Ortsangabe sowie den Dateinamen enthÃ¤lt.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_012" url=".../medien/urbanonyme_2020_012.png">
+                  <desc>
+                      <ref target="#abb12">Abb. 12</ref>: Funktionsweise der&#xA; Ortssuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_012"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Zuletzt wird die Provinzsuche durch
+                die Funktion <code>mainProvincefinder()</code> realisiert (siehe <ref type="graphic" target="#urbanonyme_2020_013">Abbildung 13</ref>). Zu jedem zuvor identifizierten
+                Objekt wird die Funktion <code>provincefinder()</code> initiiert.
+                Hierin findet die Suche in der Ã¼bergeordneten Baumstruktur des GOVs statt. Die dazu
+                notwendigen Informationen werden Ã¼ber die Funktion <code>callWebservice()</code> aus dem Internet abgerufen; es ist also eine
+                Internetverbindung vom ausfÃ¼hrenden GerÃ¤t vonnÃ¶ten. Es wird angenommen, dass kein
+                Baum mehr als zehn Ebenen besitzt. Deswegen wird in maximal zehn Iterationen immer
+                eines der Ã¼bergeordneten Objekte ausgewÃ¤hlt und untersucht. ZunÃ¤chst wird dazu
+                geprÃ¼ft, ob eines der Objekte bereits Teil der Zielmenge ist.<note type="footnote"> Die Zuordnung von Provinzen zu
+                        GOV-Objekten ist in Tabelle 6 definiert. Diese GOV-URIs bilden die Zielmenge
+                        fÃ¼r die Clusterung der identifizierten Orte.</note> Wenn das nicht der
+                Fall ist, wird die Zeitspanne der ZugehÃ¶rigkeit zur Auswahl herangezogen. Zur
+                Berechnung von Beginn- oder Endjahren aus Zeitspannen der ZugehÃ¶rigkeit zu
+                Ã¼bergeordneten Objekten im GOV werden die Funktionen <code>beginCalculator()</code> bzw. <code>endCalculator()</code> genutzt.
+                In diesem wird aus der julianischen Angabe der Zeitspanne eine gregorianische
+                Jahresangabe ermittelt. Da die Zeitangaben im GOV oftmals unvollstÃ¤ndig sind,
+                existiert ein System, dass mÃ¶gliche Objekte priorisiert und so die
+                Wahrscheinlichkeit vergrÃ¶ÃŸert, das richtige Objekt auszuwÃ¤hlen. Dabei existieren
+                auszuschlieÃŸende Objekte (hier: Objekte kirchlichen Typus, ausschlieÃŸlich
+                Verwaltungsgliederungen anderer Staaten oder gerichtliche Institutionen), die nicht
+                ausgewÃ¤hlt werden sollen. Hieraus folgt das Endergebnis: Eine Tabelle, die die
+                ursprÃ¼ngliche Bezeichnung, den Namen der Quelldatei, die GOV-URI sowie die
+                Bezeichnung der zugeordneten Provinz enthÃ¤lt.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_013" url=".../medien/urbanonyme_2020_013.png">
+                  <desc>
+                      <ref target="#abb13">Abb. 13</ref>: Funktionsweise der&#xA; Provinzsuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_013"/>
+                  </desc>
+               </graphic>
+            </figure>
+            </div>
+            <div type="chapter">
+               <head>5. Validierung und Diskussion</head>            
+            <p>Zur Validierung des Algorithmus werden
+                GEDCOM-Dateien aus GEDBAS genutzt. Hier kÃ¶nnen GEDCOM-Dateien von Nutzer*innen ohne
+                grundsÃ¤tzliche BeschrÃ¤nkung hochgeladen werden. Dabei kÃ¶nnen die Nutzer*innen beim
+                Hochladen zulassen, dass ihre Datei anderen zum Download frei zur VerfÃ¼gung steht.
+                Diese downloadbaren Dateien stellen die Datenbasis fÃ¼r die Validierung dar. Dazu
+                wird der bei Goldberg und Moeller beschriebene Scraper genutzt.<note type="footnote"> Vgl. <ref type="bibliography" target="#goldberg_extraktion_2021">Goldberg / Moeller
+                    2021</ref>.</note> Eine AusfÃ¼hrung des Scrapers am 15. April 2020 erbrachte 1.899
+                GEDCOM-Dateien. Diese enthalten 3.371.825 durch den Tag <code>PLAC</code>
+               <note type="footnote">
+                        Neben dem Tag <code>PLAC</code> gibt es auch die Tags <code>FORM</code> (wenn er sich auf <code>PLAC</code> bezieht) oder <code>_LOC</code>, ja sogar die
+                        direkte MÃ¶glichkeit der Angabe von Koordinaten Ã¼ber <code>LATI</code> und <code>LONG</code>. Ebenso existiert der Tag
+                            <code>_GOV</code>, mit dem zu einem Ort direkt die GOV-URI
+                        zugeordneten werden kann. Diese finden allerdings in GEDBAS eher weniger
+                        Verwendung (<code>FORM</code> in Bezug auf <code>PLAC</code>: 2.085 Verwendungen Ã¼ber alle Dateien (diese allerdings in
+                        nur 8 verschiedenen Dateien), <code>_LOC</code>: 101.603 (50),
+                            <code>LATI</code>: 54.719 (88), <code>LONG</code>: 54.718 (88), <code>_GOV</code>: 5.043 (26)).
+                        Das Ergebnis bestÃ¤tigt die Auffassung von Gellatly, dass diese Art der Geokodierung mehrheitlich nicht genutzt
+                        wird, vgl. Gellatly 2015, S. 118. Aufgrund dieser sehr geringen Verwendung
+                        wird sich im Weiteren auf den Tag <code>PLAC</code> bezogen. Es
+                        ist nachdrÃ¼cklich erstrebenswert, dass Genealogen diese Felder kÃ¼nftig
+                        direkt pflegen.</note> definierte Ortsangaben. Eine Separierung der
+                VerwaltungszugehÃ¶rigkeit durch ein Komma wird in den GEDCOM-Dateien in den
+                Ã¼berwiegenden FÃ¤llen nicht eingehalten, sodass diese Regelung schwerlich zu
+                Identifizierung genutzt werden kann â€“ und da wo sie eingehalten wird, werden
+                unterschiedliche Verfahren genutzt.<note type="footnote"> In 1.629.274 <code>PLAC</code>-Angaben
+                        (48 Prozent) kommen insgesamt 3.933.251 Kommata vor â€“ bei einer konsistenten
+                        Verwendung wÃ¤ren es etwa zehn Millionen. Allerdings ist zu erkennen, dass
+                        die Kommasetzung in einigen groÃŸen (meist englischsprachigen) Dateien stark
+                        konzentriert ist: 80 Prozent der Kommata fallen in 2,6 Prozent der Dateien
+                        an. Allein 13 Dateien (von 2.899) enthalten die HÃ¤lfte aller <code>PLAC</code>-Kommata. Das zeigt deutlich, dass diese
+                        Ordnungssystematik bei der Identifizierung von GEDBAS-Urbanonymen keine
+                        breite Hilfestellung sein kann.</note>
+            </p>
+            <p>Etwa 12 Prozent dieser
+                Ortsbezeichnungen sind einem Objekt im Mini-GOV direkt zuzuordnen. Sie stellen
+                demnach die Kontextdaten dar. FÃ¼r weitere 34 Prozent gibt es mehrere, fÃ¼r 54 Prozent
+                keinen Treffer. Diese 12 Prozent bilden die selektierten Kontextdaten, mit denen
+                eine Clusterung durchgefÃ¼hrt werden kann. FÃ¼r diese Anforderungen ist eine
+                Clusterung gemÃ¤ÃŸ DBSCAN-Verfahren geeignet (Density-Based Spatial Clustering of
+                Applications with Noise). Der von Ester et al. beschriebene Algorithmus besagt, dass
+                jeder Datenpunkt fÃ¼r sich betrachtet werden soll; ist er noch nicht klassifiziert
+                wird die Bildung eines neuen Clusters oder die Zuordnung zu einem bestehenden
+                    angestoÃŸen.<note type="footnote">
+                        Vgl. <ref type="bibliography" target="#ester_noise_1996">Ester et al. 1996</ref>, S. 229.</note> In Anlehnung daran ist eine
+                Clusterung auch fÃ¼r die Kontextdaten realisiert (siehe Funktion <code>qualityChecker()</code>). Um die Parameter der Clusterung anzupassen ist eine
+                Betrachtung der Streuung der Cluster in einzelnen GEDCOM-Dateien von Interesse. Zum
+                einen kann die Mindestanzahl von Orten variiert werden, die nÃ¶tig sind, um ein
+                Cluster zu bilden. Zum anderen ist die Mindestdistanz entscheidend, die ein Ort von
+                einem Cluster entfernt sein muss, um diesem nicht zugeschlagen zu werden. Im
+                Folgenden wird dieses fÃ¼r die GEDCOM-Dateien untersucht.<note type="footnote"> Bei der Validierung durch andere
+                        Quellen wÃ¼rden gegebenenfalls andere Ergebnisse resultieren.</note> Bei
+                einem Vergleich der Mittelpunkte von Clustern einer Quelle bei Variation der
+                Parameter (Kilometer zur ZusammenfÃ¼hrung zweier Orte, Mindestanzahl von Orten fÃ¼r
+                ein Cluster, siehe <ref type="graphic" target="#urbanonyme_2020_014">Abbildung 14</ref>) zeigt sich,
+                dass eine Distanz von 10 km (links) dazu fÃ¼hrt, dass es sehr viele Cluster gibt, die
+                nah beieinander liegen. Dieses ist ein unerwÃ¼nschter Effekt, da diese Cluster aus
+                der Perspektive des gesamten deutschen Sprachraumes zu wenig voneinander entfernt
+                sind. Es deutet sich ein weiteres lokales Maximum bei der Distanz von etwa 450 km
+                an. Auch bei 25 km zeigt sich dieses Bild (Mitte), allerdings in sehr abgeschwÃ¤chter
+                Form. Erst bei 50 km ist der starke Anstieg nach Erreichen des Mindestabstandes
+                abgeflacht (rechts). Der Erwartungswert der Verteilung liegt etwa bei 450 km.
+                Gleiches gilt bei einer Variation der Mindestanzahl an Koordinatendatenpunkten je
+                Cluster zu erkennen. Hierdurch wird jedoch die absolute Zahl der Cluster stark
+                geschrumpft.</p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_014" url=".../medien/urbanonyme_2020_014.png">
+                  <desc>
+                      <ref target="#abb14">Abb. 14</ref>: Anzahl an&#xA;&#xA; Clustern nach durchschnittlichem Abstand in km bei Variation des Mindestabstandes zwischen&#xA; Clustern (10 km, 25 km, 50 km) und MindestgrÃ¶ÃŸe von Clustern (2, 6, und 11), jeweils 200 Bins. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_014"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Bei einer Betrachtung der Anzahl von
+                Clustern pro Datei fÃ¼r jede dieser neun Optionen ergibt sich, dass die
+                unterschiedlichen Optionen vor allem bei Dateien mit vielen Clustern eine Auswirkung
+                aufzeigen. Liegen eine geringere MindestgrÃ¶ÃŸe und ein geringer Minimalabstand
+                zwischen zwei Punkten von Clustern vor, erhÃ¶ht sich die Anzahl der gesamten Cluster
+                stark (siehe <ref type="graphic" target="#urbanonyme_2020_015">Abbildung 15</ref>). Das bedeutet, dass
+                bei einer niedrigen Mindestdistanz sehr viele nah beieinanderliegende Cluster
+                existieren. Aus diesem Grund wurde die Mindestdistanz von 50 km gewÃ¤hlt. Als
+                MindestgrÃ¶ÃŸe eines Clusters wird &gt;5 gewÃ¤hlt, um einerseits die starke ErhÃ¶hung
+                der Clusteranzahl bei einem weiteren Absenken der MindestgrÃ¶ÃŸe zu vermeiden, auf der
+                anderen Seite aber auch in wenig umfangreichen Dateien eine Clusterbildung zu
+                ermÃ¶glichen. </p>
+            <figure>
+                <graphic xml:id="urbanonyme_2020_015" url=".../medien/urbanonyme_2020_015.png">
+                  <desc>
+                      <ref target="#abb15">Abb. 15</ref>: Zusammenhang&#xA; zwischen Mindestdistanz, MindestclustergrÃ¶ÃŸe und Clusteranzahl, links mit&#xA; logarithmischer Skalierung. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_015"/>
+                  </desc>
+               </graphic>
+            </figure>
+            <p>Definiert wird also, dass ein Cluster
+                mindestens aus sechs Orten bestehen muss. Ferner muss jeder Ort eines Clusters 50
+                Kilometer von dem Ort eines anderen Clusters entfernt liegen; ansonsten wÃ¼rden sie
+                in einem gemeinsamen Cluster zusammengefÃ¼hrt. Es zeigt sich, dass dadurch 66 Prozent
+                der GEDCOM-Dateien, die Ã¼berhaupt ein Cluster aufweisen,<note type="footnote"> 52 Prozent GEDCOM-Dateien weisen
+                        kein Cluster auf. Das liegt darin begrÃ¼ndet, dass kein Cluster von
+                        mindestens fÃ¼nf Ortsangaben gebildet werden konnte.</note> nur ein
+                einziges Cluster aufweisen, das den oben definierten Eigenschaften (50 km, mind. 6
+                zusammenhÃ¤ngende Orte) entspricht. 19 Prozent jedoch weisen zwei Cluster auf, 15
+                Prozent sogar mehr als zwei. Die Entfernung der Optionen einer unidentifizierten
+                Ortsangabe werden fÃ¼r alle Clustermittelpunkte berechnet. Der Ort mit der geringsten
+                Distanz zu einem der Clusterpunkte wird fÃ¼r die Identifizierung gewÃ¤hlt.</p>
+            <p>Ein weiterer Bestandteil der
+                Validierung bezieht sich auf die Ã„hnlichkeitsanalyse. Diese ist zwar nicht primÃ¤r
+                zum kontextbasierten Aspekt des Algorithmus zu zÃ¤hlen, wird aufgrund der Relevanz
+                fÃ¼r das Gesamtergebnis aber trotzdem diskutiert. Die Ortsangaben, zu denen keine
+                Ãœbereinstimmung gefunden werden konnten, werden einer Ã„hnlichkeitsanalyse
+                unterzogen. Dazu werden zwei Varianten verglichen. Zum einen ist das die
+                Levenshtein-Distanz (bereits in <ref type="intern" target="#hd4">Abschnitt 2.2</ref>
+                erlÃ¤utert). Zum anderen wird ein MaÃŸ gesetzt, dass sich hierarchisch auf
+                verschiedene Bestandteile stÃ¼tzt: ZunÃ¤chst werden vertauschte Zeichen erkannt, indem
+                die 61 Orte<note type="footnote"> Siehe
+                        hierzu Anm. 41.</note> einer Anagrammdetektion unterzogen werden.<note type="footnote"> Der Nachteil dieses
+                        Vorgehens liegt auch hier darin, dass vertauschte Zeichen am Anfang der
+                        Zeichenkette nicht erkannt werden, weil sie in einer alphabetischen
+                        Sortierung weit entfernt sind. Zudem erkennt eine Ã„hnlichkeitsanalyse durch
+                        ein Anagramm nur vertauschte Zeichen, nicht aber ausgelassene oder
+                        zusÃ¤tzlich vorhandene Buchstaben.</note> Falls kein Anagramm erkannt
+                wird, werden zunÃ¤chst aufeinanderfolgende doppelte Buchstaben in beiden
+                Zeichenketten entfernt. Sind diese dann gleich, besteht eine Zuordnung. Ist das
+                nicht der Fall, so wird mit dem verbleibenden Zeichen ein Vergleich nach der KÃ¶lner
+                Phonetik angestellt. Bei einem gleichen Ergebnis findet eine Auswahl statt.</p>
+            <p>Bei einem initialen Grenzwert von 0,25
+                (VerhÃ¤ltnis von Anzahl der Ã„nderungen zur LÃ¤nge der Zeichenkette<note type="footnote"> Bei der KÃ¶lner Phonetik wird dazu
+                        die Levenshtein-Distanz der ursprÃ¼nglichen Zeichenketten
+                    herangezogen.</note>) ergeben sich sowohl bei der Levenshtein-Distanz als
+                auch bei dem alternativen MaÃŸ viele Falschpositive (75 bzw. 74 Prozent). Ein
+                GroÃŸteil dieser ist zum einen durch Ortsangaben zu Orten auÃŸerhalb des
+                Betrachtungsgebietes bedingt, die dennoch deutschen Ortsnamen Ã¤hneln. Zum anderen
+                sind dort Ã¼berproportional viele Bezeichnungen vorhanden, die Orte in den ehemaligen
+                Ostgebieten beschreiben und bei denen die zeitliche Konsistenz der Ortsbezeichnung
+                (u.Â a. aufgrund von Umbenennungen) gering ist. Auch liegt das darin begrÃ¼ndet, dass
+                Ortsbezeichnungen teilweise sehr Ã¤hnlich sind.<note type="footnote"> Bei einer zulÃ¤ssigen Levenshtein-Distanz von 2
+                        sind beispielsweise Orte wie Nehmten und Nehren, Neiden und Nehren, BÃ¶vingen
+                        und BÃ¶ttingen, Muron und Murr, Murow und Murr, Balden und Belsen, WeiÃŸstein
+                        und Beilstein oder Hattingen und BÃ¶ttingen als gleich anzusehen. Selbst bei
+                        einer Verringerung der Toleranz auf eine Distanz von 1 wÃ¼rden viele
+                        FP-Ergebnisse produziert, beispielsweise bei Nehden und Nehren, BÃ¶tzingen
+                        und BÃ¶ttingen oder Oderthal und Odenthal.</note> Vermeintlich korrekte
+                TP-Ergebnisse (z. B. â€ºStuttgardtâ€¹ zugeordnet zu â€ºStuttgartâ€¹) sind in der Minderheit.
+                Aus diesem Grund wird die Grenze auf 0,17 (ab sechs Buchstaben eine VerÃ¤nderung, ab
+                12 Buchstaben zwei VerÃ¤nderungen etc.) verringert. In der Folge kommt die
+                Ã„hnlichkeitsanalyse Ã¼ber die Levenshtein-Distanz etwa bei jedem sechsten Fall zu
+                einem Ergebnis, das alternative MaÃŸ in jedem fÃ¼nften Fall (siehe <ref type="graphic" target="#urbanonyme_2020_t3">Tabelle 3</ref>). Bei 9,34 bzw. 11,90 Prozent
+                ergeben sich mehrere Ãœbereinstimmungen, von denen eine ausgewÃ¤hlt wird. Beide
+                Ã„hnlichkeitsanalysen produzieren mehr falsche als richtige Ergebnisse. Dieses zeigt,
+                dass die Ã„hnlichkeitsanalyse insbesondere bei einer schlechten DatenqualitÃ¤t und vor
+                dem Hintergrund einer groÃŸen Ã„hnlichkeit von Ortsbezeichnungen eine Herausforderung
+                ist, die hier nicht zur vollkommenen Zufriedenheit gelÃ¶st werden kann. KÃ¼nftige
+                Forschungen sollten sich diesem Aspekt verstÃ¤rkt annehmen. Aber auch wenn der Wert
+                bezogen auf die GEDCOM-Dateien nicht zufriedenstellend ist, so sollte dieses Element
+                im Algorithmus dennoch beibehalten werden. Es ist zu erwarten, dass bei anderen
+                Quellen mit einer besseren DatenqualitÃ¤t auch eine bessere Erkennung
+                    einhergeht.<note type="footnote">
+                        Eine Idee fÃ¼r die kÃ¼nftige Erweiterung des Algorithmus besteht darin, dass
+                        unklare Ortsangaben zunÃ¤chst innerhalb des Kontextes verglichen werden.
+                        Insbesondere in GEDCOM-Dateien besteht eine hohe Wahrscheinlichkeit, dass
+                        Orte doppelt genannt werden; Schreibfehler kÃ¶nnten hierÃ¼ber gegebenenfalls
+                        effektiv erkannt werden.</note> Da der alternative Vergleich Ã¼ber
+                Anagramme und die KÃ¶lner Phonetik bessere Werte (mehr TP-Ereignisse<note type="footnote"> Zur Ermittlung
+                        wurden 100 zufÃ¤llige Ergebnisse ausgewÃ¤hlt und manuell eingeschÃ¤tzt, ob es
+                        sich um ein richtiges oder falsches Ergebnis handelt.</note>) aufweist,
+                wird diese Alternative im Weiteren ausgewÃ¤hlt.</p>
+            <table>
+               <row>
+                    <cell>Ã„hnlichkeitsmaÃŸ</cell>
+                    <cell>Erkennung = 1</cell>
+                    <cell>FP</cell>
+                    <cell>TP</cell>
+                    <cell>Erkennung &gt; 1<note type="footnote"> Die Angabe zu den Falschpositiven und
+                                Falschnegativen bezieht sich zudem auf die nachfolgende Auswahllogik
+                                eines der erkannten Orte (anhand geographischer NÃ¤he, Typ etc.); nur
+                                dieses wird untersucht.</note>
+                  </cell>
+                    <cell>FP</cell>
+                    <cell>TP</cell>
+                </row>
+               <row>
+                    <cell>Levenshtein-Distanz</cell>
+                    <cell>6,23 %</cell>
+                    <cell>68</cell>
+                    <cell>32</cell>
+                    <cell>9,34 %</cell>
+                    <cell>71</cell>
+                    <cell>29</cell>
+                </row>
+               <row>
+                    <cell>Anagramm und KÃ¶lner
+                        Phonetik</cell>
+                    <cell>7,22 %</cell>
+                    <cell>65</cell>
+                    <cell>35</cell>
+                    <cell>11,90 %</cell>
+                    <cell>67</cell>
+                    <cell>33</cell>
+                </row>
+                <trailer xml:id="tab03">
+                    <ref type ="intern" target="#tab3">Tab. 3</ref>: Vergleich&#xA;
+                verschiedener Ã„hnlichkeitsmaÃŸe, alle Angaben in Prozent, Grenze: 0,17. [Goldberg
+                2022]<ref type="graphic" target="#urbanonyme_2020_t3"/>
+                  </trailer>
+               </table>
+            <p>Eine AusfÃ¼hrung des Algorithmus unter
+                den oben festgelegten Variationen ergibt das in <ref type="graphic" target="#urbanonyme_2020_t4">Tabelle 4</ref> dargestellte Ergebnis. 49,72 Prozent der Urbanonyme wird ein
+                GOV-URI zugeordnet, 50,28 Prozent hingegen nicht. Der prozentuale Anteil der jeweils
+                mÃ¶glichen Ereignisse zeigt, dass fast jedes dritte Urbanonym dem weiteren Verfahren
+                entzogen wird, weil es unerlaubte Bestandteile enthÃ¤lt. Hierzu dienen insbesondere
+                Hinweise auf eine Angabe auÃŸerhalb des Betrachtungsgebiets (z. B. KÃ¼rzel von
+                US-Bundesstaaten). Die kontextbasierte Auswahl auf Basis der geographischen NÃ¤he
+                bekommt daher eine hohe Relevanz. AuffÃ¤llig ist auch der hohe Anteil an Ortsangaben,
+                zu denen kein Pendant (also auch keine Ã„hnlichkeit) zu den Orten des Mini-GOVs
+                vorhanden ist. Dem zugrunde liegen viele Berufsangaben und Orte auÃŸerhalb des
+                Betrachtungsgebiets, aber auch vermeintlich korrekte Ortsangaben, die in einem
+                unÃ¼blichen Format vorliegen (z.Â B. als Wikipedia-Verlinkung) oder sehr falsch
+                geschrieben sind. Ansonsten finden sich auch hier Ã¼berproportional viele Angaben,
+                die auf ehemalige deutsche Ostgebiete hinweisen und nicht in der AusfÃ¼hrlichkeit im
+                Mini-GOV gepflegt sind. Wenig relevant sind dagegen die FÃ¤lle, die die Typen der
+                Objekte einbeziehen. Von diesen ist einzig allein die Option, bei der nur ein Objekt
+                einen passenden Typ besitzt, mit 7,44 Prozent bedeutend.</p>
+            <table>
+               <row>
+                    <cell>Auswahlkriterium</cell>
+                    <cell>Anteil
+                        in Prozent</cell>
+                </row>
+               <row>
+                    <cell>Unerlaubte Bestandteile</cell>
+                    <cell>31,51</cell>
+                </row>
+               <row>
+                    <cell>Unerlaubter Angabe</cell>
+                    <cell>0,07</cell>
+                </row>
+               <row>
+                    <cell>Einziger passender Treffer in
+                        Ã„hnlichkeitsanalyse</cell>
+                    <cell>2,05</cell>
+                </row>
+               <row>
+                    <cell>Einziger mit Koordinaten nach
+                        Ã„hnlichkeitsanalyse</cell>
+                    <cell>0,58</cell>
+                </row>
+               <row>
+                    <cell>Geographische NÃ¤he nach
+                        Ã„hnlichkeitsanalyse</cell>
+                    <cell>2,42</cell>
+                </row>
+               <row>
+                    <cell>Einziger gÃ¼ltiger Typ nach
+                        Ã„hnlichkeitsanalyse</cell>
+                    <cell>0,02</cell>
+                </row>
+               <row>
+                    <cell>Keiner mit gÃ¼ltigem Typ nach
+                        Ã„hnlichkeitsanalyse</cell>
+                    <cell>0,00</cell>
+                </row>
+               <row>
+                    <cell>Ein passender Typ nach
+                        Ã„hnlichkeitsanalyse</cell>
+                    <cell>0,05</cell>
+                </row>
+               <row>
+                    <cell>Zu viele passende Typen nach
+                        Ã„hnlichkeitsanalyse</cell>
+                    <cell>0,00</cell>
+                </row>
+               <row>
+                    <cell>Ein einziger passender
+                        Treffer</cell>
+                    <cell>11,25</cell>
+                </row>
+               <row>
+                    <cell>Ein einziger Treffer mit
+                        Koordinaten</cell>
+                    <cell>6,53</cell>
+                </row>
+               <row>
+                    <cell>Geographische NÃ¤he</cell>
+                    <cell>18,87</cell>
+                </row>
+               <row>
+                    <cell>Einziger gÃ¼ltigen Typ</cell>
+                    <cell>0,41</cell>
+                </row>
+               <row>
+                    <cell>Keiner mit gÃ¼ltigem Typ</cell>
+                    <cell>0,05</cell>
+                </row>
+               <row>
+                    <cell>Ein passender Typ</cell>
+                    <cell>7,44</cell>
+                </row>
+               <row>
+                    <cell>Zu viele passende Typen</cell>
+                    <cell>0,00</cell>
+                </row>
+               <row>
+                    <cell>Kein Auswahlkriterium
+                        entscheidend</cell>
+                    <cell>0,48</cell>
+                </row>
+               <row>
+                    <cell>Kein Pendant im Mini-GOV
+                        gefunden</cell>
+                    <cell>18,17</cell>
+                </row>
+                <trailer xml:id="tab04">
+                    <ref type ="intern" target="#tab4">Tab. 4</ref>: EndzustÃ¤nde des&#xA;
+                Algorithmus am Beispiel Ortsangaben in GEDCOM-Dateien, Grundgesamtheit von 262.741
+                EintrÃ¤gen.<note type="footnote"> Die&#xA;
+                erhebliche Verkleinerung der Anzahl zu untersuchender Ortsangaben (von&#xA;
+                3.057.810 auf 262.741) ist auf die LÃ¶schung doppelter Ortsangaben in einer&#xA;
+                        Datei zurÃ¼ckzufÃ¼hren.</note> [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t4"/>
+                </trailer>
+            </table>
+            <p>Eine Stichprobe von 100 Werten
+                erbrachte 36 TP-Werte<note type="footnote"> Erkannte Orte aus den nicht-deutschen Mini-GOVs fallen
+                        in diese Kategorie.</note>, 42 TN-Werte, 11 FP-Werte<note type="footnote"> Nicht erkannte Orte aus den
+                        nicht-deutschen Mini-GOVs fallen in diese Kategorie.</note> und 11
+                    FN-Werte.<note type="footnote"> Die
+                        fÃ¼r die Einordnung in die vier Kategorien notwendige manuelle
+                        Klassifizierung basierte dabei auf der Hinzunahme von Informationen, die bei
+                        der Bereinigung gelÃ¶scht wurden sowie dem Aufrufen der GEDCOM-Datei und
+                        Vergleich mit den Orten der nÃ¤heren Verwandtschaft (nicht wie im Algorithmus
+                        mit den Clustern der Quelle generell). Ortsbezeichnungen in den LÃ¤ndern der
+                        inkludierten Mini-GOVs wurden hierbei wie Orte in Deutschland
+                    behandelt.</note> Der hohe Anteil an Falschnegativen ist dadurch zu
+                erklÃ¤ren, dass das Mini-GOV nicht alle Orte oder Varianten enthÃ¤lt (insbesondere in
+                ehemaligen deutschsprachigen Siedlungsgebieten). Die GrÃ¼nde fÃ¼r eine wahrnegative
+                Lokalisierung hingegen sind Ã¼berwiegend dadurch bedingt, dass Ortsangaben auÃŸerhalb
+                des Betrachtungsgebiets als solche erkannt werden. Insgesamt sind also 78 Prozent
+                der Ortsangaben korrekt und 22 Prozent nicht korrekt behandelt worden.</p>
+            <p>Der zweite Teil der Validierung
+                bezieht sich auf die Clusterung der GOV-URIs zu den Provinzen. Bei insgesamt 68.011
+                GOV-URIs wurde versucht, mit dem Algorithmus eine Provinz zum Jahr 1820 zuzuordnen.
+                Bei 46.877 GOV-URIs (69 Prozent) war die Zuordnung erfolgreich. Der hohe Anteil an
+                nicht zugeordneten GOV-URIs ist jedoch diskussionswÃ¼rdig. Aus diesem Grund wurden
+                100 zufÃ¤llige nicht zuordenbare GOV-URIs manuell Ã¼berprÃ¼ft.<note type="footnote"> Dieser Schritt wurde im Verlauf
+                        der Erarbeitung iterativ durchgefÃ¼hrt, um ungÃ¼nstige Funktionen des
+                        Programmcodes zu entdecken und zu verbessern.</note> Die Fehler sind in
+                    <ref type="graphic" target="#urbanonyme_2020_t5">Tabelle 5</ref> dargestellt.</p>
+            <table>
+               <row>
+                    <cell>Grund
+                        der fehlgeschlagenen Klassifizierung</cell>
+                    <cell>Anzahl</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>Ort liegt auÃŸerhalb der Zielprovinzen
+                            </p>
+                     <p>(In heutigen
+                            Staaten: Niederlande 29x, Frankreich 12x, Ã–sterreich 9x, Tschechien 5x,
+                            Schweiz 3x, Polen 3x, DÃ¤nemark 1x)</p>
+                  </cell>
+                    <cell>62</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>GOV-Daten sind unvollstÃ¤ndig</p>
+                     <p>(Klassifiziert nach den
+                            heutigen BundeslÃ¤ndern: Schleswig-Holstein 12x, Rheinland-Pfalz 7x,
+                            Saarland 4x, Sachsen 2x, Baden-WÃ¼rttemberg 2x, Hessen 2x, Bayern 1x,
+                            ThÃ¼ringen 1x, Sachsen-Anhalt 1x)</p>
+                  </cell>
+                    <cell>32</cell>
+                </row>
+               <row>
+                    <cell>Ausgestaltung des Algorithmus
+                        deckt Fall nicht ab</cell>
+                    <cell>6</cell>
+                </row>
+                <trailer xml:id="tab05">
+                    <ref type="intern" target="#tab5">Tab. 5</ref>: Fehler in der&#xA; Zuordnung der Provinzen bei der Bezugszeit 1820. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t5"/>
+                </trailer>
+            </table>
+                
+            <p>Es zeigt sich, dass der wesentliche
+                Grund fÃ¼r den hohen Grad der Nicht-Erkennung darin liegt, dass die Objekte auÃŸerhalb
+                des relevanten Zielgebiets liegen oder aber die GOV-Daten nicht vollstÃ¤ndig sind.
+                Letzteres betrifft vor allem die Orte in den heutigen BundeslÃ¤ndern
+                Schleswig-Holstein, Rheinland-Pfalz und im Saarland. Hochgerechnet etwa 94 Prozent
+                der Fehler liegen als nicht primÃ¤r im Algorithmus begrÃ¼ndet. Daraus ergibt sich eine
+                Trefferquote von 97 Prozent<note type="footnote">
+                        [Anzahl gefundener Provinzen] Ã· [Anzahl
+                            gefundener Provinzen + (1 â€“ Anteil Fehler) Ã— Anzahl nicht gefundener
+                            Provinzen].</note> fÃ¼r die gesamte Provinzenzuordnung bezogen
+                auf die GOV-URIs im Betrachtungsgebiet bei denen das GOV vollstÃ¤ndig gepflegt ist.
+                Hier zeigt sich, dass das GOV bereits eine breite Datengrundlage enthÃ¤lt und viele
+                FÃ¤lle abdecken kann, jedoch in Bezug auf die historischen VerwaltungszugehÃ¶rigkeiten
+                auch kÃ¼nftig weiter komplettiert werden sollte. </p>
+            <p>Bei einer Ã„nderung der Bezugszeit auf
+                das Jahr 2020 ergibt sich ein Ã¤hnliches Bild (siehe <ref type="graphic" target="#urbanonyme_2020_t6">Tabelle 6</ref>). AuffÃ¤llig ist, dass die GOV-VerwaltungszugehÃ¶rigkeiten hier
+                vollstÃ¤ndiger sind. Am deutlichsten ist das bei Schleswig-Holstein. FÃ¼r die
+                Bezugszeit 2020 ergibt sich eine Trefferquote von 96 Prozent. Die Fehler sind
+                allerdings etwas anders bedingt. Zwar sind sie auch darauf zurÃ¼ckzufÃ¼hren, dass das
+                GOV unvollstÃ¤ndig ist. Das Bundesland ist jedoch (anders als oben) Teil der
+                Ã¼bergeordneten Objekte; lediglich die Dauer der ZugehÃ¶rigkeit ist nicht gepflegt.
+                Das tritt bei einzelnen Orten in Bayern und in Schleswig-Holstein um LÃ¼beck herum
+                auf.</p>
+            <table>
+               <row>
+                    <cell>Grund
+                        der fehlgeschlagenen Klassifizierung</cell>
+                    <cell>Anzahl</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>Ort liegt auÃŸerhalb der Zielprovinzen
+                            </p>
+                     <p>(In heutigen
+                            Staaten: Niederlande 41x, Polen 22x, Ã–sterreich 12x, Tschechien 10x,
+                            Frankreich 5x, Schweiz 2x, DÃ¤nemark 1x)</p>
+                  </cell>
+                    <cell>93</cell>
+                </row>
+               <row>
+                    <cell>
+                     <p>Ausgestaltung des Algorithmus deckt Fall
+                            nicht ab</p>
+                     <p>(Klassifiziert nach den heutigen BundeslÃ¤ndern: Schleswig-Holstein 3x,
+                            Bayern 3x, Rheinland-Pfalz 1x)</p>
+                  </cell>
+                    <cell>7</cell>
+                </row>
+                    <trailer xml:id="tab06">
+                        <ref type="intern" target="#tab6">Tab. 6</ref>: Fehler in der&#xA; Zuordnung der Provinzen bei der Bezugszeit 2020. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t6"/>
+                    </trailer>
+            </table>
+            <p>Insgesamt werden mit dem Algorithmus â€“
+                unabhÃ¤ngig der beiden getesteten Bezugszeiten â€“ etwa drei von vier Ortsangaben
+                richtig identifiziert und lokalisiert. Werden die Ortsangaben isoliert betrachtet,
+                die einer Provinz zugeordnet werden, so sind hier ebenfalls etwa drei von vier
+                Zuordnungen korrekt. Fast jede identifizierte Ortsangabe kann nachfolgend auch
+                regional geclustert werden.</p>
+            </div>
+            <div type="chapter">
+               <head>6. Zusammenfassung</head>
+            
+            <p>Ob das Neustadt an der Aisch oder in
+                Sachsen, an der WeinstraÃŸe oder in Hessen gemeint ist, kann durch den vorgestellten
+                Algorithmus nun ermittelt werden â€“ er trifft eine Entscheidung ohne menschliches
+                Zutun. Grundlage hierfÃ¼r stellt der Kontext dar, in dem die Bezeichnung des Ortes
+                genannt wird. Die KontextsensitivitÃ¤t wird dadurch erreicht, dass ein Bezug zu
+                anderen Ortsangaben in der gleichen Quelle hergestellt wird. Die grundlegende
+                Heuristik dahinter besagt: Gemeinsam genannte Orte liegen beieinander. Durch die
+                Formalisierung und Automatisierung dieser Heuristik ergibt sich eine
+                kontextsensitive Anwendung, die auf verschiedenen wissenschaftlichen Gebieten
+                genutzt werden kann. Der Algorithmus trifft bei Anwendung auf die GEDCOM-Dateien der
+                Ã¶ffentlich zugÃ¤nglichen genealogischen Datenbank GEDBAS â€“ nach einer Bereinigung â€“
+                in drei von vier FÃ¤llen eine korrekte Entscheidung. Das ist vor dem Hintergrund ein
+                guter Wert, dass die Daten oftmals eine schlechte QualitÃ¤t aufweisen, kein Standard
+                in der Benennung praktiziert wird und sie Urbanonyme aus aller Welt enthalten,
+                wenngleich der Schwerpunkt im zentraleuropÃ¤ischen Raum zu verorten ist.</p>
+            <p>Die Ortsbezeichnungen werden mithilfe
+                des Kontextes identifiziert, durch die Bestimmung der Koordinaten lokalisiert und
+                anschlieÃŸend in einer (historischen) Provinz regional geclustert. FÃ¼r den letzten
+                Aspekt ist eine Bezugszeit zu definieren. Der Algorithmus ist derzeit darauf
+                ausgelegt, Orte innerhalb des deutschsprachigen Raums (ohne Ã–sterreich und die
+                Schweiz) in den Grenzen von 1815 bis 1871 sowie ab 1990 zuzuordnen. In diesem Rahmen
+                kann sich auch die Bezugszeit bewegen. Dazu wird das <bibl>
+                  <title type="desc">Geschichtliche Orts-Verzeichnis</title>
+               </bibl> (GOV) genutzt, ein geographisches Lexikon,
+                das stetig erweitert wird. Die Zuordnung zu einer definierten Provinz gelingt in 70
+                Prozent der FÃ¤lle. Werden diejenigen Fehler herausgefiltert, die auf einer
+                unvollstÃ¤ndigen Datengrundlage und Orten auÃŸerhalb des Betrachtungsgebiets basieren,
+                ergibt sich eine Zuordnungsrate von 96 Prozent.</p>
+            <p>Zusammengefasst werden drei von vier
+                relevanten Ortsangaben lokalisiert, wovon wiederum drei Viertel korrekt sind. Ãœber
+                90 Prozent der Orte im Betrachtungsgebiet kÃ¶nnen nachfolgend regional geclustert
+                werden. Der Algorithmus bietet damit eine geeignete Grundlage, um ihn an
+                verschiedene Anwendungsszenarien anzupassen. Er stellt dadurch ein frei verfÃ¼gbares
+                Werkzeug insbesondere fÃ¼r wirtschafts- und sozialgeschichtliche Untersuchungen dar.
+                Er kann prÃ¤destiniert dafÃ¼r eingesetzt werden, Fragen der rÃ¤umlichen MobilitÃ¤t zu
+                erÃ¶rtern oder einzelne DatensÃ¤tze in historischen Provinzen zu klassifizieren. Vor
+                allem der Einsatz in kilometrischen Studien ist vorstellbar. Vorteile ergeben sich
+                insbesondere in der Verarbeitung von Massendaten, wodurch neue Perspektiven fÃ¼r die
+                Wissenschaft erÃ¶ffnet werden. Er ist besonders dann vorteilhaft, wenn viele
+                Ortsangaben im Kontext erfasst sind. Das ist u.Â a. der Fall, wenn zahlreiche
+                zusammenhÃ¤ngende Orte ausgewertet und lokalisiert werden mÃ¼ssen. Zur Validierung des
+                Algorithmus wurden zwar genealogische Daten genutzt. Prinzipiell ist der Algorithmus
+                aber bei all solchen Quellen empfehlenswert, bei denen im Kontext weitere
+                Ortsbezeichnungen genannt werden und ein rÃ¤umlicher Zusammenhang nicht explizit
+                verneint werden kann.<note type="footnote"> Der Algorithmus sollte zudem nicht auf antike oder
+                        mittelalterliche Quellen angewendet werden, da die hier verwendete
+                        Referenzdatenbank, das GOV, keine Daten Ã¼ber solch frÃ¼he Strukturen enthÃ¤lt.
+                        DarÃ¼ber hinaus bestehen andere Herausforderungen, die einer gesonderten
+                        Betrachtung bedÃ¼rfen. Die Idee der kontextsensitiven Entscheidungsfindung
+                        Ã¼ber geographische Distanzen kann jedoch auch bei solchen Quellen Anwendung
+                        finden.</note>
+            </p>
+            <p>Derzeit deckt der Algorithmus den
+                historischen deutschen Sprachraum ab. Da Informationen des GOVs auch fÃ¼r weitere
+                europÃ¤ische LÃ¤nder verfÃ¼gbar sind, kÃ¶nnten diese samt der dazugehÃ¶rigen Regionen
+                folgend integriert werden. Der Algorithmus ist zwar auf die deutsche Sprache
+                ausgelegt (z. B. der Einsatz der KÃ¶lner Phonetik und die String-Bereinigungsregeln).
+                Dennoch kÃ¶nnte er auf weitere LÃ¤nder / Sprachen angepasst werden. Auch ist eine
+                Weiterentwicklung des Kontextbezugs denkbar. Ein Beispiel dafÃ¼r stellen die im
+                Kontext genannten Vor- und Familiennamen dar. Voraussetzung hierfÃ¼r ist eine
+                vorhergehende Erstellung einer Datenbasis Ã¼ber die zeitliche und rÃ¤umliche
+                Verbreitung von Namen, auf die sich der Algorithmus beziehen kann.</p>
+            </div>
+            <div type="bibliography">
+               <head>Bibliographische Angaben</head>
+             <listBibl><bibl xml:id="abowd_context-awareness_1999">Gregory Dominic Abowd / Anind
+                    K. Dey / Peter J. Brown / Nigel Davies / Mark Smith / Pete Steggles: Towards a
+                    Better Understanding of Context and Context-Awareness. In: Handheld and
+                    Ubiquitous Computing. Hg. von Hans-Werner Gellersen. Berlin / Heidelberg 1999.
+                    S. 304-307. <ptr type="gbv" cRef="302206205"/></bibl>
+                 <bibl xml:id="baehr_bevoelkerungsgeographie_1992">JÃ¼rgen BÃ¤hr / Christoph Jentsch / Wolfgang Kuls:
+                     BevÃ¶lkerungsgeographie. Berlin u. a. 1992. <ptr type="gbv" cRef="028380339"/></bibl>
+                 <bibl xml:id="clarke_principles_2009">Bertrand Clarke / Ernest Fokoue / Hao Helen Zhang:
+                Principles and Theory for Data Mining and Machine Learning. Dordrecht u. a. 2009. (=
+                Springer Series in Statistics) <ptr type="gbv" cRef="593579658"/> </bibl>
+                 <bibl xml:id="ester_noise_1996">Martin Ester / Hans-Peter Kriegel / Xiaowei Xu: A
+                Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with
+                Noise. In:
+                Proceedings. Second
+                International Conference on Knowledge Discovery &amp; Data Mining. Hg. von Evangelos
+                Simoudis / Jiawei Han / Usama Fayyad (KDD-96: 2,Portland, OR, 02.â€“04.08.1996) Menlo
+                Park, CA 1996. PDF. [<ref target="https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf">online</ref>] <ptr type="gbv" cRef="223215147"/></bibl>
+                 <bibl xml:id="fawcett_introduction_2006">Tom Fawcett: An introduction to ROC analysis. In: Pattern
+                     Recognition Letters 27 (2006),Â H. 8, S. 861â€“874. <ptr type="gbv" cRef="129161756"/></bibl>
+                 <bibl xml:id="feigenbaum_computers_1963">Computers and thought. Hg. von Edward A. Feigenbaum /
+                     Julian Feldman. New York, NY u. a. 1963. <ptr type="gbv" cRef="020732821"/></bibl>
+                 <bibl xml:id="fertig_zeitalter_2018">Georg Fertig / Christian SchlÃ¶der / Rolf Gehrmann /
+                Christina Langfeldt / Ulrich Pfister: Das postmalthusianische Zeitalter: Die
+                BevÃ¶lkerungsentwicklung in Deutschland, 1815â€“1871. In: Vierteljahrschrift fÃ¼r
+                Sozial- und Wirtschaftsgeschichte 105 (2018), H.Â 1, S. 6â€“33. <ptr type="gbv" cRef="129459623"></ptr></bibl>
+                 <bibl xml:id="gallagher_estimating_2008">Andrew C. Gallagher / Tsuhan Chen: Estimating age, gender,
+                and identity using first name priors. In: IEEE Conference on Computer Vision and
+                Pattern Recognition (2008). DOI: <ref target="https://doi.org/10.1109/CVPR.2008.4587609">10.1109/CVPR.2008.4587609</ref> <ptr type="gbv" cRef="577792776"/></bibl>
+                 <bibl xml:id="gellatly_reconstructing_2015">Corry Gellatly: Reconstructing Historical Populations from
+                Genealogical Data Files. In: Population Reconstruction. Hg.Â von Gerrit Bloothooft /
+                Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111â€“128.
+                     <ptr type="gbv" cRef="833549804"/></bibl>
+                 <bibl xml:id="gentile_techniques_2013">Geolocation Techniques: Principles and Applications. Hg.
+                von Camillo Gentile / Nayef Alsindi / Ronald Raulefs / Carole Teolis. New York, NY
+                u. a. 2013. <ptr type="gbv" cRef="73135057X"/></bibl>
+                 <bibl xml:id="gesellschaft_vornamen_2019">AusfÃ¼hrliche Auswertung: Vornamen 2018. Hg. von
+                Gesellschaft fÃ¼r deutsche Sprache e. V. In: gfds.de. Wiesbaden u. a. 2019.
+                Pressemitteilung vom 02.05.2019. [<ref target="https://gfds.de/ausfuehrliche-auswertung-vornamen-2018/">online</ref>] </bibl>
+                 <bibl xml:id="gigerenzer_heuristics_1999">Simple Heuristics that make us smart. Hg. von Gerd
+                     Gigerenzer / Peter M. Todd. New York, NY u. a. 1999. <ptr type="gbv" cRef="252837991"/></bibl>
+                 <bibl xml:id="goldberg_extraktion_2021">Jan Michael Goldberg / Katrin Moeller: Automatisierte
+                Extraktion und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen
+                DatenbestÃ¤nden. In: Zeitschrift fÃ¼r digitale Geisteswissenschaften 6 (2021). DOI: <ref target="https://doi.org/10.17175/2022_002">10.17175/2022_002</ref></bibl>
+                 <bibl xml:id="harviainen_genealogy_2018">J. Tuomas Harviainen / Bo-Christer BjÃ¶rk: Genealogy,
+                GEDCOM, and popularity implications. In: Informaatiotutkimus 37 (2018), H. 3, S.
+                4â€“14. DOI: <ref target="https://doi.org/10.23978/inf.76066">10.23978/inf.76066</ref>
+            </bibl>
+                 <bibl xml:id="hohensinner_name_2011">Karl Hohensinner: Der Name Mayr / Mair / Mayer / Maier etc.
+                im OberÃ¶sterreichischen Familiennamenatlas. In:
+                Familiennamengeographie. Ergebnisse
+                und Perspektiven europÃ¤ischer
+                Forschung. Hg. von Rita
+                Heuser / Damaris NÃ¼bling / Mirjam Schmuck. Berlin u. a. 2011, S. 91â€“106. <ptr type="gbv" cRef="617916810"/> </bibl>
+                 <bibl xml:id="institut_ortsverzeichnis_2020">Das Historische Ortsverzeichnis von Sachsen. Hg. von
+                Institut fÃ¼r sÃ¤chsische Geschichte und Volkskunde. In: hov.isgv.de. Dresden 2020.
+                    [<ref target="https://hov.isgv.de/">online</ref>] </bibl>
+                 <bibl xml:id="kocka_familie_1980">JÃ¼rgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif /
+                Reinhard SchÃ¼ren: Familie und soziale Plazierung. Studien zum VerhÃ¤ltnis von
+                Familie, sozialer MobilitÃ¤t und Heiratsverhalten an westfÃ¤lischen Beispielen im
+                spÃ¤ten 18. und 19. Jahrhundert. Opladen 1980. <ptr type="gbv" cRef="023831081"/></bibl>
+                 <bibl xml:id="levenstejn_codes_1966">Vladimir IosifoviÄ LevenÅ¡tejn: Binary Codes Capable of
+                Correcting Deletions, Insertations, and Reversals. Soviet Physics /Doklady 10
+                (1966), H. 8, S. 707â€“710. <ptr type="gbv" cRef="129482234"/></bibl>
+                 <bibl xml:id="list_distanz_2010">Johann-Mattis List: Distanz- und Alignmentanalysen in
+                derhistorischen Linguistik. DÃ¼sseldorf 2010. PDF. [<ref target="http://lingulist.de/documents/sequence.pdf">online</ref>] </bibl>
+                 <bibl xml:id="rosemann_process_2006">Michael Rosemann / Jan Recker: Context-aware Process
+                Design: Exploring the Extrinsic Drivers for Process Flexibility. In: Proceedings of
+                the Workshops and Doctoral Consortium. Hg.Â von M. Petit / T. Latour. Belgium 2006,
+                S. 149â€“158. [<ref target="https://eprints.qut.edu.au/4638">online</ref>]</bibl>
+                 <bibl xml:id="seibicke_personennamen_1982">Wilfried Seibicke: Die Personennamen im Deutschen. Berlin
+                     u. a. 1982. <ptr type="gbv" cRef="024283177"/></bibl>
+                 <bibl xml:id="sitou_requirements_2009">Wassiou Olarewaju Sitou: Requirements-Engineering
+                kontextsensitiver Anwendungen. MÃ¼nchen u. a. 2009. PDF. [<ref target="http://mediatum.ub.tum.de/doc/679228/document.pdf">online</ref>] </bibl>
+                 <bibl xml:id="stoepel_geogen_2021a">Christoph StÃ¶pel (2021a): Geogen v4. In:
+                geogen.stoepel.net. 2005â€“2021. [<ref target="https://geogen.stoepel.net/legacy.html?">online</ref>] </bibl>
+                 <bibl xml:id="stÃ¶pel_geogen_2021b">Christoph StÃ¶pel (2021b): Geogen Onlinedienst. Allgemeine
+                Informationen / HÃ¤ufige Fragen (FAQ). In: legacy.stoepel.net/. 2005â€“2021. [<ref target="https://legacy.stoepel.net/de/Infos">online</ref>].</bibl>
+                 <bibl xml:id="verein_gov_2015">GOV/Webservice. Hg. von Verein fÃ¼r Computergenealogie e. V.
+                In: GenWiki. 2015. Beitrag vom 01.11.2015. [<ref target="http://wiki-en.genealogy.net/GOV/Webservice">online</ref>]</bibl>
+                 <bibl xml:id="verein_gazetteer_2021a">The Historic Gazetteer. Hg. von Verein fÃ¼r
+                Computergenealogie e. V. (2021a) In: Genealogy.net. 2021. [<ref target="http://gov.genealogy.net/search/index">online</ref>]</bibl>
+                 <bibl xml:id="verein_index_2021b">Index of /gov/minigov. Hg. von Verein fÃ¼r
+                Computergenealogie e. V. (2021b) In: Genealogy.net. 2021. [<ref target="http://www.genealogy.net/gov/minigov/">online</ref>]</bibl>
+                 <bibl xml:id="working-group_neustadt_2021">Neustadt in Europe - Overview. Hg. von Working Group
+                Neustadt in Europa. Overview. In: neustadt-in-europa.de. Neustadt an der WeinstraÃŸe
+                2021. [<ref target="https://www.neustadt-in-europa.de/en/list.html">online</ref>]</bibl>
+                 <bibl xml:id="zandhuis_toponyms_2015">Ivo Zandhuis / Menno den Engelse / Edward Mac Gillavry:
+                Dutch Historical Toponyms in the Semantic Web. In: Population Reconstruction.
+                Hg.Â von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn
+                Schraagen.Gerrit Bloothooft et al. Cham u. a. 2015, S. 23â€“41. <ptr type="gbv" cRef="833549804"/>. </bibl>
+                 <bibl xml:id="zedlitz_survey_2014">Jesper Zedlitz / Norbert Luttenberger: A Survey on
+                Modelling Historical Administrative Information on the Semantic Web. In:
+                International Journal on Advances in Internet Technology 7 (2014), H.Â 3/4, S.
+                218â€“231. [<ref target="http://www.iariajournals.org/internet_technology/tocv7n34.html">online</ref>]</bibl>
+                 <bibl xml:id="zheng_integrating_2019">Yong Zheng / Shephalika Shekhar / Alisha Anna Jose / Sunil
+                Kumar Rai: Integrating context-awareness and multi-criteria decision making in
+                educational learning. In: Proceedings of the 34th ACM/SIGAPP Symposium on Applied
+                Computing. Hg. von Association for Computing Machinery. (SAC '19: 34, Limasol,
+                08.â€“12.04.2019) New York, NY 2019, S. 2453â€“2460. <ptr type="gbv" cRef="1684173736"/> </bibl></listBibl>
+                <div type="abbildungsnachweis">
+                    <head>Abbildungs- und Tabellenverzeichnis</head>                    
+                    <desc type="graphic" xml:id="abb1">Abb. 1:
+                        Ãœbersicht Ã¼ber Begrifflichkeiten und ZusammenhÃ¤nge. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_001"/></desc>
+                    
+                    <desc type="table" xml:id="tab1"><ref type="intern" target="tab01">Tab. 1</ref>:
+                        Konfusionsmatrix zur Identifizierung von Ortsbezeichnungen in Anlehnung an
+                        Fawcett. [Fawcett 2006, S. 862]<ref type="graphic"
+                            target="#urbanonyme_2020_t1"/></desc>
+                    <desc type="graphic" xml:id="abb2">Abb. 2:
+                        Relative (links) und absolute (rechts) Verteilung des Nachnamens Hinse.
+                        [Goldberg 2022, erstellt mit Geogen Deutschland, StÃ¶pel 2021a.]<ref type="graphic" target="#urbanonyme_2020_002"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb3">Abb. 3:
+                        Auszug aus einer&#xA; GOV-Abfrage. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_003"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb4">Abb. 4:
+                        Auszug einer GEDCOM-Datei. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_004"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb5">Abb. 5:
+                        Ermittlung und Bewertung von Kontextdaten, eigene Darstellung als
+                        Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_005"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb6">Abb. 6:
+                        Ortsidentifizierung, eigene Darstellung als Nassi-Sneiderman-Diagramm. [Goldberg
+                        2022]<ref type="graphic" target="#urbanonyme_2020_006"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb7">Abb. 7:
+                        Analyse der provinziellen Zuordnung, eigene Darstellung als
+                        Nassi-Sneiderman-Diagramm. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_007"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb8">Abb. 8: GOV-Struktur der Stadt
+                        <ref target="http://gov.genealogy.net/item/show/object_113700">WiedenbrÃ¼ck</ref>
+                        ,
+                        Stand: 30. Januar 2021. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_008"/></desc>
+                    
+                    <desc type="table" xml:id="tab2"><ref type="intern" target="tab02">Tab. 2</ref>:
+                        Zuordnung von Provinzen zum GOV. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t2"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb9">Abb. 9:
+                        Aufbau des Programms. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_009"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb10">Abb. 10:
+                        Funktionsweise der Main. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_010"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb11">Abb. 11:
+                        Funktionsweise der Kontextdatenanalyse. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_011"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb12">Abb. 12:
+                        Funktionsweise der Ortssuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_012"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb13">Abb. 13:
+                        Funktionsweise der Provinzsuche. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_013"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb14">Abb. 14:
+                        Anzahl an Clustern nach durchschnittlicher Abstand in km bei Variation des
+                        Mindestabstandes zwischen Clustern (10 km, 25 km, 50 km) und MindestgrÃ¶ÃŸe von
+                        Clustern (2, 6, und 11), jeweils 200 Bins. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_014"/></desc>
+                    
+                    <desc type="graphic" xml:id="abb15">Abb. 15:
+                        Zusammenhang zwischen Mindestdistanz, MindestclustergrÃ¶ÃŸe und Clusteranzahl,
+                        links mit logarithmischer Skalierung. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_015"/></desc>
+                    
+                    <desc type="table" xml:id="tab3"><ref type="intern" target="tab03">Tab. 3</ref>:
+                        Vergleich verschiedener Ã„hnlichkeitsmaÃŸe, alle Angaben in Prozent, Grenze: 0,17.
+                        [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t3"/></desc>
+                    
+                    <desc type="table" xml:id="tab4"><ref type="intern" target="tab04">Tab. 4</ref>:
+                        EndzustÃ¤nde des Algorithmus am Beispiel Ortsangaben in GEDCOM-Dateien,
+                        Grundgesamtheit von 262.741 EintrÃ¤gen. [Goldberg 2022]<ref type="graphic" target="#urbanonyme_2020_t4"/></desc>
+                    
+                    <desc type="table" xml:id="tab5"><ref type="intern" target="tab05">Tab. 5</ref>:
+                        Fehler in der Zuordnung der Provinzen bei der Bezugszeit 1820. [Goldberg
+                        2022]<ref type="graphic" target="#urbanonyme_2020_t5"/></desc>
+                    
+                    <desc type="table" xml:id="tab6"><ref type="intern" target="tab06">Tab. 6</ref>:
+                        Fehler in der Zuordnung der Provinzen bei der Bezugszeit 2020. [Goldberg
+                        2022]<ref type="graphic" target="#urbanonyme_2020_t6"/></desc>
+                </div>
+            </div>
+         </div>
+      </body>
+   </text>
+</TEI>