diff --git a/2023_001_goldberg/record_2022_001.png b/2023_001_goldberg/record_2022_001.png
new file mode 100644
index 0000000000000000000000000000000000000000..b49bf829b38544c6326c9dfc909e9f57767a0e8c
Binary files /dev/null and b/2023_001_goldberg/record_2022_001.png differ
diff --git a/2023_001_goldberg/record_2022_002.png b/2023_001_goldberg/record_2022_002.png
new file mode 100644
index 0000000000000000000000000000000000000000..abaa6e054e1320ed177e9d3ef18e69e7f88d86bf
Binary files /dev/null and b/2023_001_goldberg/record_2022_002.png differ
diff --git a/2023_001_goldberg/record_2023_v1_0.pdf b/2023_001_goldberg/record_2023_v1_0.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..849c63bf49f6ed5e4b5f8c7167b17f02f73ab90c
Binary files /dev/null and b/2023_001_goldberg/record_2023_v1_0.pdf differ
diff --git a/2023_001_goldberg/record_2023_v1_0.xml b/2023_001_goldberg/record_2023_v1_0.xml
new file mode 100644
index 0000000000000000000000000000000000000000..b17a5cca4b18c7f963099bb5bf374906fe277ccb
--- /dev/null
+++ b/2023_001_goldberg/record_2023_v1_0.xml
@@ -0,0 +1,2145 @@
+<?xml version="1.0" encoding="utf-8"?><?xml-model 
+   href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
+?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html"
+   xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink"
+   xmlns:xhtml="http://www.w3.org/1999/xhtml">
+   <teiHeader>
+      <fileDesc>
+         <titleStmt>
+            <title>
+               <biblStruct>
+                  <analytic>
+                     <title level="a">Automatisiertes Record Linkage in prosopographischen
+                        DatenbestÃ¤nden am Beispiel historischer Quellen Leipzigs</title>
+                     <respStmt>
+                        <resp ref="http://id.loc.gov/vocabulary/relators/aut">Author</resp>
+                        <persName>
+                           <forename>Jan Michael</forename>
+                           <surname>Goldberg</surname>
+                           <email>jan.goldberg@wiwi.uni-halle.de</email>
+                           <idno type="gnd">1240406630</idno>
+                           <idno type="orcid">0000-0002-4817-4283</idno>
+                           <affiliation>Martin-Luther-UniversitÃ¤t Halle Wittenberg, Lehrstuhl fÃ¼r empirische MakroÃ¶konomik</affiliation>
+                        </persName>
+                     </respStmt>
+                     <respStmt>
+                        <resp ref="http://id.loc.gov/vocabulary/relators/aut">Author</resp>
+                        <persName>
+                           <forename>Marcel</forename>
+                           <surname>Mernitz</surname>
+                           <email>marcel.mernitz@informatik.uni-halle.de</email>
+                           <idno type="gnd">1275436560</idno>
+                           <idno type="orcid">0000-0001-6464-2844</idno>
+                           <affiliation>Martin-Luther-UniversitÃ¤t Halle Wittenberg, Institut fÃ¼r Informatik</affiliation>
+                        </persName>
+                     </respStmt>                     
+                     <idno type="doi">10.17175/2023_001</idno>
+                     <idno type="ppn">1819370283</idno>
+                     <idno type="zfdg">2023.001</idno>
+                     <idno type="url">https://www.zfdg.de/node/383</idno>
+                     <date when="2023-01-26">26.01.2023</date>
+                  </analytic>
+                  <monogr>
+                     <title level="j">Zeitschrift fÃ¼r digitale Geisteswissenschaften</title>
+                     <respStmt>
+                        <resp>Publiziert von</resp>
+                        <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
+                     </respStmt>
+                     <respStmt>
+                        <resp ref="http://id.loc.gov/vocabulary/relators/dtm">Transformation der
+                           Word Vorlage nach TEI</resp>
+                        <persName>
+                           <surname>Baumgarten</surname>
+                           <forename>Marcus</forename>
+                           <idno type="gnd">1192832655</idno>
+                           <idno type="orcid">0000-0003-0801-9462</idno>
+                        </persName>
+                     </respStmt>
+                     <availability status="free">
+                        <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref>
+                        </p>
+                     </availability>
+                     <biblScope unit="year">2023</biblScope>
+                     <biblScope unit="artikel">01</biblScope>
+                  </monogr>
+               </biblStruct>
+            </title>
+         </titleStmt>
+         <editionStmt>
+            <edition>Elektronische Ausgabe nach TEI P5</edition>
+         </editionStmt>
+         <publicationStmt>
+            <distributor>
+               <name>
+                  <orgName>Herzog August Bibliothek WolfenbÃ¼ttel</orgName>
+               </name>
+            </distributor>
+            <idno type="doi">10.17175/zfdg.01</idno>
+            <idno type="ppn">0819494402</idno>
+            <authority>
+               <name>Herzog August Bibliothek</name>
+               <address>
+                  <addrLine>Lessingplatz 1</addrLine>
+                  <addrLine>38304 WolfenbÃ¼ttel</addrLine>
+               </address>
+            </authority>
+            <authority>
+               <name>Forschungsverbund Marbach Weimar WolfenbÃ¼ttel</name>
+               <address>
+                  <addrLine>Burgplatz 4</addrLine>
+                  <addrLine>99423 Weimar </addrLine>
+               </address>
+            </authority>
+            <availability status="free">
+               <p> Sofern nicht anders angegeben </p>
+               <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence>
+            </availability>
+            <availability status="free">
+               <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund
+                  MWW</ref>
+               </p>
+            </availability>
+         </publicationStmt>
+         <sourceDesc>
+            <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
+         </sourceDesc>
+      </fileDesc>
+      <encodingDesc>
+         <editorialDecl>
+            <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
+               XSLT-Skripten</p>
+         </editorialDecl>
+         <editorialDecl>
+            <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Martin
+               de la Iglesia</persName>.</p>
+         </editorialDecl>
+         <editorialDecl>
+            <p>Medienrechte liegen bei den Autor*innen</p>
+         </editorialDecl>
+         <editorialDecl>
+            <p>All links checked<date when="2023-01-12">12.01.2023</date>
+            </p>
+         </editorialDecl>
+      </encodingDesc>
+      <profileDesc>
+         <creation>Einreichung als Artikel der Zeitschrift fÃ¼r digitale
+            Geisteswissenschaften</creation>
+         <langUsage>
+            <language ident="de">Text in Deutsch</language>
+            <language ident="de">Abstract in Deutsch</language>
+            <language ident="en">Abstract in Englisch</language>
+         </langUsage>
+         <textClass>
+            <keywords scheme="gnd">
+               <term>Duplikaterkennung<ref target="1263539092"/>
+               </term>
+               <term>DatenverknÃ¼pfung<ref target="4788710-2"/>
+               </term>
+               <term>Personenbezogene Daten<ref target="4173908-5"/>
+               </term>
+               <term>Algorithmus<ref target="4001183-5"/>
+               </term>
+               <term>Genealogie<ref target="4020097-"/>
+               </term>
+               <term>Geschichtswissenschaft<ref target="4020535-6"/>
+               </term>
+            </keywords>
+         </textClass>
+      </profileDesc>
+      <revisionDesc>
+         <change/>
+      </revisionDesc>
+   </teiHeader>
+   <text>
+      <body>
+         <div>
+            
+            <div type="abstract">
+               <argument xml:lang="de">
+                  <p>In dieser Studie wird ein automatisierter Ansatz zum <term type="dh">Record Linkage</term> in
+                     prosopographischen DatenbestÃ¤nden vorgestellt. In ihm sind zahlreiche
+                     genealogische Regeln zur VerknÃ¼pfung von Personen implementiert. Dadurch ist er
+                     besonders fÃ¼r DatenbestÃ¤nde geeignet, die zu den abgebildeten Individuen viele
+                     genealogisch relevante Informationen bereithalten. Dazu wird eine normierte
+                     Datenstruktur definiert, in die die Eingangsdaten einzuordnen sind. Der
+                     Algorithmus erkennt innerhalb dieser Datenstruktur EintrÃ¤ge zu gleichen
+                     Personen und fÃ¼hrt diese automatisch zusammen. In diesem Zuge wird eine
+                     Formalisierung von genealogischen Heuristiken vorgenommen. Die
+                     FunktionsfÃ¤higkeit des Algorithmus wird am Beispiel historischer DatenbestÃ¤nde
+                     aus Leipzig erfolgreich dargestellt. Der Programmcode ist in Python realisiert
+                     worden und frei verfÃ¼gbar.</p>
+               </argument>
+               <argument xml:lang="en">
+                  <p>In this study, an automated approach to <term type="dh">record linkage</term> in prosopographic
+                     datasets is presented. It implements numerous genealogical rules for linking
+                     individuals. This makes it particularly suitable for datasets that contain a
+                     lot of genealogically relevant information about the represented individuals.
+                     For this purpose, a standardized data structure is defined into which the input
+                     data is to be arranged. The algorithm recognizes entries pertaining to the same
+                     persons within this data structure and merges them automatically. In this
+                     process, a formalization of genealogical heuristics is performed. The
+                     functionality of the algorithm is successfully demonstrated using historical
+                     datasets from the city of Leipzig as an example. The program code has been
+                     realized in Python and is freely available.</p>
+               </argument>
+            </div>
+            <div type="chapter">
+               <head>1. Einleitung</head>
+               <p>Gleiches mit Gleichem zu verbinden, stellt Ã¼berall dort eine besondere
+                  Herausforderung dar, wo keine eindeutigen Identifikationsmerkmale vorliegen.
+                  Dieses Problem tritt in wissenschaftlichen Untersuchungen insbesondere dann auf,
+                  wenn historische Personendaten Forschungsgegenstand sind. Immer grÃ¶ÃŸere
+                  Datenmengen sorgen zudem zunehmend dafÃ¼r, dass eine manuelle Bearbeitung erschwert
+                  wird. Dadurch besteht ein Bedarf an automatisierten <term type="dh"
+                     >Record-Linkage</term>-LÃ¶sungen. Neben den klassischen wissenschaftlichen
+                  Anwendungen betrifft das unter anderem auch Projekte wie <term type="dh"
+                     >Time-Machine</term>-Anwendungen.<note type="footnote">
+                        <term type="dh">Time Machines</term> sind Konstrukte, in denen historische
+                        Daten verschiedenster Quellen zusammengefÃ¼hrt werden. Dadurch werden
+                        beispielsweise individuelle Biografien, politisch-stÃ¤dtische Dynamiken und die
+                        VerÃ¤nderung der Bausubstanz verknÃ¼pft auf einer Plattform sichtbar. Diese
+                        werden Ã¶ffentlich zur VerfÃ¼gung gestellt und kÃ¶nnen zur Forschung und Bildung
+                        genutzt werden. Vgl. <ref type="bibliography" target="#kaplan_venice_2015">Kaplan 2015</ref>, S. 73.</note> Im deutschen Sprachraum sind
+                  derzeit beispielsweise die Projekte in Leipzig, Jena und KÃ¶ln zu nennen.<note
+                     type="footnote"> Vgl. <ref type="bibliography" target="#time_machine_2022">Time Machine Organisation 2022</ref>.</note> Perspektivisch ist denkbar, dass in vielen deutschsprachigen StÃ¤dten solche Time Machines
+                  initiiert werden. Eine besondere Herausforderung dabei ist es, viele
+                  unterschiedliche Quellen zusammenzufÃ¼hren. Aus dieser Perspektive heraus besteht ein erhÃ¶hter Bedarf an Record-Linkage-LÃ¶sungen, die die Besonderheiten der
+                  deutschen Sprache berÃ¼cksichtigen.</p>
+               <p>Um LebenslÃ¤ufe von Individuen oder Familienentwicklungen nachvollziehen zu kÃ¶nnen,
+                  greifen Historiker*innen sowie Wirtschafts- und Sozialwissenschaftler*innen auf
+                  verschiedene Daten zur persÃ¶nlichen Identifikation zurÃ¼ck. HierfÃ¼r gibt es eine
+                  Vielzahl verschiedener Record-Linkage-AnsÃ¤tze. Schon in der Antike wurde Ã¼ber die
+                  BevÃ¶lkerung Buch gefÃ¼hrt, beispielsweise zur Ãœbersicht Ã¼ber die zur Musterung
+                  heranzuziehende BevÃ¶lkerung, zur Wahlrechtverteilung oder zur Erhebung von
+                  Steuern.<note type="footnote"> Vgl. <ref type="bibliography" target="#hin_roman_2016">Hin et al. 2016</ref>, S. 50.</note> Die meisten
+                  historischen Informationen Ã¼ber Individuen der Neuzeit befinden sich in
+                  prosopographischen Quellen wie KirchenbÃ¼chern. Die historische Datenerhebung kennt
+                  dabei zur eindeutigen Personenerkennung keine eindeutigen Identifikatoren wie
+                  Steuer-, Personalausweis- oder Sozialversicherungsnummer. Daher muss auf andere
+                  Daten einer Person zurÃ¼ckgegriffen werden, beispielsweise den Namen, Geburts- und
+                  Sterbedaten oder die Namen der Eltern. Diese Daten allerdings sind nicht geschÃ¼tzt
+                  vor Fehlern oder Verlust. Daraus ergibt sich eine enorme Ungenauigkeit ebendieser
+                  Daten.<note type="footnote"> Vgl. <ref type="bibliography" target="#feigenbaum_census_2016">Feigenbaum 2016</ref>; 
+                     <ref type="bibliography" target="#hin_roman_2016">Hin et al. 2016</ref>, S. 50, 52;
+                     <ref type="bibliography" target="#massey_playing_2017">Massey 2017</ref>, S. 129, 131.</note> Zudem sind groÃŸe DatenbestÃ¤nde unÃ¼bersichtlich
+                  oder gar nicht Ã¼berschaubar. Das zeigt sich beispielsweise, wenn Personen in einem
+                  Zensus hÃ¤ndisch im darauffolgenden Zensus anhand der Angaben zur Stadt oder Gegend
+                  beziehungsweise zum Land gesucht werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#massey_playing_2017">Massey 2017</ref>,
+                     S. 130.</note> Problematisch an diesem Ansatz ist, dass verzogene Menschen in
+                  dem folgenden Zensus aufgrund des Ortswechsels nicht gefunden werden. Die
+                  Aussagekraft der Ergebnisse ist hierbei also durch die geografische MobilitÃ¤t der
+                  BevÃ¶lkerung gefÃ¤hrdet. Neben der QualitÃ¤t der Quellen haben zudem knapp bemessene
+                  personelle, finanzielle und zeitliche Ressourcen in der Forschung Einfluss auf die
+                  QualitÃ¤t der Record-Linkage-Ergebnisse.<note type="footnote"> Vgl. <ref type="bibliography" target="#massey_playing_2017">Massey 2017</ref>, S.
+                     129f.</note> Unter anderem aus diesem Umstand heraus wurden neben einer
+                  hÃ¤ndischen VerknÃ¼pfung halb- und vollautomatisierte Verfahren entwickelt.<note
+                     type="footnote"> Bei einem halbautomatisierten Ansatz unterbreitet ein Programm
+                     dem Forschungspersonal VorschlÃ¤ge zu mÃ¶glichen Treffern. Jedoch bestimmt das
+                     Forschungspersonal und kein Algorithmus Ã¼ber die VerknÃ¼pfung.</note> Welche
+                  Herangehensweise hierbei die richtige ist, ist abhÃ¤ngig vom Projektziel. Da es
+                  oftmals keine offiziellen Regeln fÃ¼r das Verbinden der Records gibt, existieren
+                  zahlreiche Heuristiken fÃ¼r die VerknÃ¼pfung der Daten. Eine Grundvoraussetzung fÃ¼r
+                  ein automatisiertes Record Linkage ist die Formalisierung der Heuristiken, die dem
+                  Verbinden der Daten zugrunde liegen.</p>
+               <p>Ziel des hier vorgestellten Ansatzes ist es, Heuristiken zum Record Linkage in
+                  prosopographischen DatenbestÃ¤nden mit vielen genealogisch relevanten Informationen
+                  zu formalisieren und in einem automatisierten Algorithmus umzusetzen. Genealogisch
+                  relevante Informationen sind dabei Lebensdaten wie Geburts- oder Sterbedatum,
+                  Berufe oder Informationen Ã¼ber die Eltern einer Person. Dieser Algorithmus soll
+                  dazu geeignet sein, ein Record Linkage in deutschsprachigen DatenbestÃ¤nden zu
+                  ermÃ¶glichen. Zu diesem Zweck wird im nÃ¤chsten Abschnitt zunÃ¤chst ein Ãœberblick
+                  Ã¼ber den Stand der Forschung gegeben. Darauffolgend findet die Beschreibung des
+                  entwickelten Algorithmus statt, bevor sich dieser einer Validierung anhand von
+                  historischen Leipziger Quellen unterzieht. AbschlieÃŸend wird das Ergebnis
+                  zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3.6
+                  umgesetzt und ist im <ref
+                     target="https://git.hab.de/forschungsdaten/zeitschrift-fuer-digitale-geisteswissenschaften/goldberg-record"
+                     >Online-Repositorium</ref> zu finden.</p>
+            </div>
+            <div type="chapter">
+               <head>2. Forschungsstand</head>
+               
+               <p>ZunÃ¤chst wird auf verschiedene Methoden des Record Linkage eingegangen. Danach
+                  findet eine Betrachtung der Besonderheiten prosopographischer DatenbestÃ¤nde mit
+                  umfangreichen genealogisch relevanten Daten statt.</p>
+               <div type="subchapter">
+                  <head>2.1 Methoden des Record Linkage historischer DatenbestÃ¤nde</head>
+                  
+                  <p>Wie eingangs erwÃ¤hnt, gibt es unterschiedliche AnsÃ¤tze, wie DatensÃ¤tze zusammengefÃ¼hrt werden kÃ¶nnen. Diese Darstellung fokussiert sich explizit
+                     auf den Stand der Forschung bei der Anwendung auf historische Daten.<note
+                        type="footnote"> Als EinfÃ¼hrung in die Grundlagen des Themas vgl. <ref type="bibliography" target="#gu_record_2003">Gu et al.
+                           2003</ref>.</note> Zweck ist es, einen Ãœberblick Ã¼ber verschiedene Verfahren und
+                     Ideen zu geben, ohne dabei jedoch einen Anspruch auf VollstÃ¤ndigkeit zu
+                     erheben. Das Record Linkage historischer Daten hat sich in den vergangenen
+                     Jahrzehnten stetig verÃ¤ndert, wie beispielsweise Massey aufzeigt.<note
+                        type="footnote"> Sie selbst prÃ¼ft verschiedene Record-Linkage-Verfahren und
+                        kommt beispielsweise zu dem Schluss, dass Ergebnisse besser werden, wenn die
+                        Altersangaben zwischen zwei zeitlich auseinanderliegenden Quellen in Bezug
+                        auf die zeitliche Differenz zwischen diesen umgerechnet werden. Die besten
+                        Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. <ref type="bibliography" target="#massey_playing_2017">Massey
+                           2017</ref>, S. 129, 140.</note> Ãœbergreifend werden von Gellatly als wesentliche
+                     Herausforderungen zum einen die Skalierbarkeit auf groÃŸe DatenbestÃ¤nde, zum
+                     anderen die Genauigkeit und Effizienz der Algorithmen identifiziert.<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#gellatly_populations_2015">Gellatly 2015</ref>, S. 114, 122.</note> Als dritte groÃŸe
+                     Herausforderung werden Datenschutzaspekte genannt.<note type="footnote"> Vgl.
+                        <ref type="bibliography" target="#christian_record_2015">Christen et al. 2015</ref>, S. 87.</note> Der Datenschutzaspekt wird im Weiteren
+                     vernachlÃ¤ssigt, da der Algorithmus auf Daten ausgelegt werden soll, die
+                     aufgrund ihres Alters vom deutschen Datenschutzrecht nicht tangiert werden. Die
+                     Analyse von Daten aus verschiedenen ZeitrÃ¤umen weist dabei unterschiedliche
+                     Herausforderungen auf, beispielsweise in der Standardisierung von
+                     Namensschreibweisen oder der generellen Datenerfassung.<note type="footnote">
+                        Vgl. <ref type="bibliography" target="#georgala_record_2015">Georgala et al. 2015</ref>, S. 173.</note>
+                  </p>
+                  <p>Zum Record Linkage kÃ¶nnen verschiedenste Variablen herangezogen werden.
+                     Grundlegend dabei ist, dass Variablen / Attribute zur VerfÃ¼gung stehen, die
+                     einen identischen SchlÃ¼ssel aufweisen.<note type="footnote"> Vgl. <ref type="bibliography" target="#baxter_methods_2003">Baxter et al.
+                        2003</ref>, S. 2.</note> Dies kann beispielsweise der Name, das Geburtsdatum
+                     oder die Sozialversicherungsnummer sein. Auch kÃ¶nnen Graphen genutzt werden, um
+                     die Ã„hnlichkeit der Records untereinander darzustellen.<note type="footnote">
+                        Die QualitÃ¤t der VerknÃ¼pfungen wird dabei besser, wenn man zeitliche
+                        Restriktionen einbeziehe, beispielsweise des mÃ¶glichen
+                        Schwangerschaftszeitraums der Frau. Vgl. <ref type="bibliography" target="#nanayakkara_clustering_2018">Nanayakkara et al.
+                           2018</ref>.</note> Um die Daten zu vergleichen, ist eine vorhergehende
+                     Bereinigung notwendig.<note type="footnote"> Vgl. <ref type="bibliography" target="#gellatly_populations_2015">Gellatly 2015</ref>, S. 116.</note>
+                  </p>
+                  <p>Gellatly testet einen Ansatz, bei dem er verschiedene Variablen kombiniert und
+                     im Folgenden analysiert, welche Kombinationen die besten Ergebnisse erzielen.
+                     Diese erreicht er bei einer Kombination von Geburtsjahr (nicht das exakte
+                     Datum), Geschlecht, Nachname, einer Variable, die sich aus der Anzahl von
+                     BrÃ¼dern und Schwestern zusammensetzt, und den ersten drei Buchstaben des
+                     Vornamens.<note type="footnote"> Vgl. <ref type="bibliography" target="#gellatly_populations_2015">Gellatly 2015</ref>, S. 122f.</note>
+                  </p>
+                  <p>Efremova et al. nutzen dahingegen ein â€ºdisjunctive blockingâ€¹.<note
+                     type="footnote"> Vgl. <ref type="bibliography" target="#efremova_entity_2015">Efremova et al. 2015</ref>.</note> Darin werden die ersten
+                     Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese
+                     einen gewissen Grad an Ã„hnlichkeit aufweisen, wird das Record Linkage
+                     fortgesetzt. Im folgenden Schritt wird die SimilaritÃ¤t zwischen verschiedenen
+                     Records berechnet. Die besten Ergebnisse erhalten sie unter Hinzuziehung der
+                     NamenshÃ¤ufigkeit innerhalb der untersuchten Datenbank sowie der geografischen
+                     Distanz.</p>
+                  <p>Statt einer binÃ¤ren VerknÃ¼pfung (Zuordnung / keine Zuordnung) gibt es auch
+                     Systeme, die Abstufungen verwenden. Sichere VerknÃ¼pfungen werden darin anders
+                     bewertet als unsichere.<note type="footnote"> Vgl. <ref type="bibliography" target="#thorvaldsen_record_2015">Thorvaldsen et al. 2015</ref>, S.
+                        163f.</note> Thorvaldsens automatisierte Anwendung auf norwegische Daten
+                     nimmt viele VerknÃ¼pfungen aufgrund von Ungewissheit nicht automatisch vor und
+                     lÃ¤sst einen betrÃ¤chtlichen Spielraum fÃ¼r die (nachfolgende) manuelle
+                     VerknÃ¼pfung.<note type="footnote"> Vgl. <ref type="bibliography" target="#thorvaldsen_record_2015">Thorvaldsen et al. 2015</ref>, S.
+                        168.</note>
+                  </p>
+                  <p>Anhand englischer Daten zeigen Georgala et al., dass String-Metriken wie die
+                     Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische
+                     Ã„hnlichkeitsanalysen funktionieren, diese jedoch wiederum deutlich bessere
+                     Ergebnisse aufweisen als eine absolute Gleichheit der Namen.<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#georgala_record_2015">Georgala et al. 2015</ref>, S. 187.</note>
+                  </p>
+                  <p>Zur UnterstÃ¼tzung des Record Linkage existieren verschiedene Programme. In
+                     diese soll hier nicht im Detail eingefÃ¼hrt werden. Beispielhaft genannt wird
+                     eine LÃ¶sung, die explizit auf das Record Linkage von genealogischen
+                     GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: <bibl>
+                        <title type="desc">GedTool</title>
+                     </bibl>.<note type="footnote"> Vgl. <ref type="bibliography" target="#schulz_gedtool_2017">Schulz 2017</ref>.</note> Zur Verschmelzung
+                     von Personen kÃ¶nnen darin bis zu acht Kriterien wie der Vorname, der Nachname
+                     oder eine ID bestimmt werden, die Ã¼bereinstimmen mÃ¼ssen, damit Personen
+                     verschmolzen werden kÃ¶nnen. Die EintrÃ¤ge, auf die die Kriterien zutreffen,
+                     werden gemeinsam angezeigt und kÃ¶nnen dann nachfolgend manuell zusammengefÃ¼hrt
+                     werden. Eine phonetische Suche mit den Algorithmen Soundex, KÃ¶lner
+                     Phonetik und Double Metaphone kann ebenfalls ausgefÃ¼hrt werden.<note type="footnote"> Die
+                        Programmierung dieser Funktionen ist jedoch nicht nachvollziehbar, da es
+                        sich um ein kommerzielles Produkt handelt und der Code des Programms (es
+                        handelt sich um Excel-Makros) nicht einsehbar ist.</note> Hierbei handelt es
+                     sich also um eine semi-automatisierte LÃ¶sung.</p>
+                  <p>Ein weiteres Record-Linkage-Programm stellt <bibl>
+                     <title type="desc">Demolink</title>
+                  </bibl> dar. Fure evaluiert dieses anhand norwegischer Daten und kommt zu dem
+                     Schluss, dass eine Vorstellung Ã¼ber den historischen Kontext einer Quelle
+                     notwendig ist, um â€“ im Vergleich mit einer automatisierten LÃ¶sung â€“ gute
+                     Ergebnisse zu erzielen. Damit meint sie, dass die Forschenden z.Â B. Wissen
+                     darÃ¼ber haben mÃ¼ssen, welche Namen im untersuchten Gebiet gleich sind, ohne
+                     dass ein Algorithmus sie zuordnen kann. Ein Beispiel dafÃ¼r ist, dass die Namen
+                     Goldberg und Goldbrich in NordbÃ¶hmen und der sÃ¼dlichen Oberlausitz bis etwa zur
+                     zweiten HÃ¤lfte des 18. Jahrhunderts synonym verwendet werden. Hierzu seien
+                     menschliche Eigenschaften notwendig.<note type="footnote"> Vgl. <ref type="bibliography" target="#fure_record_2000">Fure
+                        2000</ref>.</note>
+                  </p>
+                  <p>Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen
+                     zufriedenstellende Ergebnisse erzielen kÃ¶nnen.<note type="footnote"> Vgl.
+                        <ref type="bibliography" target="#abramitzky_linking_2021">Abramitzky et al. 2021</ref>.</note> Da nie mit Sicherheit bestimmt werden kann,
+                     ob zwei Records tatsÃ¤chlich dieselbe EntitÃ¤t beschreiben, sind solche Vorgehen
+                     probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et al. erreichen auch automatisierte AnsÃ¤tze Falschpositivraten von unter fÃ¼nf Prozent. Zudem zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive Ergebnisse erzeugen.<note
+                        type="footnote"> Vgl. <ref type="bibliography" target="#abramitzky_linking_2021">Abramitzky et al. 2021</ref>, S. 865.</note> In ihrem
+                     automatischen Ansatz demonstrieren Abramitzky et al. ein dreischrittiges
+                     Verfahren: ZunÃ¤chst sind (1.) Variablen fÃ¼r die VerknÃ¼pfung auszuwÃ¤hlen, dann
+                     setzen sie (2.) mit dem Expections-Maximization-Algorithmus einen Algorithmus
+                     zur Berechnung der Wahrscheinlichkeit der Ãœbereinstimmung von zwei DatensÃ¤tzen
+                     ein, schlieÃŸlich wird (3.) die Wahrscheinlichkeit der Ãœbereinstimmung
+                     bewertet.<note type="footnote"> Vgl. <ref type="bibliography" target="#abramitzky_linking_2020">Abramitzky et al. 2020</ref>, S. 94.</note>
+                     Die hohe VerlÃ¤sslichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei
+                     der Berechnung der beruflichen und intergenerationalen MobilitÃ¤t aus ihren
+                     VerknÃ¼pfungen ihrer Daten Ã¤hnliche Resultate wie in bereits bestehenden,
+                     manuellen VerknÃ¼pfungen erhalten.<note type="footnote"> Dieses stellt zugleich
+                        ein geeignetes Beispiel fÃ¼r die Anwendung und den Nutzen von
+                        Record-Linkage-Algorithmen in der Ã¶konomischen Forschung dar. Vgl.
+                        <ref type="bibliography" target="#abramitzky_linking_2020">Abramitzky et al. 2020</ref>, S. 106f.</note>
+                  </p>
+               </div>
+               <div type="subchapter">
+                  <head>2.2 Format genealogisch-prosopographischer DatenbestÃ¤nde</head>
+                  
+                  <p>Besonders interessant erscheint die Anwendung eines automatisierten Record
+                     Linkage auf groÃŸe DatenbestÃ¤nde mit genealogisch relevanten Daten. Das Record
+                     Linkage muss dabei jedoch immer auch die besondere Struktur der Daten
+                     betrachten. Genealogisch relevante DatenbestÃ¤nde weisen andere Besonderheiten
+                     auf als einfache Listen, beispielsweise Notenlisten von Schulen. Oftmals stehen
+                     dabei in genealogischen DatenbestÃ¤nden im deutschsprachigen Raum fÃ¼nf
+                     Lebensereignisse im Zentrum: Geburten, Taufen, Heiraten, TodesfÃ¤lle und
+                     Beerdigungen. Die Erfassung dieser Aspekte bildet ein GrundgerÃ¼st zur
+                     Beschreibung eines individuellen Lebensverlaufs. Daneben werden oft weitere
+                     Informationen wie Wohnorte oder Berufsangaben, vor allem aber die VerknÃ¼pfung
+                     zu den Eltern und Kindern ergÃ¤nzt.</p>
+                  <p>Quellen, die genealogisch relevante Daten enthalten, sind sehr unterschiedlich
+                     strukturiert. Die zugrundeliegenden PrimÃ¤rquellen sind oftmals Manuskripte.
+                     Hier sind vorwiegend KirchenbÃ¼cher zu nennen. Verschiedene prosopographische
+                     Quellen enthalten dabei unterschiedliche Informationen.<note type="footnote">
+                        Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von
+                        Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. <ref type="bibliography" target="#efremova_entity_2015">Efremova et al. 2015</ref>,
+                        S. 132.</note> Allerdings existiert auch eine groÃŸe Menge an
+                     SekundÃ¤rquellen, die bereits aufgearbeitete Daten prÃ¤sentieren. Solche Daten
+                     kÃ¶nnen dabei unterschiedlich und hÃ¶chst individuell strukturiert sein,
+                     beispielsweise als FlieÃŸtext in Chroniken vorliegen oder in Stammtafeln
+                     abgedruckt sein. Auch im digitalen Raum existieren mannigfaltige Formate. Hier
+                     haben sich allerdings auch spezielle Austauschformate fÃ¼r genealogische Daten
+                     entwickelt.</p>
+                  <p>FÃ¼r diese Studie wird davon ausgegangen, dass einzelne Quellen so aufgearbeitet
+                     werden kÃ¶nnen, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle
+                     entspricht einer Zeile (i.Â d.Â R. eine Person), jede Spalte hingegen einem
+                     Datenfeld in der Quelle. Die in einer Zeile enthaltenen Informationen werden im
+                     Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die
+                     Datenfelder / Spalten tatsÃ¤chlich vergleichbare Informationen enthalten mÃ¼ssen. Die
+                     Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist
+                     dadurch schwierig, dass trotz gleicher Bezeichnung in den Originalquellen
+                     unterschiedliche Informationen gemeint sein kÃ¶nnen. Zum Beispiel kann mit dem
+                     <quote>Stand</quote> in einer Quelle der Beruf (z.Â B. <quote>MÃ¼ller</quote>)
+                     gemeint sein oder aber der Familienstand (z.Â B. <quote>verheiratet</quote>).
+                     FÃ¼r ein Record Linkage zwischen verschiedenen DatenbestÃ¤nden ist also die
+                     Definition des Inhalts der Datenfelder unerlÃ¤sslich.</p>
+                  <p>Als wesentlicher Standard zum Austausch genealogischer Informationen hat sich
+                     das GEDCOM-Format herausgebildet.<note type="footnote"> Vgl. <ref type="bibliography" target="#gellatly_populations_2015">Gellatly 2015</ref>, S.
+                        112; <ref type="bibliography" target="#harviainen_genealogy_2018">Harviainen / BjÃ¶rk 2018</ref>, S. 4.</note> In diesem werden einzelne
+                     Informationen sogenannten Tags zugewiesen, die eine Ã¤hnliche Funktion wie
+                     Datenfelder / Spalten haben (z. B. beschreibt der Tag OCCU eine Berufsangabe).
+                     Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert,
+                     doch gibt es nicht fÃ¼r alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1 ein Standard existiert,<note type="footnote"> Vgl. <ref type="bibliography" target="#church_gedcom_2019">The Church of Jesus
+                        Christ of Latter-day Saints 2019</ref>.</note> legt dieser nicht immer fest, welcher Inhalt den Tags zugeordnet werden darf. Im Standard ist
+                     beispielsweise fÃ¼r die Nennung von Ortsangaben eine Trennung der
+                     administrativen Gliederungsebenen durch ein Komma vorgesehen. Nutzer*innen
+                     jedoch mÃ¼ssen sich daran nicht halten, sondern kÃ¶nnen diese â€ºFreitextfelderâ€¹
+                     ausfÃ¼llen, wie es ihnen beliebt und wie sie diese interpretieren.</p>
+                  <p>Einen weiteren Standard stellt Gedbas4all dar.<note type="footnote"> Vgl.
+                     <ref type="bibliography" target="#vfc_datenmodell_2016">Verein fÃ¼r Computergenealogie 2016a</ref>.</note> Anders als GEDCOM, in der die
+                     einzelnen Informationen zu einer Person zwar zusammengefÃ¼hrt, die
+                     zugrundeliegenden Quellen aber schlecht nachvollziehbar sind, basiert dieses
+                     Modell auf einer VerknÃ¼pfung von Records, die im Nachhinein wieder voneinander
+                     gelÃ¶st werden kÃ¶nnen. In dem Datenmodell gibt es einige Variablen, die auch
+                     konkret definiert wurden. Besonders fÃ¼r die Zeitangaben gibt es eine
+                     detaillierte Normierung.<note type="footnote"> Vgl. <ref type="bibliography" target="#vfc_datumsangaben_2016">Verein fÃ¼r
+                        Computergenealogie 2016b</ref>.</note> Das Datenmodell enthÃ¤lt jedoch nicht zu
+                     allen mÃ¶glichen Variablen eine detaillierte ErlÃ¤uterung. Zudem hat es noch
+                     keine weite Verbreitung gefunden.</p>
+                  <p>Es zeigt sich, dass kein allgemeingÃ¼ltiges und ausreichend detailliertes System
+                     zur Definition vieler mÃ¶glicher SchlÃ¼ssel fÃ¼r ein Record Linkage auf Basis
+                     zahlreicher Variablen existiert. Darum werden im Folgenden mÃ¶gliche Datenfelder
+                     im Rahmen der Entwicklung des Algorithmus definiert.</p>
+               </div>
+            </div>
+            <div type="chapter">
+               <head>3. Algorithmus zum Record Linkage</head>
+               
+               <p>Die oben aufgefÃ¼hrten Algorithmen scheinen auf ihre jeweiligen Anwendungen bezogen
+                  zwar effektiv zu sein, doch kÃ¶nnen sie nicht auf alle
+                  prosopographischen Quellen Ã¼bertragen werden. Eine allgemeingÃ¼ltige LÃ¶sung fÃ¼r
+                  alle deutschsprachigen Quellen kann auch hier nicht entwickelt werden. Die
+                  aufgezeigte LÃ¶sung aber bildet viele mÃ¶gliche FÃ¤lle bereits ab und stellt eine
+                  geeignete Grundlage zur weiteren Anpassung dar. Das Ergebnis ist also nicht nur auf eine einzelne Anwendung angepasst, sondern kann fÃ¼r verschiedene
+                  prosopographische Quellen (speziell solche mit einer hohen Dichte genealogisch relevanter Informationen) adaptiert werden. Auch wird einem weiteren bestehenden
+                  Nachteil der dargestellten AnsÃ¤tze begegnet, welche vorwiegend auf
+                  englischsprachige, norwegische oder niederlÃ¤ndische DatensÃ¤tze angewendet wurden:
+                  Es gibt in jeder Sprache Besonderheiten, die es zu berÃ¼cksichtigen gilt, auch die
+                  deutsche Sprache stellt keine Ausnahme dar. Der im Folgenden vorgestellte
+                  Algorithmus ist daher nur mit deutschsprachigen Daten kompatibel und nimmt
+                  RÃ¼cksicht auf die phonetischen Besonderheiten der deutschen Sprache. Auch hier
+                  kann jedoch eine Anpassung vorgenommen werden, indem Regeln weiterer Sprachen
+                  integriert werden. Da es einen in dieser Art ausgestalteten Algorithmus bislang
+                  nicht gab, wird hier eine ForschungslÃ¼cke geschlossen. Aufbauend auf dem Forschungsstand verwendet dieser besonders solche Metriken und Verfahren, die sich in den dargestellten LÃ¶sungen als tauglich erwiesen haben.</p>
+               <p>Der Algorithmus wird im Folgenden textuell erklÃ¤rt. Die ErlÃ¤uterung orientiert
+                  sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein
+                  Anspruch, den Quellcode zugÃ¤nglich zu machen und so eine Anpassung an die
+                  jeweilige Herausforderung zu ermÃ¶glichen. Hierzu wird der Algorithmus in der
+                  Programmiersprache Python 3.8 umgesetzt. Dieser ist im <ref
+                     target="https://git.hab.de/forschungsdaten/zeitschrift-fuer-digitale-geisteswissenschaften/goldberg-record"
+                     >Online-Repositorium</ref> verfÃ¼gbar.</p>
+               <p>Wesentliche Herausforderungen bestehen in der Normierung, Strukturierung und
+                  Bereinigung von Eingangsdaten sowie der PrÃ¼fung einer SimilaritÃ¤t zwischen
+                  verschiedenen Records. Die Bereinigung der Daten ist eine Voraussetzung fÃ¼r die
+                  PrÃ¼fung der SimilaritÃ¤t der DatensÃ¤tze; letztere wiederum stellt eine notwendige
+                  Bedingung zur VerknÃ¼pfung im Zuge des Record Linkage dar. Im folgenden Abschnitt
+                  wird zunÃ¤chst eine detaillierte Ãœbersicht Ã¼ber den Algorithmus gegeben. Danach
+                  wird eine Normalform der Daten definiert (im Weiteren Normform), in die die
+                  Eingangsdaten gebracht werden mÃ¼ssen. Dies geschieht, damit die Datenfelder /
+                  Spalten gleichartige Daten enthalten. Daran anschlieÃŸend wird die Datenbereinigung
+                  und -strukturierung behandelt, bevor die genealogischen Heuristiken, die dem
+                  Vergleich zweier Records dienen, formalisiert werden. AbschlieÃŸend wird bestimmt,
+                  in welcher Form die ZusammenfÃ¼hrung der Records geschieht.</p>
+               <div type="subchapter">
+                  <head>3.1 Funktionsweise des Algorithmus</head>
+                  <p>Der Algorithmus ist auf prosopographische Quellen angepasst, die genealogisch
+                     relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische
+                     Quellen gibt, die Daten enthalten, welche durch die Normform nicht adÃ¤quat
+                     abgebildet werden (z. B. Immatrikulationslisten). Hier wird deutlich, dass
+                     nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute
+                     prosopographischer Quellen Einbindung finden kÃ¶nnen. Nichtsdestotrotz wird mit
+                     jeder Information, die nicht genutzt wird, eine MÃ¶glichkeit verworfen, das
+                     Record Linkage positiv zu beeinflussen. In FÃ¤llen besonderer Relevanz
+                     spezieller Variablen fÃ¼r eine Aufgabenstellung sollten diese im Algorithmus
+                     ergÃ¤nzt werden.</p>
+                  <p>Der grundlegende Ablauf zur Verarbeitung der Daten ist in <ref type="graphic"
+                     target="#record_2022_001">Abbildung 1</ref> ersichtlich. Um den Algorithmus
+                     ausfÃ¼hren zu kÃ¶nnen, mÃ¼ssen die Daten aufbereitet werden. Das kann manuell,
+                     aber auch durch ein gesondertes Programm geschehen.<note type="footnote"> In
+                        vielen FÃ¤llen werden die SpaltenÃ¼berschriften anzupassen und deren Inhalt
+                        entsprechend zuzuordnen sein. Mit tabellarisch vorliegenden Informationen
+                        ist die Umsetzung dieses Schrittes vergleichsweise einfach durchfÃ¼hrbar.
+                        Liegen die Daten als FlieÃŸtext vor, so mÃ¼ssen diese zunÃ¤chst in ein
+                        tabellarisches Format Ã¼berfÃ¼hrt werden. Anders sieht das jedoch bei
+                        GEDCOM-Dateien aus, die zwar auch FlieÃŸtext darstellen, jedoch gut genug
+                        strukturiert sind, um sie in ein entsprechendes tabellarisches Format zu
+                        Ã¼berfÃ¼hren. Dazu bietet sich ein GEDCOM-Parser an, welcher in gÃ¤ngigen
+                        Genealogieprogrammen enthalten ist.</note> Der Algorithmus ist darauf
+                     ausgelegt, zwei in der Normform vorliegende DatensÃ¤tze dem Record Linkage zu
+                     unterziehen.<note type="footnote"> Sollten mehr als zwei DatensÃ¤tze
+                        verglichen werden, so sind zunÃ¤chst zwei auszuwÃ¤hlen und zusammenzufÃ¼hren.
+                        Da das aus dem Record Linkage resultierende Ergebnis ebenfalls der Normform
+                        entspricht, kann das Ergebnis mit weiteren Dateien verglichen werden.
+                        Dadurch kÃ¶nnen theoretisch unendlich viele DatensÃ¤tze miteinander verbunden
+                        werden.</note> Nach der ZusammenfÃ¼hrung kann der entstandene, verknÃ¼pfte
+                     Datensatz dann in weitere, Ã¼bliche Formate wie z. B. GEDCOM Ã¼bertragen werden.
+                     Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann
+                     beispielsweise das bereits im Forschungsstand erwÃ¤hnte Programm <bibl>
+                        <title type="desc">GedTool</title>
+                     </bibl> genutzt werden. Die konkrete Umwandlung des Ergebnisses in eine
+                     GEDCOM-Datei findet hier jedoch keine weitere ErlÃ¤uterung, sondern ist der
+                     Bedienungsanleitung des Programms zu entnehmen.<note type="footnote"> Vgl.
+                        <ref type="bibliography" target="#schulz_gedtool_2017">Schulz 2017</ref>.</note>
+                  </p>
+                  <figure>
+                     <graphic xml:id="record_2022_001" url=".../medien/record_2022_001.png">
+                        <desc>
+                           <ref type="graphic" target="#abb1">Abb. 1</ref>: Ablauf der
+                           Datenverarbeitung. [Goldberg / Mernitz 2023]<ref type="graphic"
+                              target="#record_2022_001"/>
+                        </desc>
+                     </graphic>
+                  </figure>
+                  <p>Nach der Transformation in die Normform wird eine Bereinigung und weitere
+                     Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig,
+                     beispielsweise um AbkÃ¼rzungen zu entfernen und Schreibfehler zu
+                     korrigieren.</p>
+                  <p>Nachfolgend wird ein Vergleich zwischen einzelnen Records erzeugt. FÃ¼r jede
+                     Zeile in der ersten Tabelle wird dazu geprÃ¼ft, ob die einzelnen Records der
+                     zweiten Tabelle disjunkt sind, also nicht dieselbe Person abbilden. Hierzu sind
+                     verschiedene genealogische Regeln implementiert, die eine ZusammenfÃ¼hrung
+                     ausschlieÃŸen sollen (z.Â B. ist eine Taufe nach dem Tod nicht mÃ¶glich).</p>
+                  <p>Danach wird fÃ¼r die nichtdisjunkten Records eine SimilaritÃ¤tsprÃ¼fung
+                     durchgefÃ¼hrt. Hierdurch soll herausgefunden werden, ob die Personen similÃ¤r
+                     sind â€“ also diese beiden Records dieselbe historisch existierende Person
+                     beschreiben und die Informationen entsprechend zu verknÃ¼pfen sind. Hierzu
+                     werden die Namen verglichen. Bei einem Wert von 1 wird eine vollstÃ¤ndige
+                     SimilaritÃ¤t der verglichenen Personen indiziert, bei 0 eine Abwesenheit dieser.
+                     Daneben kÃ¶nnen bei uneindeutiger SimilaritÃ¤t auch Zwischenwerte erreicht
+                     werden. Dadurch wird ein graphbasierter Ansatz implementiert, in dem jeder
+                     Record im ersten Datensatz zu jedem im zweiten eine gewichtete Beziehung
+                     aufweist. Zudem ist dieser Ansatz probabilistisch, da oftmals nicht mit
+                     Sicherheit von einer SimilaritÃ¤t ausgegangen werden kann.</p>
+                  <p>Der grundlegende Ablauf ist in <ref type="graphic" target="#record_2022_002"
+                     >Abbildung 2</ref> dargestellt. Eine ausfÃ¼hrliche ErlÃ¤uterung der einzelnen
+                     Schritte findet in den folgenden Abschnitten statt.</p>
+                  <figure>
+                     <graphic xml:id="record_2022_002" url=".../medien/record_2022_002.png">
+                        <desc>
+                           <ref type="graphic" target="#abb2">Abb. 2</ref>: Funktionsweise des
+                           Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023]<ref
+                              type="graphic" target="#record_2022_002"/>
+                        </desc>
+                     </graphic>
+                  </figure>
+               </div>
+               <div type="subchapter">
+                  <head>3.2 Definition der Normform</head>
+                  <p>Um Daten in eine Normform zu Ã¼berfÃ¼hren, ist die Definition einer solchen
+                     notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die
+                     Definition des Inhalts (die mÃ¶glichen SchlÃ¼ssel der Variablen / Attribute). Zum
+                     Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei
+                     handelt. Dies stellt ein gÃ¤ngiges Format zur Darstellung von tabellarischen
+                     Informationen dar. Als Trennzeichen wird der Tabstopp festgelegt. Jede Zeile
+                     stellt einen Record dar. Bei der Definition des Spalteninhalts ist darauf zu
+                     achten, dass sie bestmÃ¶glich einem intuitiven VerstÃ¤ndnis entspricht (vgl. <ref type="intern" target="#tab01">Tabelle 1</ref>). Auch wenn der
+                     Inhalt zwar definiert wird, ist nicht davon auszugehen, dass in jedem Fall vor
+                     einer Eintragung von Daten zunÃ¤chst die Beschreibung studiert wird.</p>
+                  <table>
+                     <row role="label">
+                        <cell>Bezeichnung</cell>
+                        <cell>Inhalt</cell>
+                     </row>
+                     <row>
+                        <cell>id</cell>
+                        <cell>Diese Spalte enthÃ¤lt eine Abfolge von Zeichen, die innerhalb des
+                           Datensatzes einmalig je Eintrag ist. Falls die Spalte in einem Datensatz
+                           nicht vorhanden ist, so wird diese nachtrÃ¤glich erzeugt und allen
+                           EintrÃ¤gen wird eine eindeutige ID zugeordnet. Es ist darauf zu achten,
+                           dass Tabellen aus unterschiedlichen Quellen auch unterschiedliche IDs
+                           aufweisen.</cell>
+                     </row>
+                     <row>
+                        <cell>firstnameGiven</cell>
+                        <cell>Diese Spalte enthÃ¤lt die Vornamen. Sind mehrere Vornamen vorhanden, so
+                           sind diese mit einem Leerzeichen voneinander zu trennen. </cell>
+                     </row>
+                     <row>
+                        <cell>firstnameChange</cell>
+                        <cell>Diese Spalte enthÃ¤lt Informationen Ã¼ber die Ã„nderung des Vornamens. Es
+                           handelt sich also um einen alternativen Vornamen.</cell>
+                     </row>
+                     <row>
+                        <cell>sex</cell>
+                        <cell>Diese Spalte enthÃ¤lt eine Information Ã¼ber das Geschlecht (â€ºFâ€¹ fÃ¼r
+                           weiblich, â€ºMâ€¹ fÃ¼r mÃ¤nnlich und eine leere Zelle fÃ¼r unbestimmte
+                           Geschlechter).</cell>
+                     </row>
+                     <row>
+                        <cell>surnameGiven</cell>
+                        <cell>Diese Spalte enthÃ¤lt die Information Ã¼ber den Nachnamen bei der
+                           Geburt.</cell>
+                     </row>
+                     <row>
+                        <cell>surnameChange</cell>
+                        <cell>Diese Spalte enthÃ¤lt die Information Ã¼ber eine Ã„nderung des Nachnamens
+                           nach der Geburt, aber vor der Heirat. Das kann beispielsweise dadurch
+                           erfolgen, dass eine Person adoptiert wird oder aber die Eltern nach der
+                           Geburt heiraten.</cell>
+                     </row>
+                     <row>
+                        <cell>surnameMarriage1, surnameMarriage2, surnameMarriage3</cell>
+                        <cell>Diese Spalte enthÃ¤lt die Ã„nderung des Nachnamens im Zuge einer ersten,
+                           zweiten oder dritten Hochzeit. Wenn im Zuge der Heirat keine
+                           NamensÃ¤nderung stattgefunden hat, bleibt sie leer.</cell>
+                     </row>
+                     <row>
+                        <cell>surnameUnknown</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Nachnamen, wenn nicht klar ist, zu welchem
+                           Ereignis diesen jemand erlangt hat.</cell>
+                     </row>
+                     <row>
+                        <cell>birthday</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Tag der Geburt. Hier ist nur der Tag in dem
+                           Format DD.MM.YYYY einzutragen, ohne eine weitere Spezifikation der
+                           Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
+                           anzuwenden (z. B. â€ºBET â€¦ AND â€¦â€¹ fÃ¼r ein Ereignis in einer
+                           Zeitspanne).</cell>
+                     </row>
+                     <row>
+                        <cell>birthplace</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Ort der Geburt. Hier ist nur die Stadt
+                           anzugeben, keine weiteren Adressen.</cell>
+                     </row>
+                     <row>
+                        <cell>birthplaceGOV</cell>
+                        <cell>Diese Spalte enthÃ¤lt die GOV-Kennung (Geschichtliches
+                           Orts-Verzeichnis, siehe unten) des Geburtsortes.</cell>
+                     </row>
+                     <row>
+                        <cell>growthUpPlace</cell>
+                        <cell>Diese Spalte enthÃ¤lt Informationen Ã¼ber die Herkunft einer Person,
+                           wenn der Geburtsort nicht nÃ¤her zu bestimmen ist. Beispielhaft dafÃ¼r sind
+                           Angaben wie Â»aus [â€¦]Â«. Auch kann der Geburtsort von dem Wohnort der
+                           Eltern abweichen. Letzterer ist hier einzutragen.</cell>
+                     </row>
+                     <row>
+                        <cell>growthUpPlaceGOV</cell>
+                        <cell>Diese Spalte enthÃ¤lt die GOV-Kennung des Herkunftsortes.</cell>
+                     </row>
+                     <row>
+                        <cell>baptismday</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Tag der Taufe. Hier ist nur der Tag in dem
+                           Format DD.MM.YYYY einzutragen, ohne eine weitere Spezifikation der
+                           Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
+                           anzuwenden (z. B. â€ºBET â€¦ AND â€¦â€¹ fÃ¼r ein Ereignis in einer
+                           Zeitspanne).</cell>
+                     </row>
+                     <row>
+                        <cell>baptismplace</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Ort der Geburt. Hier ist ein Ort einzutragen
+                           und nicht die entsprechende Kirche. Hier ist nur die Stadt anzugeben,
+                           keine weiteren Adressen.</cell>
+                     </row>
+                     <row>
+                        <cell>baptismplaceGOV</cell>
+                        <cell>Diese Spalte enthÃ¤lt die GOV-Kennung des Taufortes.</cell>
+                     </row>
+                     <row>
+                        <cell>marriageday1, marriageday2, marriageday3</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Tag der ersten, zweiten oder dritten
+                           Hochzeit. Hier ist nur der Tag in dem Format DD.MM.YYYY einzutragen, ohne
+                           eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur
+                           Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. B. â€ºBET â€¦ AND â€¦â€¹ fÃ¼r
+                           ein Ereignis in einer Zeitspanne).</cell>
+                     </row>
+                     <row>
+                        <cell>marriageplace1, marriageplace2, marriageplace3</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Ort der ersten, zweiten oder dritten Heirat.
+                           Hier ist nur die Stadt anzugeben, keine weiteren Adressen.</cell>
+                     </row>
+                     <row>
+                        <cell>marriageplaceGOV1, marriageplaceGOV2, marriageplaceGOV3</cell>
+                        <cell>Diese Spalte enthÃ¤lt die GOV-Kennung des ersten, zweiten oder dritten
+                           Heiratsorts. </cell>
+                     </row>
+                     <row>
+                        <cell>ageAtMarriage1, ageAtMarriage2, ageAtMarriage3</cell>
+                        <cell>Diese Spalte enthÃ¤lt Angaben zum Alter bei der ersten, zweiten oder
+                           dritten Hochzeit in Jahren.</cell>
+                     </row>
+                     <row>
+                        <cell>idSpouse1, idSpouse2, idSpouse3</cell>
+                        <cell>Diese Spalte enthÃ¤lt die ID des*der ersten, zweiten oder dritten
+                           Ehepartner*in in dem gleichen Datensatz.</cell>
+                     </row>
+                     <row>
+                        <cell>divorceday1, divorceday2, divorceday3</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Tag der ersten, zweiten oder dritten
+                           Scheidung. Hier ist nur der Tag in dem Format DD.MM.YYYY einzutragen,
+                           ohne eine weitere Spezifikation der Uhrzeit. Die Gedbas4All-Systematik
+                           zur Beschreibung ungenauer Zeitpunkte ist anzuwenden.</cell>
+                     </row>
+                     <row>
+                        <cell>deathday</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Tag des Todes. Hier ist nur der Tag in dem
+                           Format DD.MM.YYYY einzutragen, ohne eine weitere Spezifikation der
+                           Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
+                           anzuwenden (z. B. â€ºBET â€¦ AND â€¦â€¹ fÃ¼r ein Ereignis in einer
+                           Zeitspanne).</cell>
+                     </row>
+                     <row>
+                        <cell>deathplace</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Ort des Todes. Hier ist nur die Stadt
+                           anzugeben, keine weiteren Adressen.</cell>
+                     </row>
+                     <row>
+                        <cell>deathplaceGOV</cell>
+                        <cell>Diese Spalte enthÃ¤lt die GOV-Kennung des Todesorts.</cell>
+                     </row>
+                     <row>
+                        <cell>causeOfDeath</cell>
+                        <cell>Diese Spalte enthÃ¤lt die Todesursache. Verschiedene Todesursachen sind
+                           mit Komma und nachfolgendem Leerzeichen oder einem â€ºundâ€¹ mit vor- und
+                           nachstehendem Leerzeichen abzugrenzen.</cell>
+                     </row>
+                     <row>
+                        <cell>maritalStatusAtDeath</cell>
+                        <cell>Diese Spalte enthÃ¤lt eine Information Ã¼ber den Familienstand beim Tod.
+                           Eine Benennung als Witwer beispielsweise kann darauf hindeuten, dass die
+                           Frau frÃ¼her verstorben sein muss.</cell>
+                     </row>
+                     <row>
+                        <cell>ageAtDeath</cell>
+                        <cell>Diese Spalte enthÃ¤lt eine Information Ã¼ber das Lebensalter beim
+                           Tod.</cell>
+                     </row>
+                     <row>
+                        <cell>burialday</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Tag der Beerdigung. Hier ist nur der Tag in
+                           dem Format DD.MM.YYYY einzutragen, ohne eine weitere Spezifikation der
+                           Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
+                           anzuwenden (z. B. â€ºBET â€¦ AND â€¦â€¹ fÃ¼r ein Ereignis in einer
+                           Zeitspanne).</cell>
+                     </row>
+                     <row>
+                        <cell>burialplace</cell>
+                        <cell>Diese Spalte enthÃ¤lt den Ort der Beerdigung. Hier ist nur die Stadt
+                           anzugeben, keine weiteren Adressen.</cell>
+                     </row>
+                     <row>
+                        <cell>burialplaceGOV</cell>
+                        <cell>Diese Spalte enthÃ¤lt die GOV-Kennung des Beerdigungsortes.</cell>
+                     </row>
+                     <row>
+                        <cell>occupation</cell>
+                        <cell>Diese Spalte enthÃ¤lt Informationen zum Beruf. Verschiedene
+                           Berufsangaben sind mit Komma und nachfolgendem Leerzeichen oder einem
+                           â€ºundâ€¹ mit vor- und nachstehendem Leerzeichen abzugrenzen.</cell>
+                     </row>
+                     <row>
+                        <cell>idFather</cell>
+                        <cell>Diese Spalte enthÃ¤lt die ID des Vaters innerhalb dieses
+                           Datensatzes.</cell>
+                     </row>
+                     <row>
+                        <cell>idMother</cell>
+                        <cell>Diese Spalte enthÃ¤lt die ID der Mutter innerhalb dieses
+                           Datensatzes.</cell>
+                     </row>
+                     <trailer xml:id="tab01">
+                        <ref type="intern" target="#tab1">Tab. 1</ref>: Definition von Datenfeldern.
+                        [Goldberg / Mernitz 2023]<ref type="graphic" target="#record_2022_t1"/>
+                     </trailer>
+                  </table>
+                  
+                  <p>Die Normform enthÃ¤lt dabei nicht alle mÃ¶glichen Bestandteile prosopographischer
+                     Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben
+                     von Personen beziehen und in prosopographischen Quellen vorkommen (u. a.
+                     Taufpaten, Trauzeugen, TÃ¤ufer, weitere Bezugspersonen, Adressen zu bestimmten
+                     Zeitpunkten, Quellenangaben, Angaben zu weiteren religiÃ¶sen Feierlichkeiten wie
+                     der Firmung oder Konfirmation). Da es hier aber unwahrscheinlich ist, dass
+                     diese Informationen in zwei DatensÃ¤tzen vorkommen, die auf verschiedenen
+                     Quellen basieren und diese teilweise zudem automatisiert schwer zu vergleichen
+                     wÃ¤ren, finden diese keinen Einzug. Es kann im Einzelfall jedoch essenziell
+                     sein, diese Informationen zu ergÃ¤nzen und den Algorithmus dahingehend zu
+                     erweitern.</p>
+               </div>
+               <div type="subchapter">
+                  <head>3.3 Datenbereinigung und -strukturierung</head>
+                  <p>Trotz der Normform kÃ¶nnen die Daten nicht immer direkt miteinander in einen
+                     Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts
+                     notwendig. Darunter gehÃ¶rt z. B. die VerÃ¤nderung des Datumsformats. Ferner
+                     betrifft die Bereinigung insbesondere die Vornamen (siehe <ref type="intern" target="#hd9">Abschnitt 3.3.1</ref>, â€ºAufbereitung der
+                     Namenâ€¹). Sind mehrere Vornamen vorhanden, so werden diese in einer Liste
+                     voneinander separiert. Ebenso werden die Berufsangaben aufbereitet (siehe <ref type="intern" target="#hd10">Abschnitt 3.3.2</ref>, â€ºAufbereitung der Berufsangabenâ€¹). Auch hier werden mehrere Berufe voneinander
+                     getrennt. In einem folgenden Schritt werden die Datumsfelder zur Geburt, Taufe,
+                     Heirat, dem Tod oder der Beerdigung korrigiert (siehe <ref type="intern" target="#hd11">Abschnitt 3.3.3</ref>, â€ºAufbereitung der
+                     Zeitangabenâ€¹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht
+                     implementiert, kann aber ergÃ¤nzt werden.<note type="footnote"> Ortsangaben
+                        unterliegen einer breit gefÃ¤cherten Variation. Insbesondere, ob und wie
+                        Ã¼bergeordnete administrative Einheiten in die Angabe mit eingebunden werden,
+                        ist in der Praxis uneinheitlich. Hierbei ist die Verwendung von eindeutigen
+                        Identifikatoren fÃ¼r Orte sehr hilfreich. Als Identifikatoren fÃ¼r Orte sind
+                        die IDs des Geschichtlichen Orts-Verzeichnis (GOV) zu empfehlen. Vgl. 
+                        <ref type="bibliography" target="#vfc_kartei_2019">Verein
+                           fÃ¼r Computergenealogie 2021</ref>. Die Datenbank des Vereins fÃ¼r
+                        Computergenealogie bildet hier insbesondere fÃ¼r den deutschen Sprachraum
+                        eine geeignete ReprÃ¤sentation tatsÃ¤chlich (vormals) vorhandener Orte.
+                        Aufgrund einer langen Zeit geringer MobilitÃ¤t insbesondere der lÃ¤ndlichen
+                        BevÃ¶lkerung ist es wahrscheinlicher, dass Lebensereignisse in einer
+                        begrenzten geografischen Distanz stattgefunden haben. Vgl. <ref type="bibliography" target="#baehr_bevoelkerungsgeographie_1992">BÃ¤hr et al.
+                           1992</ref>; <ref type="bibliography" target="#kocka_familie_1980">Kocka et al. 1980</ref>. FÃ¼r den Erfolg eines Record Linkage kann es also
+                        auch relevant sein, ob Orte geografisch nah beieinander zu finden sind.
+                        Vgl. <ref type="bibliography" target="#efremova_entity_2015">Efremova et al. 2015</ref>, S. 135, 139â€“141. Die Aufbereitung der Ortsangaben
+                        kann an den von Goldberg definierten, auf den deutschen Sprachraum
+                        abgestimmten Kriterien orientiert sein. Vgl. <ref type="bibliography" target="#goldberg_entscheidungsfindung_2022">Goldberg 2022</ref>. Ãœber das von
+                        Goldberg beschriebene Programm kann auch eine automatische Zuweisung der
+                        GOV-IDs stattfinden.</note>
+                  </p>
+                  <div type="subchapter">
+                     <head>3.3.1 Aufbereitung der Namen</head>
+                     <p>Namensbezeichnungen kÃ¶nnen verschiedene Eigenschaften besitzen, die ein
+                        Record Linkage erschweren. Ein Beispiel dafÃ¼r sind AbkÃ¼rzungen
+                        (unvollstÃ¤ndige Bezeichnungen, die mit einem Punkt abschlieÃŸen). AbkÃ¼rzungen
+                        kÃ¶nnen dabei sehr individuell ausgestaltet sein, aber auch eine groÃŸe
+                        IntersubjektivitÃ¤t besitzen. Der Algorithmus enthÃ¤lt eine Reihe Ã¼blicher
+                        AbkÃ¼rzungen fÃ¼r Namen. Hier zeigt sich ein weiterer Aspekt der Anpassung der
+                        LÃ¶sung an die deutsche Sprache. Je nach zu bearbeitenden Quellen kann es der
+                        QualitÃ¤t des Ergebnisses dienlich sein, diese Liste zu erweitern oder
+                        anzupassen. Zur weiteren Aufbereitung werden auch Klammern entfernt, die in
+                        Vornamensnennungen vorkommen kÃ¶nnen, beispielsweise um Aliasnamen wie etwa
+                        Â»Hans Joseph (Franz)Â« darzustellen. Mehrere
+                        Vornamen werden durch Leerzeichen separiert als Liste gespeichert.</p>
+                     <p>Um den Nutzen der Vornamen fÃ¼r das Record Linkage zu erhÃ¶hen, wird aus den
+                        Angaben zum Vornamen das Geschlecht erkannt â€“ sofern diese Information nicht
+                        gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden,
+                        als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.<note
+                           type="footnote"> In der deutschen Sprache enden Frauennamen traditionell
+                           auf A oder E. Zwar tragen auch vereinzelte MÃ¤nner Frauennamen, hÃ¤ufig
+                           Maria, diesen jedoch kaum als ersten Vornamen. Auf die moderne
+                           Namensgebung passt dieses Muster nicht mehr. Da sich dieser Algorithmus
+                           aber auf historische Daten bezieht, stellt das an dieser Stelle kein
+                           entscheidendes Problem dar.</note> Etliche Ausnahmen sind gesondert
+                        definiert (z.Â B. Ingeborg, Elisabeth).</p>
+                  </div>
+                  <div type="subchapter">
+                     <head>3.3.2 Aufbereitung der Berufsangaben</head>
+                     <p>Ã„hnlich wie bei den Namen kÃ¶nnen auch Berufsangaben eine AbkÃ¼rzung erfahren.
+                        Auch diese werden mit Hilfe einer initial definierten Liste aufgelÃ¶st und
+                        ausgeschrieben. Die uneindeutige Verwendung von AbkÃ¼rzungen stellt hier im
+                        Vergleich zu den Vornamen jedoch ein grÃ¶ÃŸeres Problem dar. Das betrifft
+                        besonders sehr allgemeine KÃ¼rzel, beispielsweise die AbkÃ¼rzung Â»K.Â«, die sowohl auf einen Knaben als auch einen
+                        Kaufmann hindeuten oder mÃ¶glicherweise auch eine andere Bedeutung haben
+                        kann. Auch kann die Berufsangabe nicht nur Angaben zur beruflichen
+                        TÃ¤tigkeit, sondern weitergehende Informationen Ã¼ber den Rechtsstatus,
+                        Wohnsitz oder einen Zeitbezug enthalten.<note type="footnote"> Zur
+                           Separierung solcher berufsfernen Angaben kann auf <ref type="bibliography" target="#goldberg_identifikation_2022">Goldberg / Moeller 2022</ref> hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen.</note> Mehrere Berufsangaben werden
+                        anhand des Kommas oder eines â€ºundâ€¹ aufgesplittet als Liste gespeichert.</p>
+                  </div>
+                  <div type="subchapter">
+                     <head>3.3.3 Aufbereitung der Zeitangaben</head>
+                     <p>Zeitangaben kÃ¶nnen verschiedene Formate aufweisen. Das liegt vor allem in
+                        dem Umstand begrÃ¼ndet, dass Zeitangaben nicht immer ein konkretes,
+                        taggenaues Datum bezeichnen, sondern zum Beispiel auch einen Zeitraum
+                        benennen kÃ¶nnen. Im Algorithmus wird davon ausgegangen, dass die
+                        Datumsangaben bereits in die Normform umgewandelt und im Format DD.MM.YYYY
+                        vorliegen. Eine Ausnahme betrifft ZeitrÃ¤ume, die im GEDCOM-Format â€ºBET â€¦ AND
+                        â€¦â€¹ formatiert werden. Hier wird die vordere Grenze des Zeitraumes fÃ¼r die
+                        weitere Berechnung herangezogen.</p>
+                  </div>
+               </div>
+               <div type="subchapter">
+                  <head>3.4 Formalisierung von Heuristiken zum Vergleich von Records</head>
+                  <p>Genealogische Heuristiken helfen dabei, die Records zu identifizieren, die
+                     dieselbe EntitÃ¤t beschreiben. Ihre Formalisierung fÃ¼hrt zu Logikoperationen,
+                     die programmtechnisch realisiert werden kÃ¶nnen. Dabei basieren diese Vergleiche
+                     auf den vorhandenen Variablen. Jedoch kÃ¶nnen schon bei einem Datensatz mit 30
+                     verschiedenen zu vergleichenden Variablen (Variable vorhanden / nicht
+                     vorhanden) insgesamt etwa eine Milliarde mÃ¶gliche Kombinationen auftreten.<note
+                        type="footnote"> 2<hi rend="super">30</hi> = 1.073.741.824.</note> Der
+                     Vergleich von zwei DatensÃ¤tzen erhÃ¶ht diese Zahl der mÃ¶glichen Kombinationen
+                     auf mehr als eine Trillion.<note type="footnote"> 1.073.741.824<hi rend="super"
+                        >2</hi> = 1.152.921.504.606.850.000.</note> FÃ¼r diese Anzahl an
+                     Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht
+                     vorstellbar. Vielmehr muss diese sinnvoll reduziert werden. Dieses wird
+                     erreicht, indem Kombinationen von Variablen ausgeschlossen werden. Beispielhaft
+                     lÃ¤sst ein Vergleich zwischen Sterbeort und Berufsangabe allein voraussichtlich
+                     keinen Schluss auf den Zusammenhang von Records zu.</p>
+                  <p>Hierzu kÃ¶nnen zunÃ¤chst verschiedene Variablen zusammengefasst werden, die
+                     Ã¤hnliche Merkmale aufweisen (z. B. Datumsangaben, Ortsangaben, Namen).
+                     Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition
+                     geschieht im <ref type="intern" target="#hd13">ersten Unterabschnitt</ref> (â€ºDefinition zu vergleichender Variablenâ€¹).
+                     Im <ref type="intern" target="#hd14">zweiten Unterabschnitt</ref> (â€ºDisjunktionenâ€¹) werden Disjunktionsregeln
+                     beschrieben: Wenn z.Â B. eine Taufe nach dem Tod stattfindet, dann ist eine
+                     SimilaritÃ¤t auszuschlieÃŸen.<note type="footnote"> Sonderformen bei einzelnen
+                        Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben
+                        unberÃ¼cksichtigt.</note> Es bleibt eine deutlich minimierte Anzahl an
+                     Variablenkombinationen Ã¼brig, bei denen ein genauerer Vergleich sinnhaft
+                     erscheint. Im <ref type="intern" target="#hd15">dritten Unterabschnitt</ref>
+                     (â€ºSimilaritÃ¤tsprÃ¼fungâ€¹) wird dann der SimilaritÃ¤tsvergleich zwischen zwei
+                     Records beschrieben, die nicht disjunkt sind.</p>
+                  <div type="subchapter">
+                     <head>3.4.1 Definition zu vergleichender Variablen</head>
+                     
+                     <p>Eine Gruppe von Vergleichen kann vorgenommen werden, wenn in beiden Records
+                        gleichartige Variablen vorliegen. Dazu ist ein Wissen Ã¼ber die Beziehungen
+                        der Variablen untereinander relevant. Hiervon sind insbesondere Zeit- und
+                        Nachnamensangaben betroffen. Bei Zeitangaben sind die zeitlichen Relationen
+                        zwischen Geburts-, Tauf-, Heirats-, Sterbe- und Beerdigungsdatum relevant.
+                        Hierbei ist auch ein Vergleich zu den Lebenszeitangaben der potenziellen
+                        Eltern von Interesse. Nachnamen sind von der Schwierigkeit betroffen, dass
+                        sie im Lebensverlauf starken VerÃ¤nderungen unterliegen kÃ¶nnen. Besonders
+                        Frauen wechselten hÃ¤ufig bei Hochzeiten ihre Namen, sodass es keine
+                        Seltenheit darstellt, wenn Personen im Lebensverlauf mit drei oder vier
+                        verschiedenen Nachnamen erscheinen. Deshalb ist ein Vergleich sowohl mit dem
+                        Geburtsnamen als auch mit den Ehenamen relevant. Auch Ortsangaben kÃ¶nnen
+                        relevant sein, weil es wahrscheinlicher ist, dass verschiedene
+                        Lebensereignisse in einem begrenzten geografischen Radius stattfinden. Da
+                        es sich hierbei jedoch um eine vergleichsweise ungenaue Bestimmung handelt,
+                        ist diese im bisherigen Algorithmus nicht eingebunden. Sie ist dennoch
+                        aufgefÃ¼hrt, um eine Hilfestellung fÃ¼r eine Erweiterung zu bieten. Im
+                        Folgenden werden die Vergleichsgruppen dargestellt und grundsÃ¤tzliche
+                        Vergleiche eingegrenzt:</p>
+                     <list type="unordered">
+                        <item>Vornamensvergleiche: firstnameGiven, firstnameChange<list
+                           type="unordered">
+                           <item>Die (teilweise) Ãœbereinstimmung von Vornamen kann Aufschluss
+                              Ã¼ber die ZusammenfÃ¼hrung der Personen liefern.<note type="footnote"
+                                 > Der Vergleich darf sich aber nicht nur auf einzelne Vornamen
+                                 oder die Reihenfolge der Vornamen beziehen. Beispielsweise
+                                 kÃ¶nnen <quote>Johann</quote> und <quote>Johann Christoph</quote>
+                                 dieselbe Person sein, <quote>Johann Christoph</quote> und
+                                 <quote>Christoph Johann</quote> kÃ¶nnen dieselbe Person sein,
+                                 <quote>Johann Christoph</quote> und <quote>Christoph
+                                    Heinrich</quote> sind aber eher unwahrscheinlich dieselbe
+                                 Person.</note>
+                           </item>
+                        </list>
+                        </item>
+                        <item>Geschlechtsvergleiche: sex<list type="unordered">
+                           <item>Gleiche Personen weisen das gleiche Geschlecht auf.</item>
+                        </list>
+                        </item>
+                        <item>Nachnamensvergleiche: surnameUnknown, surnameGiven, surnameChange,
+                           surnameMarriage1, surnameMarriage2, surnameMarriage3<list
+                              type="unordered">
+                              <item>Die (teilweise) Ãœbereinstimmung von Nachnamen kann Aufschluss
+                                 Ã¼ber die ZusammenfÃ¼hrung von Personen liefern, wobei die
+                                 Ãœbereinstimmung von Nachnamen in unterschiedlichen Kategorien nur
+                                 bei surnameUnknown ein Indiz fÃ¼r eine Ãœbereinstimmung ist.<note
+                                    type="footnote"> Beispielsweise ist eine Person, die als
+                                    surnameGiven <quote>Schwarzenberg</quote> aufweist, nur in
+                                    seltenen FÃ¤llen mit einer Person Ã¼bereinstimmend, die diesen
+                                    Namen durch die erste Heirat (surnameMarriage1) erhalten
+                                    hat.</note>
+                              </item>
+                           </list>
+                        </item>
+                        <item>Datumsvergleiche: birthday, baptismday, marriageday1, ageAtMarriage1,
+                           divorceday1, marriageday2, ageAtMarriage2, divorceday2, marriageday3,
+                           ageAtMarriage3, divorceday3, deathday, ageOfDeath, burialday<list
+                              type="unordered">
+                              <item>birthday und baptismday: Taufdatum und Geburtsdatum liegen oft
+                                 nah beieinander.<note type="footnote"> Die hier definierten Regeln
+                                    passen nur auf solche Religionsgemeinschaften, die die
+                                    Kleinkindtaufe praktizieren.</note> Eine Person kann nicht vor
+                                 ihrer Geburt getauft werden.</item>
+                              <item>ageAtMarriage1, ageAtMarriage2, ageAtMarriage3 und birthday,
+                                 marriageday1, marriageday2, marriageday3: Das Alter bei der Heirat
+                                 und das errechnete Alter sollten nahe beieinanderliegen.</item>
+                              <item>marriageday1, marriageday2, marriageday3 und birthday: Eine
+                                 Person muss bei einer Heirat ein Mindestalter erreicht
+                                 haben.</item>
+                              <item>divorceday1, divorceday2, divorceday3 und birthday: Eine Person
+                                 muss bei einer Scheidung ein Mindestalter erreicht haben.</item>
+                              <item>ageAtDeath und birthday, deathday: Das beim Tod errechnete Alter
+                                 und das Geburtsdatum dÃ¼rften nur endlich weit auseinanderliegen.
+                                 Eine Person kann nicht vor ihrer Geburt sterben. Totgeburten und
+                                 schnelle TodesfÃ¤lle nach der Geburt kÃ¶nnen am Geburtstag
+                                 auftreten.</item>
+                              <item>birthday, deathday und ageOfDeath: Die Differenz zwischen einem
+                                 errechneten Alter und dem angegebenen Alter bei Tod muss gering
+                                 sein.</item>
+                              <item>birthday, burialday und ageOfDeath: Die Differenz zwischen einem
+                                 errechneten Alter und BerÃ¼cksichtigung der Angabe des
+                                 Beerdigungsdatums und dem angegebenen Alter bei Tod muss gering
+                                 sein.</item>
+                              <item>ageAtMarriage1, ageAtMarriage2, ageAtMarriage3 und baptismday,
+                                 marriageday1, marriageday2, marriageday3: Das Alter bei der Heirat
+                                 und das errechnete Alter sollten nahe beieinanderliegen.</item>
+                              <item>marriageday1, marriageday2, marriageday3 und baptismday: Eine
+                                 Person muss bei einer Heirat ein Mindestalter erreicht
+                                 haben.</item>
+                              <item>divorceday1, divorceday2, divorceday3 und baptismday: Eine
+                                 Person muss bei einer Scheidung ein Mindestalter erreicht
+                                 haben.</item>
+                              <item>ageAtDeath und baptismday, deathday: Das beim Tod errechnete
+                                 Alter und das Taufdatum dÃ¼rften nur endlich weit auseinanderliegen.
+                                 Eine Person kann nicht vor ihrer Taufe sterben. Allerdings sind
+                                 Nottaufen mÃ¶glich, die am Todestag erfolgen.</item>
+                              <item>baptismday, deathday und ageOfDeath: Die Differenz zwischen
+                                 einem errechneten Alter und dem angegebenen Alter bei Tod muss
+                                 gering sein.</item>
+                              <item>baptismday, burialday und ageOfDeath: Die Differenz zwischen
+                                 einem errechneten Alter und BerÃ¼cksichtigung der Angabe des
+                                 Beerdigungsdatums und dem angegebenen Alter bei Tod muss gering
+                                 sein.</item>
+                              <item>marriageday1, marriageday2, marriageday3 und deathday: Die
+                                 Hochzeit erfolgt vor dem Tod.</item>
+                              <item>divorceday1, divorceday2, divorceday3 und deathday: Die
+                                 Scheidung erfolgt vor dem Tod.</item>
+                              <item>marriageday1, marriageday2, marriageday3 und burialday: Die
+                                 Hochzeit erfolgt vor der Beerdigung.</item>
+                              <item>divorceday1, divorceday2, divorceday3 und burialday: Die
+                                 Scheidung erfolgt vor der Beerdigung.</item>
+                              <item>divorceday1, divorceday2, divorceday3, deathday: Die Scheidung
+                                 erfolgt vor dem Tod.</item>
+                              <item>deathday und burialday: Eine Person kann nicht vor ihrem Tod
+                                 beerdigt werden. Beerdigungsdatum und Todesdatum liegen nah
+                                 beieinander.</item>
+                           </list>
+                        </item>
+                        <item>Ortsstringvergleiche: birthplace, growthUpPlace, baptismplace,
+                           marriageplace1, marriageplace2, marriageplace3, deathplace,
+                           burialplace<list type="unordered">
+                              <item>Gleiche oder Ã¤hnliche Ortsangaben weisen auf gleiche Personen
+                                 hin. Das kann durch eine exakte Ãœbereinstimmung der Strings oder
+                                 eine starke Ã„hnlichkeit erkannt werden.</item>
+                              <item>Die Wahrscheinlichkeit fÃ¼r ein Match ist hÃ¶her, wenn
+                                 beispielsweise Geburtsort und Heiratsort der gleiche sind.</item>
+                           </list>
+                        </item>
+                        <item>Ortsentfernungsvergleiche: birthplaceGOV, growthUpPlaceGOV,
+                           baptismplaceGOV, marriageplaceGOV1, marriageplaceGOV2, marriageplaceGOV3,
+                           deathplaceGOV, burialplaceGOV<list type="unordered">
+                              <item>growthUpPlaceGOV, birthplaceGOV: Wenn Herkunft und Geburtsort
+                                 nah beieinanderliegen, erhÃ¶ht dieses die Wahrscheinlichkeit, dass
+                                 es sich um die gleiche Person handeln kann. Das wird Ã¼ber die
+                                 Koordinaten in den GOV-Elementen ermittelt.</item>
+                              <item>growthUpPlaceGOV, baptismplaceGOV: Wenn Herkunft und Taufort nah
+                                 beieinander liegen erhÃ¶ht dieses die Wahrscheinlichkeit, dass es
+                                 sich um die gleiche Person handeln kann. Das wird Ã¼ber die
+                                 Koordinaten in den GOV-Elementen ermittelt.</item>
+                           </list>
+                        </item>
+                        <item>Variablen, die nur mit sich selbst verglichen werden kÃ¶nnen:<list
+                           type="unordered">
+                           <item>causeOfDeath: Wenn in zwei Quellen die Todesursache angegeben
+                              ist und diese gleich oder Ã¤hnlich ist, erhÃ¶ht dieses die
+                              Wahrscheinlichkeit, dass es sich um dieselbe Person handelt.</item>
+                           <item>occupation: Wenn in zwei Quellen eine Berufsangabe gegeben ist
+                              und diese gleich oder Ã¤hnlich ist, erhÃ¶ht dieses die
+                              Wahrscheinlichkeit, dass es sich um dieselbe Person handelt.
+                              Berufsangaben kÃ¶nnen sich dabei im Verlauf eines Lebens jedoch
+                              Ã¤ndern. Auch kann derselbe Beruf unter Bezeichnungen angegeben
+                              werden, die sich nicht Ã¤hnlich sind und dadurch nur schwer Ã¼ber
+                              String-Matching-Methoden erkannt werden kÃ¶nnen (z. B.
+                              <quote>Feuerwehrmann</quote> und
+                              <quote>Hauptbrandmeister</quote>).</item>
+                        </list>
+                        </item>
+                        <item>source: Wenn zwei Personen in derselben Quelle genannt werden, wird
+                           hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei
+                           sind detaillierte Quellen gemeint (z. B. ein konkreter Heiratseintrag mit
+                           laufender Nummer in einem Heiratsregister).</item>
+                     </list>
+                  </div>
+                  <div type="subchapter">
+                     <head>3.4.2 Disjunktionen</head>
+                     <p>Sind im vorigen Abschnitt mÃ¶gliche Vergleiche zwischen Variablen beschrieben
+                        worden, findet nun eine Definition konkreter Kriterien statt, die ein
+                        Record Linkage verhindern. Dazu wird zunÃ¤chst erkannt, ob zwei Records
+                        disjunkt sind, also nicht dieselbe EntitÃ¤t beschreiben. In dem Fall erhalten
+                        sie einen SimilaritÃ¤tswert von 0. Disjunkte EintrÃ¤ge werden vom Algorithmus
+                        nicht weiter behandelt. Die Disjunktionsregeln werden hier oberflÃ¤chlich
+                        textuell beschrieben und dann stÃ¤rker formalisiert und Ã¼bersichtlicher
+                        dargestellt. In der programmtechnischen Umsetzung wird darauf geachtet, jene
+                        Regeln, die besonders viele Kombinationen ausschlieÃŸen, an den Beginn zu
+                        setzen. Dies Ã¤ndert zwar das Ergebnis nicht, fÃ¼hrt jedoch zu einer
+                        erheblichen Verbesserung der Laufzeit.</p>
+                     <p>Die meisten hier vorgestellten Regeln sind in Hinblick auf die kulturelle
+                        Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person
+                        beispielsweise vor ihrer Geburt nicht sterben. Bisher wurden solche
+                        Regeln fÃ¼r den deutschsprachigen Raum wissenschaftlich noch nicht
+                        beschrieben. Vielmehr finden sich zahlreiche Publikationen zur Genealogie,
+                        die insbesondere Privatpersonen einen Zugang ermÃ¶glichen, aber
+                        wissenschaftlichen Standards nicht entsprechen und auf die deshalb hier kein
+                        Bezug genommen wird. Die â€ºkulturelle Praxisâ€¹ fÃ¼r den deutschsprachigen Raum
+                        basiert dabei vielmehr auf der jahrelangen Erfahrung der Autoren im Umgang
+                        mit genealogischen Daten.</p>
+                     <p>ZunÃ¤chst sind Records disjunkt, wenn sie auf demselben Eintrag in einer
+                        Quelle basieren. Das kann beispielsweise in TaufeintrÃ¤gen der Fall sein, bei
+                        denen Vater und Sohn die gleichen Namen haben, niemals aber dieselbe Person
+                        darstellen. Auch wenn bei einem Eintrag kein Vorname oder kein Nachname
+                        vorhanden ist, wird fÃ¼r diesen Algorithmus definiert, dass kein Record
+                        Linkage erfolgen kann und die EintrÃ¤ge werden so behandelt, als wÃ¤ren sie
+                        disjunkt. Alle Kinder, die vor dem Alter von 13 Jahren verstorben sind, erhalten
+                        ebenfalls eine 0. Hier besteht die Annahme, dass diese vor diesem Alter noch
+                        nicht in anderen EintrÃ¤gen vorkommen kÃ¶nnen und ein weiterer Vergleich aus
+                        LaufzeitgrÃ¼nden deshalb nicht notwendig ist.<note type="footnote"> Wenn fÃ¼r
+                           die zu vergleichenden Quellen jedoch insbesondere dieser Aspekt relevant
+                           ist, kann die Altersgrenze auch variiert oder entfernt werden. Das kann
+                           zum Beispiel der Fall sein, wenn Geburtsangaben aus Zeitungen mit denen
+                           aus KirchenbÃ¼chern verglichen werden sollen.</note> Wenn beide Records
+                        ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie
+                        disjunkt. Personen kÃ¶nnen nicht vor ihrer Geburt getauft oder beerdigt
+                        werden, heiraten oder sterben. Sie kÃ¶nnen auch nicht vor ihrer Heirat
+                        sterben oder beerdigt werden. Auch kÃ¶nnen sich Personen nicht scheiden
+                        lassen, bevor sie geheiratet haben. In der programmtechnischen Umsetzung
+                        existieren Variablen fÃ¼r bis zu drei EheschlieÃŸungen. Dies kann jedoch
+                        beliebig erweitert werden. Eine Hochzeit kann nicht nach dem Tod oder der
+                        Beerdigung stattfinden. Ebenso kann eine Person maximal ein Alter von 120
+                        Jahren erreichen. Wenn kein Geburtsdatum vorhanden ist, wird jeweils das
+                        Taufdatum fÃ¼r den Vergleich herangezogen. Auch ersetzt das Beerdigungsdatum
+                        den Sterbetag, sofern dieser fehlt. Im Ãœbrigen muss eine Person erst
+                        sterben, bevor sie beerdigt werden kann.</p>
+                     <p>Wenn die Geburtsdaten beider Personen vorhanden und trotzdem unterschiedlich
+                        sind, so beschreiben sie nicht dieselbe Person. Ebenso verhÃ¤lt es sich mit
+                        den Sterbedaten. Bei den Taufzeitpunkten sind die EintrÃ¤ge nicht disjunkt,
+                        solange die Taufdaten eine Differenz von drei Jahren nicht Ã¼berschreiten.
+                        Die drei Jahre stellen dabei eine Annahme dar, die genÃ¼gend Platz fÃ¼r
+                        Abweichungen lÃ¤sst.</p>
+                     <p>Aus dem Vergleich mit den Eltern ergeben sich einige ZustÃ¤nde, die ein
+                        ausschlieÃŸendes Kriterium darstellen. So kann der Tod des eigenen Vaters
+                        maximal neun Monate vor der eigenen Geburt stattfinden, der Tod der Mutter
+                        nicht vor der Geburt. Da die Taufen in den historischen Daten oftmals wenige
+                        Tage nach der Geburt vollzogen worden sind, gilt die gleiche Regel auch fÃ¼r
+                        die Taufdaten (der Tod der Mutter kann jedoch vor der Taufe des Kindes
+                        eintreten, wenn sie bei der Geburt verstirbt). Es wird zudem ein
+                        Mindestalter fÃ¼r eine Elternschaft von 13 Jahren angenommen. Diese Grenze
+                        wird auch als Mindestalter fÃ¼r eine Hochzeit oder Scheidung gewÃ¤hlt. Zudem
+                        wird definiert, dass Frauen maximal mit 60 Jahren noch Mutter werden
+                        kÃ¶nnen.</p>
+                     <p>Folgende Regeln fÃ¼hren zur Ungleichheit der Records (similarity = 0):</p>
+                     <list type="unordered">
+                        <item>Wenn sex != sex</item>
+                        <item>Wenn source == source</item>
+                        <item>Wenn Differenz von birthday von id und deathday von idFather &gt; 9
+                           Monate</item>
+                        <item>Wenn Differenz von baptismday von id und deathday von idFather &gt; 9
+                           Monate</item>
+                        <item>Wenn Differenz von birthday von id und burialday von idFather &gt; 9
+                           Monate</item>
+                        <item>Wenn Differenz von baptismday von id und burialday von idFather &gt; 9
+                           Monate</item>
+                        <item>Wenn birthday von id &gt; deathday von idMother<note type="footnote">
+                           Auf diese Regel unter Einbeziehung des Taufdatums wird hier
+                           verzichtet, weil die Mutter bei der Geburt sterben und das Kind erst
+                           danach getauft werden kann.</note>
+                        </item>
+                        <item>Wenn birthday von id &gt; burialday von idMother</item>
+                        <item>Wenn Differenz von birthday von id und birthday von idFather &gt; 13
+                           Jahre</item>
+                        <item>Wenn Differenz von baptismday von id und birthday von idFather &gt; 13
+                           Jahre</item>
+                        <item>Wenn Differenz von birthday von id und baptismday von idFather &gt; 13
+                           Jahre</item>
+                        <item>Wenn Differenz von baptismday von id und baptismday von idFather &gt;
+                           13 Jahre</item>
+                        <item>Wenn Differenz von birthday von id und birthday von idMother &gt; 13
+                           Jahre</item>
+                        <item>Wenn Differenz von baptismday von id und birthday von idMother &gt; 13
+                           Jahre</item>
+                        <item>Wenn Differenz von birthday von id und baptismday von idMother &gt; 13
+                           Jahre</item>
+                        <item>Wenn Differenz von baptismday von id und baptismday von idMother &gt;
+                           13 Jahre</item>
+                        <item>Wenn Vornamen vorhanden und kein Vorname mit einem anderen
+                           Ã¼bereinstimmt</item>
+                        <item>Wenn Differenz baptismday und birthday &gt; 3 Jahre</item>
+                        <item>Wenn Differenz ageAtMarriage und errechnetes Alter durch birthday,
+                           marriageday &gt; 5 Jahre</item>
+                        <item>Wenn Differenz ageAtMarriage und errechnetes Alter durch baptismday,
+                           marriageday &gt; 5</item>
+                        <item>Wenn errechnetes Alter durch birthday, marriageday &lt; 13 Jahre oder
+                           &gt; 100 Jahre</item>
+                        <item>Wenn errechnetes Alter durch birthday, divorceday &lt; 13 Jahre oder
+                           &gt; 100 Jahre</item>
+                        <item>Wenn errechnetes Alter durch baptismday, marriageday &lt; 13 Jahre
+                           oder &gt; 100 Jahre</item>
+                        <item>Wenn errechnetes Alter durch baptismday, divorceday &lt; 13 Jahre oder
+                           &gt; 100 Jahre</item>
+                        <item>Wenn Differenz ageAtDeath und errechnetes Alter durch birthday,
+                           deathday &gt; 10</item>
+                        <item>Wenn Differenz ageAtDeath und errechnetes Alter durch baptismday,
+                           deathday &gt; 10</item>
+                        <item>Wenn Differenz ageAtDeath und errechnetes Alter durch birthday,
+                           burialday &gt; 10</item>
+                        <item>Wenn Differenz ageAtDeath und errechnetes Alter durch baptismday,
+                           burialday &gt; 10</item>
+                        <item>Wenn birthday &gt; baptismday</item>
+                        <item>Wenn birthday &gt; marriageday1</item>
+                        <item>Wenn birthday &gt; divorceday1</item>
+                        <item>Wenn birthday &gt; marriageday2</item>
+                        <item>Wenn birthday &gt; divorceday2</item>
+                        <item>Wenn birthday &gt; marriageday3</item>
+                        <item>Wenn birthday &gt; divorceday3</item>
+                        <item>Wenn birthday &gt; deathday</item>
+                        <item>Wenn birthday &gt; burialday</item>
+                        <item>Wenn baptismday &gt; marriageday1</item>
+                        <item>Wenn baptismday &gt; divorceday1</item>
+                        <item>Wenn baptismday &gt; marriageday2</item>
+                        <item>Wenn baptismday &gt; divorceday2</item>
+                        <item>Wenn baptismday &gt; marriageday3</item>
+                        <item>Wenn baptismday &gt; divorceday3</item>
+                        <item>Wenn baptismday &gt; deathday</item>
+                        <item>Wenn baptismday &gt; burialday</item>
+                        <item>Wenn marriageday1 &gt; marriageday2</item>
+                        <item>Wenn marriageday1 &gt; marriageday3</item>
+                        <item>Wenn marriageday1 &gt; divorceday1</item>
+                        <item>Wenn marriageday1 &gt; deathday</item>
+                        <item>Wenn marriageday1 &gt; burialday</item>
+                        <item>Wenn marriageday2 &gt; marriageday3</item>
+                        <item>Wenn marriageday2 &gt; divorceday2</item>
+                        <item>Wenn marriageday2 &gt; deathday</item>
+                        <item>Wenn marriageday2 &gt; burialday</item>
+                        <item>Wenn marriageday3 &gt; divorceday3</item>
+                        <item>Wenn marriageday3 &gt; deathday</item>
+                        <item>Wenn marriageday3 &gt; burialday</item>
+                        <item>Wenn divorceday1 &gt; marriageday2</item>
+                        <item>Wenn divorceday1 &gt; marriageday3</item>
+                        <item>Wenn divorceday1 &gt; deathday</item>
+                        <item>Wenn divorceday1 &gt; burialday</item>
+                        <item>Wenn divorceday2 &gt; marriageday3</item>
+                        <item>Wenn divorceday2 &gt; deathday</item>
+                        <item>Wenn divorceday2 &gt; burialday</item>
+                        <item>Wenn divorceday3 &gt; deathday</item>
+                        <item>Wenn divorceday3 &gt; burialday</item>
+                        <item>Wenn Differenz deathday und burialday &gt; 1 Jahr</item>
+                        <item>Wenn Differenz birthday und deathday &gt; 120 Jahre</item>
+                        <item>Wenn Differenz birthday und burialday &gt; 120 Jahre</item>
+                        <item>Wenn Differenz baptismday und deathday &gt; 120 Jahre</item>
+                        <item>Wenn Differenz baptismday und burialday &gt; 120 Jahre</item>
+                        <item>Wenn Differenz birthday und birthday &gt; 1 Jahr</item>
+                        <item>Wenn Differenz baptismday und baptismday &gt; 1 Jahr</item>
+                        <item>Wenn Differenz deathday und deathday &gt; 1 Jahr</item>
+                        <item>Wenn Differenz burialday und burialday &gt; 1 Jahr</item>
+                        <item>Wenn marriageday1 &gt; deathday von idSpouse1</item>
+                        <item>Wenn marriageday2 &gt; deathday von idSpouse2</item>
+                        <item>Wenn marriageday3 &gt; deathday von idSpouse3</item>
+                        <item>Wenn divorceday1 &gt; deathday von idSpouse1</item>
+                        <item>Wenn divorceday2 &gt; deathday von idSpouse2</item>
+                        <item>Wenn divorceday3 &gt; deathday von idSpouse3</item>
+                     </list>
+                     <p>In der programmtechnischen Umsetzung ist ergÃ¤nzend eine optionale Variable
+                        (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu
+                        vergleichender Tabellen nur solche Personen zusammengefÃ¼hrt werden, deren
+                        surnameGiven mit demselben Anfangsbuchstaben beginnt. Diese Implementierung
+                        dieser optionalen Funktion erfolgt vorwiegend aus LaufzeitgrÃ¼nden fÃ¼r groÃŸe
+                        Tabellen mit hunderttausenden DatensÃ¤tzen.</p>
+                  </div>
+                  <div type="subchapter">
+                     <head>3.4.3 SimilaritÃ¤tsprÃ¼fung</head>
+                     <p>Kann nicht erkannt werden, dass zwei Records disjunkt sind, so wird die
+                        SimilaritÃ¤t dieser weiter geprÃ¼ft. Dazu wird ein Fuzzy-Vergleich der Vor-
+                        und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die
+                        Jaro-Winkler-Distanz ausgewÃ¤hlt, weil diese bei Georgala et al. zu guten
+                        Ergebnissen fÃ¼hrt.<note type="footnote"> Vgl. <ref type="bibliography" target="#georgala_record_2015">Georgala et al. 2015</ref>, S.
+                           187.</note> Georgala et al. erzielen mittels einer ROC-Kurve<note
+                              type="footnote"> Receiver Operating Characteristic, vgl. <ref type="bibliography" target="#fan_understanding_2006">Fan et al.
+                                 2006</ref>.</note> ein optimales Ergebnis bei einem Grenzwert von 0,70.<note
+                                    type="footnote"> Vgl. <ref type="bibliography" target="#georgala_record_2015">Georgala et al. 2015</ref>, S. 185.</note> Um die Anzahl
+                        der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch
+                        ein Grenzwert von 0,95 definiert. Nur wenn der Wert fÃ¼r die Nachnamen hÃ¶her
+                        ist, wird davon ausgegangen, dass die Personen similÃ¤r sind. Die Auswahl
+                        dieses MaÃŸes und dieser Grenze ist jedoch keineswegs alternativlos, sondern
+                        kann im Programmcode verÃ¤ndert und ggf. auch an die BedÃ¼rfnisse der
+                        jeweiligen Anwendung angepasst werden. Alternativ zur reinen
+                        Jaro-Winkler-Distanz ist im Programmcode derzeit die phonetische
+                        Ãœbereinstimmung auf Basis der KÃ¶lner Phonetik in Kombination mit einem
+                        anderen Grenzwert der Jaro-Winkler-Distanz implementiert. Diese wird
+                        getestet, wenn die Jaro-Winkler-Distanz den gewÃ¤hlten Grenzwert nicht
+                        Ã¼berschreitet. Die KÃ¶lner Phonetik wird ausgewÃ¤hlt, da diese speziell auf
+                        den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen
+                        codiert.<note type="footnote"> Vgl. <ref type="bibliography" target="#postel_phonetik_1969">Postel 1969</ref>, S. 928.</note> Ist der
+                        Wert der KÃ¶lner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei Ã¼ber
+                        0,60, wird hier ebenfalls von einer SimilaritÃ¤t ausgegangen.</p>
+                     <p>Nach dem Test der Nachnamen wird zudem die SimilaritÃ¤t der Vornamen
+                        Ã¼berprÃ¼ft. Ãœberschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich
+                        der Vornamen einen Wert von 0,95, oder 0,60 in Kombination mit der
+                        Gleichheit der phonetischen Werte, wird als SimilaritÃ¤t der arithmetische
+                        Mittelwert der Jaro-Winkler-Distanzen von Vor- und Nachnamen genutzt, um die
+                        Ã„hnlichkeit beider Records auszudrÃ¼cken. Anderenfalls wird die Hypothese,
+                        dass die Records dieselbe EntitÃ¤t beschreiben, verworfen. Die SimilaritÃ¤t
+                        erhÃ¤lt dann einen Wert von 0.</p>
+                     <p>Die SimilaritÃ¤tsprÃ¼fung stÃ¼tzt sich im Algorithmus damit nur auf die
+                        Ã„hnlichkeit von Vor- und Nachnamen. Dabei kÃ¶nnen perspektivisch auch weitere
+                        Vergleiche integriert werden. So ist es denkbar, die Ã„hnlichkeit der Zeiten,
+                        der Ortsnamen, der Ortsentfernungen, der Berufe oder Todesursachen sowie
+                        eine Kombination dieser zu implementieren.</p>
+                     <p>Wenn mehrere Matches vorhanden sind, wird geprÃ¼ft, welches Ã¼ber die grÃ¶ÃŸte
+                        Ãœbereinstimmung verfÃ¼gt. Nur das passendste wird zusammengefÃ¼hrt. Es wird
+                        das mit dem besten SimilaritÃ¤tswert ausgewÃ¤hlt. Bestehen mehrere Matches mit
+                        dem gleichen SimilaritÃ¤tswert, so werden die EintrÃ¤ge ausgewÃ¤hlt, die zuerst
+                        zusammengefÃ¼hrt worden sind. FÃ¼r die nicht ausgewÃ¤hlten Matches werden
+                        programmintern jedoch trotzdem globale IDs vergeben, weswegen nicht jede
+                        globale ID nachher auch in der Ergebnistabelle erscheint. Sollen mehr als
+                        zwei Matches zusammengefÃ¼hrt werden, muss das Programm mit der
+                        Ergebnistabelle wiederholt ausgefÃ¼hrt werden.</p>
+                     <p>Neben der SimilaritÃ¤tsprÃ¼fung gibt es noch einen sogenannten PrioritÃ¤tswert.
+                        Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ã„hnlichkeit
+                        der Namen in der SimilaritÃ¤tsprÃ¼fung zu integrieren. Nur, weil zwei Records
+                        einen hohen SimilaritÃ¤tswert innehaben, bedeutet das nÃ¤mlich noch nicht,
+                        dass sie tatsÃ¤chlich die gleiche Person abbilden. Wenn alle anderen
+                        Variablen leer sind, reicht hier vielmehr die reine Namensgleichheit fÃ¼r
+                        einen hohen SimilaritÃ¤tswert aus. Records nur auf dieser Basis
+                        zusammenzufÃ¼hren, ist nicht sinnvoll. Deswegen werden diese nur
+                        zusammengefÃ¼hrt, wenn sie zugleich verschiedene Variablenkombinationen
+                        aufweisen (z. B. beide ein Geburts- und Taufdatum), die die
+                        DisjunktionsprÃ¼fung Ã¼berstanden haben. Darunter fallen folgende
+                        Ereignisse:</p>
+                     <list type="unordered">
+                        <item>Eine gleiche Berufsangabe (ausgenommen die Angabe Â»BÃ¼rgerÂ«)</item>
+                        <item>Einer der Hochzeitstage ist identisch</item>
+                        <item>Geburtsdatum oder Taufdatum bei beiden vorhanden</item>
+                        <item>Geburtsdatum oder Taufdatum und Todes- oder Beerdigungsdatum
+                           vorhanden</item>
+                        <item>Todesdatum oder Beerdigungsdatum bei beiden vorhanden</item>
+                     </list>
+                  </div>
+               </div>
+               <div type="subchapter">
+                  <head>3.5 ZusammenfÃ¼hrung von Records</head>
+                  <p>Wird erkannt, dass zwei Records dieselbe EntitÃ¤t beschreiben, sind diese
+                     zusammenzufÃ¼hren. Es wird ein neuer Record in einer neuen Tabelle kreiert, die
+                     ebenfalls die Normform besitzt. Dazu ist festzulegen, wie Daten zusammengefÃ¼hrt
+                     werden. Wenn jeweils gleiche Informationen vorhanden sind, wird die gemeinsame
+                     Information Ã¼bernommen. Ist eine Variable in nur einem bekannten Datensatz
+                     beschrieben, so ist dieser Inhalt fÃ¼r den neuen Eintrag auszuwÃ¤hlen. Sind
+                     unterschiedliche Informationen vorhanden, so ist entweder die Information mit
+                     der hÃ¶heren Aussagekraft zu Ã¼bernehmen oder die Informationen ergÃ¤nzen sich
+                     gegenseitig. Eine hÃ¶here Aussagekraft wird angenommen, wenn es beispielsweise
+                     statt einer Jahresangabe ein konkretes Datum gibt. Bei Namen oder Ortsangaben
+                     stellt der lÃ¤ngere String die weitergehende Information dar. Bei Berufen und
+                     Quellenangaben werden beide Informationen beibehalten und mit einem Komma
+                     separiert zusammengefÃ¼hrt.</p>
+                  <p>Die neue Tabelle enthÃ¤lt neben allen (wie oben beschrieben zusammengefÃ¼hrten)
+                     Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte
+                     ID dar, auf die sich alle weiteren ID-Verweise des zusammengefÃ¼hrten
+                     Datensatzes beziehen. Die Spalte â€ºidâ€¹ der Normform wird ergo nicht
+                     zusammengefÃ¼hrt, sondern in der neuen Tabelle jeweils als â€ºidSource1â€¹ und
+                     â€ºidSource2â€¹ Ã¼bernommen. Dies dient der erleichterten manuellen
+                     QualitÃ¤tskontrolle des Record Linkage. <ref type="intern" target="#tab02">Tabelle 2</ref> enthÃ¤lt die Beschreibung
+                     dieser Variablen.</p>
+                  <p>Solche Records, zu denen kein Pendant im jeweils anderen Datensatz gefunden
+                     wird, werden unverÃ¤ndert in die neue Tabelle Ã¼berfÃ¼hrt. Ausnahme ist allerdings
+                     auch hierbei die Verwendung einer neuen â€ºglobalIdâ€¹.</p>
+                  <table>
+                     <row role="label">
+                        <cell>Bezeichnung</cell>
+                        <cell>Inhalt</cell>
+                     </row>
+                     <row>
+                        <cell>globalId</cell>
+                        <cell>Diese Spalte enthÃ¤lt eine eindeutige, globale ID. Jede natÃ¼rliche
+                           Person soll nur eine ID erhalten, die mit den einzelnen EintrÃ¤gen der
+                           DatensÃ¤tze verknÃ¼pft ist.</cell>
+                     </row>
+                     <row>
+                        <cell>idSource1</cell>
+                        <cell>Diese Spalte enthÃ¤lt die Angabe Ã¼ber die ID des ersten Eintrags in der
+                           ersten Quelle.</cell>
+                     </row>
+                     <row>
+                        <cell>idSource2</cell>
+                        <cell>Diese Spalte enthÃ¤lt die Angabe Ã¼ber die ID des zweiten Eintrags in
+                           der zweiten Quelle.</cell>
+                     </row>
+                     <trailer xml:id="tab02">
+                        <ref type="intern" target="#tab2">Tab. 2</ref>: ZusÃ¤tzliche Variablen eines
+                        zusammengefÃ¼hrten Datensatzes. [Goldberg / Mernitz 2023]<ref type="graphic"
+                           target="#record_2022_t2"/>
+                     </trailer>
+                  </table>
+                  
+               </div>
+            </div>
+            <div type="chapter">
+               <head>4. Validierung am Beispiel Leipzigs</head>
+               
+               <p>Leipzig ist eine Stadt, an der sich zwei groÃŸe historische Handelsrouten Europas
+                  kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach
+                  SÃ¼d.<note type="footnote"> Vgl. <ref type="bibliography" target="#schoenfelder_grundlagen_2015">SchÃ¶nfelder / BÃ¶rngen 2015</ref>, S. 39.</note> Diese
+                  geografische Lage bot fÃ¼r die Entwicklung Leipzigs, vor allem als Messe- und
+                  Handelszentrum, lange Zeit eine fruchtbare Grundlage. Mit der wirtschaftlichen
+                  Bedeutung Leipzigs ging auch ein Wachstum der BevÃ¶lkerung einher, zu dem noch
+                  heute in verschiedenen Quellen Zeugnisse erhalten sind. Aufgrund der vorhandenen
+                  prosopographischen DatenbestÃ¤nde mit umfangreichen genealogisch relevanten
+                  Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des
+                  beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen /
+                  DatenbestÃ¤nde betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei
+                  Leipziger Kreisamtstestamente (KLK). Diese Datenquellen verbindet, dass sie
+                  zumindest teilweise Daten Ã¼ber dieselben Personen enthalten. Aufgrund des
+                  unterschiedlichen Gegenstands,<note type="footnote"> Bei der KLK ist vor allem
+                     relevant, dass nur ein Teil der BevÃ¶lkerung Ã¼berhaupt Testamente hinterlegt
+                     hat.</note> vor allem aber wegen unterschiedlicher ZeitrÃ¤ume, sind nicht
+                  alle Personen in beiden DatenbestÃ¤nden zu finden. Zum Teil spielt auch eine
+                  unterschiedliche geografische Reichweite eine Rolle. WÃ¤hrend die KLF auf den
+                  Innenstadtkern von Leipzig beschrÃ¤nkt ist, bezieht die KLK das Amt Leipzig mit
+                  ein.</p>
+               <p>In dem folgenden Abschnitt wird zunÃ¤chst die Struktur der hier verwendeten
+                  DatenbestÃ¤nde beschrieben, bevor der Algorithmus auf sie angewendet wird. Die
+                  Validierung geschieht zum einen zwischen den DatenbestÃ¤nden, aber auch innerhalb
+                  eines Datensatzes mit sich selbst. Das ist notwendig, da dieselben Personen auch
+                  dort doppelt erscheinen kÃ¶nnen und zunÃ¤chst zusammengefÃ¼hrt werden mÃ¼ssen. Danach
+                  werden die Resultate dargestellt.</p>
+               <div type="subchapter">
+                  <head>4.1 Daten und Ermittlung der Normform</head>
+                  
+                  <p>Im Folgenden wird zunÃ¤chst auf die KLF eingegangen. Danach folgt die KLK.</p>
+                  <div type="subchapter">
+                     <head>4.1.1 Kartei Leipziger Familien (ca. 1550â€“1850)</head>
+                     
+                     <p>In der KLF sind viele Informationen Ã¼ber in Leipzig ansÃ¤ssige Familien
+                        enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen
+                        Zentralstelle fÃ¼r Genealogie, Helga Moritz, ab den 1950er Jahren erstellt.
+                        Als Grundlage nutzte sie die Leipziger Kirchen- und BÃ¼rgerbÃ¼cher. Die Daten
+                        umfassen in etwa den Zeitraum von der Mitte des 16. bis zur Mitte des 19.
+                        Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000
+                        Personen(eintrÃ¤ge) dokumentiert.<note type="footnote"> <ref type="bibliography" target="#munke_citizen_2019">Munke 2019</ref>, S. 118.
+                           Personen innerhalb der KLF kÃ¶nnen also doppelt vorkommen, indem sie auf
+                           einer Karteikarte in der Rolle des Kindes erscheinen, auf einer anderen
+                           als Familienoberhaupt oder Ehefrau. Auch Drittpersonen kÃ¶nnen in den
+                           anderen Rollen vorkommen. Dadurch reduziert sich im Zuge eines Record
+                           Linkage die Anzahl der PersoneneintrÃ¤ge.</note> Die Karteikarten
+                        enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren
+                        Kindern. Falls ein Mann zweimal heiratete, so sind beide Ehen auf einer
+                        Karte verzeichnet. Die Karteikarten sind untereinander nicht Ã¼ber eindeutige
+                        Identifikatoren wie Kartennummern verknÃ¼pft.<note type="footnote"> FÃ¼r eine
+                           detaillierte ErklÃ¤rung des Aufbaus der Karteikarten vgl. <ref type="bibliography" target="#vfc_kartei_2018">Verein fÃ¼r
+                              Computergenealogie 2018â€“2019</ref>.</note>
+                     </p>
+                     <p>Im Rahmen eines Datenerfassungsprojekts durch den Verein fÃ¼r
+                        Computergenealogie wurde die Kartei digitalisiert.<note type="footnote">
+                           <ref
+                              target="http://des.genealogy.net/karteiLeipzigerFamilien/search/index"
+                              >Online durchsuchbar</ref>, vgl. <ref type="bibliography" target="#vfc_kartei_2018">Verein fÃ¼r Computergenealogie
+                                 2018â€“2019</ref>.</note> Dazu wurden die Scans der Karteikarten manuell
+                        abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der
+                        Nachname (mit akademischen Titeln), die Vornamen, der Beruf, der Ort samt
+                        GOV-ID, das Geburtsdatum oder wahlweise Alter bei Tod, das Taufdatum,
+                        Heiratsdatum, Sterbedatum, Beerdigungsdatum und eine Bemerkung sowie ein
+                        Feld fÃ¼r weitere Ortsangaben und die ID der Karteikarte (die automatisch
+                        vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben
+                        zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.<note
+                           type="footnote"> ErwÃ¤hnenswert ist, dass nicht jedes Feld einen Eintrag
+                           enthÃ¤lt, sondern vieles optional ist. Dadurch stehen im Zweifel bei jedem
+                           Eintrag andere Daten zur VerfÃ¼gung.</note> Es gibt die Rollen
+                        Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen
+                        Mann, der die Karteikarte begrÃ¼ndet, die Ehefrau ist seine Frau. Kinder
+                        einer Ehe sind als <quote>Kind</quote> klassifiziert. Drittpersonen kÃ¶nnen
+                        Ehepartner*innen von Kindern darstellen. Auch kÃ¶nnen Eltern von Personen, die
+                        nicht Kinder sind, als Drittpersonen auftauchen (insbesondere die Eltern der
+                        Ehepartner*innen). Jede Drittperson ist jeweils einer Bezugsperson zugeordnet. Ein*e
+                        Ehepartner*in eines Kindes beispielsweise ist diesem Kind zugeordnet. Die Art
+                        der Beziehung beschreibt dahingegen das VerhÃ¤ltnis zur Drittperson (Ehemann
+                        / Ehefrau / Vater). Damit sind die Felder nicht direkt der definierten
+                        Normform zuzuordnen, sondern mÃ¼ssen zunÃ¤chst umgewandelt werden. Dieses
+                        wurde automatisiert durch ein Programm realisiert, das im <ref
+                           target="https://git.hab.de/forschungsdaten/zeitschrift-fuer-digitale-geisteswissenschaften/goldberg-record"
+                           >Online-Repositorium</ref> einsehbar ist. Es zeigt sich hier auch
+                        beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann.</p>
+                     <p>Ein Schwerpunkt dieses Programms besteht dabei in der Umwandlung von
+                        Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in
+                        den Datumszellen Altersangaben stehen. So kann dort statt dem Geburtsdatum
+                        eine Angabe zum Alter gemacht werden. Die hier enthaltenen Altersangaben
+                        werden wÃ¤hrend der Bereinigung im Algorithmus erkannt und zu Datumsangaben
+                        verarbeitet. Aus diesem Grunde findet an dieser Stelle keine Separierung in
+                        die Normform-Variablen â€ºbirthdayâ€¹ und â€ºageAtDeathâ€¹ statt. Eine solche
+                        Separierung wÃ¤re ein alternativ mÃ¶gliches Vorgehen.</p>
+                     <p>Da Altersangaben nur in Beziehung mit anderen Variablen interpretiert werden
+                        kÃ¶nnen, bezieht die Aufbereitung dieser Daten weitere Informationen eines
+                        Records mit ein (z. B. das Alter bei Tod und das Todesdatum zur Berechnung
+                        des Geburtszeitpunkts). FÃ¼r die Aufbereitung ist aufgrund der relativen
+                        Beziehung der Variablen untereinander eine Betrachtung sÃ¤mtlicher
+                        Datumsangaben des Records notwendig.</p>
+                     <p>Es wird zunÃ¤chst geprÃ¼ft, ob die Zeitangabe einer normierten Schreibweise
+                        entspricht. Diese wird hier als D.M.YYYY definiert und darÃ¼ber ermittelt, ob
+                        sich der String in ein datetime-Objekt umwandeln lÃ¤sst. Wenn das der Fall
+                        ist, ist die Zuordnung erfolgreich. In dem Fall, dass das Geburtsdatum nicht
+                        der Schreibweise D.M.YYYY entspricht, soll die Art und Weise der Zeitangabe
+                        identifiziert werden. Es sind verschiedene Ursachen mÃ¶glich:</p>
+                     <list type="unordered">
+                        <item>Das Datum enthÃ¤lt nur eine Jahresangabe.</item>
+                        <item>Statt einem Datum wird eine Altersangabe in Jahren gemacht.</item>
+                        <item>Statt einem Datum wird eine Altersangabe in Tagen gemacht.</item>
+                        <item>Die Zeitangabe enthÃ¤lt nur eine Info darÃ¼ber, dass das Ereignis
+                           Ã¼berhaupt eingetroffen ist (Â»jaÂ«). Das deutet bei Todesangaben auf einen
+                           frÃ¼hen Tod des Kindes hin.</item>
+                        <item>Die Zeitangabe enthÃ¤lt keine Information, die RÃ¼ckschlÃ¼sse auf die
+                           zeitliche Einordnung zulÃ¤sst.</item>
+                     </list>
+                     <p>Bei den ersten vier der fÃ¼nf FÃ¤lle kann eine Zeitangabe abgeleitet werden.
+                        Im fÃ¼nften Fall besteht die Herausforderung darin, zu erkennen, dass es sich
+                        nicht um eine Angabe mit zeitlichem Bezug handelt. ZunÃ¤chst werden solche
+                        Angaben erkannt, die nur aus einer Jahreszahl bestehen. Hier wird zunÃ¤chst
+                        geprÃ¼ft, ob das zu prÃ¼fende Datum in einen Integerwert umgewandelt werden
+                        kann. Das ist der Fall, wenn es sich um eine reine Jahresangabe handelt. Ist
+                        nicht nur eine Jahreszahl Inhalt der Angabe, so wird geprÃ¼ft, ob sie ein
+                        <quote>J.</quote> (fÃ¼r Jahr), ein <quote>T.</quote> (fÃ¼r Tag) oder ein
+                        <quote>ja</quote> (fÃ¼r das generelle Eintreten des Ereignisses) enthÃ¤lt.
+                        Je nach Typ des Datums werden darauffolgend unterschiedliche
+                        Berechnungsschritte durchgefÃ¼hrt. Beispielsweise wird bei einer Angabe
+                        <quote>64 J.</quote> in einem Feld zum Sterbedatum versucht, das
+                        Sterbedatum anhand der Geburts- oder Taufangabe zu ermitteln. Diese
+                        Verarbeitungsschritte haben zur Folge, dass am Ende ein Gedbas4all-konformes
+                        Datumsformat vorliegt.</p>
+                     <p>Die grundsÃ¤tzliche Zuordnung der KLF zu den Datenfeldern der Normform wird
+                        wie in <ref type="intern" target="#tab03">Tabelle 3</ref>
+                        ersichtlich realisiert. Dabei werden die Datumsangaben wie zuvor beschrieben
+                        behandelt.</p>
+                     <table>
+                        <row role="label">
+                           <cell>Variable KLF</cell>
+                           <cell>Variable der Normform</cell>
+                        </row>
+                        <row>
+                           <cell>page [ID der Karteikarte]</cell>
+                           <cell>source</cell>
+                        </row>
+                        <row>
+                           <cell>lastname</cell>
+                           <cell>lastnameGiven</cell>
+                        </row>
+                        <row>
+                           <cell>firstname</cell>
+                           <cell>firstnameGiven</cell>
+                        </row>
+                        <row>
+                           <cell>Beruf</cell>
+                           <cell>occupation</cell>
+                        </row>
+                        <row>
+                           <cell>Rolle</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Ort</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>GOV-Id</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Bezugsperson</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Art der Beziehung</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Geburtsdatum/Alter</cell>
+                           <cell>birthday</cell>
+                        </row>
+                        <row>
+                           <cell>Taufdatum</cell>
+                           <cell>baptismday</cell>
+                        </row>
+                        <row>
+                           <cell>Heiratsdatum</cell>
+                           <cell>marriageday1</cell>
+                        </row>
+                        <row>
+                           <cell>Sterbedatum</cell>
+                           <cell>deathday</cell>
+                        </row>
+                        <row>
+                           <cell>Beerd.Datum</cell>
+                           <cell>burialday</cell>
+                        </row>
+                        <row>
+                           <cell>Bemerkung</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>weiterer Ort</cell>
+                           <cell>---</cell>
+                        </row>
+                        <trailer xml:id="tab03">
+                           <ref type="intern" target="#tab3">Tab. 3</ref>: Direkte Umwandlung der
+                           KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]<ref
+                              type="graphic" target="#record_2022_t3"/>
+                        </trailer>
+                     </table>
+                     
+                     <p>Die KLF-Variablen Rolle, Bezugsperson, Art der Beziehung und ID werden zudem
+                        herangezogen, um weitere Variablen der Normform zu fÃ¼llen (vgl. <ref type="intern" target="#tab04">Tabelle 4</ref>).</p>
+                     <table>
+                        <row role="label">
+                           <cell>Variable der Normform</cell>
+                           <cell>VerknÃ¼pfung der KLF-Variablen</cell>
+                        </row>
+                        <row>
+                           <cell>idSpouse1, idSpouse2, idSpouse3</cell>
+                           <cell>Ein Familienoberhaupt erhÃ¤lt die ID der Ehefrau auf derselben
+                              Karteikarte. Eine Ehefrau erhÃ¤lt die ID des Familienoberhauptes auf
+                              derselben Karteikarte. Eine Drittperson vom Typ Ehefrau / Ehemann
+                              fÃ¼hrt dazu, dass bei der Drittperson wie auch bei der Bezugsperson
+                              eine ID fÃ¼r den*die Ehepartner*in ergÃ¤nzt wird.</cell>
+                        </row>
+                        <row>
+                           <cell>idFather, idMother</cell>
+                           <cell>Bei Kindern werden die IDs der Eltern jeweils ergÃ¤nzt. Tritt eine
+                              Drittperson als Vater auf, so wird diese bei dem Kind ergÃ¤nzt.</cell>
+                        </row>
+                        <row>
+                           <cell>idGlobal</cell>
+                           <cell>Wird ohne Bezug zur KLF fortlaufend vergeben.</cell>
+                        </row>
+                        <trailer xml:id="tab04">
+                           <ref type="intern" target="#tab4">Tab. 4</ref>: Indirekte Umwandlung der
+                           KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]<ref
+                              type="graphic" target="#record_2022_t4"/>
+                        </trailer>
+                     </table>
+                     
+                  </div>
+                  <div type="subchapter">
+                     <head>4.1.2 Kartei Leipziger Kreisamtstestamente (1696â€“1829)</head>
+                     <p>FÃ¼r das Amt Leipzig liegen fÃ¼r die Zeit von 1696 bis 1829 Testamente
+                        innerhalb von 120 BÃ¤nden im SÃ¤chsischen Staatsarchiv vor.<note
+                           type="footnote"> SÃ¤chsisches Staatsarchiv. Bestand 20009 Amt
+                           Leipzig.</note> Zum Auffinden von TestamentsvorgÃ¤ngen existiert eine
+                        Kartei â€“ die KLK. Auch die KLK ist im Rahmen eines Datenerfassungsprojektes
+                        des Vereins fÃ¼r Computergenealogie mit Hilfe des DES erfasst worden und <ref
+                           target="https://des.genealogy.net/leipzig_testamente/search/index"
+                           >online</ref> einsehbar.<note type="footnote"><ref type="bibliography" target="#vfc_kartei_2019">Verein fÃ¼r Computergenealogie 2019â€“2021</ref>.</note> Sie umfasst 4.800
+                        Karteikarten, auf denen jeweils zu einer Person die entsprechenden VorgÃ¤nge
+                        zum Testament erfasst sind. Ehepartner*innen erhalten jeweils eigene Karten.
+                        Jedoch kÃ¶nnen auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in
+                        der KLK die Variable â€ºRolleâ€¹, in der zwischen Erblasser*innen und Drittpersonen /
+                        Verwandten unterschieden wird. Dies fÃ¼hrt dazu, dass ca. 6.500
+                        PersonendatensÃ¤tze entstehen. Zu den Erblasser*innen sind jeweils entsprechende
+                        Informationen Ã¼ber die Testierung vorhanden. Bei einer Drittperson
+                        dahingegen ist die Art der Beziehung zur testierenden Person
+                        dokumentiert.</p>
+                     <p>Auch die Variablen der KLK-Erfassung lassen sich in die Normform umwandeln.
+                        Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform
+                        Ã¼bertragen lassen (vgl. <ref type="intern" target="#tab05">Tabelle
+                           5</ref>) oder auch indirekt hergeleitet werden kÃ¶nnen (vgl. <ref type="intern" target="#tab06">Tabelle 6</ref>).</p>
+                     <table>
+                        <row role="label">
+                           <cell>Variable KLK</cell>
+                           <cell>Variable der Normform</cell>
+                        </row>
+                        <row>
+                           <cell>page</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>firstname</cell>
+                           <cell>firstnameGiven</cell>
+                        </row>
+                        <row>
+                           <cell>Stand/Beruf</cell>
+                           <cell>occupation</cell>
+                        </row>
+                        <row>
+                           <cell>Rolle</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Ort</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Band und Blatt</cell>
+                           <cell>source</cell>
+                        </row>
+                        <row>
+                           <cell>Familienstand</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Ereignis 1, â€¦, Ereignis 8</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Geschlecht</cell>
+                           <cell>sex</cell>
+                        </row>
+                        <row>
+                           <cell>Bezugsperson ID</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Bezugsperson Name</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Art der Beziehung</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Sterbedatum</cell>
+                           <cell>deathday</cell>
+                        </row>
+                        <row>
+                           <cell>Datum von [erster Vorgang]</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>Datum bis [letzter Vorgang]</cell>
+                           <cell>---</cell>
+                        </row>
+                        <row>
+                           <cell>idGlobal</cell>
+                           <cell>â€ºAâ€¹ + id, bzw. neue ID bei zusammengefÃ¼hrten Personen.</cell>
+                        </row>
+                        <trailer xml:id="tab05">
+                           <ref type="intern" target="#tab5">Tab. 5</ref>: Direkte Umwandlung der
+                           KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]<ref
+                              type="graphic" target="#record_2022_t5"/>
+                        </trailer>
+                     </table>
+                     
+                     <p>Die indirekte Herleitung betrifft vor allem die Nachnamen. In der KLK sind
+                        nÃ¤mlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring
+                        <quote>geb.</quote> im Nachnamen vorhanden ist, dann ist der Name danach
+                        der Geburtsname, der Name davor ist ein Heiratsname. Bei dem Teilstring
+                        <quote>verw.</quote> dahingegen ist der folgende Name der Ehename einer
+                        frÃ¼heren Verbindung, der davorstehende der aktuelle Ehename. Wird im
+                        Nachnamen dahingegen der Begriff <quote>verehel.</quote> verwendet, ist der
+                        erste Teil der Geburtsname, der letztere der Heiratsname. Sind bei einer
+                        Frau keine Hinweise enthalten, von wem der Nachname stammt, wird dieser der
+                        Variable â€ºsurnameUnknownâ€¹ zugeordnet. Bei MÃ¤nnern wird angenommen, dass der
+                        angegebene Nachname immer der Geburtsname ist.</p>
+                     <p>Auch bei den IDs findet eine indirekte Zuordnung statt. Wenn eine
+                        Drittperson definiert ist und diese den Typ â€ºEhemannâ€¹ oder â€ºEhefrauâ€¹
+                        aufweist, dann wird die ID des Ehepartners / der Ehepartnerin hinzugefÃ¼gt. Gleiches erfolgt bei
+                        MÃ¼ttern und VÃ¤tern, SÃ¶hnen und TÃ¶chtern bei den Variablen â€ºidFatherâ€¹ und
+                        â€ºidMotherâ€¹. Bei der eigenen ID einer Person wird die ID der KLK
+                        grundsÃ¤tzlich Ã¼bernommen. Ihr wird ein â€ºAâ€¹ vorangestellt, um die IDs
+                        eindeutig von den IDs der KLF zu unterscheiden. Die ID wird jedoch
+                        Ã¼berschrieben, wenn Dubletten in der KLK vorhanden sind. Das kommt vor, wenn
+                        Ehepartner*innen jeweils eigene Karteikarten haben. SchlÃ¼ssel zur Erkennung von
+                        Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente.
+                        Wenn nur die ID eines Ehepartners / einer Ehepartnerin verÃ¤ndert wird, deutet es darauf hin, dass
+                        in einem Eintrag der*die Ehepartner*in der Verweis auf den*die andere*n Ehepartner*in als
+                        Drittperson fehlt.</p>
+                     <p>Des Weiteren wird angenommen, dass die TestamentserÃ¶ffnung kurz nach dem Tod
+                        vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der
+                        TestamentsÃ¶ffnung auch als Todesjahr verwendet. Die Umwandlung in die
+                        Normform wurde automatisiert durch ein Programm realisiert, das im <ref
+                           target="https://git.hab.de/forschungsdaten/zeitschrift-fuer-digitale-geisteswissenschaften/goldberg-record"
+                           >Online-Repositorium</ref> einsehbar ist.</p>
+                     <table>
+                        <row role="label">
+                           <cell>Variable der Normform</cell>
+                           <cell>VerknÃ¼pfung der KLF-Variablen</cell>
+                        </row>
+                        <row>
+                           <cell>idSpouse1, idSpouse2, idSpouse3</cell>
+                           <cell>Wenn eine Drittperson (â€ºRolleâ€¹ == Drittperson / Verwandter) vom Typ
+                              Ehefrau oder Ehemann vorhanden ist (â€ºArt der Beziehungâ€¹), dann wird
+                              ihre ID (â€ºBezugsperson IDâ€¹) entsprechend ergÃ¤nzt.</cell>
+                        </row>
+                        <row>
+                           <cell>idFather, idMother</cell>
+                           <cell>Wenn eine Drittperson vom Typ Vater / Mutter / Sohn / Tochter
+                              vorhanden ist, dann wird die ID entsprechend ergÃ¤nzt.</cell>
+                        </row>
+                        <row>
+                           <cell>idGlobal</cell>
+                           <cell>id</cell>
+                        </row>
+                        <row>
+                           <cell>lastname</cell>
+                           <cell>surnamenGiven, surnameUnkown, surnameMarriage1, surnameMarriage2,
+                              surnameMarriage3</cell>
+                        </row>
+                        <row>
+                           <cell>deathday</cell>
+                           <cell>ErÃ¶ffnung</cell>
+                        </row>
+                        <trailer xml:id="tab06">
+                           <ref type="intern" target="#tab6">Tab. 6</ref>: Indirekte Umwandlung der
+                           KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]<ref
+                              type="graphic" target="#record_2022_t6"/>
+                        </trailer>
+                     </table>
+                     
+                  </div>
+               </div>
+               <div type="subchapter">
+                  <head>4.2 Resultate des Record Linkage</head>
+                  <p>Da sowohl in der KLK und KLF Personen mehrfach genannt werden kÃ¶nnen, ist
+                     zunÃ¤chst ein Vergleich der beiden normformatierten Datentabellen mit sich
+                     selbst sinnvoll. Erst darauffolgend werden die Ergebnisse miteinander
+                     verglichen und zusammengefÃ¼hrt. Dabei stellt sich die Frage nach der QualitÃ¤t
+                     der ZusammenfÃ¼hrung. Zur Validierung der Resultate bietet sich eine
+                     Identifizierung von falschpositiven und falschnegativen Ergebnissen an. Eine
+                     solche Identifizierung ist an dieser Stelle nur begrenzt mÃ¶glich, da auch mit
+                     einer manuellen ÃœberprÃ¼fung nicht zweifelsfrei festgestellt werden kann, ob
+                     eine VerknÃ¼pfung nun richtig oder falsch ist. Diese EinschÃ¤tzung nÃ¤mlich
+                     basiert vielmehr auf den Heuristiken, die zuvor definiert, formalisiert und
+                     auch umgesetzt worden sind.</p>
+                  <p>Dennoch wird eine manuelle ÃœberprÃ¼fung der zusammengefÃ¼hrten Records
+                     vorgenommen. Da nicht alle Records Ã¼berprÃ¼ft werden kÃ¶nnen, werden nur die
+                     Personen behandelt, deren Geburtsname mit â€ºAâ€¹ beginnt.<note type="footnote">
+                        Hierdurch werden nicht alle Aspekte des Algorithmus in gleicher Weise
+                        geprÃ¼ft. Insbesondere die intergenerationalen Elemente der
+                        PlausibilitÃ¤tsprÃ¼fung entfallen, da insbesondere MÃ¼tter Geburtsnamen mit
+                        anderen Anfangsbuchstaben haben.</note> Von diesen 4.251 Records werden 651
+                     zusammengefÃ¼hrt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse
+                     identifiziert werden: 1585 und 1586 sind zwei Elisabeth Albrechts in Leipzig
+                     getauft worden (IDs 14505990 und 14506456). Hier liegt das Taufdatum weniger als
+                     ein Jahr auseinander. Da zu beiden die Angabe des Vaters vorliegt, hÃ¤tte Ã¼ber
+                     den Vergleich der VÃ¤ter erkannt werden kÃ¶nnen, dass es sich nicht um dieselbe
+                     Person handelt. Hier ist Potenzial fÃ¼r eine Erweiterung des Algorithmus.
+                     Gleiches trifft auf Maria Arnoldt (14558811 und 14558853), Maria Albrecht
+                     (14499274 und 14505976), Barbara Abitzsch (14457480 und 14458315), Thomas
+                     Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul
+                     Arnst (14556496 und 14560610). Bei dem / den BÃ¤cker(n) Anton Arnoldt (14554173 und 14554184) wird es sich
+                     mÃ¶glicherweise um unterschiedliche Personen handeln. Helga Moritz hat diese
+                     beiden auch nicht auf derselben Karteikarte erfasst; die Heiratsdaten liegen 28
+                     Jahre auseinander. MÃ¶glicherweise ist die Implementierung einer maximalen
+                     Distanz von Heiratsdaten notwendig, wenngleich diese dann jedoch nicht bei 28 Jahren, sondern deutlich hÃ¶her liegen sollte. Andere Beispiele fÃ¼r weit auseinander liegende Heiratsdaten stellen Joachim Arnst (14556335 und 14560573) oder zwei weitere Personen namens Thomas Abitzsch
+                     (14457397 und 14458332) dar. Wird angenommen, dass es sich bei diesen elf
+                     FÃ¤llen tatsÃ¤chlich um falschpositive Ergebnisse handelt, liegt die Rate an
+                     Falschpositiven bei 1,7 Prozent.</p>
+                  <p>Weiterhin ist auffÃ¤llig, dass bei vielen Personen ein positiver PrioritÃ¤tswert
+                     aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt.
+                     Gleiche Berufsangaben sind in solchen Orten problematisch, in denen es viele
+                     namensgleiche Personen gibt und bestimmte Berufe aufgrund der
+                     nichtdiversifizierten Wirtschaftsstruktur dominant sind. In diesen FÃ¤llen
+                     scheint eine Anwendung des Algorithmus nur sinnvoll, wenn weitere Lebensdaten
+                     vorhanden sind. In Leipzig gibt es bis auf wenige Ausnahmen im von den Daten abgedeckten Zeitraum eine groÃŸe DiversitÃ¤t an Namen und Berufen, sodass dieser Umstand hier kein Problem
+                     darstellt.</p>
+                  <p>Die Relevanz von Berufsangaben fÃ¼r den PrioritÃ¤tswert fÃ¼hrt auch dazu, dass
+                     etwas mehr MÃ¤nner (58,7 Prozent) als Frauen zusammengefÃ¼hrt werden. Um mehr
+                     Frauen zusammenzufÃ¼hren, kann es eine Option sein, Ã¼ber die Ãœbereinstimmung
+                     einer seltenen Kombination aus Vornamen einen positiven PrioritÃ¤tswert zu
+                     erreichen: Die Ãœbereinstimmung von zwei Personen namens <quote>Maria</quote>
+                     ist weniger wahrscheinlich als die von zwei Personen namens <quote>Johanna
+                        Maria Henriette Friederike</quote>, die von <quote>Johann</quote> anders als
+                     die von <quote>Immanuel Friedlieb</quote>. Auch die Seltenheit der Namen kann
+                     hier integriert werden. Ebenso kann die Ãœbereinstimmung seltener Berufe
+                     priorisiert werden.</p>
+                  <p>Bemerkenswert ist auch, dass Vor- und Nachname bei den zusammengefÃ¼hrten
+                     Personen in 90,6 Prozent der FÃ¤lle exakt Ã¼bereinstimmen. Das liegt auch darin
+                     begrÃ¼ndet, dass die Erstellerin der KLF die Namensschreibweise normiert hat.
+                     FÃ¼r eine Bewertung der Ã„hnlichkeitsanalyse der Namensstrings sind die Daten
+                     darum nicht besonders gut geeignet. Es kann zudem sinnvoll sein, eine
+                     Synonymerkennung der Namen zu implementieren (<quote>Hans</quote> und
+                     <quote>Johann</quote>, <quote>Xine</quote> als schriftliche AbkÃ¼rzung fÃ¼r
+                     <quote>Christine</quote> etc.).</p>
+                  <p>Zudem ist zu vermuten, dass es im gesamten Datensatz eine nicht nÃ¤her bekannte
+                     Anzahl von falschnegativen Zuordnungen gibt â€“ also Records, die zusammengefÃ¼hrt
+                     werden mÃ¼ssten, es aber nicht wurden. FÃ¼r diesen Abgleich wÃ¤re eine
+                     genealogische Ãœbersicht der Leipziger Familien als Goldstandard notwendig, die
+                     jedoch nicht existiert. Darum kann dieser Abgleich nicht vorgenommen werden.
+                     AuffÃ¤llig bei der manuellen ÃœberprÃ¼fung ist, dass es einige wenige FÃ¤lle gibt,
+                     in denen eine Person sogar vier Mal im Datensatz auftaucht (und dann zweimal
+                     zusammengefÃ¼hrt wird). Um die Anzahl an Falschnegativen zu verringern, kann
+                     eine mehrfache Iteration also hilfreich sein.</p><p>Dass mit dem hier vorgestellten Algorithmus jedoch ein
+                     erheblicher Teil der tatsÃ¤chlich zusammenzufÃ¼hrenden Records auch
+                     zusammengefÃ¼hrt wird, zeigt ein Vergleich mit der PersonenzusammenfÃ¼hrung des
+                     Genealogie-Programms <bibl><title type="desc">Ahnenblatt</title></bibl> 2.99<note type="footnote"> Vgl. <ref type="bibliography" target="#boettcher_ahnenblatt_2018">BÃ¶ttcher
+                        2018</ref>.</note>: Wird die GEDCOM-Datei dort hineingeladen und werden die
+                     VorschlÃ¤ge zur ZusammenfÃ¼hrung der Personen ohne weiteren manuellen Eingriff
+                     ausgefÃ¼hrt, werden 25.329 von 241.466 Personen zusammengefÃ¼hrt.<note
+                        type="footnote"> Die ZusammenfÃ¼hrung basiert hierbei auf gleichen Namen und
+                        einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die
+                        nÃ¤here Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder
+                        Geschwister. Vgl. <ref type="bibliography" target="#boettcher_ahnenblatt_2018">BÃ¶ttcher 2018</ref>, S. 17.</note> Das entspricht mit 10,5
+                     Prozent einem deutlich geringeren Anteil als im Test der mit Â»AÂ« beginnenden
+                     Personen mit dem hier entwickelten Algorithmus (15,3 Prozent). Ãœber alle Daten
+                     ist mit dem Algorithmus eine Erkennung von 13,2 Prozent zu erkennen (vgl. <ref type="intern" target="#tab07">Tabelle 7</ref>). Bei der KLK werden
+                     mit 0,7 Prozent erwartungsgemÃ¤ÃŸ wenige Personen verknÃ¼pft, da die Normform hier
+                     bereits wenige Duplikate enthÃ¤lt. Von den TestamentsdatensÃ¤tzen konnten mit dem
+                     Algorithmus 413 EintrÃ¤ge einer Person zugeordnet werden, auf 5.348 Personen
+                     traf das nicht zu.</p>
+                  <table>
+                     <row>
+                        <cell/>
+                        <cell role="label">KLF</cell>
+                        <cell role="label">KLK</cell>
+                     </row>
+                     <row>
+                        <cell role="label">KLF</cell>
+                        <cell>31.791 von 241.465 Records zusammengefÃ¼hrt (Anteil: 13,2
+                           Prozent)</cell>
+                        <cell>---</cell>
+                     </row>
+                     <row>
+                        <cell role="label">KLK</cell>
+                        <cell>413 zusammengefÃ¼hrt bei 5.761 Personen (Anteil: 7,2 Prozent)<note
+                           type="footnote"> Hier werden die Daten genutzt, nachdem die KLF und
+                           KLK jeweils mit sich selbst abgeglichen worden sind. Von den 5.761
+                           Ã¼brig gebliebenen Personen in der KLK konnten 413 in der KLF gefunden
+                           werden.</note>
+                        </cell>
+                        <cell>41 zusammengefÃ¼hrt bei 5.802 Personen (Anteil: 0,7 Prozent)<note
+                           type="footnote"> Die KLK enthÃ¤lt zwar 6.524 PersonendatensÃ¤tze. Die
+                           ÃœberfÃ¼hrung in die Normform sorgt jedoch dafÃ¼r, dass bereits Personen
+                           zusammengefÃ¼hrt werden, sodass hier 5.802 PersonendatensÃ¤tze Ã¼brig
+                           bleiben.</note>
+                        </cell>
+                     </row>
+                     <trailer xml:id="tab07">
+                        <ref type="intern" target="#tab7">Tab. 7</ref>: Ãœbersicht Ã¼ber die Anzahl
+                        der verknÃ¼pften Personen aus den Normformen. [Goldberg / Mernitz 2023]<ref
+                           type="graphic" target="#record_2022_t7"/>
+                     </trailer>
+                  </table>
+                  
+                  <p>Insgesamt sind die Ergebnisse des Algorithmus also gut: Ein nicht nÃ¤her zu
+                     quantifizierender, aber erheblicher Teil der tatsÃ¤chlich zusammenzufÃ¼hrenden
+                     Records konnte auch zusammengefÃ¼hrt werden. Etwa 98 Prozent dieser
+                     zusammengefÃ¼hrten Records sind korrekt. Ãœberall dort, wo Personen klar
+                     zusammengefÃ¼hrt werden kÃ¶nnen, wird dieses gemacht. Das spart besonders bei
+                     groÃŸen DatensÃ¤tzen viele Ressourcen. Zugleich ist die LÃ¶sung nicht perfekt,
+                     vielmehr ist sie ein erster Ansatz, auf den aufzubauen es sich lohnt. Besonders
+                     die Formalisierung und Automatisierung genealogischer Heuristiken kann
+                     erweitert und das Record Linkage somit verbessert werden.<note type="footnote">
+                        Es gibt weitere, noch nicht in die Normform integrierte Informationen, die
+                        eine hohe praktische Relevanz fÃ¼r genealogische VerknÃ¼pfungen haben, deren
+                        maschinelle Interpretation aber sehr schwer erscheint. Dazu gehÃ¶ren
+                        insbesondere Angaben zu den Taufpaten.</note>
+                  </p>
+               </div>
+            </div>
+            <div type="chapter">
+               <head>5. Zusammenfassung</head>
+               <p>Gleiches mit Gleichem zu verbinden â€“ darin besteht eine Herausforderung im Umgang
+                  mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag,
+                  diese Herausforderung in der praktischen Forschung zu bewÃ¤ltigen. Im Unterschied
+                  zu vorhergehenden Studien nutzt der vorgestellte Algorithmus dafÃ¼r eine Vielzahl
+                  von genealogisch relevanten Informationen eines Records, vom Beerdigungsdatum Ã¼ber
+                  den Beruf bis hin zu den Lebensdaten der Eltern. Die Besonderheit hier ist, dass
+                  verschiedene Variablen in Beziehung zueinander gesetzt werden. So werden
+                  zahlreiche genealogische Regeln genutzt, um zu erkennen, dass Records disjunkt
+                  sind. Die letztendliche Ãœbereinstimmung (SimilaritÃ¤t der Records) wird dahingegen
+                  Ã¼ber die Jaro-Winkler-Distanz und die KÃ¶lner Phonetik ermittelt und ist aufgrund
+                  des letzteren Aspekts vor allem an den deutschen Sprachraum angepasst. Auch die
+                  implementierten genealogischen Heuristiken sind an den deutschen historischen
+                  Sprach- und Kulturraum und die evangelische bzw. rÃ¶misch-katholische
+                  Religionspraxis angepasst; so kennen diese beispielsweise keine Erwachsenentaufen
+                  oder Ehen mit mehreren Personen. Eine vergleichbare LÃ¶sung in diesem Umfang zur
+                  Automatisierung genealogischer Heuristiken existiert bisher nicht. Die Umsetzung
+                  in der Programmiersprache Python bietet die MÃ¶glichkeit der VerÃ¤nderung und
+                  Anpassung an die jeweiligen Herausforderungen.</p>
+               <p>Hierbei zeigt sich sowohl ein groÃŸer Vorteil als auch ein groÃŸer Nachteil der
+                  vorgestellten LÃ¶sung: Der Vorteil besteht darin, dass der Algorithmus besonders
+                  gut ist, wenn viele Informationen (vor allem Datumsangaben) zu einer Person
+                  bekannt sind. Somit ist die LÃ¶sung sehr gut geeignet fÃ¼r Quellen mit vielen
+                  genealogisch relevanten Daten. Das ist beispielsweise bei dem zur Validierung
+                  genutzten Beispiel Leipziger Quellen der Fall. Hilfreich ist sie vor allem bei der
+                  Bearbeitung groÃŸer DatenbestÃ¤nde, die manuell nicht mehr mit vertretbarem Aufwand
+                  zu verarbeiten sind. Neben dem Einsatz in der Wissenschaft oder in
+                  Time-Machine-Projekten ist es dadurch vorstellbar, Daten aus KirchenbÃ¼chern mit
+                  dem Algorithmus zu verknÃ¼pfen. Durch den Algorithmus ist nÃ¤mlich die
+                  automatisierte genealogische VerknÃ¼pfung Ã¼ber mehr als zwei Generationen hinweg mÃ¶glich. Der Algorithmus kann hier beispielsweise bei der Erstellung von
+                  OrtsfamilienbÃ¼chern ein nÃ¼tzliches Werkzeug sein.</p>
+               <p>Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen Ã¼ber die
+                  durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur
+                  Namen vorhanden, ist es sicherlich angebrachter, verschiedene
+                  String-Matching-Algorithmen an den jeweiligen Daten zu testen. Allerdings kann das
+                  erstellte Programm auch beliebig verÃ¤ndert, erweitert und an die eigenen
+                  BedÃ¼rfnisse angepasst werden. Dass das Programm fÃ¼r verschiedene Zwecke angepasst
+                  werden muss, liegt aufgrund der Validierung mittels der Leipziger Daten nahe.
+                  Insbesondere die Herstellung der normalisierten Form (Normform) bedarf einer
+                  solchen Aufmerksamkeit. Es ist zudem eine Illusion zu glauben, dass es zurzeit
+                  eine LÃ¶sung geben kann, in der zwei vÃ¶llig verschiedene Quellen ohne groÃŸe
+                  Vorarbeit einem automatisierten Record Linkage zugefÃ¼hrt werden kÃ¶nnen.
+                  Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes GrundgerÃ¼st fÃ¼r
+                  die Anpassung dar.</p>
+               <p/>
+            </div>
+            <div type="bibliography">
+               <head>Bibliografische Angaben</head>
+               <listBibl>
+                  <bibl xml:id="abramitzky_linking_2021">Ran Abramitzky / Leah Boustan / Katherine Eriksson / James Feigenbaum /
+                     Santiago PÃ©rez: Automated Linking of Historical Data. In: Journal of Economic
+                     Literature 59 (2021), H.Â 3, S. 865â€“918. DOI: 10.1257/jel.20201599
+                     <ptr type="gbv" cRef="129078794"/></bibl>
+                  <bibl xml:id="abramitzky_linking_2020">Ran Abramitzky / Roy Mill / Santiago PÃ©rez: Linking individuals across
+                     historical sources: A fully automated approach. In: Historical Methods: A Journal
+                     of Quantitative and Interdisciplinary History 53 (2020), H.Â 2, S. 94â€“111. DOI: 10.1080/01615440.2018.1543034 <ptr type="gbv" cRef="166715824"/></bibl>
+                  <bibl xml:id="baehr_bevoelkerungsgeographie_1992">JÃ¼rgen BÃ¤hr / Christoph Jentsch / Wolfgang Kuls: BevÃ¶lkerungsgeographie. Berlin
+                     u. a. 1992. (= Lehrbuch der allgemeinen Geographie, 9). <ptr type="gbv" cRef="028380339"/></bibl>
+                  <bibl xml:id="baxter_methods_2003">Rohan Baxter / Peter Christen / Tim Churches: A Comparison of Fast Blocking
+                     Methods for Record Linkage. 2003. PDF. [<ref
+                        target="https://www.researchgate.net/publication/2838209">online</ref>]</bibl>
+                  <bibl xml:id="boettcher_ahnenblatt_2018">Dirk BÃ¶ttcher: Ahnenblatt Handbuch. 2018. PDF. [<ref
+                     target="https://www.ahnenblatt.de/downloads/Ahnenblatt-Handbuch.pdf"
+                     >online</ref>]</bibl>
+                  <bibl xml:id="christian_record_2015">Peter Christen / Dinusha Vatsalan / Zhichun Fu: Advanced Record Linkage Methods
+                     and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In:
+                     Population Reconstruction. Hg.Â von Gerrit Bloothooft / Peter Christen / Kees
+                     Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 87â€“110. DOI: 10.1007/978-3-319-19884-2_5 <ptr type="gbv" cRef="833549804"/></bibl>
+                  <bibl xml:id="church_gedcom_2019">The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City 2019. Release
+                     5.5.1. vom 15.11.2019. PDF. [<ref
+                        target="https://edge.fscdn.org/assets/img/documents/ged551-5bac5e57fe88dd37df0e153d9c515335.pdf"
+                        >online</ref>]</bibl>
+                  <bibl xml:id="efremova_entity_2015">Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek /
+                     Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for
+                     Genealogical Data. In: Population Reconstruction. Hg.Â von Gerrit Bloothooft /
+                     Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129â€“154.
+                     DOI: 10.1007/978-3-319-19884-2_7 <ptr type="gbv" cRef="833549804"/></bibl>
+                  <bibl xml:id="fan_understanding_2006">Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating
+                     characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006),
+                     H. 1, S. 19â€“20. DOI: <ref target="https://doi.org/10.1017/S1481803500013336"
+                        >10.1017/S1481803500013336</ref> <ptr type="gbv" cRef="776629255"/></bibl>
+                  <bibl xml:id="feigenbaum_census_2016">James J. Feigenbaum: Automated census record linking: a machine learning
+                     approach. 2016. Handle: <ref target="https://hdl.handle.net/2144/27526"
+                        >2144/27526</ref></bibl>
+                  <bibl xml:id="fure_record_2000">Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life
+                     Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: <ref
+                        target="https://doi.org/10.4054/DemRes.2000.3.11"
+                        >10.4054/DemRes.2000.3.11</ref></bibl>
+                  <bibl xml:id="gellatly_populations_2015">Corry Gellatly: Reconstructing Historical Populations from Genealogical Data
+                     Files. In: Population Reconstruction. Hg.Â von Gerrit Bloothooft / Peter Christen /
+                     Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111â€“128. DOI: 10.1007/978-3-319-19884-2_6 <ptr type="gbv" cRef="833549804"/></bibl>
+                  <bibl xml:id="georgala_record_2015">Kleanthi Georgala / Benjamin van der Burgh / Marvin Meeng / Arno Knobbe: Record
+                     Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg.Â von
+                     Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u.
+                     a. 2015, S. 173â€“195. DOI: 10.1007/978-3-319-19884-2_9 <ptr type="gbv" cRef="833549804"/></bibl>
+                  <bibl xml:id="goldberg_entscheidungsfindung_2022">Jan Michael Goldberg: Kontextsensitive Entscheidungsfindung zur automatisierten
+                     Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift fÃ¼r
+                     digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: <ref
+                        target="https://doi.org/10.17175/2022_005">10.17175/2022_005</ref></bibl>
+                  <bibl xml:id="goldberg_identifikation_2022">Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und
+                     Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen
+                     DatenbestÃ¤nden. In: Zeitschrift fÃ¼r digitale Geisteswissenschaften 7 (2022). 08.03.2022. DOI: <ref target="https://doi.org/10.17175/2022_002"
+                        >10.17175/2022_002</ref></bibl>
+                  <bibl xml:id="gu_record_2003">Lifang Gu / Rohan Baxter / Deanne Vickers / Chris Rainsford: Record Linkage:
+                     Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003).
+                     PDF. [<ref
+                        target="https://citeseerx.ist.psu.edu/pdf/a2c4dec86a96a99adc00cb664b703e8407216183"
+                        >online</ref>]</bibl>
+                  <bibl xml:id="harviainen_genealogy_2018">J. Tuomas Harviainen / Bo-Christer BjÃ¶rk: Genealogy, GEDCOM, and popularity
+                     implications. In: Informaatiotutkimus 37 (2018), H. 3, S. 4â€“14. DOI: <ref
+                        target="https://doi.org/10.23978/inf.76066">10.23978/inf.76066</ref>
+                     <ptr type="gbv" cRef="366701630"/></bibl>
+                  <bibl xml:id="hin_roman_2016">Saskia Hin / Dalia A. Conde / Adam Lenart: New light on Roman census papyri
+                     through semi-automated record linkage. In: Historical Methods: A Journal of
+                     Quantitative and Interdisciplinary History 49 (2016), H.Â 1, S. 50â€“65. DOI: 10.1080/01615440.2015.1071226 <ptr type="gbv" cRef="166715824"/></bibl>
+                  <bibl xml:id="kaplan_venice_2015">FrÃ©dÃ©ric Kaplan: The Venice Time Machine. In: DocEng â€™15: Proceedings of the
+                     2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.â€“11.09.2015). New
+                     York 2015, S. 73. DOI: 10.1145/2682571.2797071</bibl>
+                  <bibl xml:id="kocka_familie_1980">JÃ¼rgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif / Reinhard SchÃ¼ren:
+                     Familie und soziale Platzierung. Studien zum VerhÃ¤ltnis von Familie, sozialer
+                     MobilitÃ¤t und Heiratsverhalten an westfÃ¤lischen Beispielen im spÃ¤ten 18. und 19.
+                     Jahrhundert. Wiesbaden 1980 (= Forschungsberichte des Landes Nordrhein-Westfalen,
+                     2953). DOI: 10.1007/978-3-322-87746-8</bibl>
+                  <bibl xml:id="massey_playing_2017">Catherine G. Massey: Playing with matches: An assessment of accuracy in linked
+                     historical data. In: Historical Methods: A Journal of Quantitative and
+                     Interdisciplinary History 50 (2017), H.Â 3, S. 129â€“143. DOI: 10.1080/01615440.2017.1288598 <ptr type="gbv" cRef="166715824"/></bibl>
+                  <bibl xml:id="munke_citizen_2019">Martin Munke: Citizen Science / BÃ¼rgerwissenschaft. Projekte, Probleme,
+                     Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und
+                     Wissenstransfer in interdisziplinÃ¤rer Perspektive. Hg.Â von Jens Klingner / Merve
+                     LÃ¼hr (Dresden, 19.â€“21.04.2018). Dresden 2019, S. 107â€“124. DOI: <ref
+                        target="https://doi.org/10.25366/2019.11">10.25366/2019.11</ref>
+                  </bibl>
+                  <bibl xml:id="nanayakkara_clustering_2018">Charini Nanayakkara / Peter Christen / Thilina Ranbaduge: Temporal graph-based
+                     clustering for historical record linkage. In: Proceedings of 14th International
+                     Workshop on Mining and Learning with Graphs (MLG 14, London, 20.08.2018). New York
+                     2018. PDF. [<ref
+                        target="https://www.mlgworkshop.org/2018/papers/MLG2018_paper_14.pdf"
+                        >online</ref>]</bibl>
+                  <bibl xml:id="postel_phonetik_1969">Hans Joachim Postel: Die KÃ¶lner Phonetik. Ein Verfahren zur Identifizierung von
+                     Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969),
+                     S. 925â€“931. <ptr type="gbv" cRef="129076759"/></bibl>
+                  <bibl xml:id="schoenfelder_grundlagen_2015">GÃ¼nther SchÃ¶nfelder / Michael BÃ¶rngen: NaturrÃ¤umliche Grundlagen. Landschaft
+                     und Klima. In: Geschichte der Stadt Leipzig. Hg.Â von Uwe John / Enno BÃ¼nz. 4 Bde.
+                     Leipzig 2015â€“2019. Bd. 1 (2015): Von den AnfÃ¤ngen bis zur Reformation, S. 33â€“47.
+                     <ptr type="gbv" cRef="774827831"/></bibl>
+                  <bibl xml:id="schulz_gedtool_2017">Peter Schulz: GEDTOOL. Makrosammlung fÃ¼r GEDCOM-Dateien. V. 2.7 vom 14.09.2017.
+                     PDF. [<ref target="https://gedtool.de/resources/GedTool_2_7.pdf"
+                        >online</ref>] </bibl>
+                  <bibl xml:id="thorvaldsen_record_2015">Gunnar Thorvaldsen / Andersen Trygve / Hilde L. Sommerseth: Record Linkage in
+                     the Historical Population Register for Norway. In: Population Reconstruction.
+                     Hg.Â von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen.
+                     Cham u. a. 2015, S. 155â€“171. DOI: 10.1007/978-3-319-19884-2_8 <ptr type="gbv" cRef="833549804"/></bibl>
+                  <bibl xml:id="time_machine_2022">Time Machine Organisation: Local Time Machines. 2022. HTML. [<ref
+                     target="https://www.timemachine.eu/ltms/">online</ref>]</bibl>
+                  <bibl xml:id="vfc_datenmodell_2016">Verein fÃ¼r Computergenealogie (2016a): Gedbas4all / Datenmodell. In: GenWiki.
+                     Das Genealogie-Wiki. 2016. HTML. [<ref
+                        target="http://wiki-de.genealogy.net/Gedbas4all/Datenmodell">online</ref>] </bibl>
+                  <bibl xml:id="vfc_datumsangaben_2016">Verein fÃ¼r Computergenealogie (2016b): Gedbas4all / Datumsangaben. In: GenWiki.
+                     Das Genealogie-Wiki. 2016. HTML. [<ref
+                        target="http://wiki-de.genealogy.net/Gedbas4all/Datumsangaben"
+                        >online</ref>]</bibl>
+                  <bibl xml:id="vfc_kartei_2018">Verein fÃ¼r Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das
+                     Genealogie-Wiki. 2018â€“2019. HTML. [<ref
+                        target="http://wiki-de.genealogy.net/Kartei_Leipziger_Familien"
+                        >online</ref>]</bibl>
+                  <bibl xml:id="vfc_kartei_2019">Verein fÃ¼r Computergenealogie: Kartei Leipziger Kreisamtstestamente. 2019â€“2021.
+                     HTML. [<ref target="https://des.genealogy.net/leipzig_testamente/search/index"
+                        >online</ref>]</bibl>
+                  <bibl xml:id="vfc_historic_2016">Verein fÃ¼r Computergenealogie: The Historic Gazetteer. 2021. HTML. [<ref
+                     target="http://gov.genealogy.net/search/index">online</ref>]</bibl>
+               </listBibl>
+            </div>
+            <div type="abbildungsnachweis">
+               <head>Abbildungs- und Tabellenverzeichnis</head>
+               <desc type="graphic" xml:id="abb1">
+                  Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023]<ref
+                     type="graphic" target="#record_2022_001"/></desc>
+               <desc type="graphic" xml:id="abb2">
+                  Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023]<ref
+                     type="graphic" target="#record_2022_002"/></desc>
+               <desc type="table" xml:id="tab1"><ref target="#tab01">Tab. 1</ref>:
+                  Definition von Datenfeldern. [Goldberg / Mernitz 2023]</desc>
+               <desc type="table" xml:id="tab2"><ref target="#tab02">Tab. 2</ref>:
+                  ZusÃ¤tzliche Variablen eines zusammengefÃ¼hrten Datensatzes. [Goldberg / Mernitz 2023]</desc>
+               <desc type="table" xml:id="tab3"><ref target="#tab03">Tab. 3</ref>:
+                  Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]</desc>
+               <desc type="table" xml:id="tab4"><ref target="#tab04">Tab. 4</ref>:
+                  Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]</desc>
+               <desc type="table" xml:id="tab5"><ref target="#tab05">Tab. 5</ref>:
+                  Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]</desc>
+               <desc type="table" xml:id="tab6"><ref target="#tab06">Tab. 6</ref>:
+                  Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]</desc>
+               <desc type="table" xml:id="tab7"><ref target="#tab07">Tab. 7</ref>:
+                  Ãœbersicht Ã¼ber die Anzahl der verknÃ¼pften Personen aus den Normformen. [Goldberg / Mernitz 2023]</desc>
+            </div>
+         </div>
+      </body>
+   </text>
+</TEI>