diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png
new file mode 100644
index 0000000000000000000000000000000000000000..7252069a566ef45bea7208dc01619488a8996319
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png
new file mode 100644
index 0000000000000000000000000000000000000000..e20f304e392c6d43340081d26a59ff7b46899a31
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png
new file mode 100644
index 0000000000000000000000000000000000000000..f60b063717197e01c652841800c7018cbd67aa59
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..c533794516002b23e170450491e758625f597ea2
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml
new file mode 100644
index 0000000000000000000000000000000000000000..09e7e443be49bbfa5a38092efc0be0090ce7dfc8
--- /dev/null
+++ b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml
@@ -0,0 +1,2148 @@
+<?xml version="1.0" encoding="utf-8"?>
+<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
+    ?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html"
+    xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink"
+    xmlns:xhtml="http://www.w3.org/1999/xhtml">
+    <teiHeader>
+        <fileDesc>
+            <titleStmt>
+                <title>
+                    <biblStruct>
+                        <analytic>
+                            <title level="a">Automatisierte Indentifikation und Lemmatisierung
+                                historischer Berufsbezeichnungen in deutschsprachigen
+                                Datenbeständen</title>
+                            <respStmt>
+                                <resp>
+                                    <persName>
+                                        <name role="marc_aut">
+                                            <forename>Jan Michael</forename>
+                                            <surname>Goldberg</surname>
+                                        </name>
+                                        <email>jan.goldberg@wiwi.uni-halle.de</email>
+                                        <idno type="gnd">1240406630</idno>
+                                        <idno type="orcid">0000-0002-4817-4283</idno>
+                                    </persName>
+                                </resp>
+                                <orgName>Martin-Luther-Universität Halle Wittenberg, Lehrstuhl für
+                                    empirische Makroökonomik</orgName>
+                            </respStmt>
+                            <respStmt>
+                                <resp>
+                                    <persName>
+                                        <name role="marc_aut">
+                                            <forename>Katrin</forename>
+                                            <surname>Moeller</surname>
+                                        </name>
+                                        <email>katrin.moeller@geschichte.uni-halle.de</email>
+                                        <idno type="gnd">133366367</idno>
+                                        <idno type="orcid">0000-0003-4090-5667</idno>
+                                    </persName>
+                                </resp>
+                                <orgName>Martin-Luther-Universität Halle Wittenberg, Historisches
+                                    Datenzentrum Sachsen-Anhalt, Institut für Geschichte</orgName>
+                            </respStmt>
+                            <idno type="doi">10.17175/2022_002</idno>
+                            <idno type="ppn">1760213403</idno>
+                            <idno type="zfdg">2022_002</idno>
+                            <idno type="url">https://www.zfdg.de/node/318</idno>
+                            <date when="2022-03-08">08.03.2022</date>
+                        </analytic>
+                        <monogr>
+                            <title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
+                            <respStmt>
+                                <resp>Publiziert von</resp>
+                                <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
+                            </respStmt>
+                            <respStmt>
+                                <resp>Transformation der Word Vorlage nach TEI</resp>
+                                <persName/>
+                                <name role="marc_trc">
+                                    <surname>Baumgarten</surname>
+                                    <forename>Marcus</forename>
+                                    <idno type="gnd">1192832655</idno>
+                                </name>
+                            </respStmt>
+                            <availability status="free">
+                                <p>Available at <ref target="https://www.zfdg.de"
+                                        >https://www.zfdg.de</ref>
+                                </p>
+                            </availability>
+                            <biblScope unit="year">2022</biblScope>
+                            <biblScope unit="artikel">0d</biblScope>
+                        </monogr>
+                    </biblStruct>
+                </title>
+            </titleStmt>
+            <editionStmt>
+                <edition>Elektronische Ausgabe nach TEI P5</edition>
+            </editionStmt>
+            <publicationStmt>
+                <distributor>
+                    <name>
+                        <orgName>Herzog August Bibliothek Wolfenbüttel</orgName>
+                    </name>
+                </distributor>
+                <idno type="doi">10.17175/zfdg.01</idno>
+                <idno type="ppn">0819494402</idno>
+                <authority>
+                    <name>Herzog August Bibliothek</name>
+                    <address>
+                        <addrLine>Lessingplatz 1</addrLine>
+                        <addrLine>38304 Wolfenbüttel</addrLine>
+                    </address>
+                </authority>
+                <authority>
+                    <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name>
+                    <address>
+                        <addrLine>Burgplatz 4</addrLine>
+                        <addrLine>99423 Weimar </addrLine>
+                    </address>
+                </authority>
+                <availability status="free">
+                    <p> Sofern nicht anders angegeben </p>
+                    <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA
+                        4.0</licence>
+                </availability>
+                <availability status="free">
+                    <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund
+                            MWW</ref>
+                    </p>
+                </availability>
+            </publicationStmt>
+            <sourceDesc>
+                <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
+            </sourceDesc>
+        </fileDesc>
+        <encodingDesc>
+            <editorialDecl>
+                <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
+                    XSLT-Skripten</p>
+            </editorialDecl>
+            <editorialDecl>
+                <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von
+                        <persName>Martin Wiegand</persName>.</p>
+                <p>Medienrechte liegen bei den Autor*innen</p>
+                <p>All links checked<date when="2022">07.03.2022</date>
+                </p>
+            </editorialDecl>
+        </encodingDesc>
+        <profileDesc>
+            <creation>Einreichung als Artikel der Zeitschrift für digitale
+                Geisteswissenschaften</creation>
+            <langUsage>
+                <language ident="de">Text in Deutsch</language>
+                <language ident="de">Abstract in Deutsch</language>
+                <language ident="en">Abstract in Englisch</language>
+            </langUsage>
+            <textClass>
+                <keywords scheme="gnd">
+                    <term>Informations- und  Dokumentationswissenschaft<ref target="4128313-2"/></term>
+                    <term>Berufsforschung<ref target="4144778-5"/></term>
+                    <term>Maschinelles Lernen<ref target="4193754-5"/></term>
+                    <term>Automatische Klassifikation<ref target="4120957-6"/></term>
+                    <term>Standardisierung<ref target="4056914-7"/></term>
+                </keywords>
+            </textClass>
+        </profileDesc>
+        <revisionDesc>
+            <change/>
+        </revisionDesc>
+    </teiHeader>
+    <text>
+        <body>
+            <div>
+                <div type="abstract">
+                    <argument xml:lang="de">
+                        <p>Berufsangaben kommen in vielen historischen Quellen vor. Für eine
+                            Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung,
+                            sondern vor allem Klassifikation eine zentrale Voraussetzung zur
+                            Analyse. Dabei wird die Zuordnung von Schreibvarianten zu bereits
+                            definierten Gattungsnamen von Berufen in diesem Artikel als
+                            Lemmatisierung beziehungsweise Normierung bezeichnet, die Zuordnung der
+                            normalisierten Schreibweise zu einem Ordnungssystem als Klassifikation.
+                            Um hierbei manuellen Aufwand zu verringern, wird ein Algorithmus zur
+                            automatisierten Lemmatisierung historischer, deutschsprachiger
+                            Berufsangaben entwickelt. Das beste Ergebnis wird dabei mit einem Ansatz
+                            überwachten maschinellen Lernens erzielt. Insgesamt können etwa 72
+                            Prozent der Berufsangaben lemmatisiert werden, etwa 98 Prozent dieser
+                            Zuordnungen sind korrekt.</p>
+                    </argument>
+                </div>
+                <div type="abstract">
+                    <argument xml:lang="en">
+                        <p>Occupational information occurs in many historical sources. For a large
+                            number of research areas, not only standardization, but above all
+                            classification of these is a central prerequisite for analysis. In this
+                            article, the assignment of spelling variants to already defined generic
+                            names of occupations is referred to as lemmatization or normalisation,
+                            while the assignment of the normalised spelling and to a classification
+                            system is referred to as classification. In order to reduce manual
+                            effort, an algorithm for the automated lemmatization of historical,
+                            German-language occupational data is developed. The best result is
+                            achieved with a supervised machine learning approach. Overall, about 72
+                            percent of the occupational data can be lemmatized, and about 98 percent
+                            of these assignments are correct.</p>
+                    </argument>
+                </div>
+                <div type="chapter">
+                    <head>1. Einleitung</head>
+                    <p>Berufsangaben existieren in historischen Quellen an vielen Stellen und bilden
+                        eine wichtige Information über Menschen ab. Dadurch, dass es aber kein
+                        universelles System zur Erfassung von Berufen gab, existieren meist
+                        quellenspezifisch zusätzlich präfiguriert viele verschiedene Schreibweisen
+                        und Bezeichnungen nebeneinander. Gleichzeitig wurden in Gesellschaft und
+                        Wissenschaft verschiedene Ordnungssysteme gebildet, um über Klassifikationen
+                        von Berufen Informationen über ein Individuum zu strukturieren und zu
+                        ordnen. Die Auseinandersetzung mit Berufen ist auf vielen Ebenen wertvoll.
+                        In dieser Eigenschaft nimmt sie nicht nur für die Wirtschafts- und
+                        Sozialgeschichte, beispielsweise in Betrachtungen zur Entwicklung der
+                        Arbeit, eine besondere Relevanz ein. Die Klassifikation einzelner
+                        Berufsangaben stellt dabei eine fordernde Aufgabe dar, zumal kaum alle
+                        erdenklichen Schreibvarianten der Berufe manuell erfasst werden können. Eine
+                        automatisierte Zuordnung für historische deutschsprachige Berufe stellt eine
+                        hervorragende Lösung dar, um hier standardisierend für historische Quellen
+                        vergleichbare Ansätze zu bieten, auch wo die manuelle Klassifizierung als
+                        Aufwand zu groß erscheint. </p>
+                    <p>Ziel dieser Abhandlung ist es darum, eine Möglichkeit aufzuzeigen,
+                        historische Berufsangaben automatisiert einem Klassifikationssystem
+                        zuzuordnen. Dabei wird die Zuordnung von Berufsangaben zu bereits
+                        definierten Varianten von Berufen hier als Lemmatisierung<note
+                            type="footnote"> Damit weicht der hier verwendete Begriff von der
+                            sprachwissenschaftlichen Terminologie ab, wo ein Lemma die Reduktion von
+                            Wortteilen auf die kleinste bedeutungstragende Einheit darstellt. <ref type="bibliography" target="#glueck_metzler_2000">Glück (Hg.)
+                                2000</ref>, S. 403f.</note> bezeichnet. Bisher wird jedoch ein System zur
+                        automatisierten Lemmatisierung einer großen Menge historischer Berufsangaben
+                        vermisst. Entwickelt wird deshalb ein Algorithmus zur automatisierten
+                        Lemmatisierung dieser.</p>
+                    <p>Besonders gehäuft kommen Berufsangaben in seriellen Quellen vor, die heute
+                        u. a. für genealogische Forschungen genutzt werden. Darunter fallen
+                        Kirchenbücher, Steuerregister, Adressverzeichnisse,
+                        Bürgeraufnahmeverzeichnisse oder verschiedene Amts- und Schöffenbücher. Die
+                        meisten der hier beschriebenen Berufsbezeichnungen stammen aus Quellen des
+                        16. bis 19. Jahrhunderts und werden durch Berufsgattungsnamen der modernen
+                        Klassifikationssysteme ergänzt. Je älter diese Quellen sind, desto häufiger
+                        wird nicht unbedingt ein Beruf, sondern vielmehr ein Erwerbs- oder
+                        Berufsstand beschrieben. Historisch ist es einerseits von Interesse, diese
+                        Interpretation des ›Standes‹ als einen Definitionsansatz zu analysieren und
+                        zu ermitteln, welche unterschiedlichen Dimensionen ihn ausmachten. Dabei ist
+                        der Beruf nur eine Angabe unter anderen.<note type="footnote"> <ref type="bibliography" target="#moeller_standards_2019">Moeller 2019</ref>,
+                            S. 23.</note> Diese Besonderheit der zeitbestimmten Definition, die von
+                        der heutigen Bestimmung des Berufes abweicht, macht es auch
+                        informationstechnisch zu einer Herausforderung, die Bestandteile des Standes
+                        zu ordnen und sicher zu bestimmen. So finden sich in diesen Listen etwa für
+                        Frauen oder Kinder Informationen zum heutigen Familienstand (ledig,
+                        verheiratete, verwitwet, Sohn, Tochter etc.) für die Person oder in Relation
+                        zu einem berufsführenden Haushaltsvorstand.</p>
+                    <p>Neben diesem Problem der historischen Ordnungssysteme lassen sich weitere
+                        informationelle Herausforderungen skizzieren, die bei der Lemmatisierung von
+                        originalsprachlichen historischen Begrifflichkeiten auftauchen. Die
+                        Verarbeitung ist insbesondere in genealogisch-prosopographischen
+                        Datenquellen aufgrund der hohen Dichte von Berufsangaben zeitaufwändig. Eine
+                        automatisierte Methode zur Umsetzung gibt es bisher vor allem für moderne
+                        (normierte) und englischsprachige Berufsangaben.<note type="footnote"> <ref type="bibliography" target="#cosca_standard_2010">Cosca
+                            / Emmel 2010</ref>; 
+                            <ref type="bibliography" target="#djumalieva_occupations_2018">Djumalieva et al. 2018</ref>; 
+                                <ref type="bibliography" target="#gweon_methods_2017">Gweon et al. 2017</ref>.</note>
+                    </p>
+                    <p>Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von
+                        neuzeitlichen Standes- und Berufsangaben wird ein wichtiger Beitrag zu den
+                        Digital Humanities geleistet, weil mithilfe informatischer Lösungen die
+                        weitere Untersuchung historischer Fragestellungen unterstützt wird. Aufgrund
+                        der Besonderheiten, die den Angaben in jeder Sprache zuteilwerden, wird sich
+                        im Folgenden auf den deutschsprachigen Raum beschränkt. Als
+                        Klassifikationssystem wird eine bisher unveröffentlichte Beta-Fassung der
+                            <ref
+                            target="https://www.geschichte.uni-halle.de/struktur/hist-data/ontologie/"
+                            >Ontologie der historischen, deutschsprachigen Amts- und
+                                Berufsbezeichnungen</ref> (OhdAB)<note type="footnote"> <ref type="bibliography" target="#moeller_ontologie_2020">Moeller et al.
+                            2020</ref>. Die Klassifikation wurde bisher aufgrund von ausstehenden
+                            Qualitätsprüfungen noch nicht veröffentlicht, kann aber beim <ref
+                                target="mailto:hinfo@geschichte.uni-halle.de">Historischen
+                                Datenzentrum Sachsen-Anhalt</ref> angefragt und genutzt werden.
+                        </note> benutzt, die auf der Methodik der <ref
+                            target="https://statistik.arbeitsagentur.de/DE/Navigation/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/Klassifikation-der-Berufe-Nav.html;jsessionid=1CC3151B58003ECC1454B07B916E2756"
+                            >Klassifikation der Berufe 2010</ref> (KldB 2011)<note type="footnote">
+                                <ref type="bibliography" target="#bfa_klassifikationarbeit_2021">Bundesagentur für Arbeit (Hg.) 2021</ref>.</note> basiert und diesen Ansatz um
+                        historische Berufsbezeichnungen erweitert. Dazu wird ein Algorithmus
+                        entwickelt, der für die weitere wissenschaftliche Arbeit in den
+                        verschiedensten Bereichen genutzt werden kann. Er stellt eine Methode dar,
+                        um zu einer Berufsangabe automatisiert Erkenntnisse über seine
+                        Klassifikation zu erhalten. Dabei wird der Algorithmus auf Berufsangaben in
+                        deutschsprachigen, neuzeitlichen, genealogisch-prosopographischen Quellen
+                        ausgelegt. Zur Entwicklung und Validierung werden Berufsangaben aus der <ref
+                            target="https://gedbas.genealogy.net/">Genealogischen Datenbasis</ref>
+                        (GEDBAS) genutzt. Jedoch können auch Berufsbezeichnungen anderer Quellen mit
+                        dem Algorithmus klassifiziert werden. Insbesondere bei großen Datenbeständen
+                        entfaltet ein automatisiertes Vorgehen erheblichen Nutzen. Bevor der
+                        Algorithmus vorgestellt wird, wird im nachfolgenden Abschnitt zuvor der
+                        Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung
+                        eingeführt. Auch bleibt eine Validierung des entwickelten Algorithmus nicht
+                        aus. Abschließend findet eine Zusammenfassung statt, auch wird ein Ausblick
+                        gegeben. </p>
+                </div>
+                <div type="chapter">
+                    <head>2. Forschungsstand</head>
+                    <p>Die Herausforderung bei der Entwicklung eines Algorithmus zur automatisierten
+                        Kategorisierung von Berufsangaben besteht darin, sich unterscheidende
+                        Einträge, die die gleiche Sache beschreiben, zusammenzuführen. Diese Aufgabe
+                        ist im Wesentlichen also eine der Dublettenerkennung, in der etymologisch
+                        identische, aber dennoch anders geschriebene Dubletten erkannt und
+                        zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf
+                        Berufsangaben im genealogischen Kontext eingegangen. Danach wird der
+                        aktuelle Stand zur Bereinigung und Lemmatisierung von Daten im Allgemeinen
+                        aufgezeigt, bevor abschließend spezieller auf die Besonderheiten der
+                        Berufsklassifikation eingegangen wird.</p>
+                    <div type="subchapter">
+                        <head>2.1 Berufsangaben in genealogischen Quellen</head>
+                        <p>Angaben zum Beruf und Stand waren in vielen historischen,
+                            personenbezogenen Quellen wie Kirchenbüchern obligatorisch. Diese
+                            Tendenz verstärkte sich mit der zunehmenden statistischen Erfassung des
+                            19. Jahrhunderts, wobei erste Regularien entstanden, welche Standards
+                            für die Notation von Professionen entwickelten. Eine neue Etappe
+                            eröffnete sich mit der Säkularisierung des Personenstandswesens im
+                            Kaiserreich. So sah beispielsweise Preußen ab 1874 vor, »Stand oder
+                            Gewerbe« von Personen bei Geburt, Heirat und Todesfällen pflichtgemäß zu
+                            dokumentieren.<note type="footnote"> <ref type="bibliography" target="#hinschius_gesetz_1874">Hinschius 1874</ref>, S. 41, 61f. u.
+                                67.</note> Mit der Entstehung eines um den Beruf herum organisierten
+                            Gesellschaftssystems im 19. Jahrhundert erhielt die Dokumentation von
+                            Stand und Gewerbe zentrale Funktionen für das Funktionieren des
+                            Staates,<note type="footnote"> <ref type="bibliography" target="#kocka_geschichte_2000">Kocka et al. 2000</ref>; 
+                                <ref type="bibliography" target="#kohli_institutionalisierung_1985">Kohli 1985</ref>.</note>
+                            das später auch von der Herausbildung von Institutionen zur
+                            Berufsklassifikation begleitet war. Zusätzlich konnte durch die Angabe
+                            des Berufs eine Unterscheidung zwischen namensgleichen Personen
+                            vorgenommen werden.<note type="footnote"> <ref type="bibliography" target="#boehmen_anleitung_1790">Böhmen 1790</ref>, S. 29; Wurden
+                                Beruf oder Stand Jahrhunderte über in
+                                prosopographisch-genealogischen Quellen mitgeführt, wurde die Angabe
+                                von Berufen oder Titeln in Deutschland mit der Reformierung des
+                                Personenstandsrechts am 1. Januar 2009 abgeschafft, vgl. <ref type="bibliography" target="#schaefer_novellierung_2006">Schäfer
+                                2006</ref>. Für künftige Forschungen entfällt damit eine wichtige
+                                Quelle.</note> In der Folge ist es nicht verwunderlich, dass auch
+                            viele Genealogen diese Informationen erfassen. Neben den familiären
+                            Zusammenhängen und den Lebensdaten werden so auch Information zu Stand
+                            und Beruf den Datensätzen hinzugefügt.</p>
+                        <p>Als Quasistandard zum Austausch solcher genealogischer Daten hat sich das
+                            GEDCOM-Format herausgebildet.<note type="footnote"> 
+                                <ref type="bibliography" target="#gellatly_populations_2015">Gellatly 2015</ref>;
+                                <ref type="bibliography" target="#harviainen_genealogy_2018">Harviainen / Björk 2018</ref>, S. 4.</note> Eigenschaften von Personen
+                            werden in diesem textbasierten Format dazu mit sogenannten Tags
+                            versehen. Angaben zur Art der Arbeit oder des Berufs werden in dem Tag
+                            ›OCCU‹ zugeordnet.<note type="footnote"> <ref type="bibliography" target="#church_gedcom_2019">Church of Jesus Christ of
+                                Latter-day Saints 2019</ref>, S. 90.</note> Hier kann jedoch ein
+                            beliebiger freier Text eingetragen werden, sodass keine inhaltliche
+                            Prüfung über die Kompatibilität der Eintragung mit dieser Definition
+                            stattfindet.</p>
+                    </div>
+                    <div type="subchapter">
+                        <head>2.2 Bereinigung und Lemmatisierung von Daten</head>
+                        <p>Da Standesangaben also nicht zwingend nur Informationen zum Beruf
+                            enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den
+                            aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten
+                            notwendig, um aus ihnen die relevanten Informationen zu extrahieren. Zu
+                            diesem Zwecke wird folgend genauer auf die Datenbereinigung,
+                            Ähnlichkeits- und Distanzmaße sowie auf die Grundlagen von
+                            Klassifikationen eingegangen.</p>
+                        <div type="subchapter">
+                            <head>2.2.1 Datenbereinigung</head>
+                            <p>Während der Datenbereinigung werden Fehler und Inkonsistenzen (im
+                                Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.<note
+                                    type="footnote"> <ref type="bibliography" target="#rham_data_2000">Rahm / Do 2000</ref>, S. 1.</note> Es können
+                                beispielsweise Rechtschreibfehler bestehen, Abkürzungen genutzt
+                                werden, Bezeichnungen in falsche Felder eingetragen werden oder eben
+                                zu viele Informationen darin vorhanden sein.<note type="footnote">
+                                    <ref type="bibliography" target="#rham_data_2000">Rahm / Do 2000</ref>, S. 3f.</note> Fehler in Berufsangaben stellen in
+                                der Problemklassifikation nach Rahm und Do Einquellenprobleme
+                                (Quelle der Berufsangabe) auf einem Level einzelner Instanzen
+                                (Berufsangabe) dar. Wie oben bereits gezeigt, ist für historische
+                                Daten hier jedoch ebenso ein kontextualisierender Begriff des
+                                Berufsstandes wichtig. Die Angabe des Rechtsstatus oder
+                                Familienstandes kann eine Person in ihrem Stand ebenso adäquat
+                                beschreiben, während eine Ortsangabe nur eine in das falsche
+                                Datenfeld eingetragene Information darstellen kann.</p>
+                            <p>Zur Lösung dieser qualitativen Probleme schlagen Müller und Freytag
+                                einen vierstufigen Prozess der Datenbereinigung vor.<note
+                                    type="footnote"> <ref type="bibliography" target="#mueller_problems_2003">Müller / Freytag 2003</ref>, S. 10–13.</note> An
+                                dessen Beginn steht ein Datenaudit (<term type="dh">data
+                                    auditing</term>), in welchem die Daten geparst und analysiert
+                                werden. Dadurch werden syntaktische Anomalien erkannt, die es
+                                anschließend zu bearbeiten gilt. Dazu wird in einem zweiten Schritt
+                                der Ablauf der Datenbereinigung spezifiziert (<term type="dh"
+                                    >workflow spezification</term>). Dabei kann die Behebung
+                                syntaktischer Fehler im Nachhinein wiederum andere Anomalien
+                                sichtbar machen. Die nachfolgende Durchführung der Datenbereinigung
+                                    (<term type="dh">workflow execution</term>) steht im Konflikt
+                                zwischen einer möglichst passenden Korrektur und einer akzeptablen
+                                Laufzeit. Manuelle Nacharbeit ist zu vermeiden, da diese Ressourcen
+                                binden, eine nicht automatisierte Kontrolle findet allerdings in
+                                einem vierten Schritt statt (<term type="dh">post-processing and
+                                    controlling</term>). Änderungen, die hier manuell vorgenommen
+                                werden, können in einem lernenden System jedoch einen bleibenden
+                                Effekt auf die Datenbereinigung haben. Insgesamt ist dieses
+                                Verfahren iterativ durchzuführen.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>2.2.2 Ähnlichkeits- und Distanzmaße</head>
+                            <p>Da insbesondere Berufsangaben in historischen Quellen verschiedene
+                                Schreibweisen aufweisen können, ist im Kontext der Anwendung eine
+                                Erkennung von Ähnlichkeiten zwischen diesen notwendig. Sollten zwei
+                                Bezeichnungen die gleiche Entität in der realen Welt repräsentieren,
+                                so stellen sie Dubletten dar.<note type="footnote"> 
+                                    <ref type="bibliography" target="#krause_entwurf_2012">Krause 2012</ref>, S.
+                                    14f.</note> Da Berufsangaben Strings im Sinne einer semantischen
+                                Zeichenkette darstellen, können String-Matching-Algorithmen zur
+                                Erkennung einer unscharfen Übereinstimmung auf sie angewendet
+                                werden. Die Ähnlichkeit von Strings kann über verschiedene Maße
+                                ausgedrückt werden. In der historischen Linguistik stellt die
+                                Levenshtein-Distanz eine geeignete Möglichkeit dar, die mögliche
+                                Verwandtschaft zwischen Wörtern aufzuzeigen.<note type="footnote">
+                                    <ref type="bibliography" target="#dunn_language_2015">Dunn 2015</ref>, S. 196.</note> Die Herausforderung, zwei
+                                Schreibvarianten desselben Wortes zu erkennen, ist ähnlich gelagert
+                                wie die Erkennung einer möglichen linguistischen Verwandtschaft
+                                zwischen zwei Wörtern. Da die Levenshtein-Distanz zudem die
+                                üblichste Methode zur Ähnlichkeitsanalyse zwischen zwei Strings
+                                darstellt,<note type="footnote"> <ref type="bibliography" target="#piotrowski_language_2012">Piotrowski 2012</ref>, S. 71.</note>
+                                wird sie auch im Weiteren Verwendung finden. Sie beschreibt die
+                                Anzahl von Löschungen, Einfügungen und Substituierungen einzelner
+                                Buchstaben, um von einem String zu einem anderen zu gelangen.<note
+                                    type="footnote"> <ref type="bibliography" target="#levenstejn_codes_1966">Levenštejn 1966</ref>.</note>
+                            </p>
+                        </div>
+                        <div type="subchapter">
+                            <head>2.2.3 Grundlagen von Klassifikationen</head>
+                            <p>Unter der Klassifikation wird die Gliederung von Elementen einer
+                                Menge in verschiedene Klassen nach einer definierten Logik
+                                verstanden. Dieser Vorgang kann automatisiert werden, wenn die
+                                zugrundeliegenden Gesetzmäßigkeiten in einem Algorithmus
+                                Formalisierung finden. Eine (automatisierte) Klassifikation kann
+                                dabei entweder ein Objekt einer Klasse zuordnen oder eben auch
+                                dahingehend scheitern, dass keine Klasse ausgewählt werden kann. Die
+                                Zuordnung zu (k)einer Klasse kann zudem korrekt oder nicht korrekt
+                                sein. Durch diese binäre Ansicht ergeben sich vier mögliche
+                                Kombinationen (siehe <ref type="graphic" target="#berufsbezeichnungen_2022_t1">Tabelle
+                                1</ref>). Als erstrebenswert gilt dabei eine Erhöhung der TP- und
+                                TN-Ergebnisse. FP- und FN-Ergebnisse sind hingegen zu vermeiden.</p>
+                            <table rend="rules" xml:id="berufsbezeichnungen_2022_t1">
+                                <row>
+                                    <cell/>
+                                    <cell>Klassifikation korrekt</cell>
+                                    <cell>Klassifikation nicht korrekt</cell>
+                                </row>
+                                <row>
+                                    <cell>Klassifikation erfolgt</cell>
+                                    <cell>True positive (TP)</cell>
+                                    <cell>False positive (FP)</cell>
+                                </row>
+                                <row>
+                                    <cell>Klassifikation nicht erfolgt</cell>
+                                    <cell>True negative (TN)</cell>
+                                    <cell>False negative (FN)</cell>
+                                </row>
+                                <trailer xml:id="tab01"><ref target="#tab1">Tab. 1</ref>: Konfusionsmatrix zur
+                                    Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller
+                                        2022]<ref type="graphic"
+                                        target="#berufsbezeichnungen_2022_t1"/></trailer>
+                            </table>
+                            <p>Durch die Kombination der Anzahl der jeweiligen Zustände kann die
+                                Güte der Klassifikation bewertet werden. Dies ist notwendig, weil
+                                ein hoher Anteil von Treffern oftmals auch mit vielen falschen
+                                Ergebnissen einhergeht – bei keinen Treffern hingegen kann auch kein
+                                Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität
+                                einer Klassifikation stellt das F1-Maß dar.<note type="footnote">
+                                    <ref type="bibliography" target="#christen_quality_2007">Christen / Goiser 2007</ref>, S. 140f.</note> Dieses wird genutzt, um
+                                ein optimiertes Verhältnis zwischen den gefundenen Treffern und den
+                                richtigen Treffern zu erzielen. Hierbei werden die Trefferquote (R,
+                                für <term type="dh">recall</term>) und die Genauigkeit (P, für <term
+                                    type="dh">precision</term>) der Klassifikation gemäß der Formel
+                                für das F1-Maß (siehe Formel 1) in eine Beziehung gesetzt.</p>
+                            <p>Formel 1: F1=2*P*RP+R</p>
+                            <p>Sind hier die Genauigkeit und die Trefferquote beim F1-Maß gleich
+                                gewichtet, so ist auch jede andere Gewichtung denkbar. Die
+                                Genauigkeit ergibt sich aus Formel 2, die Trefferquote aus Formel
+                                3.</p>
+                            <p>Formel 2: P=|TP||TP|+|FP|</p>
+                            <p>Formel 3: R=|TP||TP|+|FN|</p>
+                            <p>Eine automatisch durchgeführte Klassifikation führt jedoch dazu, dass
+                                das Ergebnis nicht (oder nur im Nachgang) manuell auf
+                                (Un-)Korrektheit hin überprüft werden kann. Durch die mittels
+                                Klassifikation zusätzlich vorgenommene Verknüpfung kann sie die
+                                Eigenschaften der Klasse verändern oder erweitern. Dadurch, dass
+                                künftige Klassifikationen auf diese vorherigen Informationen
+                                zugreifen können, findet überwachtes Lernen statt.</p>
+                        </div>
+                    </div>
+                    <div type="subchapter">
+                        <head>2.3 Berufsklassifikationen</head>
+                        <p>Grundsätzlich muss zwischen der Lemmatisierung von Berufsbezeichnungen
+                            und der Klassifikation von Berufen unterschieden werden. Mit Ersterer,
+                            der Lemmatisierung der Bezeichnungen zu Berufen, befasst sich dieser
+                            Artikel. Dabei wird eine Vielzahl von Schreibvarianten einem normierten
+                            Berufsnamen zugeordnet, sofern eine bestimmte sprachliche
+                            Übereinstimmung erkennbar ist. Diese Berufsnamen können in einem
+                            weiteren, übergeordneten Klassifikationssystem auch
+                            inhaltlich-analytisch zu verschiedenen Berufsgruppen geordnet werden,
+                            indem das Definitionskriterium der Tätigkeit zur Klassifikation
+                            herangezogen wird. In solche Systeme wird in diesem Abschnitt
+                            eingeführt. Relevant ist das übergeordnete System der
+                            Berufsklassifizierung, weil es die Entitäten determiniert, auf denen die
+                            nachfolgende Entwicklung des Algorithmus aufbaut. </p>
+                        <p>Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher
+                            vor allem moderne internationale,<note type="footnote">
+                                <ref target="https://www.ilo.org/public/english/bureau/stat/isco/"
+                                    >International Standard Classification of Occupations</ref>
+                                (ISCO), <ref type="bibliography" target="#ilo_iso_2021">ILO (Hg.) 2021</ref>.</note> moderne deutschsprachige<note
+                                    type="footnote"> Klassifikation der Berufe (KldB), <ref type="bibliography" target="#bfa_klassifikationarbeit_2021">Bundesagentur für
+                                Arbeit (Hg.) 2021</ref>.</note> oder historische englischsprachige<note
+                                type="footnote">
+                                <ref target="https://historyofwork.iisg.nl/">Historical
+                                    International Standard Classification of Occupations</ref>
+                                    (HISCO); <ref type="bibliography" target="#leeuwen_history_2002">van Leeuwen et al. 2002</ref>.</note> Berufsnamen führen. Von
+                            diesen Standards wird häufig eine Vielzahl forschungsbasierter
+                            Klassifkationsansätze für unterschiedliche Analysen abgeleitet. In
+                            Hinblick auf die Entwicklung von Datenstandards nach FAIR-Prinzipien
+                            werden solche kompatiblen Systeme zukünftig höheres Gewicht besitzen,
+                            weil die Anbindung an Standards die Nachvollziehbarkeit und
+                            Vergleichbarkeit von Forschungsergebnissen gewährleistet.<note
+                                type="footnote"> <ref type="bibliography" target="#moeller_standards_2019">Moeller 2019</ref>.</note> Im deutschsprachigen Raum ist
+                            vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise
+                            jetzt 2020 zu nennen. Die Methodik der KldB 2010 wurde von Katrin
+                            Moeller auf viele historische, deutschsprachige Berufsbezeichnung
+                            angewendet.<note type="footnote"> <ref type="bibliography" target="#moeller_ontologie_2020">Moeller et al. 2020</ref>.</note> Dieses
+                            System wird im Weiteren Anwendung finden, da es für den
+                            deutschsprachigen Raum die umfangreichste Lösung darstellt. Alternativ
+                            dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die
+                            historische Erweiterung von ISCO 68 dar. Davon wird an dieser Stelle
+                            abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306
+                            deutsche Berufsbezeichnungen genutzt werden.<note type="footnote">
+                                <ref type="bibliography" target="#iish_history_2020">International Institute of Social History (Hg.) 2020</ref>.</note> Zudem enthält
+                            HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch
+                            die Zuordnung zu historischen Berufsangaben erschwert wird. Damit
+                            bleiben viele Berufsnamen bisher ohne sichere Zuordnung in der HISCO.
+                            Durch die Granularität der KldB 2010 kann zwar jeder Beruf der HISCO in
+                            der KldB abgebildet werden, nicht jedoch andersherum. Des Weiteren
+                            existieren im deutschsprachigen Raum historische
+                            Berufsklassifikationen,<note type="footnote"> Vgl. 
+                                <ref type="bibliography" target="#schueren_mobilitaet_1989">Schüren 1989</ref>;
+                                Brandenburg et al. 1993.</note> die in die OhdAB mit eingeflossen
+                            sind. Beachtlich ist zudem die Systematisierung des Thesaurus
+                            Professionum von 23.000 Berufen, die auf Erschließungen von
+                            Leichenpredigten der Forschungsstelle für Personalschriften der
+                            Philipps-Universität Marburg zurückgehen.<note type="footnote">
+                                <ref type="bibliography" target="#thesaurus_professionum_2021">Philipps-Universität Marburg, 
+                                    Forschungsstelle für Personalschriften (Hg.) 2021</ref>.</note>
+                        </p>
+                        <div type="subchapter">
+                            <head>2.3.1 Klassifikation der Berufe 2010</head>
+                            <p>Die KldB 2010 teilt Berufe nach einer fünfgliedrigen
+                                Hierarchiestruktur ein.<note type="footnote"> <ref type="bibliography" target="#bfa_klassifikationberufe_2011">Bundesagentur für
+                                    Arbeit (Hg.) 2011</ref>, S. 16.</note> Der Einsteller (Berufsbereiche)
+                                gliedert die Berufe in grundlegende Themen.<note type="footnote">
+                                    <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 7.</note> Die nächsten drei Ebenen
+                                (Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen)
+                                beschreiben die berufsfachlichen Zusammenhänge.<note type="footnote"
+                                    > <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 8.</note> Je stärker
+                                zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen
+                                Berufen existieren, desto näher sind sich diese in der Hierarchie.
+                                Zuletzt beschreibt der Fünfsteller (Berufsgattungen) das
+                                Anforderungsniveau, sodass durch ihn unterschiedliche
+                                Komplexitätsgrade desselben Berufs ausgedrückt werden können.<note
+                                    type="footnote"> <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 9f.</note> Insgesamt
+                                existieren auf der Ebene des Fünfstellers mittlerweile 1.900
+                                Berufsgattungen.<note type="footnote"> <ref type="bibliography" target="#bfa_klassifikationberufe_2011">Bundesagentur für Arbeit (Hg.) 2011</ref>, S. 18.</note>
+                            </p>
+                            <table xml:id="berufsbezeichnungen_2022_t2">
+                                <row>
+                                    <cell>Stellensystem</cell>
+                                    <cell>Bezeichnung für das Beispiel des Bäckers</cell>
+                                    <cell>Gruppenbezeichnung</cell>
+                                    <cell>Anzahl der Gruppen über alle Berufsgattungen</cell>
+                                </row>
+                                <row>
+                                    <cell>1-Steller B 29222</cell>
+                                    <cell>Rohstoffgewinnung, Produktion und Fertigung</cell>
+                                    <cell>Berufsbereiche</cell>
+                                    <cell>10 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>2-Steller B 29222</cell>
+                                    <cell>Lebensmittelherstellung und -verarbeitung</cell>
+                                    <cell>Berufshauptgruppen</cell>
+                                    <cell>72 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>3-Steller B 29222</cell>
+                                    <cell>Lebensmittel- und Genussmittelherstellung</cell>
+                                    <cell>Berufsgruppen</cell>
+                                    <cell>260 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>4-Steller B 29222</cell>
+                                    <cell>Berufe in der Back- und Konditoreiwarenherstellung</cell>
+                                    <cell>Berufsuntergruppen</cell>
+                                    <cell>941 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>5-Steller B 29222</cell>
+                                    <cell>Berufe Back- und Konditoreiwarenherstellung - fachliche
+                                        Tätigkeit</cell>
+                                    <cell>Anforderungsniveau</cell>
+                                    <cell>1.900 Gruppen</cell>
+                                </row>
+                                <trailer xml:id="tab02"><ref target="#tab2">Tab. 2</ref>: Nummernsystem der KldB 2010 / OhdAB
+                                    am Beispiel des Berufes Bäcker. [Goldberg / Moeller
+                                    2022]</trailer>
+                            </table>
+                            <p>Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in
+                                die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese
+                                Lösung bereits eine gute Näherung an moderne
+                                Individualbezeichnungen.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>2.3.2 Erweiterung um historische Berufe </head>
+                            <p>Die Methodik der KldB 2010 ist grundsätzlich auch auf historische
+                                Berufe anwendbar, weil sie nach Tätigkeiten und Anforderungsniveaus
+                                ordnet, die auch für vergangene Arbeitsfelder erschließbar sind. Mit
+                                der OhdAB liegt eine solche Grundlage zur Klassifikation von
+                                historischen Berufs- und Amtsbezeichnungen in einer Beta-Fassung
+                                vor. Dabei werden alle Schreibvarianten (unter Vergabe einer
+                                fortlaufenden ID) von Standesbezeichnungen nach der Methode der KldB
+                                2010 erfasst und zu einem Berufsgattungsnamen (Zusatz einer
+                                dreistelligen Individualnummer) sowie einer fünfstelligen
+                                Klassifikation (Klassifikationsnummer) angeordnet. </p>
+                            <p>Der ursprünglichen Fassung der KldB 2010 wurden dem
+                                Berufsgattungsnamen fortlaufend die Klassifikationsnummern unter
+                                einem Wert von 500 zugewiesen, historische Berufe erhielten bei der
+                                Ergänzung einen Wert größer als 500, wodurch die modernen und
+                                historischen Gattungsnamen voneinander differenzierbar bleiben. Die
+                                KldB 2010 wurde zudem um einige wenige Berufsgruppen ergänzt, die
+                                sich in das Konzept der ursprünglichen Fassung nicht einfügen
+                                ließen. Dies gilt etwa für die Gruppe von Stadt- und Hofwachen, die
+                                weder dem Personen- und Objektschutz, der Polizei noch dem Militär
+                                zugeordnet werden konnten. Gleiches gilt für die Hofverwaltung,
+                                militärische Berufsgruppen oder das Landhandwerk. Insgesamt folgt
+                                die Klassifikation jedoch der Methodik der KldB 2010. Zudem wurden
+                                allgemeinere Beschreibungsgruppen (wieder-)eingeführt, um auch
+                                Gattungsbegriffe wie ›Beamter‹ oder ›Arbeiter‹ einzuordnen. Dies ist
+                                aufgrund des spezifischen Tätigkeitskonzeptes der KldB 2010
+                                ansonsten nicht möglich. Dieser Kennung vorangestellt wird ein A
+                                oder B. Der weitaus geringere Teil ist mit A betitelt (bisher ca.
+                                600 Gattungsbegriffe), wodurch solche Angaben kenntlich gemacht
+                                werden, die in den historischen Registern eine Eintragung zum Stand
+                                verfügen, der heute aber keinen Beruf mehr definiert. Wie oben
+                                beschrieben waren dies in der Regel Verwandtschaftsverhältnisse zu
+                                einem Haushaltsvorstand. Sehr häufig handelt es sich um Angaben zur
+                                Kenntlichmachung der Armut einer Person oder zum Bezug von Almosen,
+                                Altenteil, Renten- oder Invalidenbezügen. Gleichzeitig kommen
+                                Angaben zu Eigentums- und Besitzverhältnissen, Religion, Rechts- und
+                                Einwohnerbezeichnungen vor. Ein B weist demnach darauf hin, dass es
+                                sich um einen Beruf im Sinne eines Tätigkeitskonzepts handelt.
+                                Insgesamt sind fast 44.582 normierte Berufsschreibweisen so
+                                klassifiziert.</p>
+                            <p>Die Liste der Varianten hingegen besteht aus möglichen
+                                Schreibvarianten der Berufe, die einer Normschreibweise eines Berufs
+                                der Konkordanz (Auflistung aller möglichen Berufe als
+                                Normschreibweise) zugeordnet ist. Es besteht eine 1:n-Beziehung, da
+                                ein Eintrag der Konkordanz beliebig viele Varianten aufweisen kann.
+                                Unterschiede zwischen Normschreibweise und Variante lassen sich an
+                                verschiedenen Aspekten erkennen. So enthält die Normschreibweise
+                                eine geschlechtsübergreifende Schreibweise (z. B. ›Müller/in‹), die
+                                Varianten allerdings die Berufe je Geschlecht einzeln separiert
+                                (hier ›Müller‹ und ›Müllerin‹). Insgesamt sind derzeit weit über
+                                300.000 Varianten erfasst. Die Liste der Varianten wird durch das
+                                Historische Datenzentrum Sachsen-Anhalt jedoch stetig erweitert. Für
+                                die weitere Arbeit wird ein Auszug aus diesen Varianten verwendet,
+                                der zur Validierung näher beschrieben wird.</p>
+                        </div>
+                    </div>
+                </div>
+                <div type="chapter">
+                    <head>3. Entwicklung des Algorithmus</head>
+                    <p>Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen
+                        hinter der Lemmatisierung der Berufsangaben – und somit die
+                        zugrundeliegenden Heuristiken – formalisiert zum Ausdruck zu bringen. Dazu
+                        werden zunächst die Anforderungen an diese Automatik detaillierter
+                        beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung
+                        nach Müller und Freytag.<note type="footnote"> <ref type="bibliography" target="#mueller_problems_2003">Müller / Freytag 2003</ref>.</note>
+                    </p>
+                    <div type="subchapter">
+                        <head>3.1 Anforderungen das Ergebnis</head>
+                        <p>Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im
+                            Weiteren ›Klassen‹, zugeordnet werden (TP). Ein Beruf stellt dabei eine
+                            Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die
+                            Eigenschaften. Eine Übersicht über die verwendeten Begrifflichkeiten
+                            ist, insbesondere für die multiple Verwendung der
+                            Klassifizierung / Klassifikation, in <ref type="graphic"
+                                target="#berufsbezeichnungen_2022_001">Abbildung 1</ref>
+                            ersichtlich.</p>
+                        <figure>
+                            <graphic xml:id="berufsbezeichnungen_2022_001"
+                                url=".../medien/berufsbezeichnungen_2021_001.png">
+                                <desc>
+                                    <ref target="#abb1">Abb. 1</ref>: Begriffe und Zusammenhänge des
+                                    Algorithmus. [Goldberg / Moeller 2022] <ref type="graphic"
+                                        target="#berufsbezeichnungen_2022_001"/>
+                                </desc>
+                            </graphic>
+                        </figure>
+                        <p>Eine Erhöhung der TP-klassifizierten (neuen Bezeichnungen) allein geht
+                            jedoch oftmals auch mit der Erhöhung von FP-Klassifizierungen einher.
+                            Aus diesem Grund wird nicht die Anzahl der TP-Klassifizierungen
+                            optimiert, sondern das F1-Maß. Zudem soll die Klassifizierung
+                            automatisch geschehen, eine manuelle Überprüfung des Ergebnisses
+                            geschieht infolgedessen nicht. Das ist notwendig, um große Datenbestände
+                            mit hunderttausenden Berufsbezeichnungen in einer überschaubaren Zeit
+                            klassifizieren zu können. Da der Algorithmus insbesondere auf große
+                            Listen von Berufsangaben Anwendung finden soll, ist dessen Effizienz und
+                            somit die Laufzeit zu beachten. Der Algorithmus soll in einem
+                            Programmcode umgesetzt werden, der in weiteren Applikationen eingebunden
+                            werden können soll.</p>
+                        <p>Der Algorithmus soll zwar mit Hilfe genealogisch-prosopographischer
+                            Quellen validiert werden, jedoch danach auch auf andere Berufsangaben
+                            angewendet werden können. Art und Umfang der Quelle sind dabei nicht
+                            entscheidend. Wichtiger ist es, dass es sich um deutschsprachige
+                            Berufsangaben aus dem Zeitraum der Neuzeit (ab ca. 1500) handelt. Bei
+                            anderen Angaben steigt die Wahrscheinlichkeit, dass der Algorithmus
+                            keine verwertbaren Ergebnisse liefert (z. B. bei lateinischen Angaben),
+                            jedoch soll eine nachträgliche Erweiterung der Sprachen möglich
+                            sein.</p>
+                        <p>Des Weiteren können Datenfelder zum Beruf mit verschiedenen Informationen
+                            gefüllt sein. In vielen Fällen dürften sie als Freitextfeld keiner
+                            Konsistenzprüfung unterzogen worden sein. Das führt dazu, dass
+                            prinzipiell alles in einem solchen Feld stehen kann. Es ist eine
+                            Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch
+                            mehrere Berufsangaben verzeichnet, diese dann getrennt voneinander
+                            erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen
+                            in den Berufsangaben sollen jeweils separiert werden (z. B. der
+                            fälschlicherweise in einem Datenfeld für die Berufsangabe angegebene
+                            Wohnort). Lemmatisiert wird jedoch nur die Angabe zum Stand und / oder
+                            Beruf. Mögliche berufsferne, separierte Informationen unterliegen keiner
+                            weiteren Interpretation.</p>
+                    </div>
+                    <div type="subchapter">
+                        <head>3.2 Methodik der Datenbereinigung</head>
+                        <p>Wie oben beschrieben, setzt sich die Datenbereinigung aus verschiedenen
+                            Schritten zusammen, die nun nacheinander durchgeführt werden. Zunächst
+                            wird im data auditing der zu bearbeitende Datensatz betrachtet. Die hier
+                            entwickelte Datenbereinigung soll allgemein auf deutschsprachige
+                            Berufsbezeichnungen anwendbar sein. Dazu werden Berufsangaben genutzt,
+                            die in öffentlich zugänglichen GEDCOM-Dateien gespeichert sind. Im
+                            deutschsprachigen Raum stellt GEDBAS eine der wesentlichen Sammlungen
+                            von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000
+                            Dateien und 22 Millionen Personen abgebildet.<note type="footnote">
+                                GEDBAS, <ref type="bibliography" target="#gebdas_statistics_2021"></ref>Verein für Computergenealogie (Hg.) 2021.</note> Ein Teil dieser Dateien
+                            ist von den Autoren zum öffentlichen Download freigegeben. Eine
+                            Anwendung eines Scrapers zur Sammlung der öffentlichen GEDCOM-Dateien in
+                            GEDBAS, ausgeführt am 14.04.2020, erbrachte 2.899 Dateien.<note
+                                type="footnote"> Siehe den entsprechenden Programmcode in
+                                (Online-Repo). [verlinken]</note> Um die Berufsangaben aus den
+                            Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben
+                            (›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.<note
+                                type="footnote"> Siehe den entsprechenden Programmcode in
+                                (Online-Repo). [verlinken]</note> Insgesamt werden auf diese Weise
+                            229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen
+                            Angaben bleiben 60.000 verschiedene Bezeichnungen übrig.</p>
+                        <p>Weitere naheliegende, aber nicht in den GEDCOM-Daten auftretende
+                            Anomalien bei Berufsangaben werden ebenso mit eingebunden. Das ist darin
+                            begründet, dass der Algorithmus auf alle deutschsprachigen Berufsangaben
+                            seit ca. 1500 anwendbar sein soll und ggf. mögliche Anomalien in den
+                            GEDCOM-Daten strukturell komplett fehlen. Die folgenden Anomalien wurden
+                            insgesamt erkannt:</p>
+                        <list type="unordered">
+                            <item>
+                                <hi rend="bold">Mehrere Berufe</hi>: In einer Berufsangabe kann ein
+                                Verweis auf mehrere Berufe vorhanden sein, beispielsweise, weil die
+                                Bezugsperson verschiedene Berufe in ihrem Leben (hintereinander oder
+                                parallel zueinander) ausgeübt hat. Verschiedene Berufsangaben können
+                                durch Trennoperatoren abgegrenzt sein. Eine Besonderheit ergibt sich
+                                bei der Verwendung von Ergänzungsstrichen in einer Berufsangabe
+                                (z. B. ›Gold- und Silberschmied‹).</item>
+                            <item>
+                                <hi rend="bold">Abkürzungen</hi>: Berufe können eine Abkürzung
+                                erfahren, die wiederum sehr quellenspezifisch sein können. So ist es
+                                denkbar, dass ein ›B.‹ für ›Bürger‹ steht, aber auch für ›Bauer‹.
+                                Abkürzungen enden in vielen Fällen, allerdings nicht immer, mit
+                                einem Punkt.</item>
+                            <item>
+                                <hi rend="bold">Rollen</hi>: Dem Beruf vor- und nachgestellt können
+                                weitere Angaben zur Rolle innerhalb des Berufsbildes sein. Das
+                                betrifft im Handwerk beispielsweise die fünf Qualifikationsstufen
+                                von Hilfsarbeitern, Burschen und Knechten, Lehrlingen und Gesellen,
+                                Altgesellen und arbeitenden Fachhandwerkern ohne Meistertitel,
+                                Meistern sowie Obermeistern beziehungsweise Oberältesten von
+                                Innungen. </item>
+                            <item>
+                                <hi rend="bold">Zeitangaben</hi>: Zur Spezifizierung des Zeitpunktes
+                                der Bezeichnung mit einem Beruf kann eine Zeitangabe aufgenommen
+                                werden. Diese ist möglicherweise durch Klammern abgegrenzt. Auch die
+                                Verwendung von Ziffern ist ein Indikator für eine Zeitangabe. Jedoch
+                                können Ziffern regulärer Bestandteil der Berufsbezeichnung sein
+                                (z. B. ›1. Pfarrer‹ oder ›2. Offizier‹). Daneben könnten temporale
+                                Präpositionen auf Zeitangaben hinweisen. Bei der Angabe von
+                                konkreten Daten oder Jahreszahlen kommen temporale Präpositionen
+                                nach dem Beruf (z. B. ›Bauer im Jahre 1873‹) wie auch zu Beginn
+                                (z. B. ›am 02.03.1734: Hufschmied‹) vor. Häufig stehen Zeitangaben
+                                auch ohne Präposition.</item>
+                            <item>
+                                <hi rend="bold">Berufsstatus</hi>: Gleichfalls können temporale
+                                Informationen darüber vorhanden sein, ob der benannte Beruf aktiv
+                                ausgeübt wird oder es sich um einen vormaligen Beruf handelt. So
+                                existieren Möglichkeiten, den Status einer Person in Bezug auf den
+                                Beruf zu beschreiben (z. B. ›pensioniert Lehrer‹ oder<hi
+                                    rend="italic"> ›g</hi>ewesener Gerichtsschreiber‹). Hinzu treten
+                                Bezeichnungen wie ›Altenteiler‹ oder ›Invalid‹, die aber keine
+                                spezifischen Berufsangaben mehr enthalten.</item>
+                            <item>
+                                <hi rend="bold">Quellenangaben</hi>: Analog zur Angabe eines
+                                Zeitpunkts ist auch der Verweis auf Quellen möglich. Quellen können
+                                auf verschiedene Arten angegeben werden. Ein vorkommender Fall ist
+                                die Verwendung von URLs oder HTML-Codes für Hyperlinks, um auf
+                                Inhalte im Internet zu verweisen.</item>
+                            <item>
+                                <hi rend="bold">Ortsangaben</hi>: Häufig kommt auch die Angabe des
+                                Ortes einer Berufsausübung vor. Anders als bei Zeitangaben werden
+                                bei den Ortsangaben (lokale) Präpositionen wie ›in‹, ›bei‹ oder
+                                ›von‹ häufig verwendet. Neben dem Arbeitsort kann es auch vorkommen,
+                                dass der Herkunfts- oder Wohnort genannt wird, der ebenfalls nicht
+                                zu Beschreibung der Tätigkeit genutzt werden kann.</item>
+                            <item>
+                                <hi rend="bold">Arbeitgeber</hi>: Ebenfalls kann der Arbeitgeber
+                                genannt werden. Die Präpositionen ähneln dabei denen der Ortsangaben
+                                (z. B. ›Kalkulator bei der Deutschen Versicherung A.G.‹). Darunter
+                                ist auch die Zuordnung zu einem Dienst- oder Lehnsherren oder einem
+                                Regiment etc. zu verstehen. Bei Berufsangaben werden in diesem Sinne
+                                auch Zusätze wie ›herrschaftlich‹ oder ›königlich‹ als solche
+                                betrachtet. Im Militär dominieren hier Angaben zu Regimentern
+                                etc.</item>
+                            <item>
+                                <hi rend="bold">Familienstand</hi>: Ein Datenfeld, welches mit
+                                ›Stand und Gewerbe‹ überschrieben ist, lässt vielerlei Möglichkeiten
+                                zu. Eine davon ist der Familienstand. Hierrunter fällt im engeren
+                                Sinne, ob eine Person ledig, verheiratete oder verwitwet ist.
+                                Bezeichnungen für unverheiratete Frauen sind so beispielsweise
+                                ›Jungfer‹ oder ›Jungfrau‹, bei Männern dahingegen ›Junggeselle‹ oder
+                                ›Geselle‹. Manche Angaben können auch darauf hinweisen, dass die
+                                Berufsangabe sich nicht direkt auf den Stelleninhaber bezieht,
+                                sondern auf eine nahestehende Person. So kann die Rolle in der
+                                Familie benannt sein (z. B. ›Sohn‹ oder ›Tochter‹). Die die
+                                Bezeichnung als ›Witwer‹ oder ›Witwe‹ ist erwähnenswert.</item>
+                            <item>
+                                <hi rend="bold">Rechtsstatus</hi>: Der Rechtsstatus einer Person
+                                kann ebenso Teil einer personenstandlichen Aussage sind. Eine
+                                wesentliche, oft vorkommende Unterscheidung hierbei ist die zwischen
+                                ›Bürgern‹ und ›Inwohnern‹ oder ›Einwohnern‹.</item>
+                            <item>
+                                <hi rend="bold">Besitzinformationen</hi>: Auch kann die Angabe
+                                Informationen über den Besitz des Beschriebenen enthalten, ohne dass
+                                aus diesen direkt (ohne weitere Annahmen) ein Rückschluss auf die
+                                berufliche Tätigkeit gezogen werden kann (z. B. ›Hausbesitzer‹ oder
+                                ›Fabrikbesitzer‹, ›Erbe‹).</item>
+                            <item>
+                                <hi rend="bold">Titularangaben</hi>: Vom Beruf (und auch dem
+                                Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische
+                                Titel. Am häufigsten kommt hierbei die vorangestellte Angabe des
+                                Doktorgrades vor. Auch können weitere Adjektive wie ›wohlgeachtete‹
+                                oder ›ehrbare‹ vorangestellt werden oder auch ehrende Anreden
+                                (›Herr‹ / ›Frau‹) enthalten.</item>
+                            <item>
+                                <hi rend="bold">Fremdsprachliche Angaben</hi>: Auch fremdsprachliche
+                                Angaben können vorkommen. Aufgrund des derzeitigen Fokus der OhdAB
+                                auf historische deutschsprachige Berufe und der speziellen
+                                Konzentration auf deutschsprachige Quellen ist die entwickelte
+                                Lösung nicht besonders geeignet für Berufs- und Standesbezeichnung
+                                anderer Sprachen. Sie werden nicht mit lemmatisiert und
+                                klassifiziert und deshalb als TN-Ergebnisse erkannt. Langfristig ist
+                                es ein erstrebenswertes Ziel, eine Mehrsprachigkeit (besonders
+                                lateinische Berufsbezeichnungen) zu implementieren. In den
+                                GEDCOM-Daten kommen insbesondere niederländischer Bezeichnungen
+                                häufig vor. Aufgrund der sprachlichen Nähe zum Deutschen stellen
+                                diese eine besondere Herausforderung dar.</item>
+                            <item>
+                                <hi rend="bold">Tippfehler und Schreibvarianten</hi>: Besonders
+                                nachfolgende (oder führende) Leerzeichen kommen häufig vor, weil sie
+                                bei der Dateneingabe schnell übersehen werden können, dennoch aber
+                                Teil des Strings sind. Denkbar sind auch sonstige Tippfehler,
+                                fehlende, zusätzlich vorhandene oder vertauschte Zeichen.
+                                Grundsätzlich wird von Schreibvarianten gesprochen, ohne die
+                                Herkunft dieser (quellenbasiert, transkriptionsbasiert) für
+                                bestehende Sammlungen aufgrund fehlender direkter Bezugsebenen
+                                zwischen Quellen und Datensammlung nicht überprüfbar sind. Eine
+                                besondere Form von Schreibvarianten stellen Durchkoppelungen dar.
+                                Sie können überall dort vorkommen, wo verschiedene Morpheme
+                                aneinandergesetzt werden, was bei Berufsangaben vergleichsweise
+                                häufig der Fall ist. Beispiele dafür sind der
+                                ›Reserveoffizier-Anwärter‹, ›Bäcker-Meister‹ oder
+                                ›Gerichts-Gehilfe‹. In seltenen Fällen wird der Bindestrich auch als
+                                Trennungsoperator zwischen verschiedenen Berufen genutzt (z. B.
+                                ›Häusler-Weber‹). </item>
+                            <item>
+                                <hi rend="bold">Falsche Verwendung des Feldes</hi>: Inhaltlich
+                                falschen Angaben, die mit einer Berufsangabe nichts zu tun haben,
+                                kann die falsche Verwendung des Datenfeldes zugrundeliegen.
+                                Wahrscheinlicher als eine bewusste Fehlinterpretation ist vermutlich
+                                die versehentliche Vertauschung, u. a. mit Datenfeldern für Namen,
+                                Wohnorte oder Datumsangaben.</item>
+                        </list>
+                        <p>Der Umgang mit diesen wird nachfolgend in der workflow spezification
+                            festgelegt. Dabei handelt es sich um die Formalisierung von Heuristiken
+                            zur Interpretation der Anomalien. Die Spezifizierung des Ablaufs der
+                            Datenbereinigung wird in drei Teile gegliedert: Zunächst findet (1.)
+                            eine grundsätzliche Vorverarbeitung der ursprünglichen Berufsangabe
+                            statt. Danach werden (2.) verschiedene, darin enthaltene Berufsangaben
+                            voneinander separiert. Abschließend erfahren diese Strings (3.) eine
+                            weitere Nachbearbeitung, indem berufsfremde Angaben separiert werden.
+                            Die Reihenfolge der einzelnen Schritte ist relevant und zu beachten.
+                            Nachfolgende Schritte können zu anderen Ergebnissen führen, sollten die
+                            vorhergehenden nicht zuvor ausgeführt worden sein.</p>
+                    </div>
+                    
+                    <div type="subchapter">
+                        <head>3.3 Ablauf der Datenbereinigung</head>
+                        <div type="subchapter">
+                            <head>3.3.1 Normieren von Trennoperatoren</head>
+                            <p>Es gibt verschiedene Operatoren, die voneinander abzugrenzende
+                                Informationen innerhalb der Berufsangabe trennen. Mögliche
+                                Trennoperatoren sind:</p>
+                            <list type="unordered">
+                                <item> u.</item>
+                                <item>+</item>
+                                <item>,</item>
+                                <item>;</item>
+                                <item>&amp;</item>
+                                <item>/</item>
+                                <item>-</item>
+                            </list>
+                            <p>Dabei können verschiedene Kombinationen mit vor- oder nachgestellten
+                                Leerzeichen Aufschluss über den spezifischen Zweck des Zeichens
+                                geben. Beispielsweise stellt der Bindestich nur ohne vorangehendes
+                                Leerzeichen, einen Trennoperator da, da er ansonsten als
+                                Ergänzungsstrich interpretiert werden sollte. Falls hinter dem
+                                Ergänzungsstrich zusätzlich statt einem Leerzeichen ein Komma
+                                gesetzt ist, handelt es zudem um eine Aufzählung, was in der
+                                Ermittlung des entsprechenden Wortteils zu beachten ist. Ausgenommen
+                                von der Trennung ist die Kombination ›- und‹ wie beispielsweise in
+                                ›Gold- und Silberschmied‹. Hier wird von einem zusammenhängenden
+                                Begriff ausgegangen.</p>
+                            <p>Es ist für die nachfolgende Verarbeitung hilfreich, wenn diese
+                                Operatoren normiert und durch einen einzigen Trennoperator getrennt
+                                werden. Die Trennoperatoren werden durch ein ›und‹ ersetzt. An den
+                                Stellen, an denen infolgedessen ein ›und‹ steht, erfolgt eine
+                                Trennung des Strings unter der Löschung von des vormals verbindenden
+                                ›und‹. Jeder der entstehenden Teile wird datentechnisch abgegrenzt,
+                                sodass dieser zwar einzeln behandelt werden kann, dennoch aber auch
+                                die ursprüngliche Zusammengehörigkeit nachvollziehbar bleibt. Das
+                                ist aus dem Grunde sinnvoll, da in den dann getrennten Teilen neben
+                                dem Beruf weitere (berufsferne) Informationen stehen könnten. Diese
+                                sind für eine unmittelbare Klassifikation des Berufs nicht notwendig
+                                (oder gar hinderlich), sollen aber im Bezug zur Berufsangabe dennoch
+                                nicht verloren gehen, da sie ggf. wichtige weiterführende
+                                Informationen erhalten. Die Informationen werden für eine
+                                anschließende Interpretation separiert und damit von der
+                                eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die
+                                Zusammengehörigkeit nachvollziehbar.<note type="footnote">
+                                    Beispielsweise wird die Bezeichnung ›Hutmacher und Bürger‹ in
+                                    zwei Teile separiert, wobei der Bürger keine Berufsbezeichnung
+                                    darstellt. Für eine mögliche nachfolgende Analyse ist es ggf.
+                                    von Relevanz, nachzuvollziehen, dass der Hutmacher einen
+                                    Bürgerstatus innehatte.</note>
+                            </p>
+                            <p>Es folgen Schritte zur Separierung berufsferner Angaben aus der
+                                Bezeichnung. Teilweise wird die berufsferne Angabe durch die
+                                Separierung aus der eigentlichen Berufsangabe gelöscht, mitunter
+                                aber auch beibehalten, weil sie für die Lemmatisierung von Relevanz
+                                ist. Separiert wird in zwölf Kategorien: </p>
+                            <list type="unordered">
+                                <item>Beruf</item>
+                                <item>Rolle</item>
+                                <item>Jahr</item>
+                                <item>URL</item>
+                                <item>Ort</item>
+                                <item>Arbeitgeber</item>
+                                <item>Familienstand</item>
+                                <item>Rechtsstatus</item>
+                                <item>Besitzinformation</item>
+                                <item>Titel</item>
+                                <item>Berufsstatus</item>
+                                <item>Weiteres</item>
+                            </list>
+                        </div>
+                        
+                        <div type="subchapter">
+                            <head>3.3.2 Entfernung von Leerzeichen</head>
+                            <p>Leerzeichen, die am Anfang oder am Ende des Strings stehen, werden
+                                entfernt.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.3 Ausformulierung von Abkürzungen</head>
+                            <p>Die Abkürzungen können je nach Quelldaten sehr unterschiedlich
+                                gewählt worden sein. Es ist empfohlen, oft vorkommende und
+                                konsistent verwendete Abkürzungen in der Quelle im Programm zu
+                                ergänzen. Einige Abkürzungen, die in den GEDCOM-Daten vorkommen und
+                                allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits
+                                aufgenommen. Kommen sie vor, werden sie ausformuliert. Das bedeutet,
+                                dass dieses ausgeschrieben werden. Dies sind:</p>
+                            <list type="unordered">
+                                <item>›Bgmst.‹ für ›Bürgermeister‹</item>
+                                <item>›Ing.‹ für ›Ingenieur‹</item>
+                            </list>
+                            <p>Nicht möglich ist eine solch allgemeine Übersetzung von Abkürzungen
+                                beispielsweise bei der Angabe ›B.‹, die mit einer großen
+                                Wahrscheinlichkeit für ›Bauer‹ oder ›Bürger‹ stehen könnte. Die
+                                Verwendung aller Abkürzungen aus den GEDCOM-Daten würde zu einem
+                                Overfitting führen. Die Abkürzung ›Dr.‹ dahingegen wird – trotz
+                                eindeutiger Verwendung – bewusst so belassen, da sie später als
+                                Titularangabe separiert wird. Auch trifft dieses auf die Abkürzungen
+                                ›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben.
+                                Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig
+                                verwendet werden, nicht ausformuliert (z. B. ›F. d.‹ oder ›T. d.‹,
+                                für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher
+                                auflösbare Abkürzungen zudem als Schreibvarianten auf.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.4 Definierte berufsferne Substantive</head>
+                            <p>Direkte Angaben über den Rechtsstatus werden separiert, nicht aber
+                                aus der Berufsangabe entfernt. Hintergrund ist, dass diese Angaben
+                                Teil der Varianten der OhdAB sind und dadurch erkannt werden können.
+                                Das umfasst folgende Begriffe:</p>
+                            <list type="unordered">
+                                <item>Bürger</item>
+                                <item>Civis Academicus</item>
+                                <item>Einwohner</item>
+                                <item>Inwohner</item>
+                                <item>in wohner</item>
+                                <item>In wohner</item>
+                                <item>Nachbar</item>
+                                <item>Universitätsbürger</item>
+                            </list>
+                            <p>Angaben, die Auskunft über den Besitz geben, werden hingegen der
+                                Kategorie Besitzinformationen zugeordnet und aus der Berufsangabe
+                                gelöscht. Hierunter fallen alle von Leerzeichen umfassten Begriffe,
+                                die auf ›besitzer‹ oder ›besitzerin‹ oder ›eigentümer‹ und
+                                ›eigentümerin‹ enden.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.5 Lokale Präpositionen</head>
+                            <p>Ortsangaben können mit verschiedenen lokalen Präpositionen
+                                eingeleitet werden. Ist eine der folgenden Zeichenketten samt
+                                vorangehendem und nachfolgendem Leerzeichen Teil der Berufsangabe,
+                                so wird der nachfolgende Teil als Ortsangabe separiert und die
+                                Präposition gelöscht. Ein voranstehendes Leerzeichen ist nicht
+                                notwendig, wenn die Präposition am Beginn des Strings steht.</p>
+                            <list type="unordered">
+                                <item>in</item>
+                                <item>In</item>
+                                <item>i. </item>
+                                <item>von </item>
+                                <item>zu </item>
+                                <item>auf </item>
+                                <item>aus </item>
+                                <item>an </item>
+                                <item>der</item>
+                                <item>des</item>
+                            </list>
+                            <p>Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der
+                                Präposition ›bei‹ eher einen Bezug zu einem Arbeitgeber auf als zu
+                                einem physischen Ort. Hier wird die Kategorie <hi rend="italic"
+                                    >Arbeitgeber</hi> verwendet.</p>
+                            <list type="unordered">
+                                <item>bei der</item>
+                                <item>bei dem</item>
+                            </list>
+                            <p>Des Weiteren werden folgende Adjektive, die keine lokale Präposition
+                                darstellen, ebenso in die Arbeitgeberkategorie separiert, aber nicht
+                                aus dem weiter zu verarbeiteten String gelöscht, da sie einen
+                                wichtigen Bestandteil für die weitere Klassifizierung darstellen und
+                                auch die Varianten der OhdAB diese Begrifflichkeiten mitführen.</p>
+                            <list type="unordered">
+                                <item>herrschaftlich</item>
+                                <item>herrschaftliche</item>
+                                <item>königlich</item>
+                                <item>königliche</item>
+                            </list>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.6 Separierung von Quellenangaben</head>
+                            <p>Verlinkungen werden in den Bereich der Quellen separiert und
+                                gelöscht. Hierunter fällt der Text zwischen <code>&lt;a&gt;</code>
+                                und <code>&lt;/a&gt;</code> (inklusive der beiden genannten
+                                Zeichen). Andere Quellenangaben werden nicht erkannt und erscheinen
+                                ggf. nachher in der Kategorie <hi rend="italic">Weiteres</hi>.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.7 Titularangaben</head>
+                            <p>Falls die Berufsangabe Informationen zum Titel enthält, werden diese
+                                in die Kategorie <hi rend="italic">Titularangaben</hi> separiert.
+                                Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt,
+                                so endet die Titularangabe mit dem Punkt. Eine Ausnahme besteht
+                                darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring
+                                auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier
+                                wird auch dieser Teilstring in die Titularangabe mit eingebunden und
+                                gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B.
+                                ›Dr. rer. nat.‹). Folgt der Angabe ›Dr.‹ kein Leerzeichen, so sind
+                                alle Zeichen bis zum nächsten Leerzeichen zu separieren (z. B.
+                                ›Dr.iur.‹).</p>
+                            <list type="unordered">
+                                <item>Prof.</item>
+                                <item>Professor</item>
+                                <item>Dr.</item>
+                                <item>Herzog</item>
+                            </list>
+                            <p>Des Weiteren gibt es viele andere Titularangaben wie Titularherr,
+                                Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach
+                                Bedarf ergänzt werden.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.8 Angaben zum Familienstand</head>
+                            <p>Folgende Teilstrings werden in die Kategorie <hi rend="italic"
+                                    >Familienstand</hi> separiert und gelöscht:</p>
+                            <list type="unordered">
+                                <item>F. d.</item>
+                                <item>Ehefrau des</item>
+                                <item>Ehefrau d.</item>
+                                <item>Ehefrau</item>
+                                <item>-frau (am Ende einer Bezeichnung)</item>
+                                <item>T. d.</item>
+                                <item>-tochter (am Ende einer Bezeichnung)</item>
+                                <item>S. d.</item>
+                                <item>-sohn (am Ende einer Bezeichnung)</item>
+                                <item>›Witwe‹ oder ›Witwer‹</item>
+                                <item>›Wittib‹ oder ›Wittiber‹</item>
+                                <item>›Jungfrau‹ oder ›Jungfer‹</item>
+                                <item>›Junggeselle‹ oder ›Junggesell‹</item>
+                            </list>
+                            <p>Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses
+                                String Teil der Berufsangabe ist (z. B. ›Dienstfrau‹,
+                                ›Arbeitsfrau‹). Folgende Adjektive, die möglichen
+                                Familienstandsangaben (aber auch anderen Substantiven) vorangestellt
+                                sind, werden ohne Separierung gelöscht:</p>
+                            <list type="unordered">
+                                <item>›ehrbare‹ oder ›ehrbarer‹</item>
+                                <item>›tugendsame‹ oder ›tugendsamer‹</item>
+                                <item>›wohlgeachtete‹ oder ›wohlgeachteter‹</item>
+                                <item>›geachtete‹ oder ›geachteter‹</item>
+                            </list>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.9 Temporale Präpositionen und Ziffern</head>
+                            <p>Zunächst wird der String auf die folgenden temporalen Präpositionen
+                                durchsucht. Werden diese gefunden, wird das nachfolgende, durch vor-
+                                und nachstehende Leerzeichen abgegrenzte Wort als Zeitangabe
+                                separiert und samt Präposition aus dem String gelöscht.</p>
+                            <list type="unordered">
+                                <item>am</item>
+                                <item>im Jahr</item>
+                            </list>
+                            <p>Zeitangaben sind aber insbesondere auch durch zusammenhängende
+                                Ziffern ohne einleitende Präposition dargestellt. Der String wird
+                                zunächst auf die Ziffern 0 bis 9 durchsucht. Bei genau vier
+                                aufeinanderfolgenden Ziffern wird eine Jahreszahl angenommen. Diese
+                                wird separiert und gelöscht. Sollte vor der Jahreszahl jedoch ein
+                                Punkt auftauchen, so werden allen Zeichen davor bis zum nächsten
+                                Leerzeichen gelöscht. Ausschließlich die Jahreszahl wird separiert,
+                                da eine zeitlich genauere Verortung nicht notwendig erscheint.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.10 Erkennung von Rollenangaben</head>
+                            <p>Es werden sechs Rollen unterschieden:</p>
+                            <list type="unordered">
+                                <item>Gehilfe oder -gehilfe / Knecht oder -knecht / Magd oder -magd
+                                    / Helfer oder -helfer / Bursche oder -bursche</item>
+                                <item>Lehrling oder -lehrling / Geselle oder -geselle</item>
+                                <item>Macher oder -macherin (Grundform des Berufes)</item>
+                                <item>Meister oder -meister</item>
+                                <item>Obermeister oder -obermeister / Oberältester oder
+                                    -oberältester</item>
+                                <item>Besitzer oder -besitzer / Eigentümer oder -eigentümer</item>
+                            </list>
+                            <p>Dieser Zusatz wird nur festgestellt und in der Kategorie <hi
+                                    rend="italic">Rolle </hi>gespeichert, bleibt aber in der
+                                Berufsbezeichnung erhalten, wenn er von der eigentlichen
+                                Berufsangabe nicht getrennt ist. Steht er frei, so wird er ans Ende
+                                des darauffolgenden von Leerzeichen umschlossenen Teilstring
+                                gestellt.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.11 Berufsstatus</head>
+                            <p>Folgende Wörter dienen als Signalwörter, aus denen sich Rückschlüsse
+                                auf den aktuellen Berufsstatus ziehen lassen. Sie werden gelöscht
+                                und in die Kategorie <hi rend="italic">Berufsstatus
+                                </hi>separiert.</p>
+                            <list type="unordered">
+                                <item>›pensionierte‹ oder ›pensionierter‹</item>
+                                <item>›a. D.‹ oder ›a.D.‹</item>
+                                <item>›i. R.‹ oder ›i.R.‹</item>
+                                <item>›gewesene‹ oder ›gewesener‹<note type="footnote"> Hier ist zu
+                                        beachten, dass die Angabe auch auf den zuvor erfolgten Tod
+                                        des Stelleninhabers hinweisen kann.</note>
+                                </item>
+                            </list>
+                            <p>Auch hier existieren zahlreiche weiter Signalwörter (u. a. ›Alt-‹,
+                                ›weiland‹, ›emeritiert‹, ›vormaliger‹, ›vormals‹, ›verstorbener‹,
+                                ›verabschiedeter‹, ›verrenteter‹, ›früherer‹, ›ehemaliger‹,
+                                ›ausrangierter‹, ›abgedankter‹). Auch diese können bei Bedarf
+                                ergänzt werden.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.12 Separation von Angaben in Klammern</head>
+                            <p>Es wird davon ausgegangen, dass die wesentlichen Berufsangaben nicht
+                                in Klammern stehen. Diverse mögliche Inhalte für Klammern wurden
+                                bereits in den vorherigen Schritten entfernt. Die übriggebliebenen
+                                Daten können nicht genau zugeordnet werden und werden aus diesem
+                                Grund ohne die Klammern in die Kategorie <hi rend="italic"
+                                    >Weiteres</hi> separiert und gelöscht. Die Klammern selbst
+                                werden gelöscht. </p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.13 Löschung von Sonderzeichen</head>
+                            <p>Verbleibende Sonderzeichen, mit Ausnahme von Punkten, die durchaus
+                                Teil einer Berufsangabe sein können, werden gelöscht. Als
+                                Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen
+                                oder Buchstaben darstellen. Falls vor, nach oder vor und nach den
+                                Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein
+                                Leerzeichen eingesetzt.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.14 Umsetzen der Kleinschreibung</head>
+                            <p>Verbleibende Großbuchstaben werden durch ihre entsprechende
+                                Kleinschreibung ersetzt. Dies dient dazu, Differenzen in der Groß-
+                                und Kleinschreibung zu ignorieren.</p>
+                            <p>Der übergebliebene String wird nochmals von Leerzeichen am Anfang und
+                                Ende bereinigt. Er enthält abschließend nun die bereinigte Variante
+                                der Berufsangabe und wird ebenso einer Kategorie (Beruf) zugeordnet.
+                                Die Bereinigung dieses Strings ist damit abgeschlossen und er kann
+                                der Berufsangabenklassifizierung unterzogen werden. Demzufolge
+                                werden Tippfehler an dieser Stelle nicht erkannt, können aber durch
+                                die nachfolgende Ähnlichkeitsanalyse erfasst werden.</p>
+                            <p>Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht
+                                iterativ, sondern einmalig.<note type="footnote"> Bei der
+                                    Entwicklung des Algorithmus hat ein iteratives Vorgehen jedoch
+                                    sehr wohl Raum eingenommen. Durch die Begutachtung des
+                                    Klassifikationsergebnisses wurden weitere Anomalien entdeckt,
+                                    die in den Algorithmus mit eingebaut wurden.</note> Um den
+                                Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der
+                                Daten notwendig: Die Berufe müssen als Liste vorliegen, da das Ziel
+                                in einer automatisierten Klassifizierung besteht, in der
+                                definitionsgemäß kein post-processing and controlling durch eine
+                                manuelle Kontrolle notwendig ist. Aus den Spezifika des Datensatzes
+                                kann nun die Anpassung des Quellcodes geboten sein.</p>
+                        </div>
+                    </div>
+                    <div type="subchapter">
+                        <head>3.4 Klassifizierung der Berufsangaben</head>
+                        <p>Nach der Bereinigung sind den Berufsangaben trotzdem noch keine Berufe
+                            der OhdAB-Konkordanz zugeordnet. Die notwendige Lemmatisierung geschieht
+                            auf Basis der Eigenschaften der bestehenden Klassen. Darum findet ein
+                            Abgleich mit den vorhandenen Varianten der OhdAB statt. Eine
+                            Berufsangabe soll der Klasse zugeordnet werden, deren Zugehörigkeit am
+                            wahrscheinlichsten ist. Die Ähnlichkeit einer Berufsangabe zu den
+                            Eigenschaften (bestehende Varianten) einer Klasse (Beruf) wird dabei als
+                            Indikator für die Wahrscheinlichkeit einer korrekten Zuordnung
+                            (Lemmatisierung) genutzt. Diese kann über einen Vergleich der
+                            Zeichenketten ermittelt werden. Jedoch muss nicht zwingend eine
+                            Lemmatisierung stattfindet: Wenn die Ähnlichkeit zu jeder Klasse so
+                            gering ist, dass eine korrekte Zuordnung unwahrscheinlich ist, kann kein
+                            Pendant gefunden werden.</p>
+                        <p>Zeichenketten können auf verschiedene Arten verglichen werden. Kirby et
+                            al. empfehlen für die weitere Forschung eine Variation von verschiedenen
+                            Vergleichsmethoden.<note type="footnote"> Kirby 2015, S. 58.</note>
+                            Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur
+                            Validierung (<ref type="intern" target="#hd36">Kapitel 5</ref>) untersucht
+                            werden. Wenn eine bereinigte Berufsangabe mit einer Variante exakt
+                            übereinstimmt, wird die Berufsangabe dieser Variante zugeordnet.
+                            Dadurch, dass die Variante einer Normschreibweise der Konkordanz
+                            zugeordnet ist, ist auch ihre Zuordnung zu einer Berufsgattung der OhdAB
+                            eindeutig. Besteht keine Übereinstimmung mit einer Variante, so ist eine
+                            teilweise Übereinstimmung zu überprüfen. </p>
+                        
+                        
+                        <div type="subchapter">
+                            <head>3.4.1 Levenshtein-Distanz absolut</head>
+                            <p>Die Levenshtein-Distanz wird jeweils für die Berufsangabe und die
+                                Varianten berechnet; zur Verbesserung der Laufzeit wird ein
+                                Vergleich nur bei einer Übereinstimmung des ersten Buchstabens
+                                vorgenommen. Aus einer hohen Ähnlichkeit dieser beiden Strings
+                                resultiert eine geringe Distanz. Zeichenketten mit einer Distanz von
+                                1 werden als ähnlich klassifiziert und ausgewählt. Die absolute
+                                Levenshtein-Distanz wird auch als <hi rend="italic">Lev</hi>a
+                                bezeichnet. </p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.2 Levensthein-Distanz relativ</head>
+                            <p>Da in einer längeren Zeichenkette auch mehrere Fehler oder
+                                Variationen vorkommen können, wird die Levenshtein-Distanz mit der
+                                Länge der zu überprüfenden Berufsbezeichnung in Beziehung gesetzt
+                                (Formel 4). Dabei wird hier nicht differenziert, ob solche Fehler
+                                Resulat von Lese- oder Schreibprozessen, mangelhafter OCR-Erkennung
+                                oder tatsächliche Schreibvarianten sind. Unterschreitet die relative
+                                Distanz einen bestimmten Wert, findet eine Zuordnung statt. Der
+                                hierfür zu unterschreitende Grenzwert wird in der Validierung
+                                bestimmt.</p>
+                            <p>Formel 4: Levr(bi,vj)=Lev(bi,vj)Länge bi</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.3 Erweiterung der Abkürzungserkennung</head>
+                            <p>In der Validierung werden zwei verschiedene Möglichkeiten der
+                                Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus,
+                                wie er zuvor vorgestellt worden ist (Ausformulierung definierter
+                                Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend
+                                getestet, ob bei ausbleibender Ähnlichkeit zu den Varianten eine
+                                Ähnlichkeit mit einer Abkürzung besteht. Dadurch wird z. B. für die
+                                Berufsbezeichnung ›Preußischer Leutnant‹ und der Variante ›Preuß.
+                                Leutnant‹ eine Übereinstimmung festgestellt, obwohl die
+                                ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.4 Ergänzung einer lernenden Komponente während der
+                                Lemmatisierung</head>
+                            <p>Die lemmatisierte Berufsangabe kann nun als Schreibvariante eines
+                                Berufs ebenso mit in die Varianten eingehen. Dadurch wird die Zahl
+                                der Varianten erhöht und die Wahrscheinlichkeit gesteigert, neue
+                                Berufsangaben zu erkennen. Der Vorteil gegenüber einer reinen
+                                Erhöhung von Grenzwerten ist an einem Beispiel gut erkennbar: Die
+                                Levenshtein-Distanz zwischen ›Müllerˆ und ›Muellerˆ ist
+                                möglicherweise zu groß, obwohl es denselben Beruf beschreibt. Wird
+                                nun über ›Müller‹ zuvor aber die Variante ›Muller” erkannt, wird im
+                                nächsten Schritt auch ›Mueller‹ erkannt. Bei einer erlaubten
+                                Levenshtein-Distanz von 2 wäre ›Mueller‹ zwar direkt erkannt worden,
+                                ›Maler‹ aber ebenso. Der Nachteil dieses lernenden Vorgehens besteht
+                                in der Reproduktion von Fehlern durch falsch-positive (FP)
+                                Ergebnisse.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer
+                                weiteren Iteration</head>
+                            <p>Statt die neuen Varianten kontinuierlich hinzuzufügen ist es auch
+                                möglich, nach einer einmaligen Bearbeitung alle nicht-lemmatisierten
+                                Berufsangaben erneut zu untersuchen. Vorteil hierbei ist, dass die
+                                Berufsangaben zu Beginn (ohne gelernte Varianten) nochmals mit den
+                                später gelernten Varianten verglichen werden. Hierbei sind viele
+                                Iterationen vorstellbar.</p>
+                        </div>
+                    </div>
+                </div>
+                
+                <div type="chapter">
+                    <head>4. Programmtechnische Umsetzung</head>
+                    <p>Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in<ref
+                            type="graphic" target="#berufsbezeichnungen_2022_002"> Abbildung 2</ref>
+                        zu sehen graphisch dargestellt werden. </p>
+                    <figure>
+                        <graphic xml:id="berufsbezeichnungen_2022_002"
+                            url=".../medien/berufsbezeichnungen_2021_002.png">
+                            <desc>
+                                <ref target="#abb2">Abb. 2</ref>: Algorithmus, dargestellt in einem
+                                Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022] <ref type="graphic"
+                                    target="#berufsbezeichnungen_2022_002"/>
+                            </desc>
+                        </graphic>
+                    </figure>
+                    <p>Zur Umsetzung des Algorithmus wird die Programmiersprache Python 3.7
+                        verwendet. Diese bietet den Vorteil, dass für die Datenbereinigung keine
+                        dritte Software genutzt wird, die ggf. Lizenzeinschränkungen mit sich
+                        bringen würde. Das Ergebnis ist öffentlich zugänglich und kann für weitere
+                        wissenschaftliche Arbeiten verwendet oder angepasst werden. Dazu ist der
+                        Quellcode im <ref target="http://www.">Online-Repositorium</ref> zu finden.
+                        Er enthält die Variante des Algorithmus, die das beste Ergebnis in Bezug auf
+                        das F1-Maß erbringt (siehe folgender <ref type="intern" target="#hd36"
+                            >Abschnitt 5</ref>).</p>
+                    <p>Das Programm ist in einzelne Funktionen gegliedert, welche im Folgenden
+                        vorgestellt werden, bevor das Zusammenwirken dieser erläutert wird. Die
+                        Vorstellung an dieser Stelle dient dazu, einen einfacheren Zugang zur
+                        Anpassung des Codes zu ermöglichen. Auf eine detaillierte Beschreibung der
+                        Funktionsweise wird an dieser Stelle verzichtet. Nähere Erläuterungen sind
+                        den Kommentaren im Programmcode zu entnehmen.</p>
+                    <p>Der <ref type="graphic" target="#berufsbezeichnungen_2022_003">Abbildung
+                            3</ref> ist der grundlegende Aufbau des Programms zu entnehmen. Die
+                        Pfeile zwischen den Funktionen deuten darauf hin aus welcher übergeordneten
+                        Funktion diese aufgerufen werden. In der <hi rend="italic"
+                        >main</hi>-Funktion werden zunächst relevante Dateien ausgewählt, die dann
+                        parallelisiert über die Funktion <code>preCreateOccuList</code> aufgerufen
+                        werden (spätere Iterationen über <code>createOccuList</code>). Jede
+                        GEDCOM-Datei wird darin über die Funktion <code>loadGedcomFile</code>
+                        aufgerufen. Danach wird die Funktion <code>createOccuList</code> aufgerufen,
+                        in welcher ein Aufruf einer Liste bisheriger Varianten durch die Funktion
+                            <code>loadData</code> stattfindet. Über die Funktion
+                            <code>createFile</code> werden Ausgabedateien initial erstellt.</p>
+                    <p>Mit der Funktion <code>occuCleaner</code> werden in der Funktion <term
+                            type="dh">createOccuList</term> die einzelnen Berufsangaben zunächst
+                        grundlegend bereinigt, die Schritte 1 bis 3 des Bereinigungsalgorithmus
+                        werden damit realisiert. Dazu werden Leerzeichen am Anfang und Ende entfernt
+                        und definierte Abkürzungen ausgeschrieben. Verschiedene Trennoperatoren
+                        werden zu ›und‹ normiert. Die Berufsangabe wird dann pro ›und‹ aufgespalten
+                        und in einzelne <term type="dh">Dictionaries</term> separiert. Die maximale
+                        Anzahl von Trennungen der Berufsangabe liegt hier bei 5. Dieser Separierung
+                        erfolgt in der Funktion <code>separator</code>.</p>
+                    <p>Zu jeder vorbereinigten Berufsangabe wird nun die Funktion
+                            <code>partCorrector</code> ausgeführt, dort wird der
+                        Bereinigungsalgorithmus ab Schritt 4 umgesetzt. Ziel dieser Funktion ist es,
+                        pro Angabe ein Dictionary zu erzeugen, in dem die verschiedenen Bestandteile
+                        der Angabe dokumentiert werden. Das Dictionary enthält Informationen zur
+                        Berufsangabe, die Lemmatisierung dieser zu der OhdAB, mögliche vom Beruf
+                        abzugrenzende Titel, Rollen oder Ortsangaben sowie Zeitangaben und URLs.
+                        Alles, was in keine dieser Kategorien einsortiert werden kann, wird als <hi
+                            rend="italic">Weiteres</hi> bezeichnet.</p>
+                    <p>Um die Klassifizierung nach der OhdAB vornehmen zu können, wird in der
+                        Funktion <code>dictSearch</code> eine vollständige Übereinstimmung mit der
+                        bereinigten Berufsangabe geprüft. Besteht keine vollständige
+                        Übereinstimmung, so wird mithilfe der Levenshtein-Distanz (Funktion
+                            <code>levenshteinDist</code>) die Ähnlichkeit zu den anderen Varianten
+                        überprüft. Die Variante mit dem geringsten Wert bei dem Verhältnis von
+                        Levenshtein-Distanz und Länge der zu untersuchenden Berufsbezeichnung, wird
+                        ausgewählt. Bei gleicher Distanz wird die Variante ausgewählt, die von vorne
+                        beginnend die meisten übereinstimmenden Buchstaben mit der zu
+                        lemmatisierenden Bezeichnung aufweist. Liegt der Wert der relativen
+                        Levenshtein-Distanz unter 0,25 wird eine Übereinstimmung angenommen. Die
+                        Liste der Varianten selbst wurde über die Funktion <code>loadData</code> als
+                        Liste von Dictionaries hochgeladen. Dieses erklärt den Namen der Funktion
+                            <code>dictSearch</code>.</p>
+                    <p>Die Ähnlichkeitsanalyse findet überwiegend in der Funktion
+                            <code>levenshteinDist</code> statt. Zur Auflösung von Abkürzungen wird
+                        zusätzlich die Funktion <code>abbreviationCorrector</code> verwendet. Um die
+                        Position bestimmter Teile in einem String zu ermitteln, wird die Funktion
+                            <code>endOfString</code> verwendet. Die Funktion <code>replaceLoc</code>
+                        hingehen dient der Separierung von Ortsbestandteilen aus der Bezeichnung.
+                        Der Zusammenhang der Funktionen ist in <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_003">Abbildung 3</ref>
+                        dargestellt.</p>
+                    <figure>
+                        <graphic xml:id="berufsbezeichnungen_2022_003"
+                            url=".../medien/berufsbezeichnungen_2021_003.png">
+                            <desc>
+                                <ref target="#abb3">Abb. 3</ref>: Zusammenhang der Funktionen.
+                                [Goldberg / Moeller 2022] <ref type="graphic"
+                                    target="#berufsbezeichnungen_2022_003"/>
+                            </desc>
+                        </graphic>
+                    </figure>
+                </div>
+                <div type="chapter">
+                    <head>5. Validierung und Diskussion</head>
+                    <p>Zur Validierung werden zunächst 3,3 Prozent der Dateien ausgewählt
+                        (Trainingsdaten). In den zufällig ausgewählten 95 Dateien finden sich
+                        insgesamt 1.840 Berufsangaben. Diese werden zur Festlegung der
+                        Levenshtein-Distanz-Grenzen verwendet. Die Reduzierung des Datenvolumens in
+                        diesem Schritt ist notwendig, da eine manuelle Überprüfung der Korrektheit
+                        der Klassifizierung aller Ergebnisse nur mit übermäßig viel Aufwand möglich
+                        wäre. Dabei wird zunächst geprüft, ob die absolute oder relative
+                        Levensthein-Distanz für den Algorithmus besser geeignet ist, und wie hoch
+                        der Grenzwert für eine Ähnlichkeitserkennung sein sollte. Anschließend daran
+                        wird geprüft, ob und wie die Abkürzungserkennung Einfluss auf das Ergebnis
+                        nimmt. Gleiches wird mit der erweiterten Bereinigung der Berufsangaben
+                        geschehen. Abschließend wird der Einfluss einer lernenden Komponente
+                        getestet, indem die neu erlernten Varianten in die Gesamtheit aller
+                        Varianten eingehen.</p>
+                    <p>Da es Ziel des Algorithmus ist, das F1-Maß zu maximieren, ist festzulegen ab
+                        welchem Grenzwert – genannt <hi rend="italic">Lev</hi>a (Levenshtein-Distanz
+                        absolut) und <hi rend="italic">Lev</hi>r (Levensthein-Distanz relativ) –
+                        eine Zuordnung zwischen Berufsangabe und Variante erfolgen soll. Da die
+                        Bewertung, ob eine Zuordnung falsch oder richtig ist, hier nur manuell
+                        geschehen kann, ist eine Schätzung der Grenzwerte auf Basis aller Daten sehr
+                        zeitaufwändig und mit zunehmender Anzahl von Daten auch mit einem
+                        abnehmenden Grenznutzen für die Güte das Parameters behaftet. Zudem macht
+                        bei der relativen Levenshtein-Distanz ein grob gerundeter Parameter in den
+                        meisten Fällen keinen Unterschied. Beispielsweise bei einer achtstelligen
+                        Berufsangabe steigt <hi rend="italic">Lev</hi>r bei jeder Erhöhung der
+                        jeweiligen Levenshtein-Distanz um 0,125 (ein Achtel). Ob der Grenzwert im
+                        Beispiel also bei 0,126 oder 0,249 liegt ist irrelevant. </p>
+                    <p>Zunächst zeigt die Durchführung einer Klassifikation mit der absoluten
+                        Levenshtein-Distanz mit einem Grenzwert von ≤ 1, ≤ 2 und ≤ 3 im Vergleich
+                        (siehe <ref type="graphic" target="#berufsbezeichnungen_2022_t3">Tabelle
+                            3</ref>), dass eine Distanz von 2 beziehungsweise 3 ein schlechteres
+                        Ergebnis in Bezug auf die Genauigkeit (P) erbringt. Dabei wird nur der
+                        Anteil der Berufsangaben in den Trainingsdaten herangezogen, die nicht durch
+                        einen genauen Treffer identifiziert werden, sodass nur die Berufsangaben
+                        übrigbleiben, bei denen die Ähnlichkeitserkennung einen Unterschied macht.
+                        Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den
+                        Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.<note type="footnote"> Da ein
+                            großer Teil des F1-Maß durch die direkte Erkennung bestimmt ist und die
+                            Ähnlichkeitsanalyse nur einen kleinen Anteil ausmacht, wird hier nur der
+                            Teil der Daten betrachtet, der den Unterschied determiniert.</note>
+                        Besonders deutlich wird die Ungenauigkeit bei einer absoluten
+                        Levenshtein-Distanz von 3, bei der lediglich etwa die Hälfte der
+                        Lemmatisierungen noch korrekt ist. Wenn jedoch angenommen wird, dass die
+                        Grundgesamtheit nur aus den 72 bei ≤ 3 erkannten Berufsangaben besteht, so
+                        kann ein F1-Wert berechnet werden. Hierbei ergibt sich ein maximaler Wert
+                        bei einer Levenshtein-Distanz von 2.</p>
+                    <table xml:id="berufsbezeichnungen_2022_t3">
+                        <row>
+                            <cell>Lev</cell>
+                            <cell>Anzahl</cell>
+                            <cell>Anteil</cell>
+                            <cell>TP</cell>
+                            <cell>FP</cell>
+                            <cell>P</cell>
+                            <cell>FN</cell>
+                            <cell>TN</cell>
+                            <cell>R</cell>
+                            <cell>F1</cell>
+                        </row>
+                        <row>
+                            <cell>≤ 1</cell>
+                            <cell>35</cell>
+                            <cell>1,88 %</cell>
+                            <cell>31</cell>
+                            <cell>4</cell>
+                            <cell>0,886</cell>
+                            <cell>7</cell>
+                            <cell>30</cell>
+                            <cell>0,816</cell>
+                            <cell>0,849</cell>
+                        </row>
+                        <row>
+                            <cell> ≤ 2 </cell>
+                            <cell>47</cell>
+                            <cell>2,53 %</cell>
+                            <cell>37</cell>
+                            <cell>9</cell>
+                            <cell>0,787</cell>
+                            <cell>1</cell>
+                            <cell>25</cell>
+                            <cell>0,974</cell>
+                            <cell>0,881</cell>
+                        </row>
+                        <row>
+                            <cell> ≤ 3 </cell>
+                            <cell>72</cell>
+                            <cell>3,87 %</cell>
+                            <cell>38</cell>
+                            <cell>34</cell>
+                            <cell>0,527</cell>
+                            <cell>0</cell>
+                            <cell>0</cell>
+                            <cell>1,000</cell>
+                            <cell>0,691</cell>
+                        </row>
+                        <trailer xml:id="tab03"><ref target="#tab3">Tab. 3</ref>: Klassifikation unser Variation
+                            der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller
+                            2022]</trailer>
+                    </table>
+
+                    <p>Bei einem Vergleich von verschiedenen Grenzwerten der relativen
+                        Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30
+                        die besten Ergebnisse erbringt (siehe <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_t4">Tabelle 4</ref>). Ein maximaler
+                        F1-Wert wird bei einer Grenze von <hi rend="italic">Lev</hi>r &lt; 0,30
+                        erzielt. Es zeigt sich zudem, dass die Genauigkeit (P) mit zunehmendem
+                        Grenzwert sinkt. Der Ausreißer der Genauigkeit bei &lt; 0,3 ist eher dadurch
+                        bedingt, dass durch den Schritt von &lt; 0,28 auf &lt; 0,30 zufällig zwei
+                        weitere Berufsangaben der Stichprobe positiv und korrekt lemmatisiert
+                        werden. Wird angenommen, dass die Grundgesamtheit nur aus den 57 bei &lt;
+                        0,4 erkannten Werten besteht, so kann ein F1-Wert berechnet werden. Gute
+                        Werte ergeben sich zwischen &lt; 0,2 und &lt; 0,3. Das Maximum des F1-Werts
+                        wird durch die beiden Ausreißer zwar bei &lt; 0,3 erreicht. In Hinblick auf
+                        das gute Ergebnis, das aber bereits bei &lt; 0,2 erreicht wird, wird für die
+                        folgende Verarbeitung ein Grenzwert von &lt; 0,25 ausgewählt.</p>
+                    <p>Dieses Vorgehen ist allerdings nur bei Bezeichnungen mit einer Mindestlänge
+                        sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung
+                        bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.<note
+                            type="footnote"> Allerdings existieren nur wenige Berufsbezeichnungen
+                            unter fünf Buchstaben.</note> Eine weitere (erwünschte) Eigenschaft ist,
+                        dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden
+                        sollten, keine Zuordnung geschieht, da die relative Levenshtein-Distanz dort
+                        oftmals sehr hoch ist. Ebenso sieht es bei einer falschen Verwendung des
+                        Felder aus (z. B. Eintragung einer Ortsangabe). Vorteilhaft ist dieses
+                        Vorgehen insbesondere bei geringfügig differierenden Schreibvarianten,
+                        ausgelassenen oder zu viel vorhandenen Buchstaben sowie
+                        Buchstabendrehern.</p>
+                    <table xml:id="berufsbezeichnungen_2022_t4">
+                        <row>
+                            <cell>Levr</cell>
+                            <cell>Anzahl</cell>
+                            <cell>Anteil</cell>
+                            <cell>TP</cell>
+                            <cell>FP</cell>
+                            <cell>P</cell>
+                            <cell>FN</cell>
+                            <cell>TN</cell>
+                            <cell>R</cell>
+                            <cell>F1</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,10</cell>
+                            <cell>10</cell>
+                            <cell>0,54 %</cell>
+                            <cell>10</cell>
+                            <cell>0</cell>
+                            <cell>1,000</cell>
+                            <cell>27</cell>
+                            <cell>20</cell>
+                            <cell>0,270</cell>
+                            <cell>0,426</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,20</cell>
+                            <cell>34</cell>
+                            <cell>1,85 %</cell>
+                            <cell>31</cell>
+                            <cell>3</cell>
+                            <cell>0,912</cell>
+                            <cell>6</cell>
+                            <cell>17</cell>
+                            <cell>0,837</cell>
+                            <cell>0,873</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0.25</cell>
+                            <cell>37</cell>
+                            <cell>2,01 %</cell>
+                            <cell>33</cell>
+                            <cell>4</cell>
+                            <cell>0,892</cell>
+                            <cell>4</cell>
+                            <cell>16</cell>
+                            <cell>0,891</cell>
+                            <cell>0,892</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,28</cell>
+                            <cell>39</cell>
+                            <cell>2,12 %</cell>
+                            <cell>33</cell>
+                            <cell>6</cell>
+                            <cell>0,846</cell>
+                            <cell>4</cell>
+                            <cell>14</cell>
+                            <cell>0,891</cell>
+                            <cell>0,868</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,30</cell>
+                            <cell>41</cell>
+                            <cell>2,23 %</cell>
+                            <cell>35</cell>
+                            <cell>6</cell>
+                            <cell>0,878</cell>
+                            <cell>2</cell>
+                            <cell>14</cell>
+                            <cell>0,946</cell>
+                            <cell>0,897</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,40</cell>
+                            <cell>57</cell>
+                            <cell>3,10 %</cell>
+                            <cell>37</cell>
+                            <cell>20</cell>
+                            <cell>0,649</cell>
+                            <cell>0</cell>
+                            <cell>0</cell>
+                            <cell>1,000</cell>
+                            <cell>0,787</cell>
+                        </row>
+                        <trailer xml:id="tab04"><ref target="#tab4">Tab. 4</ref>: Klassifikation unser Variation
+                            des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller
+                            2022]</trailer>
+                    </table>
+
+                    <p>Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute
+                        Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung
+                        definitionsgemäß mindestens die Anzahl der nicht vorhandenen, abgekürzten
+                        Buchstaben beträgt. Wird die Erkennung von Abkürzungen aktiviert, hat das
+                        auf die Trainingsdaten jedoch keine Auswirkung (getestet bei relativer
+                        Levenshtein-Distanz von &lt; 0,2). Wird stattdessen eine Stichprobe von
+                        jeder zehnten Datei genommen (statt zuvor jeder fünften Datei), wird im
+                        Versuch eine weitere Berufsangabe gefunden (hier wird die Berufsangabe
+                        ›Landwirtschaftliche Arbeiterin‹ der Variante ›Landwirtschaftl. Arbeiterin‹
+                        zugeordnet). Auch wenn solche Fälle (in den verwendeten Daten) nicht häufig
+                        vorkommen, so bleibt die Abkürzungserweiterung dennoch im Algorithmus, weil
+                        sie grundsätzlich die Güte des Ergebnisses verbessert.</p>
+                    <p>Um den Einfluss der erweiterten Bereinigung der Berufsangaben auf die Güte
+                        des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669
+                        Berufsangaben in 2.899 Dateien).<note type="footnote"> Das entspricht den
+                            Dateien, die nicht in den Trainingsdaten vorhanden sind.</note> Hier
+                        werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil
+                        vorrangig von Interesse ist, ob dadurch mehr Varianten gefunden werden. Bei
+                        einer Einbindung der Bereinigung können 64 Prozent der beruflichen
+                        Bezeichnungen direkt (ergo ohne Ähnlichkeitsanalyse) lemmatisiert und einer
+                        bestehenden Variante zugeordnet werden (siehe <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_t5">Tabelle 5</ref>). Das sind sieben
+                        Prozent mehr im Vergleich zu einem Durchlauf ohne diese Bereinigung. Bei den
+                        vergleichenden Bezeichnungen wird eine Ähnlichkeitsanalyse durchgeführt.
+                        Auch hier bringt die Bereinigung ein geringfügig besseres Ergebnis hervor
+                        (+0,22 Prozent Erkennung). Bei der Version mit Bereinigung bleiben 30
+                        Prozent der Angaben über, die nicht erkannt werden können. Ein geringer
+                        Prozentsatz leerer Bezeichnungen ist auch enthalten, in denen keine
+                        Information zu finden ist. Wie hier auch zu sehen ist, hat die
+                        Ähnlichkeitsanalyse nur eine geringe Auswirkung im Vergleich zur direkten
+                        Erkennung. Diese wird durch den Einsatz der Bereinigung maßgeblich erhöht
+                        und stellt deshalb ein sehr wichtiges Element des Algorithmus dar. </p>
+                    <table xml:id="berufsbezeichnungen_2022_t5">
+                        <row>
+                            <cell/>
+                            <cell>Direkt gefunden</cell>
+                            <cell>Ähnlichkeitsanalyse</cell>
+                            <cell>Nicht gefunden</cell>
+                            <cell>Leere Bezeichnungen</cell>
+                        </row>
+                        <row>
+                            <cell> mit Bereinigung (insgesamt 229.669 Angaben) </cell>
+                        </row>
+                        <row>
+                            <cell> Anzahl </cell>
+                            <cell> 147.781 </cell>
+                            <cell> 9.674 </cell>
+                            <cell> 68.955 </cell>
+                            <cell> 3.259 </cell>
+                        </row>
+                        <row>
+                            <cell> Anteil </cell>
+                            <cell> 64,35 % </cell>
+                            <cell> 4,21 % </cell>
+                            <cell> 30,02 % </cell>
+                            <cell> 1,42 % </cell>
+                        </row>
+                        <row>
+                            <cell> ohne Bereinigung (insgesamt 229.669 Angaben) </cell>
+                        </row>
+                        <row>
+                            <cell> Anzahl </cell>
+                            <cell> 131.064 </cell>
+                            <cell> 9.160 </cell>
+                            <cell> 86.344 </cell>
+                            <cell> 3.101 </cell>
+                        </row>
+                        <row>
+                            <cell> Anteil </cell>
+                            <cell> 57,07 % </cell>
+                            <cell> 3,99 % </cell>
+                            <cell> 37,59 % </cell>
+                            <cell> 1,35 % </cell>
+                        </row>
+                        <trailer xml:id="tab05"><ref target="#tab5">Tab. 5</ref>: Vergleich des Effektes der
+                            Bereinigung auf die Erkennung. [Goldberg / Moeller 2022]</trailer>
+                    </table>
+
+                    <p>Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese
+                        als Variante noch nicht existieren, in der Variantenliste ergänzt werden.
+                        Dieses kann auf zwei Arten geschehen: (1.) indem die neuen Treffer direkt
+                        nach Erkennung in die Menge der Varianten eingehen oder (2.) alle nicht
+                        erkannten Bezeichnungen im Anschluss nochmals mit allen neuen Varianten
+                        abgeglichen werden. Letzteres kann in mehreren Iterationen durchgeführt
+                        werden. Hierbei zeigt sich, dass die nachfolgende, zweifach-iterative
+                        Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die
+                        kontinuierliche Ergänzung (siehe <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_t6">Tabelle 6</ref>).<note
+                            type="footnote"> Von den durch die Ähnlichkeitsanalyse erkannten Daten
+                            werden 100 zufällige Werte manuell überprüft. Durch diese wird auf die
+                            Rate an TP- und FP-Werte geschlossen. Um einen F1-Wert zu berechnen ist
+                            zusätzlich die Anzahl von FN-Werten notwendig. Wie bereits zuvor wird
+                            dabei von der maximalen Anzahl erkannter Angaben ausgegangen (hier bei
+                            der zweifachen Iteration).</note> Zwar kann bei dieser Option eine
+                        niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl
+                        zusätzlich erkannter Angaben für eine Steigerung des F1-Wertes. Es ist
+                        anzunehmen, dass eine hohe FP-Rate bei den Iterationen der
+                        Ähnlichkeitserkennung tendenziell zu einer Fortführung von Fehlern führen
+                        kann, weswegen viele zusätzliche Iterationen nicht sinnvoll erscheinen.</p>
+                    <p>Dabei ist zudem anzunehmen, dass der Lerneffekt größer ist, je mehr
+                        Berufsangaben verarbeitet werden, da die Chance steigen könnte, dass eine
+                        ähnliche Bezeichnung auftritt. Bei einem exemplarischen Durchlauf mit jeder
+                        zehnten Datei wird noch keine zusätzliche Erkennung erreicht. Auch bei einer
+                        Verarbeitung mit allen Daten werden nur weitere 0,01 Prozent der
+                        Berufsangaben dadurch zusätzlich lemmatisiert. Dieser geringe Wert ist
+                        darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den
+                        zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen
+                        Halbierung der ursprünglichen Varianten steigt der Anteil der so zusätzlich
+                        erkannten Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01
+                        Prozent). Werden diese lemmatisierten Varianten in einem zweiten Durchlauf
+                        zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen
+                        lemmatisiert werden. Die TP-Rate jedoch ist etwas niedriger.</p>
+                    <table xml:id="berufsbezeichnungen_2022_t6">
+                        <row>
+                            <cell>Verfahren</cell>
+                            <cell>Anzahl</cell>
+                            <cell>Anteil</cell>
+                            <cell>Rate of TP in %</cell>
+                            <cell>Rate of FP in %</cell>
+                            <cell>P</cell>
+                            <cell>FN</cell>
+                            <cell>R</cell>
+                            <cell>F1</cell>
+                        </row>
+                        <row>
+                            <cell>Analyse mit sämtlichen ursprünglichen Varianten</cell>
+                        </row>
+                        <row>
+                            <cell>Ohne Lernen</cell>
+                            <cell> 9.674 </cell>
+                            <cell> 4,21 % </cell>
+                            <cell>88</cell>
+                            <cell>12</cell>
+                            <cell> 0.88 </cell>
+                            <cell> 5.943 </cell>
+                            <cell> 0,59 </cell>
+                            <cell> 0,71 </cell>
+                        </row>
+                        <row>
+                            <cell>Kontinuierlich lernen (4x Multiprocessing<note type="footnote">
+                                    Hierfür wurde die Parallelisierung mit vier Prozessorkernen
+                                    verschiedenen Strängen ausgeführt. Das hat die Auswirkung, dass
+                                    die Erkennung in einem Strang auf einen parallel ausgeführten
+                                    keine Auswirkung hat (bei einer nachfolgenden Ausführung sich
+                                    ggf. aber ausgewirkt hätte).</note>)</cell>
+                            <cell> 10.128 </cell>
+                            <cell> 4,41 % </cell>
+                            <cell>86</cell>
+                            <cell>14</cell>
+                            <cell> 0.86 </cell>
+                            <cell> 5.489 </cell>
+                            <cell> 0,61 </cell>
+                            <cell> 0,71 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (1x)</cell>
+                            <cell> 11.185 </cell>
+                            <cell> 4,87 % </cell>
+                            <cell>83</cell>
+                            <cell>17</cell>
+                            <cell> 0.83 </cell>
+                            <cell> 4.432 </cell>
+                            <cell> 0,68 </cell>
+                            <cell> 0,75 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (2x)</cell>
+                            <cell> 15.617 </cell>
+                            <cell> 6,80 % </cell>
+                            <cell>83</cell>
+                            <cell>17</cell>
+                            <cell> 0.83 </cell>
+                            <cell> 0 </cell>
+                            <cell> 1,00 </cell>
+                            <cell> 0,91 </cell>
+                        </row>
+                        <row>
+                            <cell>Analyse unter zufälliger Halbierung der ursprünglichen
+                                Varianten</cell>
+                        </row>
+                        <row>
+                            <cell>Ohne Lernen</cell>
+                            <cell> 27.583 </cell>
+                            <cell> 12,01 % </cell>
+                            <cell>80</cell>
+                            <cell>20</cell>
+                            <cell>0,80</cell>
+                            <cell> 6.086 </cell>
+                            <cell> 0,78 </cell>
+                            <cell> 0,79 </cell>
+                        </row>
+                        <row>
+                            <cell>Kontinuierlich lernen (4x Multiprocessing)</cell>
+                            <cell> 27.882 </cell>
+                            <cell> 12,14 % </cell>
+                            <cell>86</cell>
+                            <cell>14</cell>
+                            <cell>0,86</cell>
+                            <cell> 5.787 </cell>
+                            <cell> 0,81 </cell>
+                            <cell> 0,83 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (1x)</cell>
+                            <cell> 32.774 </cell>
+                            <cell> 14,27 % </cell>
+                            <cell>76</cell>
+                            <cell>24</cell>
+                            <cell>0,76</cell>
+                            <cell> 895 </cell>
+                            <cell> 0,97 </cell>
+                            <cell> 0,85 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (2x)</cell>
+                            <cell> 33.669 </cell>
+                            <cell> 14,66 % </cell>
+                            <cell>83</cell>
+                            <cell>17</cell>
+                            <cell>0,83</cell>
+                            <cell> 0 </cell>
+                            <cell> 1,00 </cell>
+                            <cell> 0,91 </cell>
+                        </row>
+                        <trailer xml:id="tab06"><ref target="#tab6">Tab. 6</ref>: Vergleich der
+                            Ähnlichkeitsanalyse unter Variation des maschinellen Lernens und unter
+                            Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg /
+                            Moeller 2022]</trailer>
+                    </table>
+
+                    <p>Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der
+                        Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger
+                        Berufsangaben geboten. Insgesamt wird das F1-Maß optimiert, wenn eine
+                        relative Levenshtein-Distanz gewählt wird, Abkürzungen erweitert werden,
+                        eine Bereinigung stattfindet und erlernte neue Varianten im Anschluss
+                        nochmal mit allen Daten verglichen werden, die nicht lemmatisiert werden
+                        konnten. Ohne die Halbierung der Varianten, unter Herausrechnung der leeren
+                        Berufsangaben und mit doppelter Iteration des maschinellen Lernens wird eine
+                        Erkennungsrate von 72,17 Prozent erzielt (65,27 Prozent direkt und 6,90
+                        Prozent über die Ähnlichkeitsanalyse). Die Halbierung der Varianten erhöht
+                        zwar den Anteil der über die Ähnlichkeitsanalyse erkannten Angaben,
+                        verringert jedoch die Zahl der direkt gefundenen Treffer. Herausfordernd ist
+                        für den Algorithmus vor allem auch, dass die GEDBAS-Daten sehr schwierig zu
+                        klassifizieren sind, weil eben nicht nur einfache Berufe angegeben werden.
+                        Es ist anzunehmen, dass mit qualitativ hochwertigeren Berufsangaben die
+                        Erkennung noch besser funktionieren würde, sodass hier ein grober Wert von
+                        72 Prozent Erkennungsrate für diesen Algorithmus angegeben wird. Die Angabe,
+                        dass 98 Prozent der erkannten Werte auch korrekt sind, basiert darauf, dass
+                        alle direkt erkannten Werte als richtig bewertet werden. Zudem zeigt <ref
+                            type="graphic" target="#Abbildungslink">Tabelle 6</ref>, dass bei der
+                        angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17
+                        Prozent zu rechnen ist. Daraus ergibt sich eine FP-Rate von etwa 98
+                            Prozent.<note type="footnote"> Berechnung der FP-Rate:
+                            (65,27*1+6,90*0,83) / (65,27+6,90) = 0.98.</note> Zudem ist es durch den
+                        Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung
+                        des Berufs zu separieren. Der Algorithmus ist offen zugänglich und wird
+                        damit der Community zur Weiternutzung zur Verfügung gestellt. Es ist
+                        wünschenswert, dass er auch in anderen Anwendungen implementiert und stetig
+                        verbessert wird.</p>
+                </div>
+                <div type="chapter">
+                    <head>6. Zusammenfassung</head>
+                    <p>Variationen einer Berufsbezeichnung können in der vorgestellten Weise
+                        automatisiert einem normierten Beruf zugewiesen werden. Das ermöglicht
+                        insbesondere der wirtschafts- und sozialhistorischen Forschung eine schnelle
+                        Klassifizierung großer Datenbestände, die für eine Vielzahl weiterer
+                        Anwendungen bereitsteht. Der entwickelte Algorithmus stellt eine Methode
+                        dar, mit der eine automatisierte Klassifizierung von historischen Standes-
+                        und Berufsangaben in einer hohen Güte vorgenommen werden kann: Von etwa
+                        230.000 getesteten Berufsangaben aus der genealogischen Datenbank GEDBAS
+                        konnten rund 72 Prozent einem Beruf zugeordnet werden, wovon der wesentliche
+                        Teil von 98 Prozent auch korrekt ist. Dieses wird ermöglicht durch: </p>
+                    <list type="ordered">
+                        <item> die Implementierung einer Bereinigung der Berufsangabe</item>
+                        <item> eine Ähnlichkeitsanalyse zu bereits klassifizierten
+                            Schreibvarianten</item>
+                        <item> die Implementierung einer Erweiterung von Abkürzungen und</item>
+                        <item> eine Möglichkeit des überwachten maschinellen Lernens auf Basis der
+                            Treffer aus der Ähnlichkeitsanalyse </item>
+                    </list>
+                    <p>Jedes dieser Elemente führt zu einer Verbesserung des Ergebnisses. Das ist
+                        vor dem Hintergrund vieler fremdsprachlicher Bezeichnungen sowie einer sehr
+                        individuellen Eintragung der Berufsangaben in den GEDBAS-Daten ein
+                        zufriedenstellendes Ergebnis.</p>
+                    <p>Dadurch, dass die Lemmatisierung auf den Daten der OhdAB aufbaut, der das
+                        Klassifizierungssystem KldB 2010 zugrunde liegt, ist sie besonders für das
+                        deutschsprachige Umfeld von Berufsbezeichnungen seit dem 16. / 17.
+                        Jahrhundert geeignet. Nach der Standardisierung mit der OhdAB sind zudem
+                        transparent abbildbare Neuansetzungen zeitspezifischer Klassifikationen
+                        möglich. Der Algorithmus kann jedoch auch als Ausgangspunkt genutzt werden,
+                        um ihn auf andere Sprachen anzupassen. Für die Begriffe der KldB 2010
+                        existiert beispielsweise eine englische Übersetzung. Wenigstens auf der
+                        Ebene der Klassifikation würden vermutlich gute Ergebnisse produziert werden
+                        können. Herausforderungen liegen hierbei eher in der Schaffung der
+                        grundlegenden Datenbasis für die Indivdualbezeichnungen (Varianten) der
+                        Berufe. Neben der Einbindung der nicht-deutschsprachigen Varianten ist auch
+                        hier eine Anpassung der Anomalien im Algorithmus von großer Relevanz.
+                        Möglicherweise ergibt eine Abgrenzung einzelner Sprachen Sinn, damit keine
+                        ungewollten Übereinstimmungen in einem sprachenübergreifenden Programm
+                        auftreten.</p>
+                    <p>Aber auch bei der Anwendung an deutschsprachigen Berufsangaben kann eine
+                        Anpassung des Programms helfen: Besondere Anomalien in den zu
+                        klassifizierenden Daten (z. B. spezifische Abkürzungen) können die Qualität
+                        des Ergebnisses für eine spezifische Anwendung verbessern. Des Weiteren
+                        können zusätzliche Verfahren der Berufsklassifizierung integriert werden (z.
+                        B. HISCO). Für den Algorithmus ist es allerdings von Vorteil, möglichst
+                        viele Variationen der Schreibweisen eines Berufes in dem jeweiligen System
+                        bereits klassifiziert zu haben. Zudem ist es denkbar, den Algorithmus nicht
+                        nur auf zuvor separierte Berufsangaben anzuwenden, sondern dahingehend zu
+                        erweitern, Berufsangaben in Fließtexten zu erkennen und auszulesen. Denkbar
+                        ist eine Einbindung von OhdAB in Verfahren der <term type="dh">Named Entity
+                            Recognition</term>, die auf Vokabularen aufsetzen.</p>
+                </div>
+                <div>
+                    <div type="bibliography">
+                        <head>Bibliographische Angaben</head>
+                        <listBibl>
+                            <bibl xml:id="boehmen_anleitung_1790">Adam Friedrich Böhmen: Anleitung wie Kirchenbücher
+                                zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [<ref
+                                    target="http://www.mdz-nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:bvb:12-bsb11048517-2"
+                                    >online</ref>] <ptr type="gbv" cRef="1087644690"/></bibl>
+                            <bibl xml:id="bfa_klassifikationarbeit_2021">Klassifikationen der Berufe -
+                                Statistik der Bundesagentur für Arbeit. Hg. von Bundesagentur für Arbeit. Nürnberg 2021. [<ref
+                                    target="https://statistik.arbeitsagentur.de/DE/Navigation/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/Klassifikation-der-Berufe-Nav.html;jsessionid=1CC3151B58003ECC1454B07B916E2756"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="bfa_klassifikationberufe_2011">Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit.
+                                Nürnberg 2010. Bd 1 (2011): Systematischer und alphabetischer Teil
+                                mit Erläuterungen. <ptr type="gbv" cRef="668098619"/></bibl>
+                            <bibl xml:id="christen_quality_2007">Peter Christen / Karl Goiser: Quality and Complexity
+                                Measures for Data Linkage and Deduplication. In: Quality Measures in
+                                Data Mining. Hg. von Fabrice Guilett / Howard J. Hamilton. Berlin
+                                2007, S. 127–151. <ptr type="gbv" cRef="516449192"/></bibl>
+                            <bibl xml:id="church_gedcom_2019">Church of Jesus Christ of Latter-day Saints: The GEDCOM
+                                Standard. Release 5.5.1. 2019. </bibl>
+                            <bibl xml:id="cosca_standard_2010">Theresa Cosca / Alissa Emmel: Revising the Standard
+                                Occupational Classification system for 2010. In: Monthly labor
+                                review 133 (2010), S. 32–41. PDF. [<ref
+                                    target="https://www.bls.gov/opub/mlr/2010/08/art3full.pdf"
+                                    >online</ref>] <ptr type="gbv" cRef="320603628"/></bibl>
+                            <bibl xml:id="djumalieva_occupations_2018">Jyldyz Djumalieva / Antonio Lima / Cath Sleeman:
+                                Classifying Occupations According to Their Skill Requirements in Job
+                                Advertisements. 2018. [<ref
+                                    target="https://ideas.repec.org/p/nsr/escoed/escoe-dp-2018-04.html"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="dunn_language_2015">Michael Dunn: Language phylogenies. In: The Routledge
+                                Handbook of Historical Linguistics. Hg. von Claire Louise Bowern /
+                                Bethwyn Evans. London u. a. 2015, S. 190–192. <ptr
+                                    type="gbv" cRef="773686274"/></bibl>
+                            <bibl xml:id="fawcett_introduction_2006">Tom Fawcett: An introduction to ROC analysis. In:
+                                Pattern Recognition Letters. In: ROC Analysis in Pattern Recognition
+                                27 (2006), H. 8, S. 861–874. <ptr type="gbv" cRef="129161756"
+                                /></bibl>
+                            <bibl xml:id="gellatly_populations_2015">Corry Gellatly: Reconstructing Historical Populations
+                                from Genealogical Data Files. In: Population Reconstruction. Hg. von
+                                Gerrit Bloothooft et al. Cham 2015, S. 111–128. <ptr
+                                    type="gbv" cRef="833549804"/></bibl>
+                            <bibl xml:id="glueck_metzler_2000">Metzler Lexikon Sprache. Hg. von Helmut Glück. 2.,
+                                überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. <ptr
+                                    type="gbv" cRef="271728906"/></bibl>
+                            <bibl xml:id="gweon_methods_2017">Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek /
+                                Michael Blohm / Stefan Steiner: Three Methods for Occupation Coding
+                                Based on Statistical Learning. In: Journal of Official Statistics 33
+                                (2017), H. 1, S. 101–122. DOI:<ref
+                                    target="https://doi.org/10.1515/jos-2017-0006"
+                                    >10.1515/jos-2017-0006</ref> <ptr type="gbv" cRef="130422746"
+                                /></bibl>
+                            <bibl xml:id="harviainen_genealogy_2018">J. Tuomas Harviainen / Bo-Christer Björk: Genealogy,
+                                GEDCOM, and popularity implications. In: Informaatiotutkimus 37
+                                (2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: <ref
+                                    target="https://doi.org/10.23978/inf.76066"
+                                    >10.23978/inf.76066</ref> <ptr type="gbv" cRef="366701630"
+                                /></bibl>
+                            <bibl xml:id="hinschius_gesetz_1874">Paul Hinschius: Das preußische Gesetz über die
+                                Beurkundung des Personenstandes und die Form der Eheschließung vom
+                                9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. <ptr
+                                        type="gbv" cRef="305819348"/></bibl>
+                            <bibl xml:id="ilo_iso_2021">ISCO - International Standard Classification of
+                                Occupations. Hg. von ILO. Genf 2021. [<ref
+                                    target="https://www.ilo.org/public/english/bureau/stat/isco/"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="iish_history_2020">1306 records
+                                in total. Hg. von International Institute of Social History. In: History of Work Information System. Leuven 2020. [<ref
+                                    target="https://historyofwork.iisg.nl/list_hiswi.php"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="kocka_geschichte_2000">Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte
+                                und Zukunft der Arbeit. (Konferenz, Berlin, 04.–06.03.1999)
+                                Frankfurt/Main 2000. <ptr type="gbv" cRef="310160650"/></bibl>
+                            <bibl xml:id="kohli_institutionalisierung_1985">Martin Kohli: Die Institutionalisierung des Lebenslaufs.
+                                Historische Befunde und theoretische Argumente. In: Kölner
+                                Zeitschrift für Soziologie und Sozialpsychologie 37 (1985), H. 1, S.
+                                1–29. <ptr type="gbv" cRef="129473812"/></bibl>
+                            <bibl xml:id="krause_entwurf_2012">Thomas Krause: Entwurf und Implementierung einer
+                                effizienten Dublettenerkennung für große Adressbestände. Köln 2012.
+                                URN: <ref
+                                    target="https://nbn-resolving.org/urn:nbn:de:hbz:832-epub-3667"
+                                    >urn:nbn:de:hbz:832-epub-3667</ref></bibl>
+                            <bibl xml:id="leeuwen_history_2002">Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles:
+                                History Of Work Information System. In: HISCO. Historical
+                                International Standard Classification of Occupations. Hg. von IISH /
+                                Antenna. Leuven 2002. [<ref target="https://historyofwork.iisg.nl/"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="levenstejn_codes_1966">Vladimir Iosifovič Levenštejn: Binary Codes Capable of
+                                Correcting Deletions, Insertations, and Reversals. In: Soviet
+                                Physics- Doklady 10 (1966), S. 707–710. <ptr type="gbv"
+                                    cRef="129482234"/></bibl>
+                            <bibl xml:id="moeller_standards_2019">Katrin Moeller: Standards für die
+                                Geschichtswissenschaft! Zu differenzierten Funktionen von Normdaten,
+                                Standards und Klassifikationen für die Geisteswissenschaften am
+                                Beispiel von Berufsklassifikationen. In: Aufklärungsforschung
+                                digital. Konzepte, Methoden, Perspektiven. Hg. von Jana Kittelmann /
+                                Anne Purschwitz. Halle 2019, S. 17–43. <ptr type="gbv"
+                                    cRef="1666792950"/></bibl>
+                            <bibl xml:id="moeller_ontologie_2020">Katrin Moeller / Andreas Müller / Robert Nasarek:
+                                Ontologie historischer, deutschsprachiger Berufs- und
+                                Amtsbezeichnungen. In:
+                                geschichte.uni-halle.de/struktur/hist-data/ontologie/. Hg. von
+                                Historischen Datenzentrums Sachsen-Anhalt. Halle 2020. Beitrag vom
+                                25.11.2020. [<ref
+                                    target="https://www.geschichte.uni-halle.de/struktur/hist-data/ontologie/"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="mueller_problems_2003">Heiko Müller / Johann-Christoph Freytag: Problems,
+                                Methods, and Challenges in Comprehensive Data Cleansing. Berlin
+                                2003. <ptr type="gbv" cRef="496492772"/></bibl>
+                            <bibl xml:id="paulus_klassifikation_2013">Wiebke Paulus / Britta Matthes: Klassifikation der
+                                Berufe 2010 – Struktur, Codierung und Umsteigeschlüssel. In:
+                                FDZ-Methodenreport. Hg. von Forschungsdatenzentrum (FDZ) der
+                                Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und
+                                Berufsforschung. Nürnberg 2013. [<ref
+                                    target="https://fdz.iab.de/187/section.aspx/Publikation/k131014a03"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="piotrowski_language_2012">Michael Piotrowski: Natural Language Processing for
+                                Historical Texts. In: Synthesis Lectures on Human Language
+                                Technologies 5 (2012), H. 2, S. 1–157. <ptr type="gbv"
+                                    cRef="616519060"/></bibl>
+                            <bibl xml:id="rham_data_2000">Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and
+                                Current Approaches. In: Bulletin of the Technical Committee on Data
+                                Engineering 23 (2000), H. 4, S. 3–13. URN: <ref
+                                    target="http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa2-329680"
+                                    >urn:nbn:de:bsz:15-qucosa2-329680</ref>
+                                </bibl>
+                            <bibl xml:id="schaefer_novellierung_2006">Udo Schäfer: Die Novellierung des
+                                Personenstandsgesetzes. In: Archive, Familienforschung und
+                                Geschichtswissenschaft: Annäherungen und Aufgaben. Hg. von Bettina
+                                Joergens / Christian Reinicke. Düsseldorf 2006, S. 122–136.
+                                <ptr type="gbv" cRef="519807499"/></bibl>
+                            <bibl xml:id="schueren_mobilitaet_1989">Reinhard Schüren: Soziale Mobilität. Muster,
+                                Veränderungen und Bedingungen im 19. und 20. Jahrhundert. St.
+                                Katharinen 1989. <ptr type="gbv" cRef="022321942"/></bibl>
+                            <bibl xml:id="thesaurus_professionum_2021">Thesaurus Professionum. In:
+                                online.uni-marburg.de/fpmr/thepro/rs.php. Hg. von Universität
+                                Marburg: Forschungsstelle für Personalschriften an der
+                                Philipps-Universität Marburg. Marburg 2021. [<ref
+                                    target="https://www.online.uni-marburg.de/fpmr/thepro/rs.php"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="gebdas_statistics_2021">GEDBAS: Statistics. In:
+                                gedbas.genealogy.net/statistic/index. Hg. von Verein für
+                                Computergenealogie e. V. Köln 2021. [<ref
+                                    target="https://gedbas.genealogy.net/statistic/index"
+                                    >online</ref>]</bibl>
+                        </listBibl>
+                    </div>
+                    <div type="abbildungsnachweis">
+                        <head>Abbildungs- und Tabellenverzeichnis</head>
+                        <desc type="table" xml:id="tab1"><ref type="intern" target="#tab01">Tab. 1</ref>:
+                            Konfusionsmatrix zur Klassifikation in Anlehnung an Fawcett 2006.
+                            [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t1"/></desc>
+
+                        <desc type="table" xml:id="tab2"><ref type="intern" target="#tab02">Tab. 2</ref>:
+                            Nummernsystem der KldB 2010 / OhdAB am Beispiel des Berufes Bäcker. [Goldberg /
+                            Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_t2"
+                            /></desc>
+
+                        <desc type="graphic" xml:id="abb1">Begriffe und Zusammenhänge des
+                            Algorithmus. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_001"/></desc>
+
+                        <desc type="graphic" xml:id="abb2">Algorithmus, dargestellt in einem
+                            Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_002"/></desc>
+
+                        <desc type="graphic" xml:id="abb3">Zusammenhang der Funktionen. [Goldberg /
+                            Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_003"
+                            /></desc>
+
+                        <desc type="table" xml:id="tab3"><ref type="intern" target="#tab03">Tab. 3</ref>:
+                            Klassifikation unser Variation der Levenshtein-Distanz als Grenzwert.
+                            [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t3"/></desc>
+
+                        <desc type="table" xml:id="tab4"><ref type="intern" target="#tab04">Tab. 4</ref>:
+                            Klassifikation unser Variation des Grenzwerts einer relativen
+                            Levenshtein-Distanz. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t4"/></desc>
+
+                        <desc type="table" xml:id="tab5"><ref type="intern" target="#tab05">Tab. 5</ref>:
+                            Vergleich des Effektes der Bereinigung auf die Erkennung. [Goldberg /
+                            Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_t5"
+                            /></desc>
+
+                        <desc type="table" xml:id="tab6"><ref type="intern" target="#tab06">Tab. 6</ref>:
+                            Vergleich der Ähnlichkeitsanalyse unter Variation des maschinellen
+                            Lernens und unter Halbierung der zugrundeliegenden Berufsvarianten der
+                            OhdAB. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t6"/></desc>
+
+                    </div>
+                </div>
+            </div>     
+        </body>
+    </text>
+</TEI>