diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png
new file mode 100644
index 0000000000000000000000000000000000000000..7252069a566ef45bea7208dc01619488a8996319
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png
new file mode 100644
index 0000000000000000000000000000000000000000..e20f304e392c6d43340081d26a59ff7b46899a31
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png
new file mode 100644
index 0000000000000000000000000000000000000000..f60b063717197e01c652841800c7018cbd67aa59
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..c533794516002b23e170450491e758625f597ea2
Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf differ
diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml
new file mode 100644
index 0000000000000000000000000000000000000000..09e7e443be49bbfa5a38092efc0be0090ce7dfc8
--- /dev/null
+++ b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml
@@ -0,0 +1,2148 @@
+<?xml version="1.0" encoding="utf-8"?>
+<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax"
+    ?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html"
+    xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink"
+    xmlns:xhtml="http://www.w3.org/1999/xhtml">
+    <teiHeader>
+        <fileDesc>
+            <titleStmt>
+                <title>
+                    <biblStruct>
+                        <analytic>
+                            <title level="a">Automatisierte Indentifikation und Lemmatisierung
+                                historischer Berufsbezeichnungen in deutschsprachigen
+                                DatenbestÃ¤nden</title>
+                            <respStmt>
+                                <resp>
+                                    <persName>
+                                        <name role="marc_aut">
+                                            <forename>Jan Michael</forename>
+                                            <surname>Goldberg</surname>
+                                        </name>
+                                        <email>jan.goldberg@wiwi.uni-halle.de</email>
+                                        <idno type="gnd">1240406630</idno>
+                                        <idno type="orcid">0000-0002-4817-4283</idno>
+                                    </persName>
+                                </resp>
+                                <orgName>Martin-Luther-UniversitÃ¤t Halle Wittenberg, Lehrstuhl fÃ¼r
+                                    empirische MakroÃ¶konomik</orgName>
+                            </respStmt>
+                            <respStmt>
+                                <resp>
+                                    <persName>
+                                        <name role="marc_aut">
+                                            <forename>Katrin</forename>
+                                            <surname>Moeller</surname>
+                                        </name>
+                                        <email>katrin.moeller@geschichte.uni-halle.de</email>
+                                        <idno type="gnd">133366367</idno>
+                                        <idno type="orcid">0000-0003-4090-5667</idno>
+                                    </persName>
+                                </resp>
+                                <orgName>Martin-Luther-UniversitÃ¤t Halle Wittenberg, Historisches
+                                    Datenzentrum Sachsen-Anhalt, Institut fÃ¼r Geschichte</orgName>
+                            </respStmt>
+                            <idno type="doi">10.17175/2022_002</idno>
+                            <idno type="ppn">1760213403</idno>
+                            <idno type="zfdg">2022_002</idno>
+                            <idno type="url">https://www.zfdg.de/node/318</idno>
+                            <date when="2022-03-08">08.03.2022</date>
+                        </analytic>
+                        <monogr>
+                            <title level="j">Zeitschrift fÃ¼r digitale Geisteswissenschaften</title>
+                            <respStmt>
+                                <resp>Publiziert von</resp>
+                                <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
+                            </respStmt>
+                            <respStmt>
+                                <resp>Transformation der Word Vorlage nach TEI</resp>
+                                <persName/>
+                                <name role="marc_trc">
+                                    <surname>Baumgarten</surname>
+                                    <forename>Marcus</forename>
+                                    <idno type="gnd">1192832655</idno>
+                                </name>
+                            </respStmt>
+                            <availability status="free">
+                                <p>Available at <ref target="https://www.zfdg.de"
+                                        >https://www.zfdg.de</ref>
+                                </p>
+                            </availability>
+                            <biblScope unit="year">2022</biblScope>
+                            <biblScope unit="artikel">0d</biblScope>
+                        </monogr>
+                    </biblStruct>
+                </title>
+            </titleStmt>
+            <editionStmt>
+                <edition>Elektronische Ausgabe nach TEI P5</edition>
+            </editionStmt>
+            <publicationStmt>
+                <distributor>
+                    <name>
+                        <orgName>Herzog August Bibliothek WolfenbÃ¼ttel</orgName>
+                    </name>
+                </distributor>
+                <idno type="doi">10.17175/zfdg.01</idno>
+                <idno type="ppn">0819494402</idno>
+                <authority>
+                    <name>Herzog August Bibliothek</name>
+                    <address>
+                        <addrLine>Lessingplatz 1</addrLine>
+                        <addrLine>38304 WolfenbÃ¼ttel</addrLine>
+                    </address>
+                </authority>
+                <authority>
+                    <name>Forschungsverbund Marbach Weimar WolfenbÃ¼ttel</name>
+                    <address>
+                        <addrLine>Burgplatz 4</addrLine>
+                        <addrLine>99423 Weimar </addrLine>
+                    </address>
+                </authority>
+                <availability status="free">
+                    <p> Sofern nicht anders angegeben </p>
+                    <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA
+                        4.0</licence>
+                </availability>
+                <availability status="free">
+                    <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund
+                            MWW</ref>
+                    </p>
+                </availability>
+            </publicationStmt>
+            <sourceDesc>
+                <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
+            </sourceDesc>
+        </fileDesc>
+        <encodingDesc>
+            <editorialDecl>
+                <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
+                    XSLT-Skripten</p>
+            </editorialDecl>
+            <editorialDecl>
+                <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von
+                        <persName>Martin Wiegand</persName>.</p>
+                <p>Medienrechte liegen bei den Autor*innen</p>
+                <p>All links checked<date when="2022">07.03.2022</date>
+                </p>
+            </editorialDecl>
+        </encodingDesc>
+        <profileDesc>
+            <creation>Einreichung als Artikel der Zeitschrift fÃ¼r digitale
+                Geisteswissenschaften</creation>
+            <langUsage>
+                <language ident="de">Text in Deutsch</language>
+                <language ident="de">Abstract in Deutsch</language>
+                <language ident="en">Abstract in Englisch</language>
+            </langUsage>
+            <textClass>
+                <keywords scheme="gnd">
+                    <term>Informations- und  Dokumentationswissenschaft<ref target="4128313-2"/></term>
+                    <term>Berufsforschung<ref target="4144778-5"/></term>
+                    <term>Maschinelles Lernen<ref target="4193754-5"/></term>
+                    <term>Automatische Klassifikation<ref target="4120957-6"/></term>
+                    <term>Standardisierung<ref target="4056914-7"/></term>
+                </keywords>
+            </textClass>
+        </profileDesc>
+        <revisionDesc>
+            <change/>
+        </revisionDesc>
+    </teiHeader>
+    <text>
+        <body>
+            <div>
+                <div type="abstract">
+                    <argument xml:lang="de">
+                        <p>Berufsangaben kommen in vielen historischen Quellen vor. FÃ¼r eine
+                            Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung,
+                            sondern vor allem Klassifikation eine zentrale Voraussetzung zur
+                            Analyse. Dabei wird die Zuordnung von Schreibvarianten zu bereits
+                            definierten Gattungsnamen von Berufen in diesem Artikel als
+                            Lemmatisierung beziehungsweise Normierung bezeichnet, die Zuordnung der
+                            normalisierten Schreibweise zu einem Ordnungssystem als Klassifikation.
+                            Um hierbei manuellen Aufwand zu verringern, wird ein Algorithmus zur
+                            automatisierten Lemmatisierung historischer, deutschsprachiger
+                            Berufsangaben entwickelt. Das beste Ergebnis wird dabei mit einem Ansatz
+                            Ã¼berwachten maschinellen Lernens erzielt. Insgesamt kÃ¶nnen etwa 72
+                            Prozent der Berufsangaben lemmatisiert werden, etwa 98 Prozent dieser
+                            Zuordnungen sind korrekt.</p>
+                    </argument>
+                </div>
+                <div type="abstract">
+                    <argument xml:lang="en">
+                        <p>Occupational information occurs in many historical sources. For a large
+                            number of research areas, not only standardization, but above all
+                            classification of these is a central prerequisite for analysis. In this
+                            article, the assignment of spelling variants to already defined generic
+                            names of occupations is referred to as lemmatization or normalisation,
+                            while the assignment of the normalised spelling and to a classification
+                            system is referred to as classification. In order to reduce manual
+                            effort, an algorithm for the automated lemmatization of historical,
+                            German-language occupational data is developed. The best result is
+                            achieved with a supervised machine learning approach. Overall, about 72
+                            percent of the occupational data can be lemmatized, and about 98 percent
+                            of these assignments are correct.</p>
+                    </argument>
+                </div>
+                <div type="chapter">
+                    <head>1. Einleitung</head>
+                    <p>Berufsangaben existieren in historischen Quellen an vielen Stellen und bilden
+                        eine wichtige Information Ã¼ber Menschen ab. Dadurch, dass es aber kein
+                        universelles System zur Erfassung von Berufen gab, existieren meist
+                        quellenspezifisch zusÃ¤tzlich prÃ¤figuriert viele verschiedene Schreibweisen
+                        und Bezeichnungen nebeneinander. Gleichzeitig wurden in Gesellschaft und
+                        Wissenschaft verschiedene Ordnungssysteme gebildet, um Ã¼ber Klassifikationen
+                        von Berufen Informationen Ã¼ber ein Individuum zu strukturieren und zu
+                        ordnen. Die Auseinandersetzung mit Berufen ist auf vielen Ebenen wertvoll.
+                        In dieser Eigenschaft nimmt sie nicht nur fÃ¼r die Wirtschafts- und
+                        Sozialgeschichte, beispielsweise in Betrachtungen zur Entwicklung der
+                        Arbeit, eine besondere Relevanz ein. Die Klassifikation einzelner
+                        Berufsangaben stellt dabei eine fordernde Aufgabe dar, zumal kaum alle
+                        erdenklichen Schreibvarianten der Berufe manuell erfasst werden kÃ¶nnen. Eine
+                        automatisierte Zuordnung fÃ¼r historische deutschsprachige Berufe stellt eine
+                        hervorragende LÃ¶sung dar, um hier standardisierend fÃ¼r historische Quellen
+                        vergleichbare AnsÃ¤tze zu bieten, auch wo die manuelle Klassifizierung als
+                        Aufwand zu groÃŸ erscheint. </p>
+                    <p>Ziel dieser Abhandlung ist es darum, eine MÃ¶glichkeit aufzuzeigen,
+                        historische Berufsangaben automatisiert einem Klassifikationssystem
+                        zuzuordnen. Dabei wird die Zuordnung von Berufsangaben zu bereits
+                        definierten Varianten von Berufen hier als Lemmatisierung<note
+                            type="footnote"> Damit weicht der hier verwendete Begriff von der
+                            sprachwissenschaftlichen Terminologie ab, wo ein Lemma die Reduktion von
+                            Wortteilen auf die kleinste bedeutungstragende Einheit darstellt. <ref type="bibliography" target="#glueck_metzler_2000">GlÃ¼ck (Hg.)
+                                2000</ref>, S. 403f.</note> bezeichnet. Bisher wird jedoch ein System zur
+                        automatisierten Lemmatisierung einer groÃŸen Menge historischer Berufsangaben
+                        vermisst. Entwickelt wird deshalb ein Algorithmus zur automatisierten
+                        Lemmatisierung dieser.</p>
+                    <p>Besonders gehÃ¤uft kommen Berufsangaben in seriellen Quellen vor, die heute
+                        u.Â a. fÃ¼r genealogische Forschungen genutzt werden. Darunter fallen
+                        KirchenbÃ¼cher, Steuerregister, Adressverzeichnisse,
+                        BÃ¼rgeraufnahmeverzeichnisse oder verschiedene Amts- und SchÃ¶ffenbÃ¼cher. Die
+                        meisten der hier beschriebenen Berufsbezeichnungen stammen aus Quellen des
+                        16. bis 19. Jahrhunderts und werden durch Berufsgattungsnamen der modernen
+                        Klassifikationssysteme ergÃ¤nzt. Je Ã¤lter diese Quellen sind, desto hÃ¤ufiger
+                        wird nicht unbedingt ein Beruf, sondern vielmehr ein Erwerbs- oder
+                        Berufsstand beschrieben. Historisch ist es einerseits von Interesse, diese
+                        Interpretation des â€ºStandesâ€¹ als einen Definitionsansatz zu analysieren und
+                        zu ermitteln, welche unterschiedlichen Dimensionen ihn ausmachten. Dabei ist
+                        der Beruf nur eine Angabe unter anderen.<note type="footnote"> <ref type="bibliography" target="#moeller_standards_2019">Moeller 2019</ref>,
+                            S. 23.</note> Diese Besonderheit der zeitbestimmten Definition, die von
+                        der heutigen Bestimmung des Berufes abweicht, macht es auch
+                        informationstechnisch zu einer Herausforderung, die Bestandteile des Standes
+                        zu ordnen und sicher zu bestimmen. So finden sich in diesen Listen etwa fÃ¼r
+                        Frauen oder Kinder Informationen zum heutigen Familienstand (ledig,
+                        verheiratete, verwitwet, Sohn, Tochter etc.) fÃ¼r die Person oder in Relation
+                        zu einem berufsfÃ¼hrenden Haushaltsvorstand.</p>
+                    <p>Neben diesem Problem der historischen Ordnungssysteme lassen sich weitere
+                        informationelle Herausforderungen skizzieren, die bei der Lemmatisierung von
+                        originalsprachlichen historischen Begrifflichkeiten auftauchen. Die
+                        Verarbeitung ist insbesondere in genealogisch-prosopographischen
+                        Datenquellen aufgrund der hohen Dichte von Berufsangaben zeitaufwÃ¤ndig. Eine
+                        automatisierte Methode zur Umsetzung gibt es bisher vor allem fÃ¼r moderne
+                        (normierte) und englischsprachige Berufsangaben.<note type="footnote"> <ref type="bibliography" target="#cosca_standard_2010">Cosca
+                            / Emmel 2010</ref>; 
+                            <ref type="bibliography" target="#djumalieva_occupations_2018">Djumalieva et al. 2018</ref>; 
+                                <ref type="bibliography" target="#gweon_methods_2017">Gweon et al. 2017</ref>.</note>
+                    </p>
+                    <p>Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von
+                        neuzeitlichen Standes- und Berufsangaben wird ein wichtiger Beitrag zu den
+                        Digital Humanities geleistet, weil mithilfe informatischer LÃ¶sungen die
+                        weitere Untersuchung historischer Fragestellungen unterstÃ¼tzt wird. Aufgrund
+                        der Besonderheiten, die den Angaben in jeder Sprache zuteilwerden, wird sich
+                        im Folgenden auf den deutschsprachigen Raum beschrÃ¤nkt. Als
+                        Klassifikationssystem wird eine bisher unverÃ¶ffentlichte Beta-Fassung der
+                            <ref
+                            target="https://www.geschichte.uni-halle.de/struktur/hist-data/ontologie/"
+                            >Ontologie der historischen, deutschsprachigen Amts- und
+                                Berufsbezeichnungen</ref> (OhdAB)<note type="footnote"> <ref type="bibliography" target="#moeller_ontologie_2020">Moeller et al.
+                            2020</ref>. Die Klassifikation wurde bisher aufgrund von ausstehenden
+                            QualitÃ¤tsprÃ¼fungen noch nicht verÃ¶ffentlicht, kann aber beim <ref
+                                target="mailto:hinfo@geschichte.uni-halle.de">Historischen
+                                Datenzentrum Sachsen-Anhalt</ref> angefragt und genutzt werden.
+                        </note> benutzt, die auf der Methodik der <ref
+                            target="https://statistik.arbeitsagentur.de/DE/Navigation/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/Klassifikation-der-Berufe-Nav.html;jsessionid=1CC3151B58003ECC1454B07B916E2756"
+                            >Klassifikation der Berufe 2010</ref> (KldB 2011)<note type="footnote">
+                                <ref type="bibliography" target="#bfa_klassifikationarbeit_2021">Bundesagentur fÃ¼r Arbeit (Hg.) 2021</ref>.</note> basiert und diesen Ansatz um
+                        historische Berufsbezeichnungen erweitert. Dazu wird ein Algorithmus
+                        entwickelt, der fÃ¼r die weitere wissenschaftliche Arbeit in den
+                        verschiedensten Bereichen genutzt werden kann. Er stellt eine Methode dar,
+                        um zu einer Berufsangabe automatisiert Erkenntnisse Ã¼ber seine
+                        Klassifikation zu erhalten. Dabei wird der Algorithmus auf Berufsangaben in
+                        deutschsprachigen, neuzeitlichen, genealogisch-prosopographischen Quellen
+                        ausgelegt. Zur Entwicklung und Validierung werden Berufsangaben aus der <ref
+                            target="https://gedbas.genealogy.net/">Genealogischen Datenbasis</ref>
+                        (GEDBAS) genutzt. Jedoch kÃ¶nnen auch Berufsbezeichnungen anderer Quellen mit
+                        dem Algorithmus klassifiziert werden. Insbesondere bei groÃŸen DatenbestÃ¤nden
+                        entfaltet ein automatisiertes Vorgehen erheblichen Nutzen. Bevor der
+                        Algorithmus vorgestellt wird, wird im nachfolgenden Abschnitt zuvor der
+                        Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung
+                        eingefÃ¼hrt. Auch bleibt eine Validierung des entwickelten Algorithmus nicht
+                        aus. AbschlieÃŸend findet eine Zusammenfassung statt, auch wird ein Ausblick
+                        gegeben. </p>
+                </div>
+                <div type="chapter">
+                    <head>2. Forschungsstand</head>
+                    <p>Die Herausforderung bei der Entwicklung eines Algorithmus zur automatisierten
+                        Kategorisierung von Berufsangaben besteht darin, sich unterscheidende
+                        EintrÃ¤ge, die die gleiche Sache beschreiben, zusammenzufÃ¼hren. Diese Aufgabe
+                        ist im Wesentlichen also eine der Dublettenerkennung, in der etymologisch
+                        identische, aber dennoch anders geschriebene Dubletten erkannt und
+                        zusammengefÃ¼hrt werden. Im ersten Unterabschnitt wird dazu einfÃ¼hrend auf
+                        Berufsangaben im genealogischen Kontext eingegangen. Danach wird der
+                        aktuelle Stand zur Bereinigung und Lemmatisierung von Daten im Allgemeinen
+                        aufgezeigt, bevor abschlieÃŸend spezieller auf die Besonderheiten der
+                        Berufsklassifikation eingegangen wird.</p>
+                    <div type="subchapter">
+                        <head>2.1 Berufsangaben in genealogischen Quellen</head>
+                        <p>Angaben zum Beruf und Stand waren in vielen historischen,
+                            personenbezogenen Quellen wie KirchenbÃ¼chern obligatorisch. Diese
+                            Tendenz verstÃ¤rkte sich mit der zunehmenden statistischen Erfassung des
+                            19. Jahrhunderts, wobei erste Regularien entstanden, welche Standards
+                            fÃ¼r die Notation von Professionen entwickelten. Eine neue Etappe
+                            erÃ¶ffnete sich mit der SÃ¤kularisierung des Personenstandswesens im
+                            Kaiserreich. So sah beispielsweise PreuÃŸen ab 1874 vor, Â»Stand oder
+                            GewerbeÂ« von Personen bei Geburt, Heirat und TodesfÃ¤llen pflichtgemÃ¤ÃŸ zu
+                            dokumentieren.<note type="footnote"> <ref type="bibliography" target="#hinschius_gesetz_1874">Hinschius 1874</ref>, S. 41, 61f. u.
+                                67.</note> Mit der Entstehung eines um den Beruf herum organisierten
+                            Gesellschaftssystems im 19. Jahrhundert erhielt die Dokumentation von
+                            Stand und Gewerbe zentrale Funktionen fÃ¼r das Funktionieren des
+                            Staates,<note type="footnote"> <ref type="bibliography" target="#kocka_geschichte_2000">Kocka et al. 2000</ref>; 
+                                <ref type="bibliography" target="#kohli_institutionalisierung_1985">Kohli 1985</ref>.</note>
+                            das spÃ¤ter auch von der Herausbildung von Institutionen zur
+                            Berufsklassifikation begleitet war. ZusÃ¤tzlich konnte durch die Angabe
+                            des Berufs eine Unterscheidung zwischen namensgleichen Personen
+                            vorgenommen werden.<note type="footnote"> <ref type="bibliography" target="#boehmen_anleitung_1790">BÃ¶hmen 1790</ref>, S. 29; Wurden
+                                Beruf oder Stand Jahrhunderte Ã¼ber in
+                                prosopographisch-genealogischen Quellen mitgefÃ¼hrt, wurde die Angabe
+                                von Berufen oder Titeln in Deutschland mit der Reformierung des
+                                Personenstandsrechts am 1. Januar 2009 abgeschafft, vgl. <ref type="bibliography" target="#schaefer_novellierung_2006">SchÃ¤fer
+                                2006</ref>. FÃ¼r kÃ¼nftige Forschungen entfÃ¤llt damit eine wichtige
+                                Quelle.</note> In der Folge ist es nicht verwunderlich, dass auch
+                            viele Genealogen diese Informationen erfassen. Neben den familiÃ¤ren
+                            ZusammenhÃ¤ngen und den Lebensdaten werden so auch Information zu Stand
+                            und Beruf den DatensÃ¤tzen hinzugefÃ¼gt.</p>
+                        <p>Als Quasistandard zum Austausch solcher genealogischer Daten hat sich das
+                            GEDCOM-Format herausgebildet.<note type="footnote"> 
+                                <ref type="bibliography" target="#gellatly_populations_2015">Gellatly 2015</ref>;
+                                <ref type="bibliography" target="#harviainen_genealogy_2018">Harviainen / BjÃ¶rk 2018</ref>, S. 4.</note> Eigenschaften von Personen
+                            werden in diesem textbasierten Format dazu mit sogenannten Tags
+                            versehen. Angaben zur Art der Arbeit oder des Berufs werden in dem Tag
+                            â€ºOCCUâ€¹ zugeordnet.<note type="footnote"> <ref type="bibliography" target="#church_gedcom_2019">Church of Jesus Christ of
+                                Latter-day Saints 2019</ref>, S. 90.</note> Hier kann jedoch ein
+                            beliebiger freier Text eingetragen werden, sodass keine inhaltliche
+                            PrÃ¼fung Ã¼ber die KompatibilitÃ¤t der Eintragung mit dieser Definition
+                            stattfindet.</p>
+                    </div>
+                    <div type="subchapter">
+                        <head>2.2 Bereinigung und Lemmatisierung von Daten</head>
+                        <p>Da Standesangaben also nicht zwingend nur Informationen zum Beruf
+                            enthalten â€“ weder in den PrimÃ¤rquellen wie KirchenbÃ¼chern noch in den
+                            aufbereiteten GEDCOM-Dateien â€“, ist eine Verarbeitung dieser Daten
+                            notwendig, um aus ihnen die relevanten Informationen zu extrahieren. Zu
+                            diesem Zwecke wird folgend genauer auf die Datenbereinigung,
+                            Ã„hnlichkeits- und DistanzmaÃŸe sowie auf die Grundlagen von
+                            Klassifikationen eingegangen.</p>
+                        <div type="subchapter">
+                            <head>2.2.1 Datenbereinigung</head>
+                            <p>WÃ¤hrend der Datenbereinigung werden Fehler und Inkonsistenzen (im
+                                Folgenden auch â€ºAnomalienâ€¹ genannt) erkannt und entfernt.<note
+                                    type="footnote"> <ref type="bibliography" target="#rham_data_2000">Rahm / Do 2000</ref>, S. 1.</note> Es kÃ¶nnen
+                                beispielsweise Rechtschreibfehler bestehen, AbkÃ¼rzungen genutzt
+                                werden, Bezeichnungen in falsche Felder eingetragen werden oder eben
+                                zu viele Informationen darin vorhanden sein.<note type="footnote">
+                                    <ref type="bibliography" target="#rham_data_2000">Rahm / Do 2000</ref>, S. 3f.</note> Fehler in Berufsangaben stellen in
+                                der Problemklassifikation nach Rahm und Do Einquellenprobleme
+                                (Quelle der Berufsangabe) auf einem Level einzelner Instanzen
+                                (Berufsangabe) dar. Wie oben bereits gezeigt, ist fÃ¼r historische
+                                Daten hier jedoch ebenso ein kontextualisierender Begriff des
+                                Berufsstandes wichtig. Die Angabe des Rechtsstatus oder
+                                Familienstandes kann eine Person in ihrem Stand ebenso adÃ¤quat
+                                beschreiben, wÃ¤hrend eine Ortsangabe nur eine in das falsche
+                                Datenfeld eingetragene Information darstellen kann.</p>
+                            <p>Zur LÃ¶sung dieser qualitativen Probleme schlagen MÃ¼ller und Freytag
+                                einen vierstufigen Prozess der Datenbereinigung vor.<note
+                                    type="footnote"> <ref type="bibliography" target="#mueller_problems_2003">MÃ¼ller / Freytag 2003</ref>, S. 10â€“13.</note> An
+                                dessen Beginn steht ein Datenaudit (<term type="dh">data
+                                    auditing</term>), in welchem die Daten geparst und analysiert
+                                werden. Dadurch werden syntaktische Anomalien erkannt, die es
+                                anschlieÃŸend zu bearbeiten gilt. Dazu wird in einem zweiten Schritt
+                                der Ablauf der Datenbereinigung spezifiziert (<term type="dh"
+                                    >workflow spezification</term>). Dabei kann die Behebung
+                                syntaktischer Fehler im Nachhinein wiederum andere Anomalien
+                                sichtbar machen. Die nachfolgende DurchfÃ¼hrung der Datenbereinigung
+                                    (<term type="dh">workflow execution</term>) steht im Konflikt
+                                zwischen einer mÃ¶glichst passenden Korrektur und einer akzeptablen
+                                Laufzeit. Manuelle Nacharbeit ist zu vermeiden, da diese Ressourcen
+                                binden, eine nicht automatisierte Kontrolle findet allerdings in
+                                einem vierten Schritt statt (<term type="dh">post-processing and
+                                    controlling</term>). Ã„nderungen, die hier manuell vorgenommen
+                                werden, kÃ¶nnen in einem lernenden System jedoch einen bleibenden
+                                Effekt auf die Datenbereinigung haben. Insgesamt ist dieses
+                                Verfahren iterativ durchzufÃ¼hren.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>2.2.2 Ã„hnlichkeits- und DistanzmaÃŸe</head>
+                            <p>Da insbesondere Berufsangaben in historischen Quellen verschiedene
+                                Schreibweisen aufweisen kÃ¶nnen, ist im Kontext der Anwendung eine
+                                Erkennung von Ã„hnlichkeiten zwischen diesen notwendig. Sollten zwei
+                                Bezeichnungen die gleiche EntitÃ¤t in der realen Welt reprÃ¤sentieren,
+                                so stellen sie Dubletten dar.<note type="footnote"> 
+                                    <ref type="bibliography" target="#krause_entwurf_2012">Krause 2012</ref>, S.
+                                    14f.</note> Da Berufsangaben Strings im Sinne einer semantischen
+                                Zeichenkette darstellen, kÃ¶nnen String-Matching-Algorithmen zur
+                                Erkennung einer unscharfen Ãœbereinstimmung auf sie angewendet
+                                werden. Die Ã„hnlichkeit von Strings kann Ã¼ber verschiedene MaÃŸe
+                                ausgedrÃ¼ckt werden. In der historischen Linguistik stellt die
+                                Levenshtein-Distanz eine geeignete MÃ¶glichkeit dar, die mÃ¶gliche
+                                Verwandtschaft zwischen WÃ¶rtern aufzuzeigen.<note type="footnote">
+                                    <ref type="bibliography" target="#dunn_language_2015">Dunn 2015</ref>, S. 196.</note> Die Herausforderung, zwei
+                                Schreibvarianten desselben Wortes zu erkennen, ist Ã¤hnlich gelagert
+                                wie die Erkennung einer mÃ¶glichen linguistischen Verwandtschaft
+                                zwischen zwei WÃ¶rtern. Da die Levenshtein-Distanz zudem die
+                                Ã¼blichste Methode zur Ã„hnlichkeitsanalyse zwischen zwei Strings
+                                darstellt,<note type="footnote"> <ref type="bibliography" target="#piotrowski_language_2012">Piotrowski 2012</ref>, S. 71.</note>
+                                wird sie auch im Weiteren Verwendung finden. Sie beschreibt die
+                                Anzahl von LÃ¶schungen, EinfÃ¼gungen und Substituierungen einzelner
+                                Buchstaben, um von einem String zu einem anderen zu gelangen.<note
+                                    type="footnote"> <ref type="bibliography" target="#levenstejn_codes_1966">LevenÅ¡tejn 1966</ref>.</note>
+                            </p>
+                        </div>
+                        <div type="subchapter">
+                            <head>2.2.3 Grundlagen von Klassifikationen</head>
+                            <p>Unter der Klassifikation wird die Gliederung von Elementen einer
+                                Menge in verschiedene Klassen nach einer definierten Logik
+                                verstanden. Dieser Vorgang kann automatisiert werden, wenn die
+                                zugrundeliegenden GesetzmÃ¤ÃŸigkeiten in einem Algorithmus
+                                Formalisierung finden. Eine (automatisierte) Klassifikation kann
+                                dabei entweder ein Objekt einer Klasse zuordnen oder eben auch
+                                dahingehend scheitern, dass keine Klasse ausgewÃ¤hlt werden kann. Die
+                                Zuordnung zu (k)einer Klasse kann zudem korrekt oder nicht korrekt
+                                sein. Durch diese binÃ¤re Ansicht ergeben sich vier mÃ¶gliche
+                                Kombinationen (siehe <ref type="graphic" target="#berufsbezeichnungen_2022_t1">Tabelle
+                                1</ref>). Als erstrebenswert gilt dabei eine ErhÃ¶hung der TP- und
+                                TN-Ergebnisse. FP- und FN-Ergebnisse sind hingegen zu vermeiden.</p>
+                            <table rend="rules" xml:id="berufsbezeichnungen_2022_t1">
+                                <row>
+                                    <cell/>
+                                    <cell>Klassifikation korrekt</cell>
+                                    <cell>Klassifikation nicht korrekt</cell>
+                                </row>
+                                <row>
+                                    <cell>Klassifikation erfolgt</cell>
+                                    <cell>True positive (TP)</cell>
+                                    <cell>False positive (FP)</cell>
+                                </row>
+                                <row>
+                                    <cell>Klassifikation nicht erfolgt</cell>
+                                    <cell>True negative (TN)</cell>
+                                    <cell>False negative (FN)</cell>
+                                </row>
+                                <trailer xml:id="tab01"><ref target="#tab1">Tab. 1</ref>: Konfusionsmatrix zur
+                                    Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller
+                                        2022]<ref type="graphic"
+                                        target="#berufsbezeichnungen_2022_t1"/></trailer>
+                            </table>
+                            <p>Durch die Kombination der Anzahl der jeweiligen ZustÃ¤nde kann die
+                                GÃ¼te der Klassifikation bewertet werden. Dies ist notwendig, weil
+                                ein hoher Anteil von Treffern oftmals auch mit vielen falschen
+                                Ergebnissen einhergeht â€“ bei keinen Treffern hingegen kann auch kein
+                                Treffer falsch sein. Eine MÃ¶glichkeit zur Ermittlung der QualitÃ¤t
+                                einer Klassifikation stellt das F1-MaÃŸ dar.<note type="footnote">
+                                    <ref type="bibliography" target="#christen_quality_2007">Christen / Goiser 2007</ref>, S. 140f.</note> Dieses wird genutzt, um
+                                ein optimiertes VerhÃ¤ltnis zwischen den gefundenen Treffern und den
+                                richtigen Treffern zu erzielen. Hierbei werden die Trefferquote (R,
+                                fÃ¼r <term type="dh">recall</term>) und die Genauigkeit (P, fÃ¼r <term
+                                    type="dh">precision</term>) der Klassifikation gemÃ¤ÃŸ der Formel
+                                fÃ¼r das F1-MaÃŸ (siehe Formel 1) in eine Beziehung gesetzt.</p>
+                            <p>Formel 1: F1=2*P*RP+R</p>
+                            <p>Sind hier die Genauigkeit und die Trefferquote beim F1-MaÃŸ gleich
+                                gewichtet, so ist auch jede andere Gewichtung denkbar. Die
+                                Genauigkeit ergibt sich aus Formel 2, die Trefferquote aus Formel
+                                3.</p>
+                            <p>Formel 2: P=|TP||TP|+|FP|</p>
+                            <p>Formel 3: R=|TP||TP|+|FN|</p>
+                            <p>Eine automatisch durchgefÃ¼hrte Klassifikation fÃ¼hrt jedoch dazu, dass
+                                das Ergebnis nicht (oder nur im Nachgang) manuell auf
+                                (Un-)Korrektheit hin Ã¼berprÃ¼ft werden kann. Durch die mittels
+                                Klassifikation zusÃ¤tzlich vorgenommene VerknÃ¼pfung kann sie die
+                                Eigenschaften der Klasse verÃ¤ndernÂ oderÂ erweitern. Dadurch, dass
+                                kÃ¼nftige Klassifikationen auf diese vorherigen Informationen
+                                zugreifen kÃ¶nnen, findet Ã¼berwachtes Lernen statt.</p>
+                        </div>
+                    </div>
+                    <div type="subchapter">
+                        <head>2.3 Berufsklassifikationen</head>
+                        <p>GrundsÃ¤tzlich muss zwischen der Lemmatisierung von Berufsbezeichnungen
+                            und der Klassifikation von Berufen unterschieden werden. Mit Ersterer,
+                            der Lemmatisierung der Bezeichnungen zu Berufen, befasst sich dieser
+                            Artikel. Dabei wird eine Vielzahl von Schreibvarianten einem normierten
+                            Berufsnamen zugeordnet, sofern eine bestimmte sprachliche
+                            Ãœbereinstimmung erkennbar ist. Diese Berufsnamen kÃ¶nnen in einem
+                            weiteren, Ã¼bergeordneten Klassifikationssystem auch
+                            inhaltlich-analytisch zu verschiedenen Berufsgruppen geordnet werden,
+                            indem das Definitionskriterium der TÃ¤tigkeit zur Klassifikation
+                            herangezogen wird. In solche Systeme wird in diesem Abschnitt
+                            eingefÃ¼hrt. Relevant ist das Ã¼bergeordnete System der
+                            Berufsklassifizierung, weil es die EntitÃ¤ten determiniert, auf denen die
+                            nachfolgende Entwicklung des Algorithmus aufbaut. </p>
+                        <p>Zur Klassifikation von Berufen existieren verschiedene AnsÃ¤tze die bisher
+                            vor allem moderne internationale,<note type="footnote">
+                                <ref target="https://www.ilo.org/public/english/bureau/stat/isco/"
+                                    >International Standard Classification of Occupations</ref>
+                                (ISCO), <ref type="bibliography" target="#ilo_iso_2021">ILO (Hg.) 2021</ref>.</note> moderne deutschsprachige<note
+                                    type="footnote"> Klassifikation der Berufe (KldB), <ref type="bibliography" target="#bfa_klassifikationarbeit_2021">Bundesagentur fÃ¼r
+                                Arbeit (Hg.) 2021</ref>.</note> oder historische englischsprachige<note
+                                type="footnote">
+                                <ref target="https://historyofwork.iisg.nl/">Historical
+                                    International Standard Classification of Occupations</ref>
+                                    (HISCO); <ref type="bibliography" target="#leeuwen_history_2002">van Leeuwen et al. 2002</ref>.</note> Berufsnamen fÃ¼hren. Von
+                            diesen Standards wird hÃ¤ufig eine Vielzahl forschungsbasierter
+                            KlassifkationsansÃ¤tze fÃ¼r unterschiedliche Analysen abgeleitet. In
+                            Hinblick auf die Entwicklung von Datenstandards nach FAIR-Prinzipien
+                            werden solche kompatiblen Systeme zukÃ¼nftig hÃ¶heres Gewicht besitzen,
+                            weil die Anbindung an Standards die Nachvollziehbarkeit und
+                            Vergleichbarkeit von Forschungsergebnissen gewÃ¤hrleistet.<note
+                                type="footnote"> <ref type="bibliography" target="#moeller_standards_2019">Moeller 2019</ref>.</note> Im deutschsprachigen Raum ist
+                            vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise
+                            jetzt 2020 zu nennen. Die Methodik der KldB 2010 wurde von Katrin
+                            Moeller auf viele historische, deutschsprachige Berufsbezeichnung
+                            angewendet.<note type="footnote"> <ref type="bibliography" target="#moeller_ontologie_2020">Moeller et al. 2020</ref>.</note> Dieses
+                            System wird im Weiteren Anwendung finden, da es fÃ¼r den
+                            deutschsprachigen Raum die umfangreichste LÃ¶sung darstellt. Alternativ
+                            dazu kÃ¶nnte HISCO in Betracht gezogen werden. HISCO stellt die
+                            historische Erweiterung von ISCO 68 dar. Davon wird an dieser Stelle
+                            abgesehen, weil auf der offiziellen HISCO-WebprÃ¤senz derzeit nur 1.306
+                            deutsche Berufsbezeichnungen genutzt werden.<note type="footnote">
+                                <ref type="bibliography" target="#iish_history_2020">International Institute of Social History (Hg.) 2020</ref>.</note> Zudem enthÃ¤lt
+                            HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch
+                            die Zuordnung zu historischen Berufsangaben erschwert wird. Damit
+                            bleiben viele Berufsnamen bisher ohne sichere Zuordnung in der HISCO.
+                            Durch die GranularitÃ¤t der KldB 2010 kann zwar jeder Beruf der HISCO in
+                            der KldB abgebildet werden, nicht jedoch andersherum. Des Weiteren
+                            existieren im deutschsprachigen Raum historische
+                            Berufsklassifikationen,<note type="footnote"> Vgl. 
+                                <ref type="bibliography" target="#schueren_mobilitaet_1989">SchÃ¼ren 1989</ref>;
+                                Brandenburg et al. 1993.</note> die in die OhdAB mit eingeflossen
+                            sind. Beachtlich ist zudem die Systematisierung des Thesaurus
+                            Professionum von 23.000 Berufen, die auf ErschlieÃŸungen von
+                            Leichenpredigten der Forschungsstelle fÃ¼r Personalschriften der
+                            Philipps-UniversitÃ¤t Marburg zurÃ¼ckgehen.<note type="footnote">
+                                <ref type="bibliography" target="#thesaurus_professionum_2021">Philipps-UniversitÃ¤t Marburg, 
+                                    Forschungsstelle fÃ¼r Personalschriften (Hg.) 2021</ref>.</note>
+                        </p>
+                        <div type="subchapter">
+                            <head>2.3.1 Klassifikation der Berufe 2010</head>
+                            <p>Die KldB 2010 teilt Berufe nach einer fÃ¼nfgliedrigen
+                                Hierarchiestruktur ein.<note type="footnote"> <ref type="bibliography" target="#bfa_klassifikationberufe_2011">Bundesagentur fÃ¼r
+                                    Arbeit (Hg.) 2011</ref>, S. 16.</note> Der Einsteller (Berufsbereiche)
+                                gliedert die Berufe in grundlegende Themen.<note type="footnote">
+                                    <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 7.</note> Die nÃ¤chsten drei Ebenen
+                                (Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen)
+                                beschreiben die berufsfachlichen ZusammenhÃ¤nge.<note type="footnote"
+                                    > <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 8.</note> Je stÃ¤rker
+                                zusammenhÃ¤ngende FÃ¤higkeiten, TÃ¤tigkeiten und Kompetenzen zwischen
+                                Berufen existieren, desto nÃ¤her sind sich diese in der Hierarchie.
+                                Zuletzt beschreibt der FÃ¼nfsteller (Berufsgattungen) das
+                                Anforderungsniveau, sodass durch ihn unterschiedliche
+                                KomplexitÃ¤tsgrade desselben Berufs ausgedrÃ¼ckt werden kÃ¶nnen.<note
+                                    type="footnote"> <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 9f.</note> Insgesamt
+                                existieren auf der Ebene des FÃ¼nfstellers mittlerweile 1.900
+                                Berufsgattungen.<note type="footnote"> <ref type="bibliography" target="#bfa_klassifikationberufe_2011">Bundesagentur fÃ¼r Arbeit (Hg.) 2011</ref>, S. 18.</note>
+                            </p>
+                            <table xml:id="berufsbezeichnungen_2022_t2">
+                                <row>
+                                    <cell>Stellensystem</cell>
+                                    <cell>Bezeichnung fÃ¼r das Beispiel des BÃ¤ckers</cell>
+                                    <cell>Gruppenbezeichnung</cell>
+                                    <cell>Anzahl der Gruppen Ã¼ber alle Berufsgattungen</cell>
+                                </row>
+                                <row>
+                                    <cell>1-Steller B 29222</cell>
+                                    <cell>Rohstoffgewinnung, Produktion und Fertigung</cell>
+                                    <cell>Berufsbereiche</cell>
+                                    <cell>10 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>2-Steller B 29222</cell>
+                                    <cell>Lebensmittelherstellung und -verarbeitung</cell>
+                                    <cell>Berufshauptgruppen</cell>
+                                    <cell>72 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>3-Steller B 29222</cell>
+                                    <cell>Lebensmittel- und Genussmittelherstellung</cell>
+                                    <cell>Berufsgruppen</cell>
+                                    <cell>260 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>4-Steller B 29222</cell>
+                                    <cell>Berufe in der Back- und Konditoreiwarenherstellung</cell>
+                                    <cell>Berufsuntergruppen</cell>
+                                    <cell>941 Gruppen</cell>
+                                </row>
+                                <row>
+                                    <cell>5-Steller B 29222</cell>
+                                    <cell>Berufe Back- und Konditoreiwarenherstellung - fachliche
+                                        TÃ¤tigkeit</cell>
+                                    <cell>Anforderungsniveau</cell>
+                                    <cell>1.900 Gruppen</cell>
+                                </row>
+                                <trailer xml:id="tab02"><ref target="#tab2">Tab. 2</ref>: Nummernsystem der KldB 2010 / OhdAB
+                                    am Beispiel des Berufes BÃ¤cker. [Goldberg / Moeller
+                                    2022]</trailer>
+                            </table>
+                            <p>Einzelne Berufe sind in der KldB 2010 nicht aufgefÃ¼hrt, sondern in
+                                die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese
+                                LÃ¶sung bereits eine gute NÃ¤herung an moderne
+                                Individualbezeichnungen.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>2.3.2 Erweiterung um historische Berufe </head>
+                            <p>Die Methodik der KldB 2010 ist grundsÃ¤tzlich auch auf historische
+                                Berufe anwendbar, weil sie nach TÃ¤tigkeiten und Anforderungsniveaus
+                                ordnet, die auch fÃ¼r vergangene Arbeitsfelder erschlieÃŸbar sind. Mit
+                                der OhdAB liegt eine solche Grundlage zur Klassifikation von
+                                historischen Berufs- und Amtsbezeichnungen in einer Beta-Fassung
+                                vor. Dabei werden alle Schreibvarianten (unter Vergabe einer
+                                fortlaufenden ID) von Standesbezeichnungen nach der Methode der KldB
+                                2010 erfasst und zu einem Berufsgattungsnamen (Zusatz einer
+                                dreistelligen Individualnummer) sowie einer fÃ¼nfstelligen
+                                Klassifikation (Klassifikationsnummer) angeordnet. </p>
+                            <p>Der ursprÃ¼nglichen Fassung der KldB 2010 wurden dem
+                                Berufsgattungsnamen fortlaufend die Klassifikationsnummern unter
+                                einem Wert von 500 zugewiesen, historische Berufe erhielten bei der
+                                ErgÃ¤nzung einen Wert grÃ¶ÃŸer als 500, wodurch die modernen und
+                                historischen Gattungsnamen voneinander differenzierbar bleiben. Die
+                                KldB 2010 wurde zudem um einige wenige Berufsgruppen ergÃ¤nzt, die
+                                sich in das Konzept der ursprÃ¼nglichen Fassung nicht einfÃ¼gen
+                                lieÃŸen. Dies gilt etwa fÃ¼r die Gruppe von Stadt- und Hofwachen, die
+                                weder dem Personen- und Objektschutz, der Polizei noch dem MilitÃ¤r
+                                zugeordnet werden konnten. Gleiches gilt fÃ¼r die Hofverwaltung,
+                                militÃ¤rische Berufsgruppen oder das Landhandwerk. Insgesamt folgt
+                                die Klassifikation jedoch der Methodik der KldB 2010. Zudem wurden
+                                allgemeinere Beschreibungsgruppen (wieder-)eingefÃ¼hrt, um auch
+                                Gattungsbegriffe wie â€ºBeamterâ€¹ oder â€ºArbeiterâ€¹ einzuordnen. Dies ist
+                                aufgrund des spezifischen TÃ¤tigkeitskonzeptes der KldB 2010
+                                ansonsten nicht mÃ¶glich. Dieser Kennung vorangestellt wird ein A
+                                oder B. Der weitaus geringere Teil ist mit A betitelt (bisher ca.
+                                600 Gattungsbegriffe), wodurch solche Angaben kenntlich gemacht
+                                werden, die in den historischen Registern eine Eintragung zum Stand
+                                verfÃ¼gen, der heute aber keinen Beruf mehr definiert. Wie oben
+                                beschrieben waren dies in der Regel VerwandtschaftsverhÃ¤ltnisse zu
+                                einem Haushaltsvorstand. Sehr hÃ¤ufig handelt es sich um Angaben zur
+                                Kenntlichmachung der Armut einer Person oder zum Bezug von Almosen,
+                                Altenteil, Renten- oder InvalidenbezÃ¼gen. Gleichzeitig kommen
+                                Angaben zu Eigentums- und BesitzverhÃ¤ltnissen, Religion, Rechts- und
+                                Einwohnerbezeichnungen vor. Ein B weist demnach darauf hin, dass es
+                                sich um einen Beruf im Sinne eines TÃ¤tigkeitskonzepts handelt.
+                                Insgesamt sind fast 44.582 normierte Berufsschreibweisen so
+                                klassifiziert.</p>
+                            <p>Die Liste der Varianten hingegen besteht aus mÃ¶glichen
+                                Schreibvarianten der Berufe, die einer Normschreibweise eines Berufs
+                                der Konkordanz (Auflistung aller mÃ¶glichen Berufe als
+                                Normschreibweise) zugeordnet ist. Es besteht eine 1:n-Beziehung, da
+                                ein Eintrag der Konkordanz beliebig viele Varianten aufweisen kann.
+                                Unterschiede zwischen Normschreibweise und Variante lassen sich an
+                                verschiedenen Aspekten erkennen. So enthÃ¤lt die Normschreibweise
+                                eine geschlechtsÃ¼bergreifende Schreibweise (z.Â B. â€ºMÃ¼ller/inâ€¹), die
+                                Varianten allerdings die Berufe je Geschlecht einzeln separiert
+                                (hier â€ºMÃ¼llerâ€¹ und â€ºMÃ¼llerinâ€¹). Insgesamt sind derzeit weit Ã¼ber
+                                300.000 Varianten erfasst. Die Liste der Varianten wird durch das
+                                Historische Datenzentrum Sachsen-Anhalt jedoch stetig erweitert. FÃ¼r
+                                die weitere Arbeit wird ein Auszug aus diesen Varianten verwendet,
+                                der zur Validierung nÃ¤her beschrieben wird.</p>
+                        </div>
+                    </div>
+                </div>
+                <div type="chapter">
+                    <head>3. Entwicklung des Algorithmus</head>
+                    <p>Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen
+                        hinter der Lemmatisierung der Berufsangaben â€“ und somit die
+                        zugrundeliegenden Heuristiken â€“ formalisiert zum Ausdruck zu bringen. Dazu
+                        werden zunÃ¤chst die Anforderungen an diese Automatik detaillierter
+                        beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung
+                        nach MÃ¼ller und Freytag.<note type="footnote"> <ref type="bibliography" target="#mueller_problems_2003">MÃ¼ller / Freytag 2003</ref>.</note>
+                    </p>
+                    <div type="subchapter">
+                        <head>3.1 Anforderungen das Ergebnis</head>
+                        <p>ZunÃ¤chst sollen mÃ¶glichst viele Berufsangaben den richtigen EntitÃ¤ten, im
+                            Weiteren â€ºKlassenâ€¹, zugeordnet werden (TP). Ein Beruf stellt dabei eine
+                            Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die
+                            Eigenschaften. Eine Ãœbersicht Ã¼ber die verwendeten Begrifflichkeiten
+                            ist, insbesondere fÃ¼r die multiple Verwendung der
+                            KlassifizierungÂ /Â Klassifikation, in <ref type="graphic"
+                                target="#berufsbezeichnungen_2022_001">Abbildung 1</ref>
+                            ersichtlich.</p>
+                        <figure>
+                            <graphic xml:id="berufsbezeichnungen_2022_001"
+                                url=".../medien/berufsbezeichnungen_2021_001.png">
+                                <desc>
+                                    <ref target="#abb1">Abb. 1</ref>: Begriffe und ZusammenhÃ¤nge des
+                                    Algorithmus. [Goldberg / Moeller 2022] <ref type="graphic"
+                                        target="#berufsbezeichnungen_2022_001"/>
+                                </desc>
+                            </graphic>
+                        </figure>
+                        <p>Eine ErhÃ¶hung der TP-klassifizierten (neuen Bezeichnungen) allein geht
+                            jedoch oftmals auch mit der ErhÃ¶hung von FP-Klassifizierungen einher.
+                            Aus diesem Grund wird nicht die Anzahl der TP-Klassifizierungen
+                            optimiert, sondern das F1-MaÃŸ. Zudem soll die Klassifizierung
+                            automatisch geschehen, eine manuelle ÃœberprÃ¼fung des Ergebnisses
+                            geschieht infolgedessen nicht. Das ist notwendig, um groÃŸe DatenbestÃ¤nde
+                            mit hunderttausenden Berufsbezeichnungen in einer Ã¼berschaubaren Zeit
+                            klassifizieren zu kÃ¶nnen. Da der Algorithmus insbesondere auf groÃŸe
+                            Listen von Berufsangaben Anwendung finden soll, ist dessen Effizienz und
+                            somit die Laufzeit zu beachten. Der Algorithmus soll in einem
+                            Programmcode umgesetzt werden, der in weiteren Applikationen eingebunden
+                            werden kÃ¶nnen soll.</p>
+                        <p>Der Algorithmus soll zwar mit Hilfe genealogisch-prosopographischer
+                            Quellen validiert werden, jedoch danach auch auf andere Berufsangaben
+                            angewendet werden kÃ¶nnen. Art und Umfang der Quelle sind dabei nicht
+                            entscheidend. Wichtiger ist es, dass es sich um deutschsprachige
+                            Berufsangaben aus dem Zeitraum der Neuzeit (ab ca. 1500) handelt. Bei
+                            anderen Angaben steigt die Wahrscheinlichkeit, dass der Algorithmus
+                            keine verwertbaren Ergebnisse liefert (z.Â B. bei lateinischen Angaben),
+                            jedoch soll eine nachtrÃ¤gliche Erweiterung der Sprachen mÃ¶glich
+                            sein.</p>
+                        <p>Des Weiteren kÃ¶nnen Datenfelder zum Beruf mit verschiedenen Informationen
+                            gefÃ¼llt sein. In vielen FÃ¤llen dÃ¼rften sie als Freitextfeld keiner
+                            KonsistenzprÃ¼fung unterzogen worden sein. Das fÃ¼hrt dazu, dass
+                            prinzipiell alles in einem solchen Feld stehen kann. Es ist eine
+                            Anforderung, daraus den Beruf zu separieren. MÃ¶glicherweise sind auch
+                            mehrere Berufsangaben verzeichnet, diese dann getrennt voneinander
+                            erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen
+                            in den Berufsangaben sollen jeweils separiert werden (z. B. der
+                            fÃ¤lschlicherweise in einem Datenfeld fÃ¼r die Berufsangabe angegebene
+                            Wohnort). Lemmatisiert wird jedoch nur die Angabe zum Stand undÂ /Â oder
+                            Beruf. MÃ¶gliche berufsferne, separierte Informationen unterliegen keiner
+                            weiteren Interpretation.</p>
+                    </div>
+                    <div type="subchapter">
+                        <head>3.2 Methodik der Datenbereinigung</head>
+                        <p>Wie oben beschrieben, setzt sich die Datenbereinigung aus verschiedenen
+                            Schritten zusammen, die nun nacheinander durchgefÃ¼hrt werden. ZunÃ¤chst
+                            wird im data auditing der zu bearbeitende Datensatz betrachtet. Die hier
+                            entwickelte Datenbereinigung soll allgemein auf deutschsprachige
+                            Berufsbezeichnungen anwendbar sein. Dazu werden Berufsangaben genutzt,
+                            die in Ã¶ffentlich zugÃ¤nglichen GEDCOM-Dateien gespeichert sind. Im
+                            deutschsprachigen Raum stellt GEDBAS eine der wesentlichen Sammlungen
+                            von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000
+                            Dateien und 22 Millionen Personen abgebildet.<note type="footnote">
+                                GEDBAS, <ref type="bibliography" target="#gebdas_statistics_2021"></ref>Verein fÃ¼r Computergenealogie (Hg.) 2021.</note> Ein Teil dieser Dateien
+                            ist von den Autoren zum Ã¶ffentlichen Download freigegeben. Eine
+                            Anwendung eines Scrapers zur Sammlung der Ã¶ffentlichen GEDCOM-Dateien in
+                            GEDBAS, ausgefÃ¼hrt am 14.04.2020, erbrachte 2.899 Dateien.<note
+                                type="footnote"> Siehe den entsprechenden Programmcode in
+                                (Online-Repo). [verlinken]</note> Um die Berufsangaben aus den
+                            Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben
+                            (â€ºOCCUâ€¹-Tag) ausgelesen und in einer Liste zusammengefasst.<note
+                                type="footnote"> Siehe den entsprechenden Programmcode in
+                                (Online-Repo). [verlinken]</note> Insgesamt werden auf diese Weise
+                            229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen
+                            Angaben bleiben 60.000 verschiedene Bezeichnungen Ã¼brig.</p>
+                        <p>Weitere naheliegende, aber nicht in den GEDCOM-Daten auftretende
+                            Anomalien bei Berufsangaben werden ebenso mit eingebunden. Das ist darin
+                            begrÃ¼ndet, dass der Algorithmus auf alle deutschsprachigen Berufsangaben
+                            seit ca. 1500 anwendbar sein soll und ggf. mÃ¶gliche Anomalien in den
+                            GEDCOM-Daten strukturell komplett fehlen. Die folgenden Anomalien wurden
+                            insgesamt erkannt:</p>
+                        <list type="unordered">
+                            <item>
+                                <hi rend="bold">Mehrere Berufe</hi>: In einer Berufsangabe kann ein
+                                Verweis auf mehrere Berufe vorhanden sein, beispielsweise, weil die
+                                Bezugsperson verschiedene Berufe in ihrem Leben (hintereinander oder
+                                parallel zueinander) ausgeÃ¼bt hat. Verschiedene Berufsangaben kÃ¶nnen
+                                durch Trennoperatoren abgegrenzt sein. Eine Besonderheit ergibt sich
+                                bei der Verwendung von ErgÃ¤nzungsstrichen in einer Berufsangabe
+                                (z.Â B. â€ºGold- und Silberschmiedâ€¹).</item>
+                            <item>
+                                <hi rend="bold">AbkÃ¼rzungen</hi>: Berufe kÃ¶nnen eine AbkÃ¼rzung
+                                erfahren, die wiederum sehr quellenspezifisch sein kÃ¶nnen. So ist es
+                                denkbar, dass ein â€ºB.â€¹ fÃ¼r â€ºBÃ¼rgerâ€¹ steht, aber auch fÃ¼r â€ºBauerâ€¹.
+                                AbkÃ¼rzungen enden in vielen FÃ¤llen, allerdings nicht immer, mit
+                                einem Punkt.</item>
+                            <item>
+                                <hi rend="bold">Rollen</hi>: Dem Beruf vor- und nachgestellt kÃ¶nnen
+                                weitere Angaben zur Rolle innerhalb des Berufsbildes sein. Das
+                                betrifft im Handwerk beispielsweise die fÃ¼nf Qualifikationsstufen
+                                von Hilfsarbeitern, Burschen und Knechten, Lehrlingen und Gesellen,
+                                Altgesellen und arbeitenden Fachhandwerkern ohne Meistertitel,
+                                Meistern sowie Obermeistern beziehungsweise OberÃ¤ltesten von
+                                Innungen. </item>
+                            <item>
+                                <hi rend="bold">Zeitangaben</hi>: Zur Spezifizierung des Zeitpunktes
+                                der Bezeichnung mit einem Beruf kann eine Zeitangabe aufgenommen
+                                werden. Diese ist mÃ¶glicherweise durch Klammern abgegrenzt. Auch die
+                                Verwendung von Ziffern ist ein Indikator fÃ¼r eine Zeitangabe. Jedoch
+                                kÃ¶nnen Ziffern regulÃ¤rer Bestandteil der Berufsbezeichnung sein
+                                (z.Â B. â€º1.Â Pfarrerâ€¹ oder â€º2.Â Offizierâ€¹). Daneben kÃ¶nnten temporale
+                                PrÃ¤positionen auf Zeitangaben hinweisen. Bei der Angabe von
+                                konkreten Daten oder Jahreszahlen kommen temporale PrÃ¤positionen
+                                nach dem Beruf (z.Â B. â€ºBauer im Jahre 1873â€¹) wie auch zu Beginn
+                                (z.Â B. â€ºam 02.03.1734: Hufschmiedâ€¹) vor. HÃ¤ufig stehen Zeitangaben
+                                auch ohne PrÃ¤position.</item>
+                            <item>
+                                <hi rend="bold">Berufsstatus</hi>: Gleichfalls kÃ¶nnen temporale
+                                Informationen darÃ¼ber vorhanden sein, ob der benannte Beruf aktiv
+                                ausgeÃ¼bt wird oder es sich um einen vormaligen Beruf handelt. So
+                                existieren MÃ¶glichkeiten, den Status einer Person in Bezug auf den
+                                Beruf zu beschreiben (z. B. â€ºpensioniert Lehrerâ€¹ oder<hi
+                                    rend="italic"> â€ºg</hi>ewesener Gerichtsschreiberâ€¹). Hinzu treten
+                                Bezeichnungen wie â€ºAltenteilerâ€¹ oder â€ºInvalidâ€¹, die aber keine
+                                spezifischen Berufsangaben mehr enthalten.</item>
+                            <item>
+                                <hi rend="bold">Quellenangaben</hi>: Analog zur Angabe eines
+                                Zeitpunkts ist auch der Verweis auf Quellen mÃ¶glich. Quellen kÃ¶nnen
+                                auf verschiedene Arten angegeben werden. Ein vorkommender Fall ist
+                                die Verwendung von URLs oder HTML-Codes fÃ¼r Hyperlinks, um auf
+                                Inhalte im Internet zu verweisen.</item>
+                            <item>
+                                <hi rend="bold">Ortsangaben</hi>: HÃ¤ufig kommt auch die Angabe des
+                                Ortes einer BerufsausÃ¼bung vor. Anders als bei Zeitangaben werden
+                                bei den Ortsangaben (lokale) PrÃ¤positionen wie â€ºinâ€¹, â€ºbeiâ€¹ oder
+                                â€ºvonâ€¹ hÃ¤ufig verwendet. Neben dem Arbeitsort kann es auch vorkommen,
+                                dass der Herkunfts- oder Wohnort genannt wird, der ebenfalls nicht
+                                zu Beschreibung der TÃ¤tigkeit genutzt werden kann.</item>
+                            <item>
+                                <hi rend="bold">Arbeitgeber</hi>: Ebenfalls kann der Arbeitgeber
+                                genannt werden. Die PrÃ¤positionen Ã¤hneln dabei denen der Ortsangaben
+                                (z.Â B. â€ºKalkulator bei der Deutschen Versicherung A.G.â€¹). Darunter
+                                ist auch die Zuordnung zu einem Dienst- oder Lehnsherren oder einem
+                                Regiment etc. zu verstehen. Bei Berufsangaben werden in diesem Sinne
+                                auch ZusÃ¤tze wie â€ºherrschaftlichâ€¹ oder â€ºkÃ¶niglichâ€¹ als solche
+                                betrachtet. Im MilitÃ¤r dominieren hier Angaben zu Regimentern
+                                etc.</item>
+                            <item>
+                                <hi rend="bold">Familienstand</hi>: Ein Datenfeld, welches mit
+                                â€ºStand und Gewerbeâ€¹ Ã¼berschrieben ist, lÃ¤sst vielerlei MÃ¶glichkeiten
+                                zu. Eine davon ist der Familienstand. Hierrunter fÃ¤llt im engeren
+                                Sinne, ob eine Person ledig, verheiratete oder verwitwet ist.
+                                Bezeichnungen fÃ¼r unverheiratete Frauen sind so beispielsweise
+                                â€ºJungferâ€¹ oder â€ºJungfrauâ€¹, bei MÃ¤nnern dahingegen â€ºJunggeselleâ€¹ oder
+                                â€ºGeselleâ€¹. Manche Angaben kÃ¶nnen auch darauf hinweisen, dass die
+                                Berufsangabe sich nicht direkt auf den Stelleninhaber bezieht,
+                                sondern auf eine nahestehende Person. So kann die Rolle in der
+                                Familie benannt sein (z.Â B. â€ºSohnâ€¹ oder â€ºTochterâ€¹). Die die
+                                Bezeichnung als â€ºWitwerâ€¹ oder â€ºWitweâ€¹ ist erwÃ¤hnenswert.</item>
+                            <item>
+                                <hi rend="bold">Rechtsstatus</hi>: Der Rechtsstatus einer Person
+                                kann ebenso Teil einer personenstandlichen Aussage sind. Eine
+                                wesentliche, oft vorkommende Unterscheidung hierbei ist die zwischen
+                                â€ºBÃ¼rgernâ€¹ und â€ºInwohnernâ€¹ oder â€ºEinwohnernâ€¹.</item>
+                            <item>
+                                <hi rend="bold">Besitzinformationen</hi>: Auch kann die Angabe
+                                Informationen Ã¼ber den Besitz des Beschriebenen enthalten, ohne dass
+                                aus diesen direkt (ohne weitere Annahmen) ein RÃ¼ckschluss auf die
+                                berufliche TÃ¤tigkeit gezogen werden kann (z.Â B. â€ºHausbesitzerâ€¹ oder
+                                â€ºFabrikbesitzerâ€¹, â€ºErbeâ€¹).</item>
+                            <item>
+                                <hi rend="bold">Titularangaben</hi>: Vom Beruf (und auch dem
+                                Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische
+                                Titel. Am hÃ¤ufigsten kommt hierbei die vorangestellte Angabe des
+                                Doktorgrades vor. Auch kÃ¶nnen weitere Adjektive wie â€ºwohlgeachteteâ€¹
+                                oder â€ºehrbareâ€¹ vorangestellt werden oder auch ehrende Anreden
+                                (â€ºHerrâ€¹Â /Â â€ºFrauâ€¹) enthalten.</item>
+                            <item>
+                                <hi rend="bold">Fremdsprachliche Angaben</hi>: Auch fremdsprachliche
+                                Angaben kÃ¶nnen vorkommen. Aufgrund des derzeitigen Fokus der OhdAB
+                                auf historische deutschsprachige Berufe und der speziellen
+                                Konzentration auf deutschsprachige Quellen ist die entwickelte
+                                LÃ¶sung nicht besonders geeignet fÃ¼r Berufs- und Standesbezeichnung
+                                anderer Sprachen. Sie werden nicht mit lemmatisiert und
+                                klassifiziert und deshalb als TN-Ergebnisse erkannt. Langfristig ist
+                                es ein erstrebenswertes Ziel, eine Mehrsprachigkeit (besonders
+                                lateinische Berufsbezeichnungen) zu implementieren. In den
+                                GEDCOM-Daten kommen insbesondere niederlÃ¤ndischer Bezeichnungen
+                                hÃ¤ufig vor. Aufgrund der sprachlichen NÃ¤he zum Deutschen stellen
+                                diese eine besondere Herausforderung dar.</item>
+                            <item>
+                                <hi rend="bold">Tippfehler und Schreibvarianten</hi>: Besonders
+                                nachfolgende (oder fÃ¼hrende) Leerzeichen kommen hÃ¤ufig vor, weil sie
+                                bei der Dateneingabe schnell Ã¼bersehen werden kÃ¶nnen, dennoch aber
+                                Teil des Strings sind. Denkbar sind auch sonstige Tippfehler,
+                                fehlende, zusÃ¤tzlich vorhandene oder vertauschte Zeichen.
+                                GrundsÃ¤tzlich wird von Schreibvarianten gesprochen, ohne die
+                                Herkunft dieser (quellenbasiert, transkriptionsbasiert) fÃ¼r
+                                bestehende Sammlungen aufgrund fehlender direkter Bezugsebenen
+                                zwischen Quellen und Datensammlung nicht Ã¼berprÃ¼fbar sind. Eine
+                                besondere Form von Schreibvarianten stellen Durchkoppelungen dar.
+                                Sie kÃ¶nnen Ã¼berall dort vorkommen, wo verschiedene Morpheme
+                                aneinandergesetzt werden, was bei Berufsangaben vergleichsweise
+                                hÃ¤ufig der Fall ist. Beispiele dafÃ¼r sind der
+                                â€ºReserveoffizier-AnwÃ¤rterâ€¹, â€ºBÃ¤cker-Meisterâ€¹ oder
+                                â€ºGerichts-Gehilfeâ€¹. In seltenen FÃ¤llen wird der Bindestrich auch als
+                                Trennungsoperator zwischen verschiedenen Berufen genutzt (z.Â B.
+                                â€ºHÃ¤usler-Weberâ€¹). </item>
+                            <item>
+                                <hi rend="bold">Falsche Verwendung des Feldes</hi>: Inhaltlich
+                                falschen Angaben, die mit einer Berufsangabe nichts zu tun haben,
+                                kann die falsche Verwendung des Datenfeldes zugrundeliegen.
+                                Wahrscheinlicher als eine bewusste Fehlinterpretation ist vermutlich
+                                die versehentliche Vertauschung, u.Â a. mit Datenfeldern fÃ¼r Namen,
+                                Wohnorte oder Datumsangaben.</item>
+                        </list>
+                        <p>Der Umgang mit diesen wird nachfolgend in der workflow spezification
+                            festgelegt. Dabei handelt es sich um die Formalisierung von Heuristiken
+                            zur Interpretation der Anomalien. Die Spezifizierung des Ablaufs der
+                            Datenbereinigung wird in drei Teile gegliedert: ZunÃ¤chst findet (1.)
+                            eine grundsÃ¤tzliche Vorverarbeitung der ursprÃ¼nglichen Berufsangabe
+                            statt. Danach werden (2.) verschiedene, darin enthaltene Berufsangaben
+                            voneinander separiert. AbschlieÃŸend erfahren diese Strings (3.) eine
+                            weitere Nachbearbeitung, indem berufsfremde Angaben separiert werden.
+                            Die Reihenfolge der einzelnen Schritte ist relevant und zu beachten.
+                            Nachfolgende Schritte kÃ¶nnen zu anderen Ergebnissen fÃ¼hren, sollten die
+                            vorhergehenden nicht zuvor ausgefÃ¼hrt worden sein.</p>
+                    </div>
+                    
+                    <div type="subchapter">
+                        <head>3.3 Ablauf der Datenbereinigung</head>
+                        <div type="subchapter">
+                            <head>3.3.1 Normieren von Trennoperatoren</head>
+                            <p>Es gibt verschiedene Operatoren, die voneinander abzugrenzende
+                                Informationen innerhalb der Berufsangabe trennen. MÃ¶gliche
+                                Trennoperatoren sind:</p>
+                            <list type="unordered">
+                                <item> u.</item>
+                                <item>+</item>
+                                <item>,</item>
+                                <item>;</item>
+                                <item>&amp;</item>
+                                <item>/</item>
+                                <item>-</item>
+                            </list>
+                            <p>Dabei kÃ¶nnen verschiedene Kombinationen mit vor- oder nachgestellten
+                                Leerzeichen Aufschluss Ã¼ber den spezifischen Zweck des Zeichens
+                                geben. Beispielsweise stellt der Bindestich nur ohne vorangehendes
+                                Leerzeichen, einen Trennoperator da, da er ansonsten als
+                                ErgÃ¤nzungsstrich interpretiert werden sollte. Falls hinter dem
+                                ErgÃ¤nzungsstrich zusÃ¤tzlich statt einem Leerzeichen ein Komma
+                                gesetzt ist, handelt es zudem um eine AufzÃ¤hlung, was in der
+                                Ermittlung des entsprechenden Wortteils zu beachten ist. Ausgenommen
+                                von der Trennung ist die Kombination â€º- undâ€¹ wie beispielsweise in
+                                â€ºGold- und Silberschmiedâ€¹. Hier wird von einem zusammenhÃ¤ngenden
+                                Begriff ausgegangen.</p>
+                            <p>Es ist fÃ¼r die nachfolgende Verarbeitung hilfreich, wenn diese
+                                Operatoren normiert und durch einen einzigen Trennoperator getrennt
+                                werden. Die Trennoperatoren werden durch ein â€ºundâ€¹ ersetzt. An den
+                                Stellen, an denen infolgedessen ein â€ºundâ€¹ steht, erfolgt eine
+                                Trennung des Strings unter der LÃ¶schung von des vormals verbindenden
+                                â€ºundâ€¹. Jeder der entstehenden Teile wird datentechnisch abgegrenzt,
+                                sodass dieser zwar einzeln behandelt werden kann, dennoch aber auch
+                                die ursprÃ¼ngliche ZusammengehÃ¶rigkeit nachvollziehbar bleibt. Das
+                                ist aus dem Grunde sinnvoll, da in den dann getrennten Teilen neben
+                                dem Beruf weitere (berufsferne) Informationen stehen kÃ¶nnten. Diese
+                                sind fÃ¼r eine unmittelbare Klassifikation des Berufs nicht notwendig
+                                (oder gar hinderlich), sollen aber im Bezug zur Berufsangabe dennoch
+                                nicht verloren gehen, da sie ggf. wichtige weiterfÃ¼hrende
+                                Informationen erhalten. Die Informationen werden fÃ¼r eine
+                                anschlieÃŸende Interpretation separiert und damit von der
+                                eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die
+                                ZusammengehÃ¶rigkeit nachvollziehbar.<note type="footnote">
+                                    Beispielsweise wird die Bezeichnung â€ºHutmacher und BÃ¼rgerâ€¹ in
+                                    zwei Teile separiert, wobei der BÃ¼rger keine Berufsbezeichnung
+                                    darstellt. FÃ¼r eine mÃ¶gliche nachfolgende Analyse ist es ggf.
+                                    von Relevanz, nachzuvollziehen, dass der Hutmacher einen
+                                    BÃ¼rgerstatus innehatte.</note>
+                            </p>
+                            <p>Es folgen Schritte zur Separierung berufsferner Angaben aus der
+                                Bezeichnung. Teilweise wird die berufsferne Angabe durch die
+                                Separierung aus der eigentlichen Berufsangabe gelÃ¶scht, mitunter
+                                aber auch beibehalten, weil sie fÃ¼r die Lemmatisierung von Relevanz
+                                ist. Separiert wird in zwÃ¶lf Kategorien: </p>
+                            <list type="unordered">
+                                <item>Beruf</item>
+                                <item>Rolle</item>
+                                <item>Jahr</item>
+                                <item>URL</item>
+                                <item>Ort</item>
+                                <item>Arbeitgeber</item>
+                                <item>Familienstand</item>
+                                <item>Rechtsstatus</item>
+                                <item>Besitzinformation</item>
+                                <item>Titel</item>
+                                <item>Berufsstatus</item>
+                                <item>Weiteres</item>
+                            </list>
+                        </div>
+                        
+                        <div type="subchapter">
+                            <head>3.3.2 Entfernung von Leerzeichen</head>
+                            <p>Leerzeichen, die am Anfang oder am Ende des Strings stehen, werden
+                                entfernt.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.3 Ausformulierung von AbkÃ¼rzungen</head>
+                            <p>Die AbkÃ¼rzungen kÃ¶nnen je nach Quelldaten sehr unterschiedlich
+                                gewÃ¤hlt worden sein. Es ist empfohlen, oft vorkommende und
+                                konsistent verwendete AbkÃ¼rzungen in der Quelle im Programm zu
+                                ergÃ¤nzen. Einige AbkÃ¼rzungen, die in den GEDCOM-Daten vorkommen und
+                                allgemeingÃ¼ltig erscheinen, werden an dieser Stelle dennoch bereits
+                                aufgenommen. Kommen sie vor, werden sie ausformuliert. Das bedeutet,
+                                dass dieses ausgeschrieben werden. Dies sind:</p>
+                            <list type="unordered">
+                                <item>â€ºBgmst.â€¹ fÃ¼r â€ºBÃ¼rgermeisterâ€¹</item>
+                                <item>â€ºIng.â€¹ fÃ¼r â€ºIngenieurâ€¹</item>
+                            </list>
+                            <p>Nicht mÃ¶glich ist eine solch allgemeine Ãœbersetzung von AbkÃ¼rzungen
+                                beispielsweise bei der Angabe â€ºB.â€¹, die mit einer groÃŸen
+                                Wahrscheinlichkeit fÃ¼r â€ºBauerâ€¹ oder â€ºBÃ¼rgerâ€¹ stehen kÃ¶nnte. Die
+                                Verwendung aller AbkÃ¼rzungen aus den GEDCOM-Daten wÃ¼rde zu einem
+                                Overfitting fÃ¼hren. Die AbkÃ¼rzung â€ºDr.â€¹ dahingegen wird â€“ trotz
+                                eindeutiger Verwendung â€“ bewusst so belassen, da sie spÃ¤ter als
+                                Titularangabe separiert wird. Auch trifft dieses auf die AbkÃ¼rzungen
+                                â€ºa. D.â€¹ und â€ºi. R.â€¹ zu, da diese den Berufsstatus beschreiben.
+                                Ebenso werden weitere AbkÃ¼rzungen, die fÃ¼r bestimmte Rollen hÃ¤ufig
+                                verwendet werden, nicht ausformuliert (z.Â B. â€ºF.Â d.â€¹ oder â€ºT.Â d.â€¹,
+                                fÃ¼r â€ºFrau desâ€¹ oder â€ºTochter desâ€¹). Die OhdAB nimmt sicher
+                                auflÃ¶sbare AbkÃ¼rzungen zudem als Schreibvarianten auf.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.4 Definierte berufsferne Substantive</head>
+                            <p>Direkte Angaben Ã¼ber den Rechtsstatus werden separiert, nicht aber
+                                aus der Berufsangabe entfernt. Hintergrund ist, dass diese Angaben
+                                Teil der Varianten der OhdAB sind und dadurch erkannt werden kÃ¶nnen.
+                                Das umfasst folgende Begriffe:</p>
+                            <list type="unordered">
+                                <item>BÃ¼rger</item>
+                                <item>Civis Academicus</item>
+                                <item>Einwohner</item>
+                                <item>Inwohner</item>
+                                <item>in wohner</item>
+                                <item>In wohner</item>
+                                <item>Nachbar</item>
+                                <item>UniversitÃ¤tsbÃ¼rger</item>
+                            </list>
+                            <p>Angaben, die Auskunft Ã¼ber den Besitz geben, werden hingegen der
+                                Kategorie Besitzinformationen zugeordnet und aus der Berufsangabe
+                                gelÃ¶scht. Hierunter fallen alle von Leerzeichen umfassten Begriffe,
+                                die auf â€ºbesitzerâ€¹ oder â€ºbesitzerinâ€¹ oder â€ºeigentÃ¼merâ€¹ und
+                                â€ºeigentÃ¼merinâ€¹ enden.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.5 Lokale PrÃ¤positionen</head>
+                            <p>Ortsangaben kÃ¶nnen mit verschiedenen lokalen PrÃ¤positionen
+                                eingeleitet werden. Ist eine der folgenden Zeichenketten samt
+                                vorangehendem und nachfolgendem Leerzeichen Teil der Berufsangabe,
+                                so wird der nachfolgende Teil als Ortsangabe separiert und die
+                                PrÃ¤position gelÃ¶scht. Ein voranstehendes Leerzeichen ist nicht
+                                notwendig, wenn die PrÃ¤position am Beginn des Strings steht.</p>
+                            <list type="unordered">
+                                <item>in</item>
+                                <item>In</item>
+                                <item>i. </item>
+                                <item>von </item>
+                                <item>zu </item>
+                                <item>auf </item>
+                                <item>aus </item>
+                                <item>an </item>
+                                <item>der</item>
+                                <item>des</item>
+                            </list>
+                            <p>Abgegrenzt von der Ortsangabe weisen folgende ErgÃ¤nzungen der
+                                PrÃ¤position â€ºbeiâ€¹ eher einen Bezug zu einem Arbeitgeber auf als zu
+                                einem physischen Ort. Hier wird die Kategorie <hi rend="italic"
+                                    >Arbeitgeber</hi> verwendet.</p>
+                            <list type="unordered">
+                                <item>bei der</item>
+                                <item>bei dem</item>
+                            </list>
+                            <p>Des Weiteren werden folgende Adjektive, die keine lokale PrÃ¤position
+                                darstellen, ebenso in die Arbeitgeberkategorie separiert, aber nicht
+                                aus dem weiter zu verarbeiteten String gelÃ¶scht, da sie einen
+                                wichtigen Bestandteil fÃ¼r die weitere Klassifizierung darstellen und
+                                auch die Varianten der OhdAB diese Begrifflichkeiten mitfÃ¼hren.</p>
+                            <list type="unordered">
+                                <item>herrschaftlich</item>
+                                <item>herrschaftliche</item>
+                                <item>kÃ¶niglich</item>
+                                <item>kÃ¶nigliche</item>
+                            </list>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.6 Separierung von Quellenangaben</head>
+                            <p>Verlinkungen werden in den Bereich der Quellen separiert und
+                                gelÃ¶scht. Hierunter fÃ¤llt der Text zwischen <code>&lt;a&gt;</code>
+                                und <code>&lt;/a&gt;</code> (inklusive der beiden genannten
+                                Zeichen). Andere Quellenangaben werden nicht erkannt und erscheinen
+                                ggf. nachher in der Kategorie <hi rend="italic">Weiteres</hi>.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.7 Titularangaben</head>
+                            <p>Falls die Berufsangabe Informationen zum Titel enthÃ¤lt, werden diese
+                                in die Kategorie <hi rend="italic">Titularangaben</hi> separiert.
+                                Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt,
+                                so endet die Titularangabe mit dem Punkt. Eine Ausnahme besteht
+                                darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring
+                                auch mit einem Punkt endet und somit eine AbkÃ¼rzung darstellt. Hier
+                                wird auch dieser Teilstring in die Titularangabe mit eingebunden und
+                                gelÃ¶scht. Das betrifft auch weitere nachfolgende Teilstrings (z.Â B.
+                                â€ºDr. rer. nat.â€¹). Folgt der Angabe â€ºDr.â€¹ kein Leerzeichen, so sind
+                                alle Zeichen bis zum nÃ¤chsten Leerzeichen zu separieren (z.Â B.
+                                â€ºDr.iur.â€¹).</p>
+                            <list type="unordered">
+                                <item>Prof.</item>
+                                <item>Professor</item>
+                                <item>Dr.</item>
+                                <item>Herzog</item>
+                            </list>
+                            <p>Des Weiteren gibt es viele andere Titularangaben wie Titularherr,
+                                Graf, Contesse, GrÃ¤fin, Freifrau, Freiherr etc. Sie kÃ¶nnen nach
+                                Bedarf ergÃ¤nzt werden.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.8 Angaben zum Familienstand</head>
+                            <p>Folgende Teilstrings werden in die Kategorie <hi rend="italic"
+                                    >Familienstand</hi> separiert und gelÃ¶scht:</p>
+                            <list type="unordered">
+                                <item>F. d.</item>
+                                <item>Ehefrau des</item>
+                                <item>Ehefrau d.</item>
+                                <item>Ehefrau</item>
+                                <item>-frau (am Ende einer Bezeichnung)</item>
+                                <item>T. d.</item>
+                                <item>-tochter (am Ende einer Bezeichnung)</item>
+                                <item>S. d.</item>
+                                <item>-sohn (am Ende einer Bezeichnung)</item>
+                                <item>â€ºWitweâ€¹ oder â€ºWitwerâ€¹</item>
+                                <item>â€ºWittibâ€¹ oder â€ºWittiberâ€¹</item>
+                                <item>â€ºJungfrauâ€¹ oder â€ºJungferâ€¹</item>
+                                <item>â€ºJunggeselleâ€¹ oder â€ºJunggesellâ€¹</item>
+                            </list>
+                            <p>Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses
+                                String Teil der Berufsangabe ist (z. B. â€ºDienstfrauâ€¹,
+                                â€ºArbeitsfrauâ€¹). Folgende Adjektive, die mÃ¶glichen
+                                Familienstandsangaben (aber auch anderen Substantiven) vorangestellt
+                                sind, werden ohne Separierung gelÃ¶scht:</p>
+                            <list type="unordered">
+                                <item>â€ºehrbareâ€¹ oder â€ºehrbarerâ€¹</item>
+                                <item>â€ºtugendsameâ€¹ oder â€ºtugendsamerâ€¹</item>
+                                <item>â€ºwohlgeachteteâ€¹ oder â€ºwohlgeachteterâ€¹</item>
+                                <item>â€ºgeachteteâ€¹ oder â€ºgeachteterâ€¹</item>
+                            </list>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.9 Temporale PrÃ¤positionen und Ziffern</head>
+                            <p>ZunÃ¤chst wird der String auf die folgenden temporalen PrÃ¤positionen
+                                durchsucht. Werden diese gefunden, wird das nachfolgende, durch vor-
+                                und nachstehende Leerzeichen abgegrenzte Wort als Zeitangabe
+                                separiert und samt PrÃ¤position aus dem String gelÃ¶scht.</p>
+                            <list type="unordered">
+                                <item>am</item>
+                                <item>im Jahr</item>
+                            </list>
+                            <p>Zeitangaben sind aber insbesondere auch durch zusammenhÃ¤ngende
+                                Ziffern ohne einleitende PrÃ¤position dargestellt. Der String wird
+                                zunÃ¤chst auf die Ziffern 0 bis 9 durchsucht. Bei genau vier
+                                aufeinanderfolgenden Ziffern wird eine Jahreszahl angenommen. Diese
+                                wird separiert und gelÃ¶scht. Sollte vor der Jahreszahl jedoch ein
+                                Punkt auftauchen, so werden allen Zeichen davor bis zum nÃ¤chsten
+                                Leerzeichen gelÃ¶scht. AusschlieÃŸlich die Jahreszahl wird separiert,
+                                da eine zeitlich genauere Verortung nicht notwendig erscheint.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.10 Erkennung von Rollenangaben</head>
+                            <p>Es werden sechs Rollen unterschieden:</p>
+                            <list type="unordered">
+                                <item>Gehilfe oder -gehilfe / Knecht oder -knecht / Magd oder -magd
+                                    / Helfer oder -helfer / Bursche oder -bursche</item>
+                                <item>Lehrling oder -lehrling / Geselle oder -geselle</item>
+                                <item>Macher oder -macherin (Grundform des Berufes)</item>
+                                <item>Meister oder -meister</item>
+                                <item>Obermeister oder -obermeister / OberÃ¤ltester oder
+                                    -oberÃ¤ltester</item>
+                                <item>Besitzer oder -besitzer / EigentÃ¼mer oder -eigentÃ¼mer</item>
+                            </list>
+                            <p>Dieser Zusatz wird nur festgestellt und in der Kategorie <hi
+                                    rend="italic">Rolle </hi>gespeichert, bleibt aber in der
+                                Berufsbezeichnung erhalten, wenn er von der eigentlichen
+                                Berufsangabe nicht getrennt ist. Steht er frei, so wird er ans Ende
+                                des darauffolgenden von Leerzeichen umschlossenen Teilstring
+                                gestellt.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.11 Berufsstatus</head>
+                            <p>Folgende WÃ¶rter dienen als SignalwÃ¶rter, aus denen sich RÃ¼ckschlÃ¼sse
+                                auf den aktuellen Berufsstatus ziehen lassen. Sie werden gelÃ¶scht
+                                und in die Kategorie <hi rend="italic">Berufsstatus
+                                </hi>separiert.</p>
+                            <list type="unordered">
+                                <item>â€ºpensionierteâ€¹ oder â€ºpensionierterâ€¹</item>
+                                <item>â€ºa. D.â€¹ oder â€ºa.D.â€¹</item>
+                                <item>â€ºi. R.â€¹ oder â€ºi.R.â€¹</item>
+                                <item>â€ºgeweseneâ€¹ oder â€ºgewesenerâ€¹<note type="footnote"> Hier ist zu
+                                        beachten, dass die Angabe auch auf den zuvor erfolgten Tod
+                                        des Stelleninhabers hinweisen kann.</note>
+                                </item>
+                            </list>
+                            <p>Auch hier existieren zahlreiche weiter SignalwÃ¶rter (u. a. â€ºAlt-â€¹,
+                                â€ºweilandâ€¹, â€ºemeritiertâ€¹, â€ºvormaligerâ€¹, â€ºvormalsâ€¹, â€ºverstorbenerâ€¹,
+                                â€ºverabschiedeterâ€¹, â€ºverrenteterâ€¹, â€ºfrÃ¼hererâ€¹, â€ºehemaligerâ€¹,
+                                â€ºausrangierterâ€¹, â€ºabgedankterâ€¹). Auch diese kÃ¶nnen bei Bedarf
+                                ergÃ¤nzt werden.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.12 Separation von Angaben in Klammern</head>
+                            <p>Es wird davon ausgegangen, dass die wesentlichen Berufsangaben nicht
+                                in Klammern stehen. Diverse mÃ¶gliche Inhalte fÃ¼r Klammern wurden
+                                bereits in den vorherigen Schritten entfernt. Die Ã¼briggebliebenen
+                                Daten kÃ¶nnen nicht genau zugeordnet werden und werden aus diesem
+                                Grund ohne die Klammern in die Kategorie <hi rend="italic"
+                                    >Weiteres</hi> separiert und gelÃ¶scht. Die Klammern selbst
+                                werden gelÃ¶scht. </p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.13 LÃ¶schung von Sonderzeichen</head>
+                            <p>Verbleibende Sonderzeichen, mit Ausnahme von Punkten, die durchaus
+                                Teil einer Berufsangabe sein kÃ¶nnen, werden gelÃ¶scht. Als
+                                Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen
+                                oder Buchstaben darstellen. Falls vor, nach oder vor und nach den
+                                Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein
+                                Leerzeichen eingesetzt.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.3.14 Umsetzen der Kleinschreibung</head>
+                            <p>Verbleibende GroÃŸbuchstaben werden durch ihre entsprechende
+                                Kleinschreibung ersetzt. Dies dient dazu, Differenzen in der GroÃŸ-
+                                und Kleinschreibung zu ignorieren.</p>
+                            <p>Der Ã¼bergebliebene String wird nochmals von Leerzeichen am Anfang und
+                                Ende bereinigt. Er enthÃ¤lt abschlieÃŸend nun die bereinigte Variante
+                                der Berufsangabe und wird ebenso einer Kategorie (Beruf) zugeordnet.
+                                Die Bereinigung dieses Strings ist damit abgeschlossen und er kann
+                                der Berufsangabenklassifizierung unterzogen werden. Demzufolge
+                                werden Tippfehler an dieser Stelle nicht erkannt, kÃ¶nnen aber durch
+                                die nachfolgende Ã„hnlichkeitsanalyse erfasst werden.</p>
+                            <p>Die AusfÃ¼hrung der Verarbeitung (workflow execution) erfolgt nicht
+                                iterativ, sondern einmalig.<note type="footnote"> Bei der
+                                    Entwicklung des Algorithmus hat ein iteratives Vorgehen jedoch
+                                    sehr wohl Raum eingenommen. Durch die Begutachtung des
+                                    Klassifikationsergebnisses wurden weitere Anomalien entdeckt,
+                                    die in den Algorithmus mit eingebaut wurden.</note> Um den
+                                Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der
+                                Daten notwendig: Die Berufe mÃ¼ssen als Liste vorliegen, da das Ziel
+                                in einer automatisierten Klassifizierung besteht, in der
+                                definitionsgemÃ¤ÃŸ kein post-processing and controlling durch eine
+                                manuelle Kontrolle notwendig ist. Aus den Spezifika des Datensatzes
+                                kann nun die Anpassung des Quellcodes geboten sein.</p>
+                        </div>
+                    </div>
+                    <div type="subchapter">
+                        <head>3.4 Klassifizierung der Berufsangaben</head>
+                        <p>Nach der Bereinigung sind den Berufsangaben trotzdem noch keine Berufe
+                            der OhdAB-Konkordanz zugeordnet. Die notwendige Lemmatisierung geschieht
+                            auf Basis der Eigenschaften der bestehenden Klassen. Darum findet ein
+                            Abgleich mit den vorhandenen Varianten der OhdAB statt. Eine
+                            Berufsangabe soll der Klasse zugeordnet werden, deren ZugehÃ¶rigkeit am
+                            wahrscheinlichsten ist. Die Ã„hnlichkeit einer Berufsangabe zu den
+                            Eigenschaften (bestehende Varianten) einer Klasse (Beruf) wird dabei als
+                            Indikator fÃ¼r die Wahrscheinlichkeit einer korrekten Zuordnung
+                            (Lemmatisierung) genutzt. Diese kann Ã¼ber einen Vergleich der
+                            Zeichenketten ermittelt werden. Jedoch muss nicht zwingend eine
+                            Lemmatisierung stattfindet: Wenn die Ã„hnlichkeit zu jeder Klasse so
+                            gering ist, dass eine korrekte Zuordnung unwahrscheinlich ist, kann kein
+                            Pendant gefunden werden.</p>
+                        <p>Zeichenketten kÃ¶nnen auf verschiedene Arten verglichen werden. Kirby et
+                            al. empfehlen fÃ¼r die weitere Forschung eine Variation von verschiedenen
+                            Vergleichsmethoden.<note type="footnote"> Kirby 2015, S. 58.</note>
+                            Folgend werden MÃ¶glichkeiten aufgezeigt, die im Abschnitt zur
+                            Validierung (<ref type="intern" target="#hd36">Kapitel 5</ref>) untersucht
+                            werden. Wenn eine bereinigte Berufsangabe mit einer Variante exakt
+                            Ã¼bereinstimmt, wird die Berufsangabe dieser Variante zugeordnet.
+                            Dadurch, dass die Variante einer Normschreibweise der Konkordanz
+                            zugeordnet ist, ist auch ihre Zuordnung zu einer Berufsgattung der OhdAB
+                            eindeutig. Besteht keine Ãœbereinstimmung mit einer Variante, so ist eine
+                            teilweise Ãœbereinstimmung zu Ã¼berprÃ¼fen. </p>
+                        
+                        
+                        <div type="subchapter">
+                            <head>3.4.1 Levenshtein-Distanz absolut</head>
+                            <p>Die Levenshtein-Distanz wird jeweils fÃ¼r die Berufsangabe und die
+                                Varianten berechnet; zur Verbesserung der Laufzeit wird ein
+                                Vergleich nur bei einer Ãœbereinstimmung des ersten Buchstabens
+                                vorgenommen. Aus einer hohen Ã„hnlichkeit dieser beiden Strings
+                                resultiert eine geringe Distanz. Zeichenketten mit einer Distanz von
+                                1 werden als Ã¤hnlich klassifiziert und ausgewÃ¤hlt. Die absolute
+                                Levenshtein-Distanz wird auch als <hi rend="italic">Lev</hi>a
+                                bezeichnet. </p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.2 Levensthein-Distanz relativ</head>
+                            <p>Da in einer lÃ¤ngeren Zeichenkette auch mehrere Fehler oder
+                                Variationen vorkommen kÃ¶nnen, wird die Levenshtein-Distanz mit der
+                                LÃ¤nge der zu Ã¼berprÃ¼fenden Berufsbezeichnung in Beziehung gesetzt
+                                (Formel 4). Dabei wird hier nicht differenziert, ob solche Fehler
+                                Resulat von Lese- oder Schreibprozessen, mangelhafter OCR-Erkennung
+                                oder tatsÃ¤chliche Schreibvarianten sind. Unterschreitet die relative
+                                Distanz einen bestimmten Wert, findet eine Zuordnung statt. Der
+                                hierfÃ¼r zu unterschreitende Grenzwert wird in der Validierung
+                                bestimmt.</p>
+                            <p>Formel 4: Levr(bi,vj)=Lev(bi,vj)LÃ¤nge bi</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.3 Erweiterung der AbkÃ¼rzungserkennung</head>
+                            <p>In der Validierung werden zwei verschiedene MÃ¶glichkeiten der
+                                AbkÃ¼rzungserkennung verglichen: Zum einen ist das der Algorithmus,
+                                wie er zuvor vorgestellt worden ist (Ausformulierung definierter
+                                AbkÃ¼rzungen). Zum anderen aber wird eine Erweiterung dahingehend
+                                getestet, ob bei ausbleibender Ã„hnlichkeit zu den Varianten eine
+                                Ã„hnlichkeit mit einer AbkÃ¼rzung besteht. Dadurch wird z. B. fÃ¼r die
+                                Berufsbezeichnung â€ºPreuÃŸischer Leutnantâ€¹ und der Variante â€ºPreuÃŸ.
+                                Leutnantâ€¹ eine Ãœbereinstimmung festgestellt, obwohl die
+                                ursprÃ¼ngliche Levenshtein-Distanz vergleichsweise hoch ist.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.4 ErgÃ¤nzung einer lernenden Komponente wÃ¤hrend der
+                                Lemmatisierung</head>
+                            <p>Die lemmatisierte Berufsangabe kann nun als Schreibvariante eines
+                                Berufs ebenso mit in die Varianten eingehen. Dadurch wird die Zahl
+                                der Varianten erhÃ¶ht und die Wahrscheinlichkeit gesteigert, neue
+                                Berufsangaben zu erkennen. Der Vorteil gegenÃ¼ber einer reinen
+                                ErhÃ¶hung von Grenzwerten ist an einem Beispiel gut erkennbar: Die
+                                Levenshtein-Distanz zwischen â€ºMÃ¼llerË† und â€ºMuellerË† ist
+                                mÃ¶glicherweise zu groÃŸ, obwohl es denselben Beruf beschreibt. Wird
+                                nun Ã¼ber â€ºMÃ¼llerâ€¹ zuvor aber die Variante â€ºMullerâ€ erkannt, wird im
+                                nÃ¤chsten Schritt auch â€ºMuellerâ€¹ erkannt. Bei einer erlaubten
+                                Levenshtein-Distanz von 2 wÃ¤re â€ºMuellerâ€¹ zwar direkt erkannt worden,
+                                â€ºMalerâ€¹ aber ebenso. Der Nachteil dieses lernenden Vorgehens besteht
+                                in der Reproduktion von Fehlern durch falsch-positive (FP)
+                                Ergebnisse.</p>
+                        </div>
+                        <div type="subchapter">
+                            <head>3.4.5 ErgÃ¤nzung einer lernenden Komponente im Anschluss in einer
+                                weiteren Iteration</head>
+                            <p>Statt die neuen Varianten kontinuierlich hinzuzufÃ¼gen ist es auch
+                                mÃ¶glich, nach einer einmaligen Bearbeitung alle nicht-lemmatisierten
+                                Berufsangaben erneut zu untersuchen. Vorteil hierbei ist, dass die
+                                Berufsangaben zu Beginn (ohne gelernte Varianten) nochmals mit den
+                                spÃ¤ter gelernten Varianten verglichen werden. Hierbei sind viele
+                                Iterationen vorstellbar.</p>
+                        </div>
+                    </div>
+                </div>
+                
+                <div type="chapter">
+                    <head>4. Programmtechnische Umsetzung</head>
+                    <p>Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in<ref
+                            type="graphic" target="#berufsbezeichnungen_2022_002"> Abbildung 2</ref>
+                        zu sehen graphisch dargestellt werden. </p>
+                    <figure>
+                        <graphic xml:id="berufsbezeichnungen_2022_002"
+                            url=".../medien/berufsbezeichnungen_2021_002.png">
+                            <desc>
+                                <ref target="#abb2">Abb. 2</ref>: Algorithmus, dargestellt in einem
+                                Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022] <ref type="graphic"
+                                    target="#berufsbezeichnungen_2022_002"/>
+                            </desc>
+                        </graphic>
+                    </figure>
+                    <p>Zur Umsetzung des Algorithmus wird die Programmiersprache Python 3.7
+                        verwendet. Diese bietet den Vorteil, dass fÃ¼r die Datenbereinigung keine
+                        dritte Software genutzt wird, die ggf. LizenzeinschrÃ¤nkungen mit sich
+                        bringen wÃ¼rde. Das Ergebnis ist Ã¶ffentlich zugÃ¤nglich und kann fÃ¼r weitere
+                        wissenschaftliche Arbeiten verwendet oder angepasst werden. Dazu ist der
+                        Quellcode im <ref target="http://www.">Online-Repositorium</ref> zu finden.
+                        Er enthÃ¤lt die Variante des Algorithmus, die das beste Ergebnis in Bezug auf
+                        das F1-MaÃŸ erbringt (siehe folgender <ref type="intern" target="#hd36"
+                            >Abschnitt 5</ref>).</p>
+                    <p>Das Programm ist in einzelne Funktionen gegliedert, welche im Folgenden
+                        vorgestellt werden, bevor das Zusammenwirken dieser erlÃ¤utert wird. Die
+                        Vorstellung an dieser Stelle dient dazu, einen einfacheren Zugang zur
+                        Anpassung des Codes zu ermÃ¶glichen. Auf eine detaillierte Beschreibung der
+                        Funktionsweise wird an dieser Stelle verzichtet. NÃ¤here ErlÃ¤uterungen sind
+                        den Kommentaren im Programmcode zu entnehmen.</p>
+                    <p>Der <ref type="graphic" target="#berufsbezeichnungen_2022_003">Abbildung
+                            3</ref> ist der grundlegende Aufbau des Programms zu entnehmen. Die
+                        Pfeile zwischen den Funktionen deuten darauf hin aus welcher Ã¼bergeordneten
+                        Funktion diese aufgerufen werden. In der <hi rend="italic"
+                        >main</hi>-Funktion werden zunÃ¤chst relevante Dateien ausgewÃ¤hlt, die dann
+                        parallelisiert Ã¼ber die Funktion <code>preCreateOccuList</code> aufgerufen
+                        werden (spÃ¤tere Iterationen Ã¼ber <code>createOccuList</code>). Jede
+                        GEDCOM-Datei wird darin Ã¼ber die Funktion <code>loadGedcomFile</code>
+                        aufgerufen. Danach wird die Funktion <code>createOccuList</code> aufgerufen,
+                        in welcher ein Aufruf einer Liste bisheriger Varianten durch die Funktion
+                            <code>loadData</code> stattfindet. Ãœber die Funktion
+                            <code>createFile</code> werden Ausgabedateien initial erstellt.</p>
+                    <p>Mit der Funktion <code>occuCleaner</code> werden in der Funktion <term
+                            type="dh">createOccuList</term> die einzelnen Berufsangaben zunÃ¤chst
+                        grundlegend bereinigt, die Schritte 1 bis 3 des Bereinigungsalgorithmus
+                        werden damit realisiert. Dazu werden Leerzeichen am Anfang und Ende entfernt
+                        und definierte AbkÃ¼rzungen ausgeschrieben. Verschiedene Trennoperatoren
+                        werden zu â€ºundâ€¹ normiert. Die Berufsangabe wird dann pro â€ºundâ€¹ aufgespalten
+                        und in einzelne <term type="dh">Dictionaries</term> separiert. Die maximale
+                        Anzahl von Trennungen der Berufsangabe liegt hier bei 5. Dieser Separierung
+                        erfolgt in der Funktion <code>separator</code>.</p>
+                    <p>Zu jeder vorbereinigten Berufsangabe wird nun die Funktion
+                            <code>partCorrector</code> ausgefÃ¼hrt, dort wird der
+                        Bereinigungsalgorithmus ab Schritt 4 umgesetzt. Ziel dieser Funktion ist es,
+                        pro Angabe ein Dictionary zu erzeugen, in dem die verschiedenen Bestandteile
+                        der Angabe dokumentiert werden. Das Dictionary enthÃ¤lt Informationen zur
+                        Berufsangabe, die Lemmatisierung dieser zu der OhdAB, mÃ¶gliche vom Beruf
+                        abzugrenzende Titel, Rollen oder Ortsangaben sowie Zeitangaben und URLs.
+                        Alles, was in keine dieser Kategorien einsortiert werden kann, wird als <hi
+                            rend="italic">Weiteres</hi> bezeichnet.</p>
+                    <p>Um die Klassifizierung nach der OhdAB vornehmen zu kÃ¶nnen, wird in der
+                        Funktion <code>dictSearch</code> eine vollstÃ¤ndige Ãœbereinstimmung mit der
+                        bereinigten Berufsangabe geprÃ¼ft. Besteht keine vollstÃ¤ndige
+                        Ãœbereinstimmung, so wird mithilfe der Levenshtein-Distanz (Funktion
+                            <code>levenshteinDist</code>) die Ã„hnlichkeit zu den anderen Varianten
+                        Ã¼berprÃ¼ft. Die Variante mit dem geringsten Wert bei dem VerhÃ¤ltnis von
+                        Levenshtein-Distanz und LÃ¤nge der zu untersuchenden Berufsbezeichnung, wird
+                        ausgewÃ¤hlt. Bei gleicher Distanz wird die Variante ausgewÃ¤hlt, die von vorne
+                        beginnend die meisten Ã¼bereinstimmenden Buchstaben mit der zu
+                        lemmatisierenden Bezeichnung aufweist. Liegt der Wert der relativen
+                        Levenshtein-Distanz unter 0,25 wird eine Ãœbereinstimmung angenommen. Die
+                        Liste der Varianten selbst wurde Ã¼ber die Funktion <code>loadData</code> als
+                        Liste von Dictionaries hochgeladen. Dieses erklÃ¤rt den Namen der Funktion
+                            <code>dictSearch</code>.</p>
+                    <p>Die Ã„hnlichkeitsanalyse findet Ã¼berwiegend in der Funktion
+                            <code>levenshteinDist</code> statt. Zur AuflÃ¶sung von AbkÃ¼rzungen wird
+                        zusÃ¤tzlich die Funktion <code>abbreviationCorrector</code> verwendet. Um die
+                        Position bestimmter Teile in einem String zu ermitteln, wird die Funktion
+                            <code>endOfString</code> verwendet. Die Funktion <code>replaceLoc</code>
+                        hingehen dient der Separierung von Ortsbestandteilen aus der Bezeichnung.
+                        Der Zusammenhang der Funktionen ist in <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_003">Abbildung 3</ref>
+                        dargestellt.</p>
+                    <figure>
+                        <graphic xml:id="berufsbezeichnungen_2022_003"
+                            url=".../medien/berufsbezeichnungen_2021_003.png">
+                            <desc>
+                                <ref target="#abb3">Abb. 3</ref>: Zusammenhang der Funktionen.
+                                [Goldberg / Moeller 2022] <ref type="graphic"
+                                    target="#berufsbezeichnungen_2022_003"/>
+                            </desc>
+                        </graphic>
+                    </figure>
+                </div>
+                <div type="chapter">
+                    <head>5. Validierung und Diskussion</head>
+                    <p>Zur Validierung werden zunÃ¤chst 3,3 Prozent der Dateien ausgewÃ¤hlt
+                        (Trainingsdaten). In den zufÃ¤llig ausgewÃ¤hlten 95 Dateien finden sich
+                        insgesamt 1.840 Berufsangaben. Diese werden zur Festlegung der
+                        Levenshtein-Distanz-Grenzen verwendet. Die Reduzierung des Datenvolumens in
+                        diesem Schritt ist notwendig, da eine manuelle ÃœberprÃ¼fung der Korrektheit
+                        der Klassifizierung aller Ergebnisse nur mit Ã¼bermÃ¤ÃŸig viel Aufwand mÃ¶glich
+                        wÃ¤re. Dabei wird zunÃ¤chst geprÃ¼ft, ob die absolute oder relative
+                        Levensthein-Distanz fÃ¼r den Algorithmus besser geeignet ist, und wie hoch
+                        der Grenzwert fÃ¼r eine Ã„hnlichkeitserkennung sein sollte. AnschlieÃŸend daran
+                        wird geprÃ¼ft, ob und wie die AbkÃ¼rzungserkennung Einfluss auf das Ergebnis
+                        nimmt. Gleiches wird mit der erweiterten Bereinigung der Berufsangaben
+                        geschehen. AbschlieÃŸend wird der Einfluss einer lernenden Komponente
+                        getestet, indem die neu erlernten Varianten in die Gesamtheit aller
+                        Varianten eingehen.</p>
+                    <p>Da es Ziel des Algorithmus ist, das F1-MaÃŸ zu maximieren, ist festzulegen ab
+                        welchem Grenzwert â€“ genannt <hi rend="italic">Lev</hi>a (Levenshtein-Distanz
+                        absolut) und <hi rend="italic">Lev</hi>r (Levensthein-Distanz relativ) â€“
+                        eine Zuordnung zwischen Berufsangabe und Variante erfolgen soll. Da die
+                        Bewertung, ob eine Zuordnung falsch oder richtig ist, hier nur manuell
+                        geschehen kann, ist eine SchÃ¤tzung der Grenzwerte auf Basis aller Daten sehr
+                        zeitaufwÃ¤ndig und mit zunehmender Anzahl von Daten auch mit einem
+                        abnehmenden Grenznutzen fÃ¼r die GÃ¼te das Parameters behaftet. Zudem macht
+                        bei der relativen Levenshtein-Distanz ein grob gerundeter Parameter in den
+                        meisten FÃ¤llen keinen Unterschied. Beispielsweise bei einer achtstelligen
+                        Berufsangabe steigt <hi rend="italic">Lev</hi>r bei jeder ErhÃ¶hung der
+                        jeweiligen Levenshtein-Distanz um 0,125 (ein Achtel). Ob der Grenzwert im
+                        Beispiel also bei 0,126 oder 0,249 liegt ist irrelevant. </p>
+                    <p>ZunÃ¤chst zeigt die DurchfÃ¼hrung einer Klassifikation mit der absoluten
+                        Levenshtein-Distanz mit einem Grenzwert von â‰¤ 1, â‰¤ 2 und â‰¤ 3 im Vergleich
+                        (siehe <ref type="graphic" target="#berufsbezeichnungen_2022_t3">Tabelle
+                            3</ref>), dass eine Distanz von 2 beziehungsweise 3 ein schlechteres
+                        Ergebnis in Bezug auf die Genauigkeit (P) erbringt. Dabei wird nur der
+                        Anteil der Berufsangaben in den Trainingsdaten herangezogen, die nicht durch
+                        einen genauen Treffer identifiziert werden, sodass nur die Berufsangaben
+                        Ã¼brigbleiben, bei denen die Ã„hnlichkeitserkennung einen Unterschied macht.
+                        Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den
+                        Spalten â€ºAnzahlâ€¹ und â€ºAnteilâ€¹ zu entnehmen.<note type="footnote"> Da ein
+                            groÃŸer Teil des F1-MaÃŸ durch die direkte Erkennung bestimmt ist und die
+                            Ã„hnlichkeitsanalyse nur einen kleinen Anteil ausmacht, wird hier nur der
+                            Teil der Daten betrachtet, der den Unterschied determiniert.</note>
+                        Besonders deutlich wird die Ungenauigkeit bei einer absoluten
+                        Levenshtein-Distanz von 3, bei der lediglich etwa die HÃ¤lfte der
+                        Lemmatisierungen noch korrekt ist. Wenn jedoch angenommen wird, dass die
+                        Grundgesamtheit nur aus den 72 bei â‰¤ 3 erkannten Berufsangaben besteht, so
+                        kann ein F1-Wert berechnet werden. Hierbei ergibt sich ein maximaler Wert
+                        bei einer Levenshtein-Distanz von 2.</p>
+                    <table xml:id="berufsbezeichnungen_2022_t3">
+                        <row>
+                            <cell>Lev</cell>
+                            <cell>Anzahl</cell>
+                            <cell>Anteil</cell>
+                            <cell>TP</cell>
+                            <cell>FP</cell>
+                            <cell>P</cell>
+                            <cell>FN</cell>
+                            <cell>TN</cell>
+                            <cell>R</cell>
+                            <cell>F1</cell>
+                        </row>
+                        <row>
+                            <cell>â‰¤ 1</cell>
+                            <cell>35</cell>
+                            <cell>1,88 %</cell>
+                            <cell>31</cell>
+                            <cell>4</cell>
+                            <cell>0,886</cell>
+                            <cell>7</cell>
+                            <cell>30</cell>
+                            <cell>0,816</cell>
+                            <cell>0,849</cell>
+                        </row>
+                        <row>
+                            <cell> â‰¤ 2 </cell>
+                            <cell>47</cell>
+                            <cell>2,53 %</cell>
+                            <cell>37</cell>
+                            <cell>9</cell>
+                            <cell>0,787</cell>
+                            <cell>1</cell>
+                            <cell>25</cell>
+                            <cell>0,974</cell>
+                            <cell>0,881</cell>
+                        </row>
+                        <row>
+                            <cell> â‰¤ 3 </cell>
+                            <cell>72</cell>
+                            <cell>3,87 %</cell>
+                            <cell>38</cell>
+                            <cell>34</cell>
+                            <cell>0,527</cell>
+                            <cell>0</cell>
+                            <cell>0</cell>
+                            <cell>1,000</cell>
+                            <cell>0,691</cell>
+                        </row>
+                        <trailer xml:id="tab03"><ref target="#tab3">Tab. 3</ref>: Klassifikation unser Variation
+                            der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller
+                            2022]</trailer>
+                    </table>
+
+                    <p>Bei einem Vergleich von verschiedenen Grenzwerten der relativen
+                        Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30
+                        die besten Ergebnisse erbringt (siehe <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_t4">Tabelle 4</ref>). Ein maximaler
+                        F1-Wert wird bei einer Grenze von <hi rend="italic">Lev</hi>r &lt; 0,30
+                        erzielt. Es zeigt sich zudem, dass die Genauigkeit (P) mit zunehmendem
+                        Grenzwert sinkt. Der AusreiÃŸer der Genauigkeit bei &lt; 0,3 ist eher dadurch
+                        bedingt, dass durch den Schritt von &lt; 0,28 auf &lt; 0,30 zufÃ¤llig zwei
+                        weitere Berufsangaben der Stichprobe positiv und korrekt lemmatisiert
+                        werden. Wird angenommen, dass die Grundgesamtheit nur aus den 57 bei &lt;
+                        0,4 erkannten Werten besteht, so kann ein F1-Wert berechnet werden. Gute
+                        Werte ergeben sich zwischen &lt; 0,2 und &lt; 0,3. Das Maximum des F1-Werts
+                        wird durch die beiden AusreiÃŸer zwar bei &lt; 0,3 erreicht. In Hinblick auf
+                        das gute Ergebnis, das aber bereits bei &lt; 0,2 erreicht wird, wird fÃ¼r die
+                        folgende Verarbeitung ein Grenzwert von &lt; 0,25 ausgewÃ¤hlt.</p>
+                    <p>Dieses Vorgehen ist allerdings nur bei Bezeichnungen mit einer MindestlÃ¤nge
+                        sinnvoll. Bei WÃ¶rtern unter fÃ¼nf Buchstaben fÃ¼hrt mehr als eine Ã„nderung
+                        bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.<note
+                            type="footnote"> Allerdings existieren nur wenige Berufsbezeichnungen
+                            unter fÃ¼nf Buchstaben.</note> Eine weitere (erwÃ¼nschte) Eigenschaft ist,
+                        dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden
+                        sollten, keine Zuordnung geschieht, da die relative Levenshtein-Distanz dort
+                        oftmals sehr hoch ist. Ebenso sieht es bei einer falschen Verwendung des
+                        Felder aus (z. B. Eintragung einer Ortsangabe). Vorteilhaft ist dieses
+                        Vorgehen insbesondere bei geringfÃ¼gig differierenden Schreibvarianten,
+                        ausgelassenen oder zu viel vorhandenen Buchstaben sowie
+                        Buchstabendrehern.</p>
+                    <table xml:id="berufsbezeichnungen_2022_t4">
+                        <row>
+                            <cell>Levr</cell>
+                            <cell>Anzahl</cell>
+                            <cell>Anteil</cell>
+                            <cell>TP</cell>
+                            <cell>FP</cell>
+                            <cell>P</cell>
+                            <cell>FN</cell>
+                            <cell>TN</cell>
+                            <cell>R</cell>
+                            <cell>F1</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,10</cell>
+                            <cell>10</cell>
+                            <cell>0,54 %</cell>
+                            <cell>10</cell>
+                            <cell>0</cell>
+                            <cell>1,000</cell>
+                            <cell>27</cell>
+                            <cell>20</cell>
+                            <cell>0,270</cell>
+                            <cell>0,426</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,20</cell>
+                            <cell>34</cell>
+                            <cell>1,85 %</cell>
+                            <cell>31</cell>
+                            <cell>3</cell>
+                            <cell>0,912</cell>
+                            <cell>6</cell>
+                            <cell>17</cell>
+                            <cell>0,837</cell>
+                            <cell>0,873</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0.25</cell>
+                            <cell>37</cell>
+                            <cell>2,01 %</cell>
+                            <cell>33</cell>
+                            <cell>4</cell>
+                            <cell>0,892</cell>
+                            <cell>4</cell>
+                            <cell>16</cell>
+                            <cell>0,891</cell>
+                            <cell>0,892</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,28</cell>
+                            <cell>39</cell>
+                            <cell>2,12 %</cell>
+                            <cell>33</cell>
+                            <cell>6</cell>
+                            <cell>0,846</cell>
+                            <cell>4</cell>
+                            <cell>14</cell>
+                            <cell>0,891</cell>
+                            <cell>0,868</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,30</cell>
+                            <cell>41</cell>
+                            <cell>2,23 %</cell>
+                            <cell>35</cell>
+                            <cell>6</cell>
+                            <cell>0,878</cell>
+                            <cell>2</cell>
+                            <cell>14</cell>
+                            <cell>0,946</cell>
+                            <cell>0,897</cell>
+                        </row>
+                        <row>
+                            <cell>&lt; 0,40</cell>
+                            <cell>57</cell>
+                            <cell>3,10 %</cell>
+                            <cell>37</cell>
+                            <cell>20</cell>
+                            <cell>0,649</cell>
+                            <cell>0</cell>
+                            <cell>0</cell>
+                            <cell>1,000</cell>
+                            <cell>0,787</cell>
+                        </row>
+                        <trailer xml:id="tab04"><ref target="#tab4">Tab. 4</ref>: Klassifikation unser Variation
+                            des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller
+                            2022]</trailer>
+                    </table>
+
+                    <p>Nachteilig ist, dass AbkÃ¼rzungen so nicht erkannt werden, da die absolute
+                        Levenshtein-Distanz zwischen einem Begriff und seiner AbkÃ¼rzung
+                        definitionsgemÃ¤ÃŸ mindestens die Anzahl der nicht vorhandenen, abgekÃ¼rzten
+                        Buchstaben betrÃ¤gt. Wird die Erkennung von AbkÃ¼rzungen aktiviert, hat das
+                        auf die Trainingsdaten jedoch keine Auswirkung (getestet bei relativer
+                        Levenshtein-Distanz von &lt; 0,2). Wird stattdessen eine Stichprobe von
+                        jeder zehnten Datei genommen (statt zuvor jeder fÃ¼nften Datei), wird im
+                        Versuch eine weitere Berufsangabe gefunden (hier wird die Berufsangabe
+                        â€ºLandwirtschaftliche Arbeiterinâ€¹ der Variante â€ºLandwirtschaftl. Arbeiterinâ€¹
+                        zugeordnet). Auch wenn solche FÃ¤lle (in den verwendeten Daten) nicht hÃ¤ufig
+                        vorkommen, so bleibt die AbkÃ¼rzungserweiterung dennoch im Algorithmus, weil
+                        sie grundsÃ¤tzlich die GÃ¼te des Ergebnisses verbessert.</p>
+                    <p>Um den Einfluss der erweiterten Bereinigung der Berufsangaben auf die GÃ¼te
+                        des Ergebnisses zu prÃ¼fen, werden die Testdaten verwendet (229.669
+                        Berufsangaben in 2.899 Dateien).<note type="footnote"> Das entspricht den
+                            Dateien, die nicht in den Trainingsdaten vorhanden sind.</note> Hier
+                        werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil
+                        vorrangig von Interesse ist, ob dadurch mehr Varianten gefunden werden. Bei
+                        einer Einbindung der Bereinigung kÃ¶nnen 64 Prozent der beruflichen
+                        Bezeichnungen direkt (ergo ohne Ã„hnlichkeitsanalyse) lemmatisiert und einer
+                        bestehenden Variante zugeordnet werden (siehe <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_t5">Tabelle 5</ref>). Das sind sieben
+                        Prozent mehr im Vergleich zu einem Durchlauf ohne diese Bereinigung. Bei den
+                        vergleichenden Bezeichnungen wird eine Ã„hnlichkeitsanalyse durchgefÃ¼hrt.
+                        Auch hier bringt die Bereinigung ein geringfÃ¼gig besseres Ergebnis hervor
+                        (+0,22 Prozent Erkennung). Bei der Version mit Bereinigung bleiben 30
+                        Prozent der Angaben Ã¼ber, die nicht erkannt werden kÃ¶nnen. Ein geringer
+                        Prozentsatz leerer Bezeichnungen ist auch enthalten, in denen keine
+                        Information zu finden ist. Wie hier auch zu sehen ist, hat die
+                        Ã„hnlichkeitsanalyse nur eine geringe Auswirkung im Vergleich zur direkten
+                        Erkennung. Diese wird durch den Einsatz der Bereinigung maÃŸgeblich erhÃ¶ht
+                        und stellt deshalb ein sehr wichtiges Element des Algorithmus dar. </p>
+                    <table xml:id="berufsbezeichnungen_2022_t5">
+                        <row>
+                            <cell/>
+                            <cell>Direkt gefunden</cell>
+                            <cell>Ã„hnlichkeitsanalyse</cell>
+                            <cell>Nicht gefunden</cell>
+                            <cell>Leere Bezeichnungen</cell>
+                        </row>
+                        <row>
+                            <cell> mit Bereinigung (insgesamt 229.669 Angaben) </cell>
+                        </row>
+                        <row>
+                            <cell> Anzahl </cell>
+                            <cell> 147.781 </cell>
+                            <cell> 9.674 </cell>
+                            <cell> 68.955 </cell>
+                            <cell> 3.259 </cell>
+                        </row>
+                        <row>
+                            <cell> Anteil </cell>
+                            <cell> 64,35 % </cell>
+                            <cell> 4,21 % </cell>
+                            <cell> 30,02 % </cell>
+                            <cell> 1,42 % </cell>
+                        </row>
+                        <row>
+                            <cell> ohne Bereinigung (insgesamt 229.669 Angaben) </cell>
+                        </row>
+                        <row>
+                            <cell> Anzahl </cell>
+                            <cell> 131.064 </cell>
+                            <cell> 9.160 </cell>
+                            <cell> 86.344 </cell>
+                            <cell> 3.101 </cell>
+                        </row>
+                        <row>
+                            <cell> Anteil </cell>
+                            <cell> 57,07 % </cell>
+                            <cell> 3,99 % </cell>
+                            <cell> 37,59 % </cell>
+                            <cell> 1,35 % </cell>
+                        </row>
+                        <trailer xml:id="tab05"><ref target="#tab5">Tab. 5</ref>: Vergleich des Effektes der
+                            Bereinigung auf die Erkennung. [Goldberg / Moeller 2022]</trailer>
+                    </table>
+
+                    <p>Die durch die Ã„hnlichkeitsanalyse zugeordneten Berufsangaben kÃ¶nnen, da diese
+                        als Variante noch nicht existieren, in der Variantenliste ergÃ¤nzt werden.
+                        Dieses kann auf zwei Arten geschehen: (1.) indem die neuen Treffer direkt
+                        nach Erkennung in die Menge der Varianten eingehen oder (2.) alle nicht
+                        erkannten Bezeichnungen im Anschluss nochmals mit allen neuen Varianten
+                        abgeglichen werden. Letzteres kann in mehreren Iterationen durchgefÃ¼hrt
+                        werden. Hierbei zeigt sich, dass die nachfolgende, zweifach-iterative
+                        Verarbeitung ein besseres Ergebnis in Bezug auf das F1-MaÃŸ ergibt als die
+                        kontinuierliche ErgÃ¤nzung (siehe <ref type="graphic"
+                            target="#berufsbezeichnungen_2022_t6">Tabelle 6</ref>).<note
+                            type="footnote"> Von den durch die Ã„hnlichkeitsanalyse erkannten Daten
+                            werden 100 zufÃ¤llige Werte manuell Ã¼berprÃ¼ft. Durch diese wird auf die
+                            Rate an TP- und FP-Werte geschlossen. Um einen F1-Wert zu berechnen ist
+                            zusÃ¤tzlich die Anzahl von FN-Werten notwendig. Wie bereits zuvor wird
+                            dabei von der maximalen Anzahl erkannter Angaben ausgegangen (hier bei
+                            der zweifachen Iteration).</note> Zwar kann bei dieser Option eine
+                        niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die groÃŸe Anzahl
+                        zusÃ¤tzlich erkannter Angaben fÃ¼r eine Steigerung des F1-Wertes. Es ist
+                        anzunehmen, dass eine hohe FP-Rate bei den Iterationen der
+                        Ã„hnlichkeitserkennung tendenziell zu einer FortfÃ¼hrung von Fehlern fÃ¼hren
+                        kann, weswegen viele zusÃ¤tzliche Iterationen nicht sinnvoll erscheinen.</p>
+                    <p>Dabei ist zudem anzunehmen, dass der Lerneffekt grÃ¶ÃŸer ist, je mehr
+                        Berufsangaben verarbeitet werden, da die Chance steigen kÃ¶nnte, dass eine
+                        Ã¤hnliche Bezeichnung auftritt. Bei einem exemplarischen Durchlauf mit jeder
+                        zehnten Datei wird noch keine zusÃ¤tzliche Erkennung erreicht. Auch bei einer
+                        Verarbeitung mit allen Daten werden nur weitere 0,01 Prozent der
+                        Berufsangaben dadurch zusÃ¤tzlich lemmatisiert. Dieser geringe Wert ist
+                        darauf zurÃ¼ckzufÃ¼hren, dass bereits sehr viele Schreibversionen in den
+                        zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufÃ¤lligen
+                        Halbierung der ursprÃ¼nglichen Varianten steigt der Anteil der so zusÃ¤tzlich
+                        erkannten Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01
+                        Prozent). Werden diese lemmatisierten Varianten in einem zweiten Durchlauf
+                        zur Gesamtzahl der Varianten ergÃ¤nzt, kÃ¶nnen weitere Berufsbezeichnungen
+                        lemmatisiert werden. Die TP-Rate jedoch ist etwas niedriger.</p>
+                    <table xml:id="berufsbezeichnungen_2022_t6">
+                        <row>
+                            <cell>Verfahren</cell>
+                            <cell>Anzahl</cell>
+                            <cell>Anteil</cell>
+                            <cell>Rate of TP in %</cell>
+                            <cell>Rate of FP in %</cell>
+                            <cell>P</cell>
+                            <cell>FN</cell>
+                            <cell>R</cell>
+                            <cell>F1</cell>
+                        </row>
+                        <row>
+                            <cell>Analyse mit sÃ¤mtlichen ursprÃ¼nglichen Varianten</cell>
+                        </row>
+                        <row>
+                            <cell>Ohne Lernen</cell>
+                            <cell> 9.674 </cell>
+                            <cell> 4,21 % </cell>
+                            <cell>88</cell>
+                            <cell>12</cell>
+                            <cell> 0.88 </cell>
+                            <cell> 5.943 </cell>
+                            <cell> 0,59 </cell>
+                            <cell> 0,71 </cell>
+                        </row>
+                        <row>
+                            <cell>Kontinuierlich lernen (4x Multiprocessing<note type="footnote">
+                                    HierfÃ¼r wurde die Parallelisierung mit vier Prozessorkernen
+                                    verschiedenen StrÃ¤ngen ausgefÃ¼hrt. Das hat die Auswirkung, dass
+                                    die Erkennung in einem Strang auf einen parallel ausgefÃ¼hrten
+                                    keine Auswirkung hat (bei einer nachfolgenden AusfÃ¼hrung sich
+                                    ggf. aber ausgewirkt hÃ¤tte).</note>)</cell>
+                            <cell> 10.128 </cell>
+                            <cell> 4,41 % </cell>
+                            <cell>86</cell>
+                            <cell>14</cell>
+                            <cell> 0.86 </cell>
+                            <cell> 5.489 </cell>
+                            <cell> 0,61 </cell>
+                            <cell> 0,71 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (1x)</cell>
+                            <cell> 11.185 </cell>
+                            <cell> 4,87 % </cell>
+                            <cell>83</cell>
+                            <cell>17</cell>
+                            <cell> 0.83 </cell>
+                            <cell> 4.432 </cell>
+                            <cell> 0,68 </cell>
+                            <cell> 0,75 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (2x)</cell>
+                            <cell> 15.617 </cell>
+                            <cell> 6,80 % </cell>
+                            <cell>83</cell>
+                            <cell>17</cell>
+                            <cell> 0.83 </cell>
+                            <cell> 0 </cell>
+                            <cell> 1,00 </cell>
+                            <cell> 0,91 </cell>
+                        </row>
+                        <row>
+                            <cell>Analyse unter zufÃ¤lliger Halbierung der ursprÃ¼nglichen
+                                Varianten</cell>
+                        </row>
+                        <row>
+                            <cell>Ohne Lernen</cell>
+                            <cell> 27.583 </cell>
+                            <cell> 12,01 % </cell>
+                            <cell>80</cell>
+                            <cell>20</cell>
+                            <cell>0,80</cell>
+                            <cell> 6.086 </cell>
+                            <cell> 0,78 </cell>
+                            <cell> 0,79 </cell>
+                        </row>
+                        <row>
+                            <cell>Kontinuierlich lernen (4x Multiprocessing)</cell>
+                            <cell> 27.882 </cell>
+                            <cell> 12,14 % </cell>
+                            <cell>86</cell>
+                            <cell>14</cell>
+                            <cell>0,86</cell>
+                            <cell> 5.787 </cell>
+                            <cell> 0,81 </cell>
+                            <cell> 0,83 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (1x)</cell>
+                            <cell> 32.774 </cell>
+                            <cell> 14,27 % </cell>
+                            <cell>76</cell>
+                            <cell>24</cell>
+                            <cell>0,76</cell>
+                            <cell> 895 </cell>
+                            <cell> 0,97 </cell>
+                            <cell> 0,85 </cell>
+                        </row>
+                        <row>
+                            <cell>Iterativ lernend (2x)</cell>
+                            <cell> 33.669 </cell>
+                            <cell> 14,66 % </cell>
+                            <cell>83</cell>
+                            <cell>17</cell>
+                            <cell>0,83</cell>
+                            <cell> 0 </cell>
+                            <cell> 1,00 </cell>
+                            <cell> 0,91 </cell>
+                        </row>
+                        <trailer xml:id="tab06"><ref target="#tab6">Tab. 6</ref>: Vergleich der
+                            Ã„hnlichkeitsanalyse unter Variation des maschinellen Lernens und unter
+                            Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg /
+                            Moeller 2022]</trailer>
+                    </table>
+
+                    <p>Durch den Algorithmus â€“ und dessen programmtechnische Umsetzung â€“ wird in der
+                        Folge eine automatisierte LÃ¶sung zur Lemmatisierung deutschsprachiger
+                        Berufsangaben geboten. Insgesamt wird das F1-MaÃŸ optimiert, wenn eine
+                        relative Levenshtein-Distanz gewÃ¤hlt wird, AbkÃ¼rzungen erweitert werden,
+                        eine Bereinigung stattfindet und erlernte neue Varianten im Anschluss
+                        nochmal mit allen Daten verglichen werden, die nicht lemmatisiert werden
+                        konnten. Ohne die Halbierung der Varianten, unter Herausrechnung der leeren
+                        Berufsangaben und mit doppelter Iteration des maschinellen Lernens wird eine
+                        Erkennungsrate von 72,17 Prozent erzielt (65,27 Prozent direkt und 6,90
+                        Prozent Ã¼ber die Ã„hnlichkeitsanalyse). Die Halbierung der Varianten erhÃ¶ht
+                        zwar den Anteil der Ã¼ber die Ã„hnlichkeitsanalyse erkannten Angaben,
+                        verringert jedoch die Zahl der direkt gefundenen Treffer. Herausfordernd ist
+                        fÃ¼r den Algorithmus vor allem auch, dass die GEDBAS-Daten sehr schwierig zu
+                        klassifizieren sind, weil eben nicht nur einfache Berufe angegeben werden.
+                        Es ist anzunehmen, dass mit qualitativ hochwertigeren Berufsangaben die
+                        Erkennung noch besser funktionieren wÃ¼rde, sodass hier ein grober Wert von
+                        72 Prozent Erkennungsrate fÃ¼r diesen Algorithmus angegeben wird. Die Angabe,
+                        dass 98 Prozent der erkannten Werte auch korrekt sind, basiert darauf, dass
+                        alle direkt erkannten Werte als richtig bewertet werden. Zudem zeigt <ref
+                            type="graphic" target="#Abbildungslink">Tabelle 6</ref>, dass bei der
+                        angewendeten Spezifizierung der Ã„hnlichkeitsanalyse mit einer FP-Rate von 17
+                        Prozent zu rechnen ist. Daraus ergibt sich eine FP-Rate von etwa 98
+                            Prozent.<note type="footnote"> Berechnung der FP-Rate:
+                            (65,27*1+6,90*0,83) / (65,27+6,90) = 0.98.</note> Zudem ist es durch den
+                        Algorithmus mÃ¶glich, berufsferne Angaben von der eigentlichen Bezeichnung
+                        des Berufs zu separieren. Der Algorithmus ist offen zugÃ¤nglich und wird
+                        damit der Community zur Weiternutzung zur VerfÃ¼gung gestellt. Es ist
+                        wÃ¼nschenswert, dass er auch in anderen Anwendungen implementiert und stetig
+                        verbessert wird.</p>
+                </div>
+                <div type="chapter">
+                    <head>6. Zusammenfassung</head>
+                    <p>Variationen einer Berufsbezeichnung kÃ¶nnen in der vorgestellten Weise
+                        automatisiert einem normierten Beruf zugewiesen werden. Das ermÃ¶glicht
+                        insbesondere der wirtschafts- und sozialhistorischen Forschung eine schnelle
+                        Klassifizierung groÃŸer DatenbestÃ¤nde, die fÃ¼r eine Vielzahl weiterer
+                        Anwendungen bereitsteht. Der entwickelte Algorithmus stellt eine Methode
+                        dar, mit der eine automatisierte Klassifizierung von historischen Standes-
+                        und Berufsangaben in einer hohen GÃ¼te vorgenommen werden kann: Von etwa
+                        230.000 getesteten Berufsangaben aus der genealogischen Datenbank GEDBAS
+                        konnten rund 72 Prozent einem Beruf zugeordnet werden, wovon der wesentliche
+                        Teil von 98 Prozent auch korrekt ist. Dieses wird ermÃ¶glicht durch: </p>
+                    <list type="ordered">
+                        <item> die Implementierung einer Bereinigung der Berufsangabe</item>
+                        <item> eine Ã„hnlichkeitsanalyse zu bereits klassifizierten
+                            Schreibvarianten</item>
+                        <item> die Implementierung einer Erweiterung von AbkÃ¼rzungen und</item>
+                        <item> eine MÃ¶glichkeit des Ã¼berwachten maschinellen Lernens auf Basis der
+                            Treffer aus der Ã„hnlichkeitsanalyse </item>
+                    </list>
+                    <p>Jedes dieser Elemente fÃ¼hrt zu einer Verbesserung des Ergebnisses. Das ist
+                        vor dem Hintergrund vieler fremdsprachlicher Bezeichnungen sowie einer sehr
+                        individuellen Eintragung der Berufsangaben in den GEDBAS-Daten ein
+                        zufriedenstellendes Ergebnis.</p>
+                    <p>Dadurch, dass die Lemmatisierung auf den Daten der OhdAB aufbaut, der das
+                        Klassifizierungssystem KldB 2010 zugrunde liegt, ist sie besonders fÃ¼r das
+                        deutschsprachige Umfeld von Berufsbezeichnungen seit dem 16.Â /Â 17.
+                        Jahrhundert geeignet. Nach der Standardisierung mit der OhdAB sind zudem
+                        transparent abbildbare Neuansetzungen zeitspezifischer Klassifikationen
+                        mÃ¶glich. Der Algorithmus kann jedoch auch als Ausgangspunkt genutzt werden,
+                        um ihn auf andere Sprachen anzupassen. FÃ¼r die Begriffe der KldB 2010
+                        existiert beispielsweise eine englische Ãœbersetzung. Wenigstens auf der
+                        Ebene der Klassifikation wÃ¼rden vermutlich gute Ergebnisse produziert werden
+                        kÃ¶nnen. Herausforderungen liegen hierbei eher in der Schaffung der
+                        grundlegenden Datenbasis fÃ¼r die Indivdualbezeichnungen (Varianten) der
+                        Berufe. Neben der Einbindung der nicht-deutschsprachigen Varianten ist auch
+                        hier eine Anpassung der Anomalien im Algorithmus von groÃŸer Relevanz.
+                        MÃ¶glicherweise ergibt eine Abgrenzung einzelner Sprachen Sinn, damit keine
+                        ungewollten Ãœbereinstimmungen in einem sprachenÃ¼bergreifenden Programm
+                        auftreten.</p>
+                    <p>Aber auch bei der Anwendung an deutschsprachigen Berufsangaben kann eine
+                        Anpassung des Programms helfen: Besondere Anomalien in den zu
+                        klassifizierenden Daten (z.Â B. spezifische AbkÃ¼rzungen) kÃ¶nnen die QualitÃ¤t
+                        des Ergebnisses fÃ¼r eine spezifische Anwendung verbessern. Des Weiteren
+                        kÃ¶nnen zusÃ¤tzliche Verfahren der Berufsklassifizierung integriert werden (z.
+                        B. HISCO). FÃ¼r den Algorithmus ist es allerdings von Vorteil, mÃ¶glichst
+                        viele Variationen der Schreibweisen eines Berufes in dem jeweiligen System
+                        bereits klassifiziert zu haben. Zudem ist es denkbar, den Algorithmus nicht
+                        nur auf zuvor separierte Berufsangaben anzuwenden, sondern dahingehend zu
+                        erweitern, Berufsangaben in FlieÃŸtexten zu erkennen und auszulesen. Denkbar
+                        ist eine Einbindung von OhdAB in Verfahren der <term type="dh">Named Entity
+                            Recognition</term>, die auf Vokabularen aufsetzen.</p>
+                </div>
+                <div>
+                    <div type="bibliography">
+                        <head>Bibliographische Angaben</head>
+                        <listBibl>
+                            <bibl xml:id="boehmen_anleitung_1790">Adam Friedrich BÃ¶hmen: Anleitung wie KirchenbÃ¼cher
+                                zweckmÃ¤sig und ordentlich einzurichten sind. Leipzig 1790. [<ref
+                                    target="http://www.mdz-nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:bvb:12-bsb11048517-2"
+                                    >online</ref>] <ptr type="gbv" cRef="1087644690"/></bibl>
+                            <bibl xml:id="bfa_klassifikationarbeit_2021">Klassifikationen der Berufe -
+                                Statistik der Bundesagentur fÃ¼r Arbeit. Hg. von Bundesagentur fÃ¼r Arbeit. NÃ¼rnberg 2021. [<ref
+                                    target="https://statistik.arbeitsagentur.de/DE/Navigation/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/Klassifikation-der-Berufe-Nav.html;jsessionid=1CC3151B58003ECC1454B07B916E2756"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="bfa_klassifikationberufe_2011">Klassifikation der Berufe, Hg. von Bundesagentur fÃ¼r Arbeit.
+                                NÃ¼rnberg 2010. Bd 1 (2011): Systematischer und alphabetischer Teil
+                                mit ErlÃ¤uterungen. <ptr type="gbv" cRef="668098619"/></bibl>
+                            <bibl xml:id="christen_quality_2007">Peter Christen / Karl Goiser: Quality and Complexity
+                                Measures for Data Linkage and Deduplication. In: Quality Measures in
+                                Data Mining. Hg.Â von Fabrice Guilett / Howard J. Hamilton. Berlin
+                                2007, S. 127â€“151. <ptr type="gbv" cRef="516449192"/></bibl>
+                            <bibl xml:id="church_gedcom_2019">Church of Jesus Christ of Latter-day Saints: The GEDCOM
+                                Standard. Release 5.5.1. 2019. </bibl>
+                            <bibl xml:id="cosca_standard_2010">Theresa Cosca / Alissa Emmel: Revising the Standard
+                                Occupational Classification system for 2010. In: Monthly labor
+                                review 133 (2010), S. 32â€“41. PDF. [<ref
+                                    target="https://www.bls.gov/opub/mlr/2010/08/art3full.pdf"
+                                    >online</ref>] <ptr type="gbv" cRef="320603628"/></bibl>
+                            <bibl xml:id="djumalieva_occupations_2018">Jyldyz Djumalieva / Antonio Lima / Cath Sleeman:
+                                Classifying Occupations According to Their Skill Requirements in Job
+                                Advertisements. 2018. [<ref
+                                    target="https://ideas.repec.org/p/nsr/escoed/escoe-dp-2018-04.html"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="dunn_language_2015">Michael Dunn: Language phylogenies. In: The Routledge
+                                Handbook of Historical Linguistics. Hg.Â von Claire Louise Bowern /
+                                Bethwyn Evans. London u. a. 2015, S. 190â€“192. <ptr
+                                    type="gbv" cRef="773686274"/></bibl>
+                            <bibl xml:id="fawcett_introduction_2006">Tom Fawcett: An introduction to ROC analysis. In:
+                                Pattern Recognition Letters. In: ROC Analysis in Pattern Recognition
+                                27 (2006), H.Â 8, S. 861â€“874. <ptr type="gbv" cRef="129161756"
+                                /></bibl>
+                            <bibl xml:id="gellatly_populations_2015">Corry Gellatly: Reconstructing Historical Populations
+                                from Genealogical Data Files. In: Population Reconstruction. Hg.Â von
+                                Gerrit Bloothooft et al. Cham 2015, S. 111â€“128. <ptr
+                                    type="gbv" cRef="833549804"/></bibl>
+                            <bibl xml:id="glueck_metzler_2000">Metzler Lexikon Sprache. Hg. von Helmut GlÃ¼ck. 2.,
+                                Ã¼berarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. <ptr
+                                    type="gbv" cRef="271728906"/></bibl>
+                            <bibl xml:id="gweon_methods_2017">Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek /
+                                Michael Blohm / Stefan Steiner: Three Methods for Occupation Coding
+                                Based on Statistical Learning. In: Journal of Official Statistics 33
+                                (2017), H. 1, S. 101â€“122. DOI:<ref
+                                    target="https://doi.org/10.1515/jos-2017-0006"
+                                    >10.1515/jos-2017-0006</ref> <ptr type="gbv" cRef="130422746"
+                                /></bibl>
+                            <bibl xml:id="harviainen_genealogy_2018">J. Tuomas Harviainen / Bo-Christer BjÃ¶rk: Genealogy,
+                                GEDCOM, and popularity implications. In: Informaatiotutkimus 37
+                                (2018), H. 3, S. 4â€“14. Artikel vom 29.10.2018. DOI: <ref
+                                    target="https://doi.org/10.23978/inf.76066"
+                                    >10.23978/inf.76066</ref> <ptr type="gbv" cRef="366701630"
+                                /></bibl>
+                            <bibl xml:id="hinschius_gesetz_1874">Paul Hinschius: Das preuÃŸische Gesetz Ã¼ber die
+                                Beurkundung des Personenstandes und die Form der EheschlieÃŸung vom
+                                9. MÃ¤rz 1874 mit Kommentar in Anmerkungen. Berlin 1874. <ptr
+                                        type="gbv" cRef="305819348"/></bibl>
+                            <bibl xml:id="ilo_iso_2021">ISCO - International Standard Classification of
+                                Occupations. Hg. von ILO. Genf 2021. [<ref
+                                    target="https://www.ilo.org/public/english/bureau/stat/isco/"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="iish_history_2020">1306 records
+                                in total. Hg. von International Institute of Social History. In: History of Work Information System. Leuven 2020. [<ref
+                                    target="https://historyofwork.iisg.nl/list_hiswi.php"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="kocka_geschichte_2000">JÃ¼rgen Kocka / Claus Offe / Beate Redslob: Geschichte
+                                und Zukunft der Arbeit. (Konferenz, Berlin, 04.â€“06.03.1999)
+                                Frankfurt/Main 2000. <ptr type="gbv" cRef="310160650"/></bibl>
+                            <bibl xml:id="kohli_institutionalisierung_1985">Martin Kohli: Die Institutionalisierung des Lebenslaufs.
+                                Historische Befunde und theoretische Argumente. In: KÃ¶lner
+                                Zeitschrift fÃ¼r Soziologie und Sozialpsychologie 37 (1985), H. 1, S.
+                                1â€“29. <ptr type="gbv" cRef="129473812"/></bibl>
+                            <bibl xml:id="krause_entwurf_2012">Thomas Krause: Entwurf und Implementierung einer
+                                effizienten Dublettenerkennung fÃ¼r groÃŸe AdressbestÃ¤nde. KÃ¶ln 2012.
+                                URN: <ref
+                                    target="https://nbn-resolving.org/urn:nbn:de:hbz:832-epub-3667"
+                                    >urn:nbn:de:hbz:832-epub-3667</ref></bibl>
+                            <bibl xml:id="leeuwen_history_2002">Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles:
+                                History Of Work Information System. In: HISCO. Historical
+                                International Standard Classification of Occupations. Hg. von IISH /
+                                Antenna. Leuven 2002. [<ref target="https://historyofwork.iisg.nl/"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="levenstejn_codes_1966">Vladimir IosifoviÄ LevenÅ¡tejn: Binary Codes Capable of
+                                Correcting Deletions, Insertations, and Reversals. In: Soviet
+                                Physics- Doklady 10 (1966), S. 707â€“710. <ptr type="gbv"
+                                    cRef="129482234"/></bibl>
+                            <bibl xml:id="moeller_standards_2019">Katrin Moeller: Standards fÃ¼r die
+                                Geschichtswissenschaft! Zu differenzierten Funktionen von Normdaten,
+                                Standards und Klassifikationen fÃ¼r die Geisteswissenschaften am
+                                Beispiel von Berufsklassifikationen. In: AufklÃ¤rungsforschung
+                                digital. Konzepte, Methoden, Perspektiven. Hg. von Jana Kittelmann /
+                                Anne Purschwitz. Halle 2019, S. 17â€“43. <ptr type="gbv"
+                                    cRef="1666792950"/></bibl>
+                            <bibl xml:id="moeller_ontologie_2020">Katrin Moeller / Andreas MÃ¼ller / Robert Nasarek:
+                                Ontologie historischer, deutschsprachiger Berufs- und
+                                Amtsbezeichnungen. In:
+                                geschichte.uni-halle.de/struktur/hist-data/ontologie/. Hg. von
+                                Historischen Datenzentrums Sachsen-Anhalt. Halle 2020. Beitrag vom
+                                25.11.2020. [<ref
+                                    target="https://www.geschichte.uni-halle.de/struktur/hist-data/ontologie/"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="mueller_problems_2003">Heiko MÃ¼ller / Johann-Christoph Freytag: Problems,
+                                Methods, and Challenges in Comprehensive Data Cleansing. Berlin
+                                2003. <ptr type="gbv" cRef="496492772"/></bibl>
+                            <bibl xml:id="paulus_klassifikation_2013">Wiebke Paulus / Britta Matthes: Klassifikation der
+                                Berufe 2010 â€“ Struktur, Codierung und UmsteigeschlÃ¼ssel. In:
+                                FDZ-Methodenreport. Hg. von Forschungsdatenzentrum (FDZ) der
+                                Bundesagentur fÃ¼r Arbeit (BA) im Institut fÃ¼r Arbeitsmarkt- und
+                                Berufsforschung. NÃ¼rnberg 2013. [<ref
+                                    target="https://fdz.iab.de/187/section.aspx/Publikation/k131014a03"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="piotrowski_language_2012">Michael Piotrowski: Natural Language Processing for
+                                Historical Texts. In: Synthesis Lectures on Human Language
+                                Technologies 5 (2012), H.Â 2, S. 1â€“157. <ptr type="gbv"
+                                    cRef="616519060"/></bibl>
+                            <bibl xml:id="rham_data_2000">Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and
+                                Current Approaches. In: Bulletin of the Technical Committee on Data
+                                Engineering 23 (2000), H. 4, S. 3â€“13. URN: <ref
+                                    target="http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa2-329680"
+                                    >urn:nbn:de:bsz:15-qucosa2-329680</ref>
+                                </bibl>
+                            <bibl xml:id="schaefer_novellierung_2006">Udo SchÃ¤fer: Die Novellierung des
+                                Personenstandsgesetzes. In: Archive, Familienforschung und
+                                Geschichtswissenschaft: AnnÃ¤herungen und Aufgaben. Hg.Â von Bettina
+                                Joergens / Christian Reinicke. DÃ¼sseldorf 2006, S. 122â€“136.
+                                <ptr type="gbv" cRef="519807499"/></bibl>
+                            <bibl xml:id="schueren_mobilitaet_1989">Reinhard SchÃ¼ren: Soziale MobilitÃ¤t. Muster,
+                                VerÃ¤nderungen und Bedingungen im 19. und 20. Jahrhundert. St.
+                                Katharinen 1989. <ptr type="gbv" cRef="022321942"/></bibl>
+                            <bibl xml:id="thesaurus_professionum_2021">Thesaurus Professionum. In:
+                                online.uni-marburg.de/fpmr/thepro/rs.php. Hg. von UniversitÃ¤t
+                                Marburg: Forschungsstelle fÃ¼r Personalschriften an der
+                                Philipps-UniversitÃ¤t Marburg. Marburg 2021. [<ref
+                                    target="https://www.online.uni-marburg.de/fpmr/thepro/rs.php"
+                                    >online</ref>]</bibl>
+                            <bibl xml:id="gebdas_statistics_2021">GEDBAS: Statistics. In:
+                                gedbas.genealogy.net/statistic/index. Hg. von Verein fÃ¼r
+                                Computergenealogie e. V. KÃ¶ln 2021. [<ref
+                                    target="https://gedbas.genealogy.net/statistic/index"
+                                    >online</ref>]</bibl>
+                        </listBibl>
+                    </div>
+                    <div type="abbildungsnachweis">
+                        <head>Abbildungs- und Tabellenverzeichnis</head>
+                        <desc type="table" xml:id="tab1"><ref type="intern" target="#tab01">Tab. 1</ref>:
+                            Konfusionsmatrix zur Klassifikation in Anlehnung an Fawcett 2006.
+                            [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t1"/></desc>
+
+                        <desc type="table" xml:id="tab2"><ref type="intern" target="#tab02">Tab. 2</ref>:
+                            Nummernsystem der KldB 2010 / OhdAB am Beispiel des Berufes BÃ¤cker. [Goldberg /
+                            Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_t2"
+                            /></desc>
+
+                        <desc type="graphic" xml:id="abb1">Begriffe und ZusammenhÃ¤nge des
+                            Algorithmus. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_001"/></desc>
+
+                        <desc type="graphic" xml:id="abb2">Algorithmus, dargestellt in einem
+                            Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_002"/></desc>
+
+                        <desc type="graphic" xml:id="abb3">Zusammenhang der Funktionen. [Goldberg /
+                            Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_003"
+                            /></desc>
+
+                        <desc type="table" xml:id="tab3"><ref type="intern" target="#tab03">Tab. 3</ref>:
+                            Klassifikation unser Variation der Levenshtein-Distanz als Grenzwert.
+                            [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t3"/></desc>
+
+                        <desc type="table" xml:id="tab4"><ref type="intern" target="#tab04">Tab. 4</ref>:
+                            Klassifikation unser Variation des Grenzwerts einer relativen
+                            Levenshtein-Distanz. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t4"/></desc>
+
+                        <desc type="table" xml:id="tab5"><ref type="intern" target="#tab05">Tab. 5</ref>:
+                            Vergleich des Effektes der Bereinigung auf die Erkennung. [Goldberg /
+                            Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_t5"
+                            /></desc>
+
+                        <desc type="table" xml:id="tab6"><ref type="intern" target="#tab06">Tab. 6</ref>:
+                            Vergleich der Ã„hnlichkeitsanalyse unter Variation des maschinellen
+                            Lernens und unter Halbierung der zugrundeliegenden Berufsvarianten der
+                            OhdAB. [Goldberg / Moeller 2022]<ref type="graphic"
+                                target="#berufsbezeichnungen_2022_t6"/></desc>
+
+                    </div>
+                </div>
+            </div>     
+        </body>
+    </text>
+</TEI>