diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png new file mode 100644 index 0000000000000000000000000000000000000000..7252069a566ef45bea7208dc01619488a8996319 Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_001.png differ diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png new file mode 100644 index 0000000000000000000000000000000000000000..e20f304e392c6d43340081d26a59ff7b46899a31 Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_002.png differ diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png new file mode 100644 index 0000000000000000000000000000000000000000..f60b063717197e01c652841800c7018cbd67aa59 Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_003.png differ diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf new file mode 100644 index 0000000000000000000000000000000000000000..c533794516002b23e170450491e758625f597ea2 Binary files /dev/null and b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.pdf differ diff --git a/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml new file mode 100644 index 0000000000000000000000000000000000000000..09e7e443be49bbfa5a38092efc0be0090ce7dfc8 --- /dev/null +++ b/2022_002_goldberg_et_al/berufsbezeichnungen_2021_v1_0.xml @@ -0,0 +1,2148 @@ +<?xml version="1.0" encoding="utf-8"?> +<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax" + ?> +<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html" + xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink" + xmlns:xhtml="http://www.w3.org/1999/xhtml"> + <teiHeader> + <fileDesc> + <titleStmt> + <title> + <biblStruct> + <analytic> + <title level="a">Automatisierte Indentifikation und Lemmatisierung + historischer Berufsbezeichnungen in deutschsprachigen + Datenbeständen</title> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Jan Michael</forename> + <surname>Goldberg</surname> + </name> + <email>jan.goldberg@wiwi.uni-halle.de</email> + <idno type="gnd">1240406630</idno> + <idno type="orcid">0000-0002-4817-4283</idno> + </persName> + </resp> + <orgName>Martin-Luther-Universität Halle Wittenberg, Lehrstuhl für + empirische Makroökonomik</orgName> + </respStmt> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Katrin</forename> + <surname>Moeller</surname> + </name> + <email>katrin.moeller@geschichte.uni-halle.de</email> + <idno type="gnd">133366367</idno> + <idno type="orcid">0000-0003-4090-5667</idno> + </persName> + </resp> + <orgName>Martin-Luther-Universität Halle Wittenberg, Historisches + Datenzentrum Sachsen-Anhalt, Institut für Geschichte</orgName> + </respStmt> + <idno type="doi">10.17175/2022_002</idno> + <idno type="ppn">1760213403</idno> + <idno type="zfdg">2022_002</idno> + <idno type="url">https://www.zfdg.de/node/318</idno> + <date when="2022-03-08">08.03.2022</date> + </analytic> + <monogr> + <title level="j">Zeitschrift für digitale Geisteswissenschaften</title> + <respStmt> + <resp>Publiziert von</resp> + <orgName role="marc_pbl">Herzog August Bibliothek</orgName> + </respStmt> + <respStmt> + <resp>Transformation der Word Vorlage nach TEI</resp> + <persName/> + <name role="marc_trc"> + <surname>Baumgarten</surname> + <forename>Marcus</forename> + <idno type="gnd">1192832655</idno> + </name> + </respStmt> + <availability status="free"> + <p>Available at <ref target="https://www.zfdg.de" + >https://www.zfdg.de</ref> + </p> + </availability> + <biblScope unit="year">2022</biblScope> + <biblScope unit="artikel">0d</biblScope> + </monogr> + </biblStruct> + </title> + </titleStmt> + <editionStmt> + <edition>Elektronische Ausgabe nach TEI P5</edition> + </editionStmt> + <publicationStmt> + <distributor> + <name> + <orgName>Herzog August Bibliothek Wolfenbüttel</orgName> + </name> + </distributor> + <idno type="doi">10.17175/zfdg.01</idno> + <idno type="ppn">0819494402</idno> + <authority> + <name>Herzog August Bibliothek</name> + <address> + <addrLine>Lessingplatz 1</addrLine> + <addrLine>38304 Wolfenbüttel</addrLine> + </address> + </authority> + <authority> + <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name> + <address> + <addrLine>Burgplatz 4</addrLine> + <addrLine>99423 Weimar </addrLine> + </address> + </authority> + <availability status="free"> + <p> Sofern nicht anders angegeben </p> + <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA + 4.0</licence> + </availability> + <availability status="free"> + <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund + MWW</ref> + </p> + </availability> + </publicationStmt> + <sourceDesc> + <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p> + </sourceDesc> + </fileDesc> + <encodingDesc> + <editorialDecl> + <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und + XSLT-Skripten</p> + </editorialDecl> + <editorialDecl> + <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von + <persName>Martin Wiegand</persName>.</p> + <p>Medienrechte liegen bei den Autor*innen</p> + <p>All links checked<date when="2022">07.03.2022</date> + </p> + </editorialDecl> + </encodingDesc> + <profileDesc> + <creation>Einreichung als Artikel der Zeitschrift für digitale + Geisteswissenschaften</creation> + <langUsage> + <language ident="de">Text in Deutsch</language> + <language ident="de">Abstract in Deutsch</language> + <language ident="en">Abstract in Englisch</language> + </langUsage> + <textClass> + <keywords scheme="gnd"> + <term>Informations- und Dokumentationswissenschaft<ref target="4128313-2"/></term> + <term>Berufsforschung<ref target="4144778-5"/></term> + <term>Maschinelles Lernen<ref target="4193754-5"/></term> + <term>Automatische Klassifikation<ref target="4120957-6"/></term> + <term>Standardisierung<ref target="4056914-7"/></term> + </keywords> + </textClass> + </profileDesc> + <revisionDesc> + <change/> + </revisionDesc> + </teiHeader> + <text> + <body> + <div> + <div type="abstract"> + <argument xml:lang="de"> + <p>Berufsangaben kommen in vielen historischen Quellen vor. Für eine + Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung, + sondern vor allem Klassifikation eine zentrale Voraussetzung zur + Analyse. Dabei wird die Zuordnung von Schreibvarianten zu bereits + definierten Gattungsnamen von Berufen in diesem Artikel als + Lemmatisierung beziehungsweise Normierung bezeichnet, die Zuordnung der + normalisierten Schreibweise zu einem Ordnungssystem als Klassifikation. + Um hierbei manuellen Aufwand zu verringern, wird ein Algorithmus zur + automatisierten Lemmatisierung historischer, deutschsprachiger + Berufsangaben entwickelt. Das beste Ergebnis wird dabei mit einem Ansatz + überwachten maschinellen Lernens erzielt. Insgesamt können etwa 72 + Prozent der Berufsangaben lemmatisiert werden, etwa 98 Prozent dieser + Zuordnungen sind korrekt.</p> + </argument> + </div> + <div type="abstract"> + <argument xml:lang="en"> + <p>Occupational information occurs in many historical sources. For a large + number of research areas, not only standardization, but above all + classification of these is a central prerequisite for analysis. In this + article, the assignment of spelling variants to already defined generic + names of occupations is referred to as lemmatization or normalisation, + while the assignment of the normalised spelling and to a classification + system is referred to as classification. In order to reduce manual + effort, an algorithm for the automated lemmatization of historical, + German-language occupational data is developed. The best result is + achieved with a supervised machine learning approach. Overall, about 72 + percent of the occupational data can be lemmatized, and about 98 percent + of these assignments are correct.</p> + </argument> + </div> + <div type="chapter"> + <head>1. Einleitung</head> + <p>Berufsangaben existieren in historischen Quellen an vielen Stellen und bilden + eine wichtige Information über Menschen ab. Dadurch, dass es aber kein + universelles System zur Erfassung von Berufen gab, existieren meist + quellenspezifisch zusätzlich präfiguriert viele verschiedene Schreibweisen + und Bezeichnungen nebeneinander. Gleichzeitig wurden in Gesellschaft und + Wissenschaft verschiedene Ordnungssysteme gebildet, um über Klassifikationen + von Berufen Informationen über ein Individuum zu strukturieren und zu + ordnen. Die Auseinandersetzung mit Berufen ist auf vielen Ebenen wertvoll. + In dieser Eigenschaft nimmt sie nicht nur für die Wirtschafts- und + Sozialgeschichte, beispielsweise in Betrachtungen zur Entwicklung der + Arbeit, eine besondere Relevanz ein. Die Klassifikation einzelner + Berufsangaben stellt dabei eine fordernde Aufgabe dar, zumal kaum alle + erdenklichen Schreibvarianten der Berufe manuell erfasst werden können. Eine + automatisierte Zuordnung für historische deutschsprachige Berufe stellt eine + hervorragende Lösung dar, um hier standardisierend für historische Quellen + vergleichbare Ansätze zu bieten, auch wo die manuelle Klassifizierung als + Aufwand zu groß erscheint. </p> + <p>Ziel dieser Abhandlung ist es darum, eine Möglichkeit aufzuzeigen, + historische Berufsangaben automatisiert einem Klassifikationssystem + zuzuordnen. Dabei wird die Zuordnung von Berufsangaben zu bereits + definierten Varianten von Berufen hier als Lemmatisierung<note + type="footnote"> Damit weicht der hier verwendete Begriff von der + sprachwissenschaftlichen Terminologie ab, wo ein Lemma die Reduktion von + Wortteilen auf die kleinste bedeutungstragende Einheit darstellt. <ref type="bibliography" target="#glueck_metzler_2000">Glück (Hg.) + 2000</ref>, S. 403f.</note> bezeichnet. Bisher wird jedoch ein System zur + automatisierten Lemmatisierung einer großen Menge historischer Berufsangaben + vermisst. Entwickelt wird deshalb ein Algorithmus zur automatisierten + Lemmatisierung dieser.</p> + <p>Besonders gehäuft kommen Berufsangaben in seriellen Quellen vor, die heute + u. a. für genealogische Forschungen genutzt werden. Darunter fallen + Kirchenbücher, Steuerregister, Adressverzeichnisse, + Bürgeraufnahmeverzeichnisse oder verschiedene Amts- und Schöffenbücher. Die + meisten der hier beschriebenen Berufsbezeichnungen stammen aus Quellen des + 16. bis 19. Jahrhunderts und werden durch Berufsgattungsnamen der modernen + Klassifikationssysteme ergänzt. Je älter diese Quellen sind, desto häufiger + wird nicht unbedingt ein Beruf, sondern vielmehr ein Erwerbs- oder + Berufsstand beschrieben. Historisch ist es einerseits von Interesse, diese + Interpretation des ›Standes‹ als einen Definitionsansatz zu analysieren und + zu ermitteln, welche unterschiedlichen Dimensionen ihn ausmachten. Dabei ist + der Beruf nur eine Angabe unter anderen.<note type="footnote"> <ref type="bibliography" target="#moeller_standards_2019">Moeller 2019</ref>, + S. 23.</note> Diese Besonderheit der zeitbestimmten Definition, die von + der heutigen Bestimmung des Berufes abweicht, macht es auch + informationstechnisch zu einer Herausforderung, die Bestandteile des Standes + zu ordnen und sicher zu bestimmen. So finden sich in diesen Listen etwa für + Frauen oder Kinder Informationen zum heutigen Familienstand (ledig, + verheiratete, verwitwet, Sohn, Tochter etc.) für die Person oder in Relation + zu einem berufsführenden Haushaltsvorstand.</p> + <p>Neben diesem Problem der historischen Ordnungssysteme lassen sich weitere + informationelle Herausforderungen skizzieren, die bei der Lemmatisierung von + originalsprachlichen historischen Begrifflichkeiten auftauchen. Die + Verarbeitung ist insbesondere in genealogisch-prosopographischen + Datenquellen aufgrund der hohen Dichte von Berufsangaben zeitaufwändig. Eine + automatisierte Methode zur Umsetzung gibt es bisher vor allem für moderne + (normierte) und englischsprachige Berufsangaben.<note type="footnote"> <ref type="bibliography" target="#cosca_standard_2010">Cosca + / Emmel 2010</ref>; + <ref type="bibliography" target="#djumalieva_occupations_2018">Djumalieva et al. 2018</ref>; + <ref type="bibliography" target="#gweon_methods_2017">Gweon et al. 2017</ref>.</note> + </p> + <p>Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von + neuzeitlichen Standes- und Berufsangaben wird ein wichtiger Beitrag zu den + Digital Humanities geleistet, weil mithilfe informatischer Lösungen die + weitere Untersuchung historischer Fragestellungen unterstützt wird. Aufgrund + der Besonderheiten, die den Angaben in jeder Sprache zuteilwerden, wird sich + im Folgenden auf den deutschsprachigen Raum beschränkt. Als + Klassifikationssystem wird eine bisher unveröffentlichte Beta-Fassung der + <ref + target="https://www.geschichte.uni-halle.de/struktur/hist-data/ontologie/" + >Ontologie der historischen, deutschsprachigen Amts- und + Berufsbezeichnungen</ref> (OhdAB)<note type="footnote"> <ref type="bibliography" target="#moeller_ontologie_2020">Moeller et al. + 2020</ref>. Die Klassifikation wurde bisher aufgrund von ausstehenden + Qualitätsprüfungen noch nicht veröffentlicht, kann aber beim <ref + target="mailto:hinfo@geschichte.uni-halle.de">Historischen + Datenzentrum Sachsen-Anhalt</ref> angefragt und genutzt werden. + </note> benutzt, die auf der Methodik der <ref + target="https://statistik.arbeitsagentur.de/DE/Navigation/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/Klassifikation-der-Berufe-Nav.html;jsessionid=1CC3151B58003ECC1454B07B916E2756" + >Klassifikation der Berufe 2010</ref> (KldB 2011)<note type="footnote"> + <ref type="bibliography" target="#bfa_klassifikationarbeit_2021">Bundesagentur für Arbeit (Hg.) 2021</ref>.</note> basiert und diesen Ansatz um + historische Berufsbezeichnungen erweitert. Dazu wird ein Algorithmus + entwickelt, der für die weitere wissenschaftliche Arbeit in den + verschiedensten Bereichen genutzt werden kann. Er stellt eine Methode dar, + um zu einer Berufsangabe automatisiert Erkenntnisse über seine + Klassifikation zu erhalten. Dabei wird der Algorithmus auf Berufsangaben in + deutschsprachigen, neuzeitlichen, genealogisch-prosopographischen Quellen + ausgelegt. Zur Entwicklung und Validierung werden Berufsangaben aus der <ref + target="https://gedbas.genealogy.net/">Genealogischen Datenbasis</ref> + (GEDBAS) genutzt. Jedoch können auch Berufsbezeichnungen anderer Quellen mit + dem Algorithmus klassifiziert werden. Insbesondere bei großen Datenbeständen + entfaltet ein automatisiertes Vorgehen erheblichen Nutzen. Bevor der + Algorithmus vorgestellt wird, wird im nachfolgenden Abschnitt zuvor der + Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung + eingeführt. Auch bleibt eine Validierung des entwickelten Algorithmus nicht + aus. Abschließend findet eine Zusammenfassung statt, auch wird ein Ausblick + gegeben. </p> + </div> + <div type="chapter"> + <head>2. Forschungsstand</head> + <p>Die Herausforderung bei der Entwicklung eines Algorithmus zur automatisierten + Kategorisierung von Berufsangaben besteht darin, sich unterscheidende + Einträge, die die gleiche Sache beschreiben, zusammenzuführen. Diese Aufgabe + ist im Wesentlichen also eine der Dublettenerkennung, in der etymologisch + identische, aber dennoch anders geschriebene Dubletten erkannt und + zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf + Berufsangaben im genealogischen Kontext eingegangen. Danach wird der + aktuelle Stand zur Bereinigung und Lemmatisierung von Daten im Allgemeinen + aufgezeigt, bevor abschließend spezieller auf die Besonderheiten der + Berufsklassifikation eingegangen wird.</p> + <div type="subchapter"> + <head>2.1 Berufsangaben in genealogischen Quellen</head> + <p>Angaben zum Beruf und Stand waren in vielen historischen, + personenbezogenen Quellen wie Kirchenbüchern obligatorisch. Diese + Tendenz verstärkte sich mit der zunehmenden statistischen Erfassung des + 19. Jahrhunderts, wobei erste Regularien entstanden, welche Standards + für die Notation von Professionen entwickelten. Eine neue Etappe + eröffnete sich mit der Säkularisierung des Personenstandswesens im + Kaiserreich. So sah beispielsweise Preußen ab 1874 vor, »Stand oder + Gewerbe« von Personen bei Geburt, Heirat und Todesfällen pflichtgemäß zu + dokumentieren.<note type="footnote"> <ref type="bibliography" target="#hinschius_gesetz_1874">Hinschius 1874</ref>, S. 41, 61f. u. + 67.</note> Mit der Entstehung eines um den Beruf herum organisierten + Gesellschaftssystems im 19. Jahrhundert erhielt die Dokumentation von + Stand und Gewerbe zentrale Funktionen für das Funktionieren des + Staates,<note type="footnote"> <ref type="bibliography" target="#kocka_geschichte_2000">Kocka et al. 2000</ref>; + <ref type="bibliography" target="#kohli_institutionalisierung_1985">Kohli 1985</ref>.</note> + das später auch von der Herausbildung von Institutionen zur + Berufsklassifikation begleitet war. Zusätzlich konnte durch die Angabe + des Berufs eine Unterscheidung zwischen namensgleichen Personen + vorgenommen werden.<note type="footnote"> <ref type="bibliography" target="#boehmen_anleitung_1790">Böhmen 1790</ref>, S. 29; Wurden + Beruf oder Stand Jahrhunderte über in + prosopographisch-genealogischen Quellen mitgeführt, wurde die Angabe + von Berufen oder Titeln in Deutschland mit der Reformierung des + Personenstandsrechts am 1. Januar 2009 abgeschafft, vgl. <ref type="bibliography" target="#schaefer_novellierung_2006">Schäfer + 2006</ref>. Für künftige Forschungen entfällt damit eine wichtige + Quelle.</note> In der Folge ist es nicht verwunderlich, dass auch + viele Genealogen diese Informationen erfassen. Neben den familiären + Zusammenhängen und den Lebensdaten werden so auch Information zu Stand + und Beruf den Datensätzen hinzugefügt.</p> + <p>Als Quasistandard zum Austausch solcher genealogischer Daten hat sich das + GEDCOM-Format herausgebildet.<note type="footnote"> + <ref type="bibliography" target="#gellatly_populations_2015">Gellatly 2015</ref>; + <ref type="bibliography" target="#harviainen_genealogy_2018">Harviainen / Björk 2018</ref>, S. 4.</note> Eigenschaften von Personen + werden in diesem textbasierten Format dazu mit sogenannten Tags + versehen. Angaben zur Art der Arbeit oder des Berufs werden in dem Tag + ›OCCU‹ zugeordnet.<note type="footnote"> <ref type="bibliography" target="#church_gedcom_2019">Church of Jesus Christ of + Latter-day Saints 2019</ref>, S. 90.</note> Hier kann jedoch ein + beliebiger freier Text eingetragen werden, sodass keine inhaltliche + Prüfung über die Kompatibilität der Eintragung mit dieser Definition + stattfindet.</p> + </div> + <div type="subchapter"> + <head>2.2 Bereinigung und Lemmatisierung von Daten</head> + <p>Da Standesangaben also nicht zwingend nur Informationen zum Beruf + enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den + aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten + notwendig, um aus ihnen die relevanten Informationen zu extrahieren. Zu + diesem Zwecke wird folgend genauer auf die Datenbereinigung, + Ähnlichkeits- und Distanzmaße sowie auf die Grundlagen von + Klassifikationen eingegangen.</p> + <div type="subchapter"> + <head>2.2.1 Datenbereinigung</head> + <p>Während der Datenbereinigung werden Fehler und Inkonsistenzen (im + Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.<note + type="footnote"> <ref type="bibliography" target="#rham_data_2000">Rahm / Do 2000</ref>, S. 1.</note> Es können + beispielsweise Rechtschreibfehler bestehen, Abkürzungen genutzt + werden, Bezeichnungen in falsche Felder eingetragen werden oder eben + zu viele Informationen darin vorhanden sein.<note type="footnote"> + <ref type="bibliography" target="#rham_data_2000">Rahm / Do 2000</ref>, S. 3f.</note> Fehler in Berufsangaben stellen in + der Problemklassifikation nach Rahm und Do Einquellenprobleme + (Quelle der Berufsangabe) auf einem Level einzelner Instanzen + (Berufsangabe) dar. Wie oben bereits gezeigt, ist für historische + Daten hier jedoch ebenso ein kontextualisierender Begriff des + Berufsstandes wichtig. Die Angabe des Rechtsstatus oder + Familienstandes kann eine Person in ihrem Stand ebenso adäquat + beschreiben, während eine Ortsangabe nur eine in das falsche + Datenfeld eingetragene Information darstellen kann.</p> + <p>Zur Lösung dieser qualitativen Probleme schlagen Müller und Freytag + einen vierstufigen Prozess der Datenbereinigung vor.<note + type="footnote"> <ref type="bibliography" target="#mueller_problems_2003">Müller / Freytag 2003</ref>, S. 10–13.</note> An + dessen Beginn steht ein Datenaudit (<term type="dh">data + auditing</term>), in welchem die Daten geparst und analysiert + werden. Dadurch werden syntaktische Anomalien erkannt, die es + anschließend zu bearbeiten gilt. Dazu wird in einem zweiten Schritt + der Ablauf der Datenbereinigung spezifiziert (<term type="dh" + >workflow spezification</term>). Dabei kann die Behebung + syntaktischer Fehler im Nachhinein wiederum andere Anomalien + sichtbar machen. Die nachfolgende Durchführung der Datenbereinigung + (<term type="dh">workflow execution</term>) steht im Konflikt + zwischen einer möglichst passenden Korrektur und einer akzeptablen + Laufzeit. Manuelle Nacharbeit ist zu vermeiden, da diese Ressourcen + binden, eine nicht automatisierte Kontrolle findet allerdings in + einem vierten Schritt statt (<term type="dh">post-processing and + controlling</term>). Änderungen, die hier manuell vorgenommen + werden, können in einem lernenden System jedoch einen bleibenden + Effekt auf die Datenbereinigung haben. Insgesamt ist dieses + Verfahren iterativ durchzuführen.</p> + </div> + <div type="subchapter"> + <head>2.2.2 Ähnlichkeits- und Distanzmaße</head> + <p>Da insbesondere Berufsangaben in historischen Quellen verschiedene + Schreibweisen aufweisen können, ist im Kontext der Anwendung eine + Erkennung von Ähnlichkeiten zwischen diesen notwendig. Sollten zwei + Bezeichnungen die gleiche Entität in der realen Welt repräsentieren, + so stellen sie Dubletten dar.<note type="footnote"> + <ref type="bibliography" target="#krause_entwurf_2012">Krause 2012</ref>, S. + 14f.</note> Da Berufsangaben Strings im Sinne einer semantischen + Zeichenkette darstellen, können String-Matching-Algorithmen zur + Erkennung einer unscharfen Übereinstimmung auf sie angewendet + werden. Die Ähnlichkeit von Strings kann über verschiedene Maße + ausgedrückt werden. In der historischen Linguistik stellt die + Levenshtein-Distanz eine geeignete Möglichkeit dar, die mögliche + Verwandtschaft zwischen Wörtern aufzuzeigen.<note type="footnote"> + <ref type="bibliography" target="#dunn_language_2015">Dunn 2015</ref>, S. 196.</note> Die Herausforderung, zwei + Schreibvarianten desselben Wortes zu erkennen, ist ähnlich gelagert + wie die Erkennung einer möglichen linguistischen Verwandtschaft + zwischen zwei Wörtern. Da die Levenshtein-Distanz zudem die + üblichste Methode zur Ähnlichkeitsanalyse zwischen zwei Strings + darstellt,<note type="footnote"> <ref type="bibliography" target="#piotrowski_language_2012">Piotrowski 2012</ref>, S. 71.</note> + wird sie auch im Weiteren Verwendung finden. Sie beschreibt die + Anzahl von Löschungen, Einfügungen und Substituierungen einzelner + Buchstaben, um von einem String zu einem anderen zu gelangen.<note + type="footnote"> <ref type="bibliography" target="#levenstejn_codes_1966">LevenÅ¡tejn 1966</ref>.</note> + </p> + </div> + <div type="subchapter"> + <head>2.2.3 Grundlagen von Klassifikationen</head> + <p>Unter der Klassifikation wird die Gliederung von Elementen einer + Menge in verschiedene Klassen nach einer definierten Logik + verstanden. Dieser Vorgang kann automatisiert werden, wenn die + zugrundeliegenden Gesetzmäßigkeiten in einem Algorithmus + Formalisierung finden. Eine (automatisierte) Klassifikation kann + dabei entweder ein Objekt einer Klasse zuordnen oder eben auch + dahingehend scheitern, dass keine Klasse ausgewählt werden kann. Die + Zuordnung zu (k)einer Klasse kann zudem korrekt oder nicht korrekt + sein. Durch diese binäre Ansicht ergeben sich vier mögliche + Kombinationen (siehe <ref type="graphic" target="#berufsbezeichnungen_2022_t1">Tabelle + 1</ref>). Als erstrebenswert gilt dabei eine Erhöhung der TP- und + TN-Ergebnisse. FP- und FN-Ergebnisse sind hingegen zu vermeiden.</p> + <table rend="rules" xml:id="berufsbezeichnungen_2022_t1"> + <row> + <cell/> + <cell>Klassifikation korrekt</cell> + <cell>Klassifikation nicht korrekt</cell> + </row> + <row> + <cell>Klassifikation erfolgt</cell> + <cell>True positive (TP)</cell> + <cell>False positive (FP)</cell> + </row> + <row> + <cell>Klassifikation nicht erfolgt</cell> + <cell>True negative (TN)</cell> + <cell>False negative (FN)</cell> + </row> + <trailer xml:id="tab01"><ref target="#tab1">Tab. 1</ref>: Konfusionsmatrix zur + Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller + 2022]<ref type="graphic" + target="#berufsbezeichnungen_2022_t1"/></trailer> + </table> + <p>Durch die Kombination der Anzahl der jeweiligen Zustände kann die + Güte der Klassifikation bewertet werden. Dies ist notwendig, weil + ein hoher Anteil von Treffern oftmals auch mit vielen falschen + Ergebnissen einhergeht – bei keinen Treffern hingegen kann auch kein + Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität + einer Klassifikation stellt das F1-Maß dar.<note type="footnote"> + <ref type="bibliography" target="#christen_quality_2007">Christen / Goiser 2007</ref>, S. 140f.</note> Dieses wird genutzt, um + ein optimiertes Verhältnis zwischen den gefundenen Treffern und den + richtigen Treffern zu erzielen. Hierbei werden die Trefferquote (R, + für <term type="dh">recall</term>) und die Genauigkeit (P, für <term + type="dh">precision</term>) der Klassifikation gemäß der Formel + für das F1-Maß (siehe Formel 1) in eine Beziehung gesetzt.</p> + <p>Formel 1: F1=2*P*RP+R</p> + <p>Sind hier die Genauigkeit und die Trefferquote beim F1-Maß gleich + gewichtet, so ist auch jede andere Gewichtung denkbar. Die + Genauigkeit ergibt sich aus Formel 2, die Trefferquote aus Formel + 3.</p> + <p>Formel 2: P=|TP||TP|+|FP|</p> + <p>Formel 3: R=|TP||TP|+|FN|</p> + <p>Eine automatisch durchgeführte Klassifikation führt jedoch dazu, dass + das Ergebnis nicht (oder nur im Nachgang) manuell auf + (Un-)Korrektheit hin überprüft werden kann. Durch die mittels + Klassifikation zusätzlich vorgenommene Verknüpfung kann sie die + Eigenschaften der Klasse verändern oder erweitern. Dadurch, dass + künftige Klassifikationen auf diese vorherigen Informationen + zugreifen können, findet überwachtes Lernen statt.</p> + </div> + </div> + <div type="subchapter"> + <head>2.3 Berufsklassifikationen</head> + <p>Grundsätzlich muss zwischen der Lemmatisierung von Berufsbezeichnungen + und der Klassifikation von Berufen unterschieden werden. Mit Ersterer, + der Lemmatisierung der Bezeichnungen zu Berufen, befasst sich dieser + Artikel. Dabei wird eine Vielzahl von Schreibvarianten einem normierten + Berufsnamen zugeordnet, sofern eine bestimmte sprachliche + Übereinstimmung erkennbar ist. Diese Berufsnamen können in einem + weiteren, übergeordneten Klassifikationssystem auch + inhaltlich-analytisch zu verschiedenen Berufsgruppen geordnet werden, + indem das Definitionskriterium der Tätigkeit zur Klassifikation + herangezogen wird. In solche Systeme wird in diesem Abschnitt + eingeführt. Relevant ist das übergeordnete System der + Berufsklassifizierung, weil es die Entitäten determiniert, auf denen die + nachfolgende Entwicklung des Algorithmus aufbaut. </p> + <p>Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher + vor allem moderne internationale,<note type="footnote"> + <ref target="https://www.ilo.org/public/english/bureau/stat/isco/" + >International Standard Classification of Occupations</ref> + (ISCO), <ref type="bibliography" target="#ilo_iso_2021">ILO (Hg.) 2021</ref>.</note> moderne deutschsprachige<note + type="footnote"> Klassifikation der Berufe (KldB), <ref type="bibliography" target="#bfa_klassifikationarbeit_2021">Bundesagentur für + Arbeit (Hg.) 2021</ref>.</note> oder historische englischsprachige<note + type="footnote"> + <ref target="https://historyofwork.iisg.nl/">Historical + International Standard Classification of Occupations</ref> + (HISCO); <ref type="bibliography" target="#leeuwen_history_2002">van Leeuwen et al. 2002</ref>.</note> Berufsnamen führen. Von + diesen Standards wird häufig eine Vielzahl forschungsbasierter + Klassifkationsansätze für unterschiedliche Analysen abgeleitet. In + Hinblick auf die Entwicklung von Datenstandards nach FAIR-Prinzipien + werden solche kompatiblen Systeme zukünftig höheres Gewicht besitzen, + weil die Anbindung an Standards die Nachvollziehbarkeit und + Vergleichbarkeit von Forschungsergebnissen gewährleistet.<note + type="footnote"> <ref type="bibliography" target="#moeller_standards_2019">Moeller 2019</ref>.</note> Im deutschsprachigen Raum ist + vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise + jetzt 2020 zu nennen. Die Methodik der KldB 2010 wurde von Katrin + Moeller auf viele historische, deutschsprachige Berufsbezeichnung + angewendet.<note type="footnote"> <ref type="bibliography" target="#moeller_ontologie_2020">Moeller et al. 2020</ref>.</note> Dieses + System wird im Weiteren Anwendung finden, da es für den + deutschsprachigen Raum die umfangreichste Lösung darstellt. Alternativ + dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die + historische Erweiterung von ISCO 68 dar. Davon wird an dieser Stelle + abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306 + deutsche Berufsbezeichnungen genutzt werden.<note type="footnote"> + <ref type="bibliography" target="#iish_history_2020">International Institute of Social History (Hg.) 2020</ref>.</note> Zudem enthält + HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch + die Zuordnung zu historischen Berufsangaben erschwert wird. Damit + bleiben viele Berufsnamen bisher ohne sichere Zuordnung in der HISCO. + Durch die Granularität der KldB 2010 kann zwar jeder Beruf der HISCO in + der KldB abgebildet werden, nicht jedoch andersherum. Des Weiteren + existieren im deutschsprachigen Raum historische + Berufsklassifikationen,<note type="footnote"> Vgl. + <ref type="bibliography" target="#schueren_mobilitaet_1989">Schüren 1989</ref>; + Brandenburg et al. 1993.</note> die in die OhdAB mit eingeflossen + sind. Beachtlich ist zudem die Systematisierung des Thesaurus + Professionum von 23.000 Berufen, die auf Erschließungen von + Leichenpredigten der Forschungsstelle für Personalschriften der + Philipps-Universität Marburg zurückgehen.<note type="footnote"> + <ref type="bibliography" target="#thesaurus_professionum_2021">Philipps-Universität Marburg, + Forschungsstelle für Personalschriften (Hg.) 2021</ref>.</note> + </p> + <div type="subchapter"> + <head>2.3.1 Klassifikation der Berufe 2010</head> + <p>Die KldB 2010 teilt Berufe nach einer fünfgliedrigen + Hierarchiestruktur ein.<note type="footnote"> <ref type="bibliography" target="#bfa_klassifikationberufe_2011">Bundesagentur für + Arbeit (Hg.) 2011</ref>, S. 16.</note> Der Einsteller (Berufsbereiche) + gliedert die Berufe in grundlegende Themen.<note type="footnote"> + <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 7.</note> Die nächsten drei Ebenen + (Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen) + beschreiben die berufsfachlichen Zusammenhänge.<note type="footnote" + > <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 8.</note> Je stärker + zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen + Berufen existieren, desto näher sind sich diese in der Hierarchie. + Zuletzt beschreibt der Fünfsteller (Berufsgattungen) das + Anforderungsniveau, sodass durch ihn unterschiedliche + Komplexitätsgrade desselben Berufs ausgedrückt werden können.<note + type="footnote"> <ref type="bibliography" target="#paulus_klassifikation_2013">Paulus / Matthes 2013</ref>, S. 9f.</note> Insgesamt + existieren auf der Ebene des Fünfstellers mittlerweile 1.900 + Berufsgattungen.<note type="footnote"> <ref type="bibliography" target="#bfa_klassifikationberufe_2011">Bundesagentur für Arbeit (Hg.) 2011</ref>, S. 18.</note> + </p> + <table xml:id="berufsbezeichnungen_2022_t2"> + <row> + <cell>Stellensystem</cell> + <cell>Bezeichnung für das Beispiel des Bäckers</cell> + <cell>Gruppenbezeichnung</cell> + <cell>Anzahl der Gruppen über alle Berufsgattungen</cell> + </row> + <row> + <cell>1-Steller B 29222</cell> + <cell>Rohstoffgewinnung, Produktion und Fertigung</cell> + <cell>Berufsbereiche</cell> + <cell>10 Gruppen</cell> + </row> + <row> + <cell>2-Steller B 29222</cell> + <cell>Lebensmittelherstellung und -verarbeitung</cell> + <cell>Berufshauptgruppen</cell> + <cell>72 Gruppen</cell> + </row> + <row> + <cell>3-Steller B 29222</cell> + <cell>Lebensmittel- und Genussmittelherstellung</cell> + <cell>Berufsgruppen</cell> + <cell>260 Gruppen</cell> + </row> + <row> + <cell>4-Steller B 29222</cell> + <cell>Berufe in der Back- und Konditoreiwarenherstellung</cell> + <cell>Berufsuntergruppen</cell> + <cell>941 Gruppen</cell> + </row> + <row> + <cell>5-Steller B 29222</cell> + <cell>Berufe Back- und Konditoreiwarenherstellung - fachliche + Tätigkeit</cell> + <cell>Anforderungsniveau</cell> + <cell>1.900 Gruppen</cell> + </row> + <trailer xml:id="tab02"><ref target="#tab2">Tab. 2</ref>: Nummernsystem der KldB 2010 / OhdAB + am Beispiel des Berufes Bäcker. [Goldberg / Moeller + 2022]</trailer> + </table> + <p>Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in + die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese + Lösung bereits eine gute Näherung an moderne + Individualbezeichnungen.</p> + </div> + <div type="subchapter"> + <head>2.3.2 Erweiterung um historische Berufe </head> + <p>Die Methodik der KldB 2010 ist grundsätzlich auch auf historische + Berufe anwendbar, weil sie nach Tätigkeiten und Anforderungsniveaus + ordnet, die auch für vergangene Arbeitsfelder erschließbar sind. Mit + der OhdAB liegt eine solche Grundlage zur Klassifikation von + historischen Berufs- und Amtsbezeichnungen in einer Beta-Fassung + vor. Dabei werden alle Schreibvarianten (unter Vergabe einer + fortlaufenden ID) von Standesbezeichnungen nach der Methode der KldB + 2010 erfasst und zu einem Berufsgattungsnamen (Zusatz einer + dreistelligen Individualnummer) sowie einer fünfstelligen + Klassifikation (Klassifikationsnummer) angeordnet. </p> + <p>Der ursprünglichen Fassung der KldB 2010 wurden dem + Berufsgattungsnamen fortlaufend die Klassifikationsnummern unter + einem Wert von 500 zugewiesen, historische Berufe erhielten bei der + Ergänzung einen Wert größer als 500, wodurch die modernen und + historischen Gattungsnamen voneinander differenzierbar bleiben. Die + KldB 2010 wurde zudem um einige wenige Berufsgruppen ergänzt, die + sich in das Konzept der ursprünglichen Fassung nicht einfügen + ließen. Dies gilt etwa für die Gruppe von Stadt- und Hofwachen, die + weder dem Personen- und Objektschutz, der Polizei noch dem Militär + zugeordnet werden konnten. Gleiches gilt für die Hofverwaltung, + militärische Berufsgruppen oder das Landhandwerk. Insgesamt folgt + die Klassifikation jedoch der Methodik der KldB 2010. Zudem wurden + allgemeinere Beschreibungsgruppen (wieder-)eingeführt, um auch + Gattungsbegriffe wie ›Beamter‹ oder ›Arbeiter‹ einzuordnen. Dies ist + aufgrund des spezifischen Tätigkeitskonzeptes der KldB 2010 + ansonsten nicht möglich. Dieser Kennung vorangestellt wird ein A + oder B. Der weitaus geringere Teil ist mit A betitelt (bisher ca. + 600 Gattungsbegriffe), wodurch solche Angaben kenntlich gemacht + werden, die in den historischen Registern eine Eintragung zum Stand + verfügen, der heute aber keinen Beruf mehr definiert. Wie oben + beschrieben waren dies in der Regel Verwandtschaftsverhältnisse zu + einem Haushaltsvorstand. Sehr häufig handelt es sich um Angaben zur + Kenntlichmachung der Armut einer Person oder zum Bezug von Almosen, + Altenteil, Renten- oder Invalidenbezügen. Gleichzeitig kommen + Angaben zu Eigentums- und Besitzverhältnissen, Religion, Rechts- und + Einwohnerbezeichnungen vor. Ein B weist demnach darauf hin, dass es + sich um einen Beruf im Sinne eines Tätigkeitskonzepts handelt. + Insgesamt sind fast 44.582 normierte Berufsschreibweisen so + klassifiziert.</p> + <p>Die Liste der Varianten hingegen besteht aus möglichen + Schreibvarianten der Berufe, die einer Normschreibweise eines Berufs + der Konkordanz (Auflistung aller möglichen Berufe als + Normschreibweise) zugeordnet ist. Es besteht eine 1:n-Beziehung, da + ein Eintrag der Konkordanz beliebig viele Varianten aufweisen kann. + Unterschiede zwischen Normschreibweise und Variante lassen sich an + verschiedenen Aspekten erkennen. So enthält die Normschreibweise + eine geschlechtsübergreifende Schreibweise (z. B. ›Müller/in‹), die + Varianten allerdings die Berufe je Geschlecht einzeln separiert + (hier ›Müller‹ und ›Müllerin‹). Insgesamt sind derzeit weit über + 300.000 Varianten erfasst. Die Liste der Varianten wird durch das + Historische Datenzentrum Sachsen-Anhalt jedoch stetig erweitert. Für + die weitere Arbeit wird ein Auszug aus diesen Varianten verwendet, + der zur Validierung näher beschrieben wird.</p> + </div> + </div> + </div> + <div type="chapter"> + <head>3. Entwicklung des Algorithmus</head> + <p>Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen + hinter der Lemmatisierung der Berufsangaben – und somit die + zugrundeliegenden Heuristiken – formalisiert zum Ausdruck zu bringen. Dazu + werden zunächst die Anforderungen an diese Automatik detaillierter + beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung + nach Müller und Freytag.<note type="footnote"> <ref type="bibliography" target="#mueller_problems_2003">Müller / Freytag 2003</ref>.</note> + </p> + <div type="subchapter"> + <head>3.1 Anforderungen das Ergebnis</head> + <p>Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im + Weiteren ›Klassen‹, zugeordnet werden (TP). Ein Beruf stellt dabei eine + Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die + Eigenschaften. Eine Übersicht über die verwendeten Begrifflichkeiten + ist, insbesondere für die multiple Verwendung der + Klassifizierung / Klassifikation, in <ref type="graphic" + target="#berufsbezeichnungen_2022_001">Abbildung 1</ref> + ersichtlich.</p> + <figure> + <graphic xml:id="berufsbezeichnungen_2022_001" + url=".../medien/berufsbezeichnungen_2021_001.png"> + <desc> + <ref target="#abb1">Abb. 1</ref>: Begriffe und Zusammenhänge des + Algorithmus. [Goldberg / Moeller 2022] <ref type="graphic" + target="#berufsbezeichnungen_2022_001"/> + </desc> + </graphic> + </figure> + <p>Eine Erhöhung der TP-klassifizierten (neuen Bezeichnungen) allein geht + jedoch oftmals auch mit der Erhöhung von FP-Klassifizierungen einher. + Aus diesem Grund wird nicht die Anzahl der TP-Klassifizierungen + optimiert, sondern das F1-Maß. Zudem soll die Klassifizierung + automatisch geschehen, eine manuelle Überprüfung des Ergebnisses + geschieht infolgedessen nicht. Das ist notwendig, um große Datenbestände + mit hunderttausenden Berufsbezeichnungen in einer überschaubaren Zeit + klassifizieren zu können. Da der Algorithmus insbesondere auf große + Listen von Berufsangaben Anwendung finden soll, ist dessen Effizienz und + somit die Laufzeit zu beachten. Der Algorithmus soll in einem + Programmcode umgesetzt werden, der in weiteren Applikationen eingebunden + werden können soll.</p> + <p>Der Algorithmus soll zwar mit Hilfe genealogisch-prosopographischer + Quellen validiert werden, jedoch danach auch auf andere Berufsangaben + angewendet werden können. Art und Umfang der Quelle sind dabei nicht + entscheidend. Wichtiger ist es, dass es sich um deutschsprachige + Berufsangaben aus dem Zeitraum der Neuzeit (ab ca. 1500) handelt. Bei + anderen Angaben steigt die Wahrscheinlichkeit, dass der Algorithmus + keine verwertbaren Ergebnisse liefert (z. B. bei lateinischen Angaben), + jedoch soll eine nachträgliche Erweiterung der Sprachen möglich + sein.</p> + <p>Des Weiteren können Datenfelder zum Beruf mit verschiedenen Informationen + gefüllt sein. In vielen Fällen dürften sie als Freitextfeld keiner + Konsistenzprüfung unterzogen worden sein. Das führt dazu, dass + prinzipiell alles in einem solchen Feld stehen kann. Es ist eine + Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch + mehrere Berufsangaben verzeichnet, diese dann getrennt voneinander + erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen + in den Berufsangaben sollen jeweils separiert werden (z. B. der + fälschlicherweise in einem Datenfeld für die Berufsangabe angegebene + Wohnort). Lemmatisiert wird jedoch nur die Angabe zum Stand und / oder + Beruf. Mögliche berufsferne, separierte Informationen unterliegen keiner + weiteren Interpretation.</p> + </div> + <div type="subchapter"> + <head>3.2 Methodik der Datenbereinigung</head> + <p>Wie oben beschrieben, setzt sich die Datenbereinigung aus verschiedenen + Schritten zusammen, die nun nacheinander durchgeführt werden. Zunächst + wird im data auditing der zu bearbeitende Datensatz betrachtet. Die hier + entwickelte Datenbereinigung soll allgemein auf deutschsprachige + Berufsbezeichnungen anwendbar sein. Dazu werden Berufsangaben genutzt, + die in öffentlich zugänglichen GEDCOM-Dateien gespeichert sind. Im + deutschsprachigen Raum stellt GEDBAS eine der wesentlichen Sammlungen + von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000 + Dateien und 22 Millionen Personen abgebildet.<note type="footnote"> + GEDBAS, <ref type="bibliography" target="#gebdas_statistics_2021"></ref>Verein für Computergenealogie (Hg.) 2021.</note> Ein Teil dieser Dateien + ist von den Autoren zum öffentlichen Download freigegeben. Eine + Anwendung eines Scrapers zur Sammlung der öffentlichen GEDCOM-Dateien in + GEDBAS, ausgeführt am 14.04.2020, erbrachte 2.899 Dateien.<note + type="footnote"> Siehe den entsprechenden Programmcode in + (Online-Repo). [verlinken]</note> Um die Berufsangaben aus den + Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben + (›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.<note + type="footnote"> Siehe den entsprechenden Programmcode in + (Online-Repo). [verlinken]</note> Insgesamt werden auf diese Weise + 229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen + Angaben bleiben 60.000 verschiedene Bezeichnungen übrig.</p> + <p>Weitere naheliegende, aber nicht in den GEDCOM-Daten auftretende + Anomalien bei Berufsangaben werden ebenso mit eingebunden. Das ist darin + begründet, dass der Algorithmus auf alle deutschsprachigen Berufsangaben + seit ca. 1500 anwendbar sein soll und ggf. mögliche Anomalien in den + GEDCOM-Daten strukturell komplett fehlen. Die folgenden Anomalien wurden + insgesamt erkannt:</p> + <list type="unordered"> + <item> + <hi rend="bold">Mehrere Berufe</hi>: In einer Berufsangabe kann ein + Verweis auf mehrere Berufe vorhanden sein, beispielsweise, weil die + Bezugsperson verschiedene Berufe in ihrem Leben (hintereinander oder + parallel zueinander) ausgeübt hat. Verschiedene Berufsangaben können + durch Trennoperatoren abgegrenzt sein. Eine Besonderheit ergibt sich + bei der Verwendung von Ergänzungsstrichen in einer Berufsangabe + (z. B. ›Gold- und Silberschmied‹).</item> + <item> + <hi rend="bold">Abkürzungen</hi>: Berufe können eine Abkürzung + erfahren, die wiederum sehr quellenspezifisch sein können. So ist es + denkbar, dass ein ›B.‹ für ›Bürger‹ steht, aber auch für ›Bauer‹. + Abkürzungen enden in vielen Fällen, allerdings nicht immer, mit + einem Punkt.</item> + <item> + <hi rend="bold">Rollen</hi>: Dem Beruf vor- und nachgestellt können + weitere Angaben zur Rolle innerhalb des Berufsbildes sein. Das + betrifft im Handwerk beispielsweise die fünf Qualifikationsstufen + von Hilfsarbeitern, Burschen und Knechten, Lehrlingen und Gesellen, + Altgesellen und arbeitenden Fachhandwerkern ohne Meistertitel, + Meistern sowie Obermeistern beziehungsweise Oberältesten von + Innungen. </item> + <item> + <hi rend="bold">Zeitangaben</hi>: Zur Spezifizierung des Zeitpunktes + der Bezeichnung mit einem Beruf kann eine Zeitangabe aufgenommen + werden. Diese ist möglicherweise durch Klammern abgegrenzt. Auch die + Verwendung von Ziffern ist ein Indikator für eine Zeitangabe. Jedoch + können Ziffern regulärer Bestandteil der Berufsbezeichnung sein + (z. B. ›1. Pfarrer‹ oder ›2. Offizier‹). Daneben könnten temporale + Präpositionen auf Zeitangaben hinweisen. Bei der Angabe von + konkreten Daten oder Jahreszahlen kommen temporale Präpositionen + nach dem Beruf (z. B. ›Bauer im Jahre 1873‹) wie auch zu Beginn + (z. B. ›am 02.03.1734: Hufschmied‹) vor. Häufig stehen Zeitangaben + auch ohne Präposition.</item> + <item> + <hi rend="bold">Berufsstatus</hi>: Gleichfalls können temporale + Informationen darüber vorhanden sein, ob der benannte Beruf aktiv + ausgeübt wird oder es sich um einen vormaligen Beruf handelt. So + existieren Möglichkeiten, den Status einer Person in Bezug auf den + Beruf zu beschreiben (z. B. ›pensioniert Lehrer‹ oder<hi + rend="italic"> ›g</hi>ewesener Gerichtsschreiber‹). Hinzu treten + Bezeichnungen wie ›Altenteiler‹ oder ›Invalid‹, die aber keine + spezifischen Berufsangaben mehr enthalten.</item> + <item> + <hi rend="bold">Quellenangaben</hi>: Analog zur Angabe eines + Zeitpunkts ist auch der Verweis auf Quellen möglich. Quellen können + auf verschiedene Arten angegeben werden. Ein vorkommender Fall ist + die Verwendung von URLs oder HTML-Codes für Hyperlinks, um auf + Inhalte im Internet zu verweisen.</item> + <item> + <hi rend="bold">Ortsangaben</hi>: Häufig kommt auch die Angabe des + Ortes einer Berufsausübung vor. Anders als bei Zeitangaben werden + bei den Ortsangaben (lokale) Präpositionen wie ›in‹, ›bei‹ oder + ›von‹ häufig verwendet. Neben dem Arbeitsort kann es auch vorkommen, + dass der Herkunfts- oder Wohnort genannt wird, der ebenfalls nicht + zu Beschreibung der Tätigkeit genutzt werden kann.</item> + <item> + <hi rend="bold">Arbeitgeber</hi>: Ebenfalls kann der Arbeitgeber + genannt werden. Die Präpositionen ähneln dabei denen der Ortsangaben + (z. B. ›Kalkulator bei der Deutschen Versicherung A.G.‹). Darunter + ist auch die Zuordnung zu einem Dienst- oder Lehnsherren oder einem + Regiment etc. zu verstehen. Bei Berufsangaben werden in diesem Sinne + auch Zusätze wie ›herrschaftlich‹ oder ›königlich‹ als solche + betrachtet. Im Militär dominieren hier Angaben zu Regimentern + etc.</item> + <item> + <hi rend="bold">Familienstand</hi>: Ein Datenfeld, welches mit + ›Stand und Gewerbe‹ überschrieben ist, lässt vielerlei Möglichkeiten + zu. Eine davon ist der Familienstand. Hierrunter fällt im engeren + Sinne, ob eine Person ledig, verheiratete oder verwitwet ist. + Bezeichnungen für unverheiratete Frauen sind so beispielsweise + ›Jungfer‹ oder ›Jungfrau‹, bei Männern dahingegen ›Junggeselle‹ oder + ›Geselle‹. Manche Angaben können auch darauf hinweisen, dass die + Berufsangabe sich nicht direkt auf den Stelleninhaber bezieht, + sondern auf eine nahestehende Person. So kann die Rolle in der + Familie benannt sein (z. B. ›Sohn‹ oder ›Tochter‹). Die die + Bezeichnung als ›Witwer‹ oder ›Witwe‹ ist erwähnenswert.</item> + <item> + <hi rend="bold">Rechtsstatus</hi>: Der Rechtsstatus einer Person + kann ebenso Teil einer personenstandlichen Aussage sind. Eine + wesentliche, oft vorkommende Unterscheidung hierbei ist die zwischen + ›Bürgern‹ und ›Inwohnern‹ oder ›Einwohnern‹.</item> + <item> + <hi rend="bold">Besitzinformationen</hi>: Auch kann die Angabe + Informationen über den Besitz des Beschriebenen enthalten, ohne dass + aus diesen direkt (ohne weitere Annahmen) ein Rückschluss auf die + berufliche Tätigkeit gezogen werden kann (z. B. ›Hausbesitzer‹ oder + ›Fabrikbesitzer‹, ›Erbe‹).</item> + <item> + <hi rend="bold">Titularangaben</hi>: Vom Beruf (und auch dem + Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische + Titel. Am häufigsten kommt hierbei die vorangestellte Angabe des + Doktorgrades vor. Auch können weitere Adjektive wie ›wohlgeachtete‹ + oder ›ehrbare‹ vorangestellt werden oder auch ehrende Anreden + (›Herr‹ / ›Frau‹) enthalten.</item> + <item> + <hi rend="bold">Fremdsprachliche Angaben</hi>: Auch fremdsprachliche + Angaben können vorkommen. Aufgrund des derzeitigen Fokus der OhdAB + auf historische deutschsprachige Berufe und der speziellen + Konzentration auf deutschsprachige Quellen ist die entwickelte + Lösung nicht besonders geeignet für Berufs- und Standesbezeichnung + anderer Sprachen. Sie werden nicht mit lemmatisiert und + klassifiziert und deshalb als TN-Ergebnisse erkannt. Langfristig ist + es ein erstrebenswertes Ziel, eine Mehrsprachigkeit (besonders + lateinische Berufsbezeichnungen) zu implementieren. In den + GEDCOM-Daten kommen insbesondere niederländischer Bezeichnungen + häufig vor. Aufgrund der sprachlichen Nähe zum Deutschen stellen + diese eine besondere Herausforderung dar.</item> + <item> + <hi rend="bold">Tippfehler und Schreibvarianten</hi>: Besonders + nachfolgende (oder führende) Leerzeichen kommen häufig vor, weil sie + bei der Dateneingabe schnell übersehen werden können, dennoch aber + Teil des Strings sind. Denkbar sind auch sonstige Tippfehler, + fehlende, zusätzlich vorhandene oder vertauschte Zeichen. + Grundsätzlich wird von Schreibvarianten gesprochen, ohne die + Herkunft dieser (quellenbasiert, transkriptionsbasiert) für + bestehende Sammlungen aufgrund fehlender direkter Bezugsebenen + zwischen Quellen und Datensammlung nicht überprüfbar sind. Eine + besondere Form von Schreibvarianten stellen Durchkoppelungen dar. + Sie können überall dort vorkommen, wo verschiedene Morpheme + aneinandergesetzt werden, was bei Berufsangaben vergleichsweise + häufig der Fall ist. Beispiele dafür sind der + ›Reserveoffizier-Anwärter‹, ›Bäcker-Meister‹ oder + ›Gerichts-Gehilfe‹. In seltenen Fällen wird der Bindestrich auch als + Trennungsoperator zwischen verschiedenen Berufen genutzt (z. B. + ›Häusler-Weber‹). </item> + <item> + <hi rend="bold">Falsche Verwendung des Feldes</hi>: Inhaltlich + falschen Angaben, die mit einer Berufsangabe nichts zu tun haben, + kann die falsche Verwendung des Datenfeldes zugrundeliegen. + Wahrscheinlicher als eine bewusste Fehlinterpretation ist vermutlich + die versehentliche Vertauschung, u. a. mit Datenfeldern für Namen, + Wohnorte oder Datumsangaben.</item> + </list> + <p>Der Umgang mit diesen wird nachfolgend in der workflow spezification + festgelegt. Dabei handelt es sich um die Formalisierung von Heuristiken + zur Interpretation der Anomalien. Die Spezifizierung des Ablaufs der + Datenbereinigung wird in drei Teile gegliedert: Zunächst findet (1.) + eine grundsätzliche Vorverarbeitung der ursprünglichen Berufsangabe + statt. Danach werden (2.) verschiedene, darin enthaltene Berufsangaben + voneinander separiert. Abschließend erfahren diese Strings (3.) eine + weitere Nachbearbeitung, indem berufsfremde Angaben separiert werden. + Die Reihenfolge der einzelnen Schritte ist relevant und zu beachten. + Nachfolgende Schritte können zu anderen Ergebnissen führen, sollten die + vorhergehenden nicht zuvor ausgeführt worden sein.</p> + </div> + + <div type="subchapter"> + <head>3.3 Ablauf der Datenbereinigung</head> + <div type="subchapter"> + <head>3.3.1 Normieren von Trennoperatoren</head> + <p>Es gibt verschiedene Operatoren, die voneinander abzugrenzende + Informationen innerhalb der Berufsangabe trennen. Mögliche + Trennoperatoren sind:</p> + <list type="unordered"> + <item> u.</item> + <item>+</item> + <item>,</item> + <item>;</item> + <item>&</item> + <item>/</item> + <item>-</item> + </list> + <p>Dabei können verschiedene Kombinationen mit vor- oder nachgestellten + Leerzeichen Aufschluss über den spezifischen Zweck des Zeichens + geben. Beispielsweise stellt der Bindestich nur ohne vorangehendes + Leerzeichen, einen Trennoperator da, da er ansonsten als + Ergänzungsstrich interpretiert werden sollte. Falls hinter dem + Ergänzungsstrich zusätzlich statt einem Leerzeichen ein Komma + gesetzt ist, handelt es zudem um eine Aufzählung, was in der + Ermittlung des entsprechenden Wortteils zu beachten ist. Ausgenommen + von der Trennung ist die Kombination ›- und‹ wie beispielsweise in + ›Gold- und Silberschmied‹. Hier wird von einem zusammenhängenden + Begriff ausgegangen.</p> + <p>Es ist für die nachfolgende Verarbeitung hilfreich, wenn diese + Operatoren normiert und durch einen einzigen Trennoperator getrennt + werden. Die Trennoperatoren werden durch ein ›und‹ ersetzt. An den + Stellen, an denen infolgedessen ein ›und‹ steht, erfolgt eine + Trennung des Strings unter der Löschung von des vormals verbindenden + ›und‹. Jeder der entstehenden Teile wird datentechnisch abgegrenzt, + sodass dieser zwar einzeln behandelt werden kann, dennoch aber auch + die ursprüngliche Zusammengehörigkeit nachvollziehbar bleibt. Das + ist aus dem Grunde sinnvoll, da in den dann getrennten Teilen neben + dem Beruf weitere (berufsferne) Informationen stehen könnten. Diese + sind für eine unmittelbare Klassifikation des Berufs nicht notwendig + (oder gar hinderlich), sollen aber im Bezug zur Berufsangabe dennoch + nicht verloren gehen, da sie ggf. wichtige weiterführende + Informationen erhalten. Die Informationen werden für eine + anschließende Interpretation separiert und damit von der + eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die + Zusammengehörigkeit nachvollziehbar.<note type="footnote"> + Beispielsweise wird die Bezeichnung ›Hutmacher und Bürger‹ in + zwei Teile separiert, wobei der Bürger keine Berufsbezeichnung + darstellt. Für eine mögliche nachfolgende Analyse ist es ggf. + von Relevanz, nachzuvollziehen, dass der Hutmacher einen + Bürgerstatus innehatte.</note> + </p> + <p>Es folgen Schritte zur Separierung berufsferner Angaben aus der + Bezeichnung. Teilweise wird die berufsferne Angabe durch die + Separierung aus der eigentlichen Berufsangabe gelöscht, mitunter + aber auch beibehalten, weil sie für die Lemmatisierung von Relevanz + ist. Separiert wird in zwölf Kategorien: </p> + <list type="unordered"> + <item>Beruf</item> + <item>Rolle</item> + <item>Jahr</item> + <item>URL</item> + <item>Ort</item> + <item>Arbeitgeber</item> + <item>Familienstand</item> + <item>Rechtsstatus</item> + <item>Besitzinformation</item> + <item>Titel</item> + <item>Berufsstatus</item> + <item>Weiteres</item> + </list> + </div> + + <div type="subchapter"> + <head>3.3.2 Entfernung von Leerzeichen</head> + <p>Leerzeichen, die am Anfang oder am Ende des Strings stehen, werden + entfernt.</p> + </div> + <div type="subchapter"> + <head>3.3.3 Ausformulierung von Abkürzungen</head> + <p>Die Abkürzungen können je nach Quelldaten sehr unterschiedlich + gewählt worden sein. Es ist empfohlen, oft vorkommende und + konsistent verwendete Abkürzungen in der Quelle im Programm zu + ergänzen. Einige Abkürzungen, die in den GEDCOM-Daten vorkommen und + allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits + aufgenommen. Kommen sie vor, werden sie ausformuliert. Das bedeutet, + dass dieses ausgeschrieben werden. Dies sind:</p> + <list type="unordered"> + <item>›Bgmst.‹ für ›Bürgermeister‹</item> + <item>›Ing.‹ für ›Ingenieur‹</item> + </list> + <p>Nicht möglich ist eine solch allgemeine Übersetzung von Abkürzungen + beispielsweise bei der Angabe ›B.‹, die mit einer großen + Wahrscheinlichkeit für ›Bauer‹ oder ›Bürger‹ stehen könnte. Die + Verwendung aller Abkürzungen aus den GEDCOM-Daten würde zu einem + Overfitting führen. Die Abkürzung ›Dr.‹ dahingegen wird – trotz + eindeutiger Verwendung – bewusst so belassen, da sie später als + Titularangabe separiert wird. Auch trifft dieses auf die Abkürzungen + ›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben. + Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig + verwendet werden, nicht ausformuliert (z. B. ›F. d.‹ oder ›T. d.‹, + für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher + auflösbare Abkürzungen zudem als Schreibvarianten auf.</p> + </div> + <div type="subchapter"> + <head>3.3.4 Definierte berufsferne Substantive</head> + <p>Direkte Angaben über den Rechtsstatus werden separiert, nicht aber + aus der Berufsangabe entfernt. Hintergrund ist, dass diese Angaben + Teil der Varianten der OhdAB sind und dadurch erkannt werden können. + Das umfasst folgende Begriffe:</p> + <list type="unordered"> + <item>Bürger</item> + <item>Civis Academicus</item> + <item>Einwohner</item> + <item>Inwohner</item> + <item>in wohner</item> + <item>In wohner</item> + <item>Nachbar</item> + <item>Universitätsbürger</item> + </list> + <p>Angaben, die Auskunft über den Besitz geben, werden hingegen der + Kategorie Besitzinformationen zugeordnet und aus der Berufsangabe + gelöscht. Hierunter fallen alle von Leerzeichen umfassten Begriffe, + die auf ›besitzer‹ oder ›besitzerin‹ oder ›eigentümer‹ und + ›eigentümerin‹ enden.</p> + </div> + <div type="subchapter"> + <head>3.3.5 Lokale Präpositionen</head> + <p>Ortsangaben können mit verschiedenen lokalen Präpositionen + eingeleitet werden. Ist eine der folgenden Zeichenketten samt + vorangehendem und nachfolgendem Leerzeichen Teil der Berufsangabe, + so wird der nachfolgende Teil als Ortsangabe separiert und die + Präposition gelöscht. Ein voranstehendes Leerzeichen ist nicht + notwendig, wenn die Präposition am Beginn des Strings steht.</p> + <list type="unordered"> + <item>in</item> + <item>In</item> + <item>i. </item> + <item>von </item> + <item>zu </item> + <item>auf </item> + <item>aus </item> + <item>an </item> + <item>der</item> + <item>des</item> + </list> + <p>Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der + Präposition ›bei‹ eher einen Bezug zu einem Arbeitgeber auf als zu + einem physischen Ort. Hier wird die Kategorie <hi rend="italic" + >Arbeitgeber</hi> verwendet.</p> + <list type="unordered"> + <item>bei der</item> + <item>bei dem</item> + </list> + <p>Des Weiteren werden folgende Adjektive, die keine lokale Präposition + darstellen, ebenso in die Arbeitgeberkategorie separiert, aber nicht + aus dem weiter zu verarbeiteten String gelöscht, da sie einen + wichtigen Bestandteil für die weitere Klassifizierung darstellen und + auch die Varianten der OhdAB diese Begrifflichkeiten mitführen.</p> + <list type="unordered"> + <item>herrschaftlich</item> + <item>herrschaftliche</item> + <item>königlich</item> + <item>königliche</item> + </list> + </div> + <div type="subchapter"> + <head>3.3.6 Separierung von Quellenangaben</head> + <p>Verlinkungen werden in den Bereich der Quellen separiert und + gelöscht. Hierunter fällt der Text zwischen <code><a></code> + und <code></a></code> (inklusive der beiden genannten + Zeichen). Andere Quellenangaben werden nicht erkannt und erscheinen + ggf. nachher in der Kategorie <hi rend="italic">Weiteres</hi>.</p> + </div> + <div type="subchapter"> + <head>3.3.7 Titularangaben</head> + <p>Falls die Berufsangabe Informationen zum Titel enthält, werden diese + in die Kategorie <hi rend="italic">Titularangaben</hi> separiert. + Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt, + so endet die Titularangabe mit dem Punkt. Eine Ausnahme besteht + darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring + auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier + wird auch dieser Teilstring in die Titularangabe mit eingebunden und + gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B. + ›Dr. rer. nat.‹). Folgt der Angabe ›Dr.‹ kein Leerzeichen, so sind + alle Zeichen bis zum nächsten Leerzeichen zu separieren (z. B. + ›Dr.iur.‹).</p> + <list type="unordered"> + <item>Prof.</item> + <item>Professor</item> + <item>Dr.</item> + <item>Herzog</item> + </list> + <p>Des Weiteren gibt es viele andere Titularangaben wie Titularherr, + Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach + Bedarf ergänzt werden.</p> + </div> + <div type="subchapter"> + <head>3.3.8 Angaben zum Familienstand</head> + <p>Folgende Teilstrings werden in die Kategorie <hi rend="italic" + >Familienstand</hi> separiert und gelöscht:</p> + <list type="unordered"> + <item>F. d.</item> + <item>Ehefrau des</item> + <item>Ehefrau d.</item> + <item>Ehefrau</item> + <item>-frau (am Ende einer Bezeichnung)</item> + <item>T. d.</item> + <item>-tochter (am Ende einer Bezeichnung)</item> + <item>S. d.</item> + <item>-sohn (am Ende einer Bezeichnung)</item> + <item>›Witwe‹ oder ›Witwer‹</item> + <item>›Wittib‹ oder ›Wittiber‹</item> + <item>›Jungfrau‹ oder ›Jungfer‹</item> + <item>›Junggeselle‹ oder ›Junggesell‹</item> + </list> + <p>Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses + String Teil der Berufsangabe ist (z. B. ›Dienstfrau‹, + ›Arbeitsfrau‹). Folgende Adjektive, die möglichen + Familienstandsangaben (aber auch anderen Substantiven) vorangestellt + sind, werden ohne Separierung gelöscht:</p> + <list type="unordered"> + <item>›ehrbare‹ oder ›ehrbarer‹</item> + <item>›tugendsame‹ oder ›tugendsamer‹</item> + <item>›wohlgeachtete‹ oder ›wohlgeachteter‹</item> + <item>›geachtete‹ oder ›geachteter‹</item> + </list> + </div> + <div type="subchapter"> + <head>3.3.9 Temporale Präpositionen und Ziffern</head> + <p>Zunächst wird der String auf die folgenden temporalen Präpositionen + durchsucht. Werden diese gefunden, wird das nachfolgende, durch vor- + und nachstehende Leerzeichen abgegrenzte Wort als Zeitangabe + separiert und samt Präposition aus dem String gelöscht.</p> + <list type="unordered"> + <item>am</item> + <item>im Jahr</item> + </list> + <p>Zeitangaben sind aber insbesondere auch durch zusammenhängende + Ziffern ohne einleitende Präposition dargestellt. Der String wird + zunächst auf die Ziffern 0 bis 9 durchsucht. Bei genau vier + aufeinanderfolgenden Ziffern wird eine Jahreszahl angenommen. Diese + wird separiert und gelöscht. Sollte vor der Jahreszahl jedoch ein + Punkt auftauchen, so werden allen Zeichen davor bis zum nächsten + Leerzeichen gelöscht. Ausschließlich die Jahreszahl wird separiert, + da eine zeitlich genauere Verortung nicht notwendig erscheint.</p> + </div> + <div type="subchapter"> + <head>3.3.10 Erkennung von Rollenangaben</head> + <p>Es werden sechs Rollen unterschieden:</p> + <list type="unordered"> + <item>Gehilfe oder -gehilfe / Knecht oder -knecht / Magd oder -magd + / Helfer oder -helfer / Bursche oder -bursche</item> + <item>Lehrling oder -lehrling / Geselle oder -geselle</item> + <item>Macher oder -macherin (Grundform des Berufes)</item> + <item>Meister oder -meister</item> + <item>Obermeister oder -obermeister / Oberältester oder + -oberältester</item> + <item>Besitzer oder -besitzer / Eigentümer oder -eigentümer</item> + </list> + <p>Dieser Zusatz wird nur festgestellt und in der Kategorie <hi + rend="italic">Rolle </hi>gespeichert, bleibt aber in der + Berufsbezeichnung erhalten, wenn er von der eigentlichen + Berufsangabe nicht getrennt ist. Steht er frei, so wird er ans Ende + des darauffolgenden von Leerzeichen umschlossenen Teilstring + gestellt.</p> + </div> + <div type="subchapter"> + <head>3.3.11 Berufsstatus</head> + <p>Folgende Wörter dienen als Signalwörter, aus denen sich Rückschlüsse + auf den aktuellen Berufsstatus ziehen lassen. Sie werden gelöscht + und in die Kategorie <hi rend="italic">Berufsstatus + </hi>separiert.</p> + <list type="unordered"> + <item>›pensionierte‹ oder ›pensionierter‹</item> + <item>›a. D.‹ oder ›a.D.‹</item> + <item>›i. R.‹ oder ›i.R.‹</item> + <item>›gewesene‹ oder ›gewesener‹<note type="footnote"> Hier ist zu + beachten, dass die Angabe auch auf den zuvor erfolgten Tod + des Stelleninhabers hinweisen kann.</note> + </item> + </list> + <p>Auch hier existieren zahlreiche weiter Signalwörter (u. a. ›Alt-‹, + ›weiland‹, ›emeritiert‹, ›vormaliger‹, ›vormals‹, ›verstorbener‹, + ›verabschiedeter‹, ›verrenteter‹, ›früherer‹, ›ehemaliger‹, + ›ausrangierter‹, ›abgedankter‹). Auch diese können bei Bedarf + ergänzt werden.</p> + </div> + <div type="subchapter"> + <head>3.3.12 Separation von Angaben in Klammern</head> + <p>Es wird davon ausgegangen, dass die wesentlichen Berufsangaben nicht + in Klammern stehen. Diverse mögliche Inhalte für Klammern wurden + bereits in den vorherigen Schritten entfernt. Die übriggebliebenen + Daten können nicht genau zugeordnet werden und werden aus diesem + Grund ohne die Klammern in die Kategorie <hi rend="italic" + >Weiteres</hi> separiert und gelöscht. Die Klammern selbst + werden gelöscht. </p> + </div> + <div type="subchapter"> + <head>3.3.13 Löschung von Sonderzeichen</head> + <p>Verbleibende Sonderzeichen, mit Ausnahme von Punkten, die durchaus + Teil einer Berufsangabe sein können, werden gelöscht. Als + Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen + oder Buchstaben darstellen. Falls vor, nach oder vor und nach den + Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein + Leerzeichen eingesetzt.</p> + </div> + <div type="subchapter"> + <head>3.3.14 Umsetzen der Kleinschreibung</head> + <p>Verbleibende Großbuchstaben werden durch ihre entsprechende + Kleinschreibung ersetzt. Dies dient dazu, Differenzen in der Groß- + und Kleinschreibung zu ignorieren.</p> + <p>Der übergebliebene String wird nochmals von Leerzeichen am Anfang und + Ende bereinigt. Er enthält abschließend nun die bereinigte Variante + der Berufsangabe und wird ebenso einer Kategorie (Beruf) zugeordnet. + Die Bereinigung dieses Strings ist damit abgeschlossen und er kann + der Berufsangabenklassifizierung unterzogen werden. Demzufolge + werden Tippfehler an dieser Stelle nicht erkannt, können aber durch + die nachfolgende Ähnlichkeitsanalyse erfasst werden.</p> + <p>Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht + iterativ, sondern einmalig.<note type="footnote"> Bei der + Entwicklung des Algorithmus hat ein iteratives Vorgehen jedoch + sehr wohl Raum eingenommen. Durch die Begutachtung des + Klassifikationsergebnisses wurden weitere Anomalien entdeckt, + die in den Algorithmus mit eingebaut wurden.</note> Um den + Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der + Daten notwendig: Die Berufe müssen als Liste vorliegen, da das Ziel + in einer automatisierten Klassifizierung besteht, in der + definitionsgemäß kein post-processing and controlling durch eine + manuelle Kontrolle notwendig ist. Aus den Spezifika des Datensatzes + kann nun die Anpassung des Quellcodes geboten sein.</p> + </div> + </div> + <div type="subchapter"> + <head>3.4 Klassifizierung der Berufsangaben</head> + <p>Nach der Bereinigung sind den Berufsangaben trotzdem noch keine Berufe + der OhdAB-Konkordanz zugeordnet. Die notwendige Lemmatisierung geschieht + auf Basis der Eigenschaften der bestehenden Klassen. Darum findet ein + Abgleich mit den vorhandenen Varianten der OhdAB statt. Eine + Berufsangabe soll der Klasse zugeordnet werden, deren Zugehörigkeit am + wahrscheinlichsten ist. Die Ähnlichkeit einer Berufsangabe zu den + Eigenschaften (bestehende Varianten) einer Klasse (Beruf) wird dabei als + Indikator für die Wahrscheinlichkeit einer korrekten Zuordnung + (Lemmatisierung) genutzt. Diese kann über einen Vergleich der + Zeichenketten ermittelt werden. Jedoch muss nicht zwingend eine + Lemmatisierung stattfindet: Wenn die Ähnlichkeit zu jeder Klasse so + gering ist, dass eine korrekte Zuordnung unwahrscheinlich ist, kann kein + Pendant gefunden werden.</p> + <p>Zeichenketten können auf verschiedene Arten verglichen werden. Kirby et + al. empfehlen für die weitere Forschung eine Variation von verschiedenen + Vergleichsmethoden.<note type="footnote"> Kirby 2015, S. 58.</note> + Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur + Validierung (<ref type="intern" target="#hd36">Kapitel 5</ref>) untersucht + werden. Wenn eine bereinigte Berufsangabe mit einer Variante exakt + übereinstimmt, wird die Berufsangabe dieser Variante zugeordnet. + Dadurch, dass die Variante einer Normschreibweise der Konkordanz + zugeordnet ist, ist auch ihre Zuordnung zu einer Berufsgattung der OhdAB + eindeutig. Besteht keine Übereinstimmung mit einer Variante, so ist eine + teilweise Übereinstimmung zu überprüfen. </p> + + + <div type="subchapter"> + <head>3.4.1 Levenshtein-Distanz absolut</head> + <p>Die Levenshtein-Distanz wird jeweils für die Berufsangabe und die + Varianten berechnet; zur Verbesserung der Laufzeit wird ein + Vergleich nur bei einer Übereinstimmung des ersten Buchstabens + vorgenommen. Aus einer hohen Ähnlichkeit dieser beiden Strings + resultiert eine geringe Distanz. Zeichenketten mit einer Distanz von + 1 werden als ähnlich klassifiziert und ausgewählt. Die absolute + Levenshtein-Distanz wird auch als <hi rend="italic">Lev</hi>a + bezeichnet. </p> + </div> + <div type="subchapter"> + <head>3.4.2 Levensthein-Distanz relativ</head> + <p>Da in einer längeren Zeichenkette auch mehrere Fehler oder + Variationen vorkommen können, wird die Levenshtein-Distanz mit der + Länge der zu überprüfenden Berufsbezeichnung in Beziehung gesetzt + (Formel 4). Dabei wird hier nicht differenziert, ob solche Fehler + Resulat von Lese- oder Schreibprozessen, mangelhafter OCR-Erkennung + oder tatsächliche Schreibvarianten sind. Unterschreitet die relative + Distanz einen bestimmten Wert, findet eine Zuordnung statt. Der + hierfür zu unterschreitende Grenzwert wird in der Validierung + bestimmt.</p> + <p>Formel 4: Levr(bi,vj)=Lev(bi,vj)Länge bi</p> + </div> + <div type="subchapter"> + <head>3.4.3 Erweiterung der Abkürzungserkennung</head> + <p>In der Validierung werden zwei verschiedene Möglichkeiten der + Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus, + wie er zuvor vorgestellt worden ist (Ausformulierung definierter + Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend + getestet, ob bei ausbleibender Ähnlichkeit zu den Varianten eine + Ähnlichkeit mit einer Abkürzung besteht. Dadurch wird z. B. für die + Berufsbezeichnung ›Preußischer Leutnant‹ und der Variante ›Preuß. + Leutnant‹ eine Übereinstimmung festgestellt, obwohl die + ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist.</p> + </div> + <div type="subchapter"> + <head>3.4.4 Ergänzung einer lernenden Komponente während der + Lemmatisierung</head> + <p>Die lemmatisierte Berufsangabe kann nun als Schreibvariante eines + Berufs ebenso mit in die Varianten eingehen. Dadurch wird die Zahl + der Varianten erhöht und die Wahrscheinlichkeit gesteigert, neue + Berufsangaben zu erkennen. Der Vorteil gegenüber einer reinen + Erhöhung von Grenzwerten ist an einem Beispiel gut erkennbar: Die + Levenshtein-Distanz zwischen ›Müllerˆ und ›Muellerˆ ist + möglicherweise zu groß, obwohl es denselben Beruf beschreibt. Wird + nun über ›Müller‹ zuvor aber die Variante ›Muller†erkannt, wird im + nächsten Schritt auch ›Mueller‹ erkannt. Bei einer erlaubten + Levenshtein-Distanz von 2 wäre ›Mueller‹ zwar direkt erkannt worden, + ›Maler‹ aber ebenso. Der Nachteil dieses lernenden Vorgehens besteht + in der Reproduktion von Fehlern durch falsch-positive (FP) + Ergebnisse.</p> + </div> + <div type="subchapter"> + <head>3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer + weiteren Iteration</head> + <p>Statt die neuen Varianten kontinuierlich hinzuzufügen ist es auch + möglich, nach einer einmaligen Bearbeitung alle nicht-lemmatisierten + Berufsangaben erneut zu untersuchen. Vorteil hierbei ist, dass die + Berufsangaben zu Beginn (ohne gelernte Varianten) nochmals mit den + später gelernten Varianten verglichen werden. Hierbei sind viele + Iterationen vorstellbar.</p> + </div> + </div> + </div> + + <div type="chapter"> + <head>4. Programmtechnische Umsetzung</head> + <p>Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in<ref + type="graphic" target="#berufsbezeichnungen_2022_002"> Abbildung 2</ref> + zu sehen graphisch dargestellt werden. </p> + <figure> + <graphic xml:id="berufsbezeichnungen_2022_002" + url=".../medien/berufsbezeichnungen_2021_002.png"> + <desc> + <ref target="#abb2">Abb. 2</ref>: Algorithmus, dargestellt in einem + Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022] <ref type="graphic" + target="#berufsbezeichnungen_2022_002"/> + </desc> + </graphic> + </figure> + <p>Zur Umsetzung des Algorithmus wird die Programmiersprache Python 3.7 + verwendet. Diese bietet den Vorteil, dass für die Datenbereinigung keine + dritte Software genutzt wird, die ggf. Lizenzeinschränkungen mit sich + bringen würde. Das Ergebnis ist öffentlich zugänglich und kann für weitere + wissenschaftliche Arbeiten verwendet oder angepasst werden. Dazu ist der + Quellcode im <ref target="http://www.">Online-Repositorium</ref> zu finden. + Er enthält die Variante des Algorithmus, die das beste Ergebnis in Bezug auf + das F1-Maß erbringt (siehe folgender <ref type="intern" target="#hd36" + >Abschnitt 5</ref>).</p> + <p>Das Programm ist in einzelne Funktionen gegliedert, welche im Folgenden + vorgestellt werden, bevor das Zusammenwirken dieser erläutert wird. Die + Vorstellung an dieser Stelle dient dazu, einen einfacheren Zugang zur + Anpassung des Codes zu ermöglichen. Auf eine detaillierte Beschreibung der + Funktionsweise wird an dieser Stelle verzichtet. Nähere Erläuterungen sind + den Kommentaren im Programmcode zu entnehmen.</p> + <p>Der <ref type="graphic" target="#berufsbezeichnungen_2022_003">Abbildung + 3</ref> ist der grundlegende Aufbau des Programms zu entnehmen. Die + Pfeile zwischen den Funktionen deuten darauf hin aus welcher übergeordneten + Funktion diese aufgerufen werden. In der <hi rend="italic" + >main</hi>-Funktion werden zunächst relevante Dateien ausgewählt, die dann + parallelisiert über die Funktion <code>preCreateOccuList</code> aufgerufen + werden (spätere Iterationen über <code>createOccuList</code>). Jede + GEDCOM-Datei wird darin über die Funktion <code>loadGedcomFile</code> + aufgerufen. Danach wird die Funktion <code>createOccuList</code> aufgerufen, + in welcher ein Aufruf einer Liste bisheriger Varianten durch die Funktion + <code>loadData</code> stattfindet. Über die Funktion + <code>createFile</code> werden Ausgabedateien initial erstellt.</p> + <p>Mit der Funktion <code>occuCleaner</code> werden in der Funktion <term + type="dh">createOccuList</term> die einzelnen Berufsangaben zunächst + grundlegend bereinigt, die Schritte 1 bis 3 des Bereinigungsalgorithmus + werden damit realisiert. Dazu werden Leerzeichen am Anfang und Ende entfernt + und definierte Abkürzungen ausgeschrieben. Verschiedene Trennoperatoren + werden zu ›und‹ normiert. Die Berufsangabe wird dann pro ›und‹ aufgespalten + und in einzelne <term type="dh">Dictionaries</term> separiert. Die maximale + Anzahl von Trennungen der Berufsangabe liegt hier bei 5. Dieser Separierung + erfolgt in der Funktion <code>separator</code>.</p> + <p>Zu jeder vorbereinigten Berufsangabe wird nun die Funktion + <code>partCorrector</code> ausgeführt, dort wird der + Bereinigungsalgorithmus ab Schritt 4 umgesetzt. Ziel dieser Funktion ist es, + pro Angabe ein Dictionary zu erzeugen, in dem die verschiedenen Bestandteile + der Angabe dokumentiert werden. Das Dictionary enthält Informationen zur + Berufsangabe, die Lemmatisierung dieser zu der OhdAB, mögliche vom Beruf + abzugrenzende Titel, Rollen oder Ortsangaben sowie Zeitangaben und URLs. + Alles, was in keine dieser Kategorien einsortiert werden kann, wird als <hi + rend="italic">Weiteres</hi> bezeichnet.</p> + <p>Um die Klassifizierung nach der OhdAB vornehmen zu können, wird in der + Funktion <code>dictSearch</code> eine vollständige Übereinstimmung mit der + bereinigten Berufsangabe geprüft. Besteht keine vollständige + Übereinstimmung, so wird mithilfe der Levenshtein-Distanz (Funktion + <code>levenshteinDist</code>) die Ähnlichkeit zu den anderen Varianten + überprüft. Die Variante mit dem geringsten Wert bei dem Verhältnis von + Levenshtein-Distanz und Länge der zu untersuchenden Berufsbezeichnung, wird + ausgewählt. Bei gleicher Distanz wird die Variante ausgewählt, die von vorne + beginnend die meisten übereinstimmenden Buchstaben mit der zu + lemmatisierenden Bezeichnung aufweist. Liegt der Wert der relativen + Levenshtein-Distanz unter 0,25 wird eine Übereinstimmung angenommen. Die + Liste der Varianten selbst wurde über die Funktion <code>loadData</code> als + Liste von Dictionaries hochgeladen. Dieses erklärt den Namen der Funktion + <code>dictSearch</code>.</p> + <p>Die Ähnlichkeitsanalyse findet überwiegend in der Funktion + <code>levenshteinDist</code> statt. Zur Auflösung von Abkürzungen wird + zusätzlich die Funktion <code>abbreviationCorrector</code> verwendet. Um die + Position bestimmter Teile in einem String zu ermitteln, wird die Funktion + <code>endOfString</code> verwendet. Die Funktion <code>replaceLoc</code> + hingehen dient der Separierung von Ortsbestandteilen aus der Bezeichnung. + Der Zusammenhang der Funktionen ist in <ref type="graphic" + target="#berufsbezeichnungen_2022_003">Abbildung 3</ref> + dargestellt.</p> + <figure> + <graphic xml:id="berufsbezeichnungen_2022_003" + url=".../medien/berufsbezeichnungen_2021_003.png"> + <desc> + <ref target="#abb3">Abb. 3</ref>: Zusammenhang der Funktionen. + [Goldberg / Moeller 2022] <ref type="graphic" + target="#berufsbezeichnungen_2022_003"/> + </desc> + </graphic> + </figure> + </div> + <div type="chapter"> + <head>5. Validierung und Diskussion</head> + <p>Zur Validierung werden zunächst 3,3 Prozent der Dateien ausgewählt + (Trainingsdaten). In den zufällig ausgewählten 95 Dateien finden sich + insgesamt 1.840 Berufsangaben. Diese werden zur Festlegung der + Levenshtein-Distanz-Grenzen verwendet. Die Reduzierung des Datenvolumens in + diesem Schritt ist notwendig, da eine manuelle Überprüfung der Korrektheit + der Klassifizierung aller Ergebnisse nur mit übermäßig viel Aufwand möglich + wäre. Dabei wird zunächst geprüft, ob die absolute oder relative + Levensthein-Distanz für den Algorithmus besser geeignet ist, und wie hoch + der Grenzwert für eine Ähnlichkeitserkennung sein sollte. Anschließend daran + wird geprüft, ob und wie die Abkürzungserkennung Einfluss auf das Ergebnis + nimmt. Gleiches wird mit der erweiterten Bereinigung der Berufsangaben + geschehen. Abschließend wird der Einfluss einer lernenden Komponente + getestet, indem die neu erlernten Varianten in die Gesamtheit aller + Varianten eingehen.</p> + <p>Da es Ziel des Algorithmus ist, das F1-Maß zu maximieren, ist festzulegen ab + welchem Grenzwert – genannt <hi rend="italic">Lev</hi>a (Levenshtein-Distanz + absolut) und <hi rend="italic">Lev</hi>r (Levensthein-Distanz relativ) – + eine Zuordnung zwischen Berufsangabe und Variante erfolgen soll. Da die + Bewertung, ob eine Zuordnung falsch oder richtig ist, hier nur manuell + geschehen kann, ist eine Schätzung der Grenzwerte auf Basis aller Daten sehr + zeitaufwändig und mit zunehmender Anzahl von Daten auch mit einem + abnehmenden Grenznutzen für die Güte das Parameters behaftet. Zudem macht + bei der relativen Levenshtein-Distanz ein grob gerundeter Parameter in den + meisten Fällen keinen Unterschied. Beispielsweise bei einer achtstelligen + Berufsangabe steigt <hi rend="italic">Lev</hi>r bei jeder Erhöhung der + jeweiligen Levenshtein-Distanz um 0,125 (ein Achtel). Ob der Grenzwert im + Beispiel also bei 0,126 oder 0,249 liegt ist irrelevant. </p> + <p>Zunächst zeigt die Durchführung einer Klassifikation mit der absoluten + Levenshtein-Distanz mit einem Grenzwert von ≤ 1, ≤ 2 und ≤ 3 im Vergleich + (siehe <ref type="graphic" target="#berufsbezeichnungen_2022_t3">Tabelle + 3</ref>), dass eine Distanz von 2 beziehungsweise 3 ein schlechteres + Ergebnis in Bezug auf die Genauigkeit (P) erbringt. Dabei wird nur der + Anteil der Berufsangaben in den Trainingsdaten herangezogen, die nicht durch + einen genauen Treffer identifiziert werden, sodass nur die Berufsangaben + übrigbleiben, bei denen die Ähnlichkeitserkennung einen Unterschied macht. + Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den + Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.<note type="footnote"> Da ein + großer Teil des F1-Maß durch die direkte Erkennung bestimmt ist und die + Ähnlichkeitsanalyse nur einen kleinen Anteil ausmacht, wird hier nur der + Teil der Daten betrachtet, der den Unterschied determiniert.</note> + Besonders deutlich wird die Ungenauigkeit bei einer absoluten + Levenshtein-Distanz von 3, bei der lediglich etwa die Hälfte der + Lemmatisierungen noch korrekt ist. Wenn jedoch angenommen wird, dass die + Grundgesamtheit nur aus den 72 bei ≤ 3 erkannten Berufsangaben besteht, so + kann ein F1-Wert berechnet werden. Hierbei ergibt sich ein maximaler Wert + bei einer Levenshtein-Distanz von 2.</p> + <table xml:id="berufsbezeichnungen_2022_t3"> + <row> + <cell>Lev</cell> + <cell>Anzahl</cell> + <cell>Anteil</cell> + <cell>TP</cell> + <cell>FP</cell> + <cell>P</cell> + <cell>FN</cell> + <cell>TN</cell> + <cell>R</cell> + <cell>F1</cell> + </row> + <row> + <cell>≤ 1</cell> + <cell>35</cell> + <cell>1,88 %</cell> + <cell>31</cell> + <cell>4</cell> + <cell>0,886</cell> + <cell>7</cell> + <cell>30</cell> + <cell>0,816</cell> + <cell>0,849</cell> + </row> + <row> + <cell> ≤ 2 </cell> + <cell>47</cell> + <cell>2,53 %</cell> + <cell>37</cell> + <cell>9</cell> + <cell>0,787</cell> + <cell>1</cell> + <cell>25</cell> + <cell>0,974</cell> + <cell>0,881</cell> + </row> + <row> + <cell> ≤ 3 </cell> + <cell>72</cell> + <cell>3,87 %</cell> + <cell>38</cell> + <cell>34</cell> + <cell>0,527</cell> + <cell>0</cell> + <cell>0</cell> + <cell>1,000</cell> + <cell>0,691</cell> + </row> + <trailer xml:id="tab03"><ref target="#tab3">Tab. 3</ref>: Klassifikation unser Variation + der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller + 2022]</trailer> + </table> + + <p>Bei einem Vergleich von verschiedenen Grenzwerten der relativen + Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30 + die besten Ergebnisse erbringt (siehe <ref type="graphic" + target="#berufsbezeichnungen_2022_t4">Tabelle 4</ref>). Ein maximaler + F1-Wert wird bei einer Grenze von <hi rend="italic">Lev</hi>r < 0,30 + erzielt. Es zeigt sich zudem, dass die Genauigkeit (P) mit zunehmendem + Grenzwert sinkt. Der Ausreißer der Genauigkeit bei < 0,3 ist eher dadurch + bedingt, dass durch den Schritt von < 0,28 auf < 0,30 zufällig zwei + weitere Berufsangaben der Stichprobe positiv und korrekt lemmatisiert + werden. Wird angenommen, dass die Grundgesamtheit nur aus den 57 bei < + 0,4 erkannten Werten besteht, so kann ein F1-Wert berechnet werden. Gute + Werte ergeben sich zwischen < 0,2 und < 0,3. Das Maximum des F1-Werts + wird durch die beiden Ausreißer zwar bei < 0,3 erreicht. In Hinblick auf + das gute Ergebnis, das aber bereits bei < 0,2 erreicht wird, wird für die + folgende Verarbeitung ein Grenzwert von < 0,25 ausgewählt.</p> + <p>Dieses Vorgehen ist allerdings nur bei Bezeichnungen mit einer Mindestlänge + sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung + bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.<note + type="footnote"> Allerdings existieren nur wenige Berufsbezeichnungen + unter fünf Buchstaben.</note> Eine weitere (erwünschte) Eigenschaft ist, + dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden + sollten, keine Zuordnung geschieht, da die relative Levenshtein-Distanz dort + oftmals sehr hoch ist. Ebenso sieht es bei einer falschen Verwendung des + Felder aus (z. B. Eintragung einer Ortsangabe). Vorteilhaft ist dieses + Vorgehen insbesondere bei geringfügig differierenden Schreibvarianten, + ausgelassenen oder zu viel vorhandenen Buchstaben sowie + Buchstabendrehern.</p> + <table xml:id="berufsbezeichnungen_2022_t4"> + <row> + <cell>Levr</cell> + <cell>Anzahl</cell> + <cell>Anteil</cell> + <cell>TP</cell> + <cell>FP</cell> + <cell>P</cell> + <cell>FN</cell> + <cell>TN</cell> + <cell>R</cell> + <cell>F1</cell> + </row> + <row> + <cell>< 0,10</cell> + <cell>10</cell> + <cell>0,54 %</cell> + <cell>10</cell> + <cell>0</cell> + <cell>1,000</cell> + <cell>27</cell> + <cell>20</cell> + <cell>0,270</cell> + <cell>0,426</cell> + </row> + <row> + <cell>< 0,20</cell> + <cell>34</cell> + <cell>1,85 %</cell> + <cell>31</cell> + <cell>3</cell> + <cell>0,912</cell> + <cell>6</cell> + <cell>17</cell> + <cell>0,837</cell> + <cell>0,873</cell> + </row> + <row> + <cell>< 0.25</cell> + <cell>37</cell> + <cell>2,01 %</cell> + <cell>33</cell> + <cell>4</cell> + <cell>0,892</cell> + <cell>4</cell> + <cell>16</cell> + <cell>0,891</cell> + <cell>0,892</cell> + </row> + <row> + <cell>< 0,28</cell> + <cell>39</cell> + <cell>2,12 %</cell> + <cell>33</cell> + <cell>6</cell> + <cell>0,846</cell> + <cell>4</cell> + <cell>14</cell> + <cell>0,891</cell> + <cell>0,868</cell> + </row> + <row> + <cell>< 0,30</cell> + <cell>41</cell> + <cell>2,23 %</cell> + <cell>35</cell> + <cell>6</cell> + <cell>0,878</cell> + <cell>2</cell> + <cell>14</cell> + <cell>0,946</cell> + <cell>0,897</cell> + </row> + <row> + <cell>< 0,40</cell> + <cell>57</cell> + <cell>3,10 %</cell> + <cell>37</cell> + <cell>20</cell> + <cell>0,649</cell> + <cell>0</cell> + <cell>0</cell> + <cell>1,000</cell> + <cell>0,787</cell> + </row> + <trailer xml:id="tab04"><ref target="#tab4">Tab. 4</ref>: Klassifikation unser Variation + des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller + 2022]</trailer> + </table> + + <p>Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute + Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung + definitionsgemäß mindestens die Anzahl der nicht vorhandenen, abgekürzten + Buchstaben beträgt. Wird die Erkennung von Abkürzungen aktiviert, hat das + auf die Trainingsdaten jedoch keine Auswirkung (getestet bei relativer + Levenshtein-Distanz von < 0,2). Wird stattdessen eine Stichprobe von + jeder zehnten Datei genommen (statt zuvor jeder fünften Datei), wird im + Versuch eine weitere Berufsangabe gefunden (hier wird die Berufsangabe + ›Landwirtschaftliche Arbeiterin‹ der Variante ›Landwirtschaftl. Arbeiterin‹ + zugeordnet). Auch wenn solche Fälle (in den verwendeten Daten) nicht häufig + vorkommen, so bleibt die Abkürzungserweiterung dennoch im Algorithmus, weil + sie grundsätzlich die Güte des Ergebnisses verbessert.</p> + <p>Um den Einfluss der erweiterten Bereinigung der Berufsangaben auf die Güte + des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669 + Berufsangaben in 2.899 Dateien).<note type="footnote"> Das entspricht den + Dateien, die nicht in den Trainingsdaten vorhanden sind.</note> Hier + werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil + vorrangig von Interesse ist, ob dadurch mehr Varianten gefunden werden. Bei + einer Einbindung der Bereinigung können 64 Prozent der beruflichen + Bezeichnungen direkt (ergo ohne Ähnlichkeitsanalyse) lemmatisiert und einer + bestehenden Variante zugeordnet werden (siehe <ref type="graphic" + target="#berufsbezeichnungen_2022_t5">Tabelle 5</ref>). Das sind sieben + Prozent mehr im Vergleich zu einem Durchlauf ohne diese Bereinigung. Bei den + vergleichenden Bezeichnungen wird eine Ähnlichkeitsanalyse durchgeführt. + Auch hier bringt die Bereinigung ein geringfügig besseres Ergebnis hervor + (+0,22 Prozent Erkennung). Bei der Version mit Bereinigung bleiben 30 + Prozent der Angaben über, die nicht erkannt werden können. Ein geringer + Prozentsatz leerer Bezeichnungen ist auch enthalten, in denen keine + Information zu finden ist. Wie hier auch zu sehen ist, hat die + Ähnlichkeitsanalyse nur eine geringe Auswirkung im Vergleich zur direkten + Erkennung. Diese wird durch den Einsatz der Bereinigung maßgeblich erhöht + und stellt deshalb ein sehr wichtiges Element des Algorithmus dar. </p> + <table xml:id="berufsbezeichnungen_2022_t5"> + <row> + <cell/> + <cell>Direkt gefunden</cell> + <cell>Ähnlichkeitsanalyse</cell> + <cell>Nicht gefunden</cell> + <cell>Leere Bezeichnungen</cell> + </row> + <row> + <cell> mit Bereinigung (insgesamt 229.669 Angaben) </cell> + </row> + <row> + <cell> Anzahl </cell> + <cell> 147.781 </cell> + <cell> 9.674 </cell> + <cell> 68.955 </cell> + <cell> 3.259 </cell> + </row> + <row> + <cell> Anteil </cell> + <cell> 64,35 % </cell> + <cell> 4,21 % </cell> + <cell> 30,02 % </cell> + <cell> 1,42 % </cell> + </row> + <row> + <cell> ohne Bereinigung (insgesamt 229.669 Angaben) </cell> + </row> + <row> + <cell> Anzahl </cell> + <cell> 131.064 </cell> + <cell> 9.160 </cell> + <cell> 86.344 </cell> + <cell> 3.101 </cell> + </row> + <row> + <cell> Anteil </cell> + <cell> 57,07 % </cell> + <cell> 3,99 % </cell> + <cell> 37,59 % </cell> + <cell> 1,35 % </cell> + </row> + <trailer xml:id="tab05"><ref target="#tab5">Tab. 5</ref>: Vergleich des Effektes der + Bereinigung auf die Erkennung. [Goldberg / Moeller 2022]</trailer> + </table> + + <p>Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese + als Variante noch nicht existieren, in der Variantenliste ergänzt werden. + Dieses kann auf zwei Arten geschehen: (1.) indem die neuen Treffer direkt + nach Erkennung in die Menge der Varianten eingehen oder (2.) alle nicht + erkannten Bezeichnungen im Anschluss nochmals mit allen neuen Varianten + abgeglichen werden. Letzteres kann in mehreren Iterationen durchgeführt + werden. Hierbei zeigt sich, dass die nachfolgende, zweifach-iterative + Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die + kontinuierliche Ergänzung (siehe <ref type="graphic" + target="#berufsbezeichnungen_2022_t6">Tabelle 6</ref>).<note + type="footnote"> Von den durch die Ähnlichkeitsanalyse erkannten Daten + werden 100 zufällige Werte manuell überprüft. Durch diese wird auf die + Rate an TP- und FP-Werte geschlossen. Um einen F1-Wert zu berechnen ist + zusätzlich die Anzahl von FN-Werten notwendig. Wie bereits zuvor wird + dabei von der maximalen Anzahl erkannter Angaben ausgegangen (hier bei + der zweifachen Iteration).</note> Zwar kann bei dieser Option eine + niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl + zusätzlich erkannter Angaben für eine Steigerung des F1-Wertes. Es ist + anzunehmen, dass eine hohe FP-Rate bei den Iterationen der + Ähnlichkeitserkennung tendenziell zu einer Fortführung von Fehlern führen + kann, weswegen viele zusätzliche Iterationen nicht sinnvoll erscheinen.</p> + <p>Dabei ist zudem anzunehmen, dass der Lerneffekt größer ist, je mehr + Berufsangaben verarbeitet werden, da die Chance steigen könnte, dass eine + ähnliche Bezeichnung auftritt. Bei einem exemplarischen Durchlauf mit jeder + zehnten Datei wird noch keine zusätzliche Erkennung erreicht. Auch bei einer + Verarbeitung mit allen Daten werden nur weitere 0,01 Prozent der + Berufsangaben dadurch zusätzlich lemmatisiert. Dieser geringe Wert ist + darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den + zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen + Halbierung der ursprünglichen Varianten steigt der Anteil der so zusätzlich + erkannten Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01 + Prozent). Werden diese lemmatisierten Varianten in einem zweiten Durchlauf + zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen + lemmatisiert werden. Die TP-Rate jedoch ist etwas niedriger.</p> + <table xml:id="berufsbezeichnungen_2022_t6"> + <row> + <cell>Verfahren</cell> + <cell>Anzahl</cell> + <cell>Anteil</cell> + <cell>Rate of TP in %</cell> + <cell>Rate of FP in %</cell> + <cell>P</cell> + <cell>FN</cell> + <cell>R</cell> + <cell>F1</cell> + </row> + <row> + <cell>Analyse mit sämtlichen ursprünglichen Varianten</cell> + </row> + <row> + <cell>Ohne Lernen</cell> + <cell> 9.674 </cell> + <cell> 4,21 % </cell> + <cell>88</cell> + <cell>12</cell> + <cell> 0.88 </cell> + <cell> 5.943 </cell> + <cell> 0,59 </cell> + <cell> 0,71 </cell> + </row> + <row> + <cell>Kontinuierlich lernen (4x Multiprocessing<note type="footnote"> + Hierfür wurde die Parallelisierung mit vier Prozessorkernen + verschiedenen Strängen ausgeführt. Das hat die Auswirkung, dass + die Erkennung in einem Strang auf einen parallel ausgeführten + keine Auswirkung hat (bei einer nachfolgenden Ausführung sich + ggf. aber ausgewirkt hätte).</note>)</cell> + <cell> 10.128 </cell> + <cell> 4,41 % </cell> + <cell>86</cell> + <cell>14</cell> + <cell> 0.86 </cell> + <cell> 5.489 </cell> + <cell> 0,61 </cell> + <cell> 0,71 </cell> + </row> + <row> + <cell>Iterativ lernend (1x)</cell> + <cell> 11.185 </cell> + <cell> 4,87 % </cell> + <cell>83</cell> + <cell>17</cell> + <cell> 0.83 </cell> + <cell> 4.432 </cell> + <cell> 0,68 </cell> + <cell> 0,75 </cell> + </row> + <row> + <cell>Iterativ lernend (2x)</cell> + <cell> 15.617 </cell> + <cell> 6,80 % </cell> + <cell>83</cell> + <cell>17</cell> + <cell> 0.83 </cell> + <cell> 0 </cell> + <cell> 1,00 </cell> + <cell> 0,91 </cell> + </row> + <row> + <cell>Analyse unter zufälliger Halbierung der ursprünglichen + Varianten</cell> + </row> + <row> + <cell>Ohne Lernen</cell> + <cell> 27.583 </cell> + <cell> 12,01 % </cell> + <cell>80</cell> + <cell>20</cell> + <cell>0,80</cell> + <cell> 6.086 </cell> + <cell> 0,78 </cell> + <cell> 0,79 </cell> + </row> + <row> + <cell>Kontinuierlich lernen (4x Multiprocessing)</cell> + <cell> 27.882 </cell> + <cell> 12,14 % </cell> + <cell>86</cell> + <cell>14</cell> + <cell>0,86</cell> + <cell> 5.787 </cell> + <cell> 0,81 </cell> + <cell> 0,83 </cell> + </row> + <row> + <cell>Iterativ lernend (1x)</cell> + <cell> 32.774 </cell> + <cell> 14,27 % </cell> + <cell>76</cell> + <cell>24</cell> + <cell>0,76</cell> + <cell> 895 </cell> + <cell> 0,97 </cell> + <cell> 0,85 </cell> + </row> + <row> + <cell>Iterativ lernend (2x)</cell> + <cell> 33.669 </cell> + <cell> 14,66 % </cell> + <cell>83</cell> + <cell>17</cell> + <cell>0,83</cell> + <cell> 0 </cell> + <cell> 1,00 </cell> + <cell> 0,91 </cell> + </row> + <trailer xml:id="tab06"><ref target="#tab6">Tab. 6</ref>: Vergleich der + Ähnlichkeitsanalyse unter Variation des maschinellen Lernens und unter + Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg / + Moeller 2022]</trailer> + </table> + + <p>Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der + Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger + Berufsangaben geboten. Insgesamt wird das F1-Maß optimiert, wenn eine + relative Levenshtein-Distanz gewählt wird, Abkürzungen erweitert werden, + eine Bereinigung stattfindet und erlernte neue Varianten im Anschluss + nochmal mit allen Daten verglichen werden, die nicht lemmatisiert werden + konnten. Ohne die Halbierung der Varianten, unter Herausrechnung der leeren + Berufsangaben und mit doppelter Iteration des maschinellen Lernens wird eine + Erkennungsrate von 72,17 Prozent erzielt (65,27 Prozent direkt und 6,90 + Prozent über die Ähnlichkeitsanalyse). Die Halbierung der Varianten erhöht + zwar den Anteil der über die Ähnlichkeitsanalyse erkannten Angaben, + verringert jedoch die Zahl der direkt gefundenen Treffer. Herausfordernd ist + für den Algorithmus vor allem auch, dass die GEDBAS-Daten sehr schwierig zu + klassifizieren sind, weil eben nicht nur einfache Berufe angegeben werden. + Es ist anzunehmen, dass mit qualitativ hochwertigeren Berufsangaben die + Erkennung noch besser funktionieren würde, sodass hier ein grober Wert von + 72 Prozent Erkennungsrate für diesen Algorithmus angegeben wird. Die Angabe, + dass 98 Prozent der erkannten Werte auch korrekt sind, basiert darauf, dass + alle direkt erkannten Werte als richtig bewertet werden. Zudem zeigt <ref + type="graphic" target="#Abbildungslink">Tabelle 6</ref>, dass bei der + angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17 + Prozent zu rechnen ist. Daraus ergibt sich eine FP-Rate von etwa 98 + Prozent.<note type="footnote"> Berechnung der FP-Rate: + (65,27*1+6,90*0,83) / (65,27+6,90) = 0.98.</note> Zudem ist es durch den + Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung + des Berufs zu separieren. Der Algorithmus ist offen zugänglich und wird + damit der Community zur Weiternutzung zur Verfügung gestellt. Es ist + wünschenswert, dass er auch in anderen Anwendungen implementiert und stetig + verbessert wird.</p> + </div> + <div type="chapter"> + <head>6. Zusammenfassung</head> + <p>Variationen einer Berufsbezeichnung können in der vorgestellten Weise + automatisiert einem normierten Beruf zugewiesen werden. Das ermöglicht + insbesondere der wirtschafts- und sozialhistorischen Forschung eine schnelle + Klassifizierung großer Datenbestände, die für eine Vielzahl weiterer + Anwendungen bereitsteht. Der entwickelte Algorithmus stellt eine Methode + dar, mit der eine automatisierte Klassifizierung von historischen Standes- + und Berufsangaben in einer hohen Güte vorgenommen werden kann: Von etwa + 230.000 getesteten Berufsangaben aus der genealogischen Datenbank GEDBAS + konnten rund 72 Prozent einem Beruf zugeordnet werden, wovon der wesentliche + Teil von 98 Prozent auch korrekt ist. Dieses wird ermöglicht durch: </p> + <list type="ordered"> + <item> die Implementierung einer Bereinigung der Berufsangabe</item> + <item> eine Ähnlichkeitsanalyse zu bereits klassifizierten + Schreibvarianten</item> + <item> die Implementierung einer Erweiterung von Abkürzungen und</item> + <item> eine Möglichkeit des überwachten maschinellen Lernens auf Basis der + Treffer aus der Ähnlichkeitsanalyse </item> + </list> + <p>Jedes dieser Elemente führt zu einer Verbesserung des Ergebnisses. Das ist + vor dem Hintergrund vieler fremdsprachlicher Bezeichnungen sowie einer sehr + individuellen Eintragung der Berufsangaben in den GEDBAS-Daten ein + zufriedenstellendes Ergebnis.</p> + <p>Dadurch, dass die Lemmatisierung auf den Daten der OhdAB aufbaut, der das + Klassifizierungssystem KldB 2010 zugrunde liegt, ist sie besonders für das + deutschsprachige Umfeld von Berufsbezeichnungen seit dem 16. / 17. + Jahrhundert geeignet. Nach der Standardisierung mit der OhdAB sind zudem + transparent abbildbare Neuansetzungen zeitspezifischer Klassifikationen + möglich. Der Algorithmus kann jedoch auch als Ausgangspunkt genutzt werden, + um ihn auf andere Sprachen anzupassen. Für die Begriffe der KldB 2010 + existiert beispielsweise eine englische Übersetzung. Wenigstens auf der + Ebene der Klassifikation würden vermutlich gute Ergebnisse produziert werden + können. Herausforderungen liegen hierbei eher in der Schaffung der + grundlegenden Datenbasis für die Indivdualbezeichnungen (Varianten) der + Berufe. Neben der Einbindung der nicht-deutschsprachigen Varianten ist auch + hier eine Anpassung der Anomalien im Algorithmus von großer Relevanz. + Möglicherweise ergibt eine Abgrenzung einzelner Sprachen Sinn, damit keine + ungewollten Übereinstimmungen in einem sprachenübergreifenden Programm + auftreten.</p> + <p>Aber auch bei der Anwendung an deutschsprachigen Berufsangaben kann eine + Anpassung des Programms helfen: Besondere Anomalien in den zu + klassifizierenden Daten (z. B. spezifische Abkürzungen) können die Qualität + des Ergebnisses für eine spezifische Anwendung verbessern. Des Weiteren + können zusätzliche Verfahren der Berufsklassifizierung integriert werden (z. + B. HISCO). Für den Algorithmus ist es allerdings von Vorteil, möglichst + viele Variationen der Schreibweisen eines Berufes in dem jeweiligen System + bereits klassifiziert zu haben. Zudem ist es denkbar, den Algorithmus nicht + nur auf zuvor separierte Berufsangaben anzuwenden, sondern dahingehend zu + erweitern, Berufsangaben in Fließtexten zu erkennen und auszulesen. Denkbar + ist eine Einbindung von OhdAB in Verfahren der <term type="dh">Named Entity + Recognition</term>, die auf Vokabularen aufsetzen.</p> + </div> + <div> + <div type="bibliography"> + <head>Bibliographische Angaben</head> + <listBibl> + <bibl xml:id="boehmen_anleitung_1790">Adam Friedrich Böhmen: Anleitung wie Kirchenbücher + zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [<ref + target="http://www.mdz-nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:bvb:12-bsb11048517-2" + >online</ref>] <ptr type="gbv" cRef="1087644690"/></bibl> + <bibl xml:id="bfa_klassifikationarbeit_2021">Klassifikationen der Berufe - + Statistik der Bundesagentur für Arbeit. Hg. von Bundesagentur für Arbeit. Nürnberg 2021. [<ref + target="https://statistik.arbeitsagentur.de/DE/Navigation/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/Klassifikation-der-Berufe-Nav.html;jsessionid=1CC3151B58003ECC1454B07B916E2756" + >online</ref>]</bibl> + <bibl xml:id="bfa_klassifikationberufe_2011">Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit. + Nürnberg 2010. Bd 1 (2011): Systematischer und alphabetischer Teil + mit Erläuterungen. <ptr type="gbv" cRef="668098619"/></bibl> + <bibl xml:id="christen_quality_2007">Peter Christen / Karl Goiser: Quality and Complexity + Measures for Data Linkage and Deduplication. In: Quality Measures in + Data Mining. Hg. von Fabrice Guilett / Howard J. Hamilton. Berlin + 2007, S. 127–151. <ptr type="gbv" cRef="516449192"/></bibl> + <bibl xml:id="church_gedcom_2019">Church of Jesus Christ of Latter-day Saints: The GEDCOM + Standard. Release 5.5.1. 2019. </bibl> + <bibl xml:id="cosca_standard_2010">Theresa Cosca / Alissa Emmel: Revising the Standard + Occupational Classification system for 2010. In: Monthly labor + review 133 (2010), S. 32–41. PDF. [<ref + target="https://www.bls.gov/opub/mlr/2010/08/art3full.pdf" + >online</ref>] <ptr type="gbv" cRef="320603628"/></bibl> + <bibl xml:id="djumalieva_occupations_2018">Jyldyz Djumalieva / Antonio Lima / Cath Sleeman: + Classifying Occupations According to Their Skill Requirements in Job + Advertisements. 2018. [<ref + target="https://ideas.repec.org/p/nsr/escoed/escoe-dp-2018-04.html" + >online</ref>]</bibl> + <bibl xml:id="dunn_language_2015">Michael Dunn: Language phylogenies. In: The Routledge + Handbook of Historical Linguistics. Hg. von Claire Louise Bowern / + Bethwyn Evans. London u. a. 2015, S. 190–192. <ptr + type="gbv" cRef="773686274"/></bibl> + <bibl xml:id="fawcett_introduction_2006">Tom Fawcett: An introduction to ROC analysis. In: + Pattern Recognition Letters. In: ROC Analysis in Pattern Recognition + 27 (2006), H. 8, S. 861–874. <ptr type="gbv" cRef="129161756" + /></bibl> + <bibl xml:id="gellatly_populations_2015">Corry Gellatly: Reconstructing Historical Populations + from Genealogical Data Files. In: Population Reconstruction. Hg. von + Gerrit Bloothooft et al. Cham 2015, S. 111–128. <ptr + type="gbv" cRef="833549804"/></bibl> + <bibl xml:id="glueck_metzler_2000">Metzler Lexikon Sprache. Hg. von Helmut Glück. 2., + überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. <ptr + type="gbv" cRef="271728906"/></bibl> + <bibl xml:id="gweon_methods_2017">Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek / + Michael Blohm / Stefan Steiner: Three Methods for Occupation Coding + Based on Statistical Learning. In: Journal of Official Statistics 33 + (2017), H. 1, S. 101–122. DOI:<ref + target="https://doi.org/10.1515/jos-2017-0006" + >10.1515/jos-2017-0006</ref> <ptr type="gbv" cRef="130422746" + /></bibl> + <bibl xml:id="harviainen_genealogy_2018">J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, + GEDCOM, and popularity implications. In: Informaatiotutkimus 37 + (2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: <ref + target="https://doi.org/10.23978/inf.76066" + >10.23978/inf.76066</ref> <ptr type="gbv" cRef="366701630" + /></bibl> + <bibl xml:id="hinschius_gesetz_1874">Paul Hinschius: Das preußische Gesetz über die + Beurkundung des Personenstandes und die Form der Eheschließung vom + 9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. <ptr + type="gbv" cRef="305819348"/></bibl> + <bibl xml:id="ilo_iso_2021">ISCO - International Standard Classification of + Occupations. Hg. von ILO. Genf 2021. [<ref + target="https://www.ilo.org/public/english/bureau/stat/isco/" + >online</ref>]</bibl> + <bibl xml:id="iish_history_2020">1306 records + in total. Hg. von International Institute of Social History. In: History of Work Information System. Leuven 2020. [<ref + target="https://historyofwork.iisg.nl/list_hiswi.php" + >online</ref>]</bibl> + <bibl xml:id="kocka_geschichte_2000">Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte + und Zukunft der Arbeit. (Konferenz, Berlin, 04.–06.03.1999) + Frankfurt/Main 2000. <ptr type="gbv" cRef="310160650"/></bibl> + <bibl xml:id="kohli_institutionalisierung_1985">Martin Kohli: Die Institutionalisierung des Lebenslaufs. + Historische Befunde und theoretische Argumente. In: Kölner + Zeitschrift für Soziologie und Sozialpsychologie 37 (1985), H. 1, S. + 1–29. <ptr type="gbv" cRef="129473812"/></bibl> + <bibl xml:id="krause_entwurf_2012">Thomas Krause: Entwurf und Implementierung einer + effizienten Dublettenerkennung für große Adressbestände. Köln 2012. + URN: <ref + target="https://nbn-resolving.org/urn:nbn:de:hbz:832-epub-3667" + >urn:nbn:de:hbz:832-epub-3667</ref></bibl> + <bibl xml:id="leeuwen_history_2002">Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles: + History Of Work Information System. In: HISCO. Historical + International Standard Classification of Occupations. Hg. von IISH / + Antenna. Leuven 2002. [<ref target="https://historyofwork.iisg.nl/" + >online</ref>]</bibl> + <bibl xml:id="levenstejn_codes_1966">Vladimir IosifoviÄ LevenÅ¡tejn: Binary Codes Capable of + Correcting Deletions, Insertations, and Reversals. In: Soviet + Physics- Doklady 10 (1966), S. 707–710. <ptr type="gbv" + cRef="129482234"/></bibl> + <bibl xml:id="moeller_standards_2019">Katrin Moeller: Standards für die + Geschichtswissenschaft! Zu differenzierten Funktionen von Normdaten, + Standards und Klassifikationen für die Geisteswissenschaften am + Beispiel von Berufsklassifikationen. In: Aufklärungsforschung + digital. Konzepte, Methoden, Perspektiven. Hg. von Jana Kittelmann / + Anne Purschwitz. Halle 2019, S. 17–43. <ptr type="gbv" + cRef="1666792950"/></bibl> + <bibl xml:id="moeller_ontologie_2020">Katrin Moeller / Andreas Müller / Robert Nasarek: + Ontologie historischer, deutschsprachiger Berufs- und + Amtsbezeichnungen. In: + geschichte.uni-halle.de/struktur/hist-data/ontologie/. Hg. von + Historischen Datenzentrums Sachsen-Anhalt. Halle 2020. Beitrag vom + 25.11.2020. [<ref + target="https://www.geschichte.uni-halle.de/struktur/hist-data/ontologie/" + >online</ref>]</bibl> + <bibl xml:id="mueller_problems_2003">Heiko Müller / Johann-Christoph Freytag: Problems, + Methods, and Challenges in Comprehensive Data Cleansing. Berlin + 2003. <ptr type="gbv" cRef="496492772"/></bibl> + <bibl xml:id="paulus_klassifikation_2013">Wiebke Paulus / Britta Matthes: Klassifikation der + Berufe 2010 – Struktur, Codierung und Umsteigeschlüssel. In: + FDZ-Methodenreport. Hg. von Forschungsdatenzentrum (FDZ) der + Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und + Berufsforschung. Nürnberg 2013. [<ref + target="https://fdz.iab.de/187/section.aspx/Publikation/k131014a03" + >online</ref>]</bibl> + <bibl xml:id="piotrowski_language_2012">Michael Piotrowski: Natural Language Processing for + Historical Texts. In: Synthesis Lectures on Human Language + Technologies 5 (2012), H. 2, S. 1–157. <ptr type="gbv" + cRef="616519060"/></bibl> + <bibl xml:id="rham_data_2000">Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and + Current Approaches. In: Bulletin of the Technical Committee on Data + Engineering 23 (2000), H. 4, S. 3–13. URN: <ref + target="http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa2-329680" + >urn:nbn:de:bsz:15-qucosa2-329680</ref> + </bibl> + <bibl xml:id="schaefer_novellierung_2006">Udo Schäfer: Die Novellierung des + Personenstandsgesetzes. In: Archive, Familienforschung und + Geschichtswissenschaft: Annäherungen und Aufgaben. Hg. von Bettina + Joergens / Christian Reinicke. Düsseldorf 2006, S. 122–136. + <ptr type="gbv" cRef="519807499"/></bibl> + <bibl xml:id="schueren_mobilitaet_1989">Reinhard Schüren: Soziale Mobilität. Muster, + Veränderungen und Bedingungen im 19. und 20. Jahrhundert. St. + Katharinen 1989. <ptr type="gbv" cRef="022321942"/></bibl> + <bibl xml:id="thesaurus_professionum_2021">Thesaurus Professionum. In: + online.uni-marburg.de/fpmr/thepro/rs.php. Hg. von Universität + Marburg: Forschungsstelle für Personalschriften an der + Philipps-Universität Marburg. Marburg 2021. [<ref + target="https://www.online.uni-marburg.de/fpmr/thepro/rs.php" + >online</ref>]</bibl> + <bibl xml:id="gebdas_statistics_2021">GEDBAS: Statistics. In: + gedbas.genealogy.net/statistic/index. Hg. von Verein für + Computergenealogie e. V. Köln 2021. [<ref + target="https://gedbas.genealogy.net/statistic/index" + >online</ref>]</bibl> + </listBibl> + </div> + <div type="abbildungsnachweis"> + <head>Abbildungs- und Tabellenverzeichnis</head> + <desc type="table" xml:id="tab1"><ref type="intern" target="#tab01">Tab. 1</ref>: + Konfusionsmatrix zur Klassifikation in Anlehnung an Fawcett 2006. + [Goldberg / Moeller 2022]<ref type="graphic" + target="#berufsbezeichnungen_2022_t1"/></desc> + + <desc type="table" xml:id="tab2"><ref type="intern" target="#tab02">Tab. 2</ref>: + Nummernsystem der KldB 2010 / OhdAB am Beispiel des Berufes Bäcker. [Goldberg / + Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_t2" + /></desc> + + <desc type="graphic" xml:id="abb1">Begriffe und Zusammenhänge des + Algorithmus. [Goldberg / Moeller 2022]<ref type="graphic" + target="#berufsbezeichnungen_2022_001"/></desc> + + <desc type="graphic" xml:id="abb2">Algorithmus, dargestellt in einem + Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022]<ref type="graphic" + target="#berufsbezeichnungen_2022_002"/></desc> + + <desc type="graphic" xml:id="abb3">Zusammenhang der Funktionen. [Goldberg / + Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_003" + /></desc> + + <desc type="table" xml:id="tab3"><ref type="intern" target="#tab03">Tab. 3</ref>: + Klassifikation unser Variation der Levenshtein-Distanz als Grenzwert. + [Goldberg / Moeller 2022]<ref type="graphic" + target="#berufsbezeichnungen_2022_t3"/></desc> + + <desc type="table" xml:id="tab4"><ref type="intern" target="#tab04">Tab. 4</ref>: + Klassifikation unser Variation des Grenzwerts einer relativen + Levenshtein-Distanz. [Goldberg / Moeller 2022]<ref type="graphic" + target="#berufsbezeichnungen_2022_t4"/></desc> + + <desc type="table" xml:id="tab5"><ref type="intern" target="#tab05">Tab. 5</ref>: + Vergleich des Effektes der Bereinigung auf die Erkennung. [Goldberg / + Moeller 2022]<ref type="graphic" target="#berufsbezeichnungen_2022_t5" + /></desc> + + <desc type="table" xml:id="tab6"><ref type="intern" target="#tab06">Tab. 6</ref>: + Vergleich der Ähnlichkeitsanalyse unter Variation des maschinellen + Lernens und unter Halbierung der zugrundeliegenden Berufsvarianten der + OhdAB. [Goldberg / Moeller 2022]<ref type="graphic" + target="#berufsbezeichnungen_2022_t6"/></desc> + + </div> + </div> + </div> + </body> + </text> +</TEI>