diff --git a/2021_003_jurczyk/multimodalitaet_2021_001.png b/2021_003_jurczyk/multimodalitaet_2021_001.png new file mode 100644 index 0000000000000000000000000000000000000000..dcf22a44ddafa48a97620f81e0edd0b191c6d50e Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_001.png differ diff --git a/2021_003_jurczyk/multimodalitaet_2021_002.png b/2021_003_jurczyk/multimodalitaet_2021_002.png new file mode 100644 index 0000000000000000000000000000000000000000..16b919e4bff03700607119d68072bef1af5b5050 Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_002.png differ diff --git a/2021_003_jurczyk/multimodalitaet_2021_003.png b/2021_003_jurczyk/multimodalitaet_2021_003.png new file mode 100644 index 0000000000000000000000000000000000000000..7574c835694db05a55d88a2aa58e3f9ab3a83f99 Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_003.png differ diff --git a/2021_003_jurczyk/multimodalitaet_2021_004.png b/2021_003_jurczyk/multimodalitaet_2021_004.png new file mode 100644 index 0000000000000000000000000000000000000000..4023281ca01adf60877d44311bb62122872fc978 Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_004.png differ diff --git a/2021_003_jurczyk/multimodalitaet_2021_005.png b/2021_003_jurczyk/multimodalitaet_2021_005.png new file mode 100644 index 0000000000000000000000000000000000000000..7b99654a54f68fc730be8fd5c8ccf1d491b2a1ed Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_005.png differ diff --git a/2021_003_jurczyk/multimodalitaet_2021_006.png b/2021_003_jurczyk/multimodalitaet_2021_006.png new file mode 100644 index 0000000000000000000000000000000000000000..6602ca959d30c0377f6a6f2731cdf7d92f2eb5aa Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_006.png differ diff --git a/2021_003_jurczyk/multimodalitaet_2021_007.png b/2021_003_jurczyk/multimodalitaet_2021_007.png new file mode 100644 index 0000000000000000000000000000000000000000..a4b79879f9524a02058822e7493420e504050af9 Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_007.png differ diff --git a/2021_003_jurczyk/multimodalitaet_2021_008.png b/2021_003_jurczyk/multimodalitaet_2021_008.png new file mode 100644 index 0000000000000000000000000000000000000000..dee1461e534a8adcc8317dca150a9ef225ab0aeb Binary files /dev/null and b/2021_003_jurczyk/multimodalitaet_2021_008.png differ diff --git "a/2021_003_jurczyk/multimodalit\303\244t_2021_v1_0.pdf" "b/2021_003_jurczyk/multimodalit\303\244t_2021_v1_0.pdf" new file mode 100644 index 0000000000000000000000000000000000000000..c4408e1eba063aa321f13ace209a7ebc74131a62 Binary files /dev/null and "b/2021_003_jurczyk/multimodalit\303\244t_2021_v1_0.pdf" differ diff --git "a/2021_003_jurczyk/multimodalit\303\244t_2021_v1_0.xml" "b/2021_003_jurczyk/multimodalit\303\244t_2021_v1_0.xml" new file mode 100644 index 0000000000000000000000000000000000000000..32e8b0b6df4953c3519f3eb72f3b474d4ff70448 --- /dev/null +++ "b/2021_003_jurczyk/multimodalit\303\244t_2021_v1_0.xml" @@ -0,0 +1,1999 @@ +<?xml version="1.0" encoding="utf-8"?> +<?xml-model href="https://www.zfdg.de/sites/default/files/schema/tei_zfdg.rnc" type="application/relax-ng-compact-syntax" + ?> +<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html" + xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink" + xmlns:xhtml="http://www.w3.org/1999/xhtml"> + <teiHeader> + <fileDesc> + <titleStmt> + <title> + <biblStruct> + <analytic> + <title level="a">Vorstellung eines (teil-)automatisierten Verfahrens zur + Analyse der Multimodalität von Webseiten</title> + <respStmt> + <resp> + <persName> + <name role="marc_aut"> + <forename>Thomas</forename> + <surname>Jurczyk</surname> + </name> + <email>thomas.jurczyk-q88@rub.de</email> + <idno type="gnd">106744744X</idno> + <idno type="orcid">0000-0002-5943-2305</idno> + </persName> + </resp> + <orgName>Ruhr-Universität Bochum, Centrum für Religionswissenschaftliche Studien (CERES)</orgName> + </respStmt> + <idno type="doi">10.17175/2021_003</idno> + <idno type="ppn">ppn 1749189682</idno> + <idno type="zfdg">2021.003</idno> + <idno type="url">https://www.zfdg.de/node/313</idno> + <date when="2021-09-09">09.09.2021</date> + </analytic> + <monogr> + <title level="j">Zeitschrift für digitale Geisteswissenschaften</title> + <respStmt> + <resp>Publiziert von</resp> + <orgName role="marc_pbl">Herzog August Bibliothek</orgName> + </respStmt> + <respStmt> + <resp>Transformation der Word Vorlage nach TEI</resp> + <persName/> + <name role="marc_trc"> + <surname>Baumgarten</surname> + <forename>Marcus</forename> + <idno type="gnd">1192832655</idno> + </name> + </respStmt> + <availability status="free"> + <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref> + </p> + </availability> + <biblScope unit="year">2021</biblScope> + <biblScope unit="artikel">03</biblScope> + </monogr> + </biblStruct> + </title> + </titleStmt> + <editionStmt> + <edition>Elektronische Ausgabe nach TEI P5</edition> + </editionStmt> + <publicationStmt> + <distributor> + <name> + <orgName>Herzog August Bibliothek Wolfenbüttel</orgName> + </name> + </distributor> + <idno type="doi">10.17175/zfdg.01</idno> + <idno type="ppn">0819494402</idno> + <authority> + <name>Herzog August Bibliothek</name> + <address> + <addrLine>Lessingplatz 1</addrLine> + <addrLine>38304 Wolfenbüttel</addrLine> + </address> + </authority> + <authority> + <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name> + <address> + <addrLine>Burgplatz 4</addrLine> + <addrLine>99423 Weimar </addrLine> + </address> + </authority> + <availability status="free"> + <p> Sofern nicht anders angegeben </p> + <licence target="http://creativecommons.org/licenses/by/4.0/">CC BY SA 4.0</licence> + </availability> + <availability status="free"> + <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund + MWW</ref> + </p> + </availability> + </publicationStmt> + <sourceDesc> + <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p> + </sourceDesc> + </fileDesc> + <encodingDesc> + <editorialDecl> + <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und + XSLT-Skripten</p> + </editorialDecl> + <editorialDecl> + <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Martin + Wiegand</persName>.</p> + </editorialDecl> + <editorialDecl> + <p>Medienrechte liegen bei den Autor*innen</p> + </editorialDecl> + <editorialDecl> + <p>All links checked<date when="2021-08-23">23.08.2021</date> + </p> + </editorialDecl> + </encodingDesc> + <profileDesc> + <creation>Einreichung als Artikel der Zeitschrift für digitale + Geisteswissenschaften</creation> + <langUsage> + <language ident="de">Text in Deutsch</language> + <language ident="de">Abstract in Deutsch</language> + <language ident="en">Abstract in Englisch</language> + </langUsage> + <textClass> + <keywords scheme="gnd"> + <term>Cluster-Analyse<ref target="4070044-6"/> + </term> + <term>Maschinelles Lernen<ref target="4193754-5"/> + </term> + <term>Multimodalität<ref target="7859426-1"/> + </term> + <term>Sozialwissenschaften<ref target="4055916-6"/> + </term> + <term>Website<ref target="4596172-4"/> + </term> + </keywords> + </textClass> + </profileDesc> + <revisionDesc> + <change/> + </revisionDesc> + </teiHeader> + <text> + <body> + <div> + <div type="abstract"> + <argument xml:lang="de"> + <p>Der vorliegende Artikel möchte ein Verfahren zur (teil-)automatisierten Analyse + der Multimodalität von Webseiten vorstellen und diskutieren. Dabei steht im + Fokus, unbekannte Webseiten auf deren Multimodalität hin zu untersuchen, ohne + dass diese vorher annotiert oder sonst anderweitig in Bezug auf ihre + Multimodalität analysiert worden wären. Zusätzlich zur Etablierung eines + (teil-)automatisierten Verfahrens möchte dieser Artikel die Frage diskutieren, + inwiefern die Klassifizierung der Multimodalität von Webseiten im Zusammenhang + mit den gesellschaftlichen Domänen steht, aus denen die Webseiten stammen + (Politik, Wirtschaft, Religion etc.).</p> + </argument> + </div> + <div type="abstract"> + <argument xml:lang="en"> + <p>This article presents and discusses a method for the (partially) automated + analysis of the multimodality of web pages. The focus lies on analyzing unknown + web pages for their multimodality without annotating them beforehand. In + addition to establishing a (partially) automated procedure, this article wants + to discuss the question to what extent the classification of the multimodality + of web pages is related to the social domains from which the web pages + originate (politics, economy, religion, etc.).</p> + </argument> + </div> + <div type="chapter"> + <head>1. Einleitung</head> + <p>Unter Multimodalität wird in diesem Beitrag die Anordnung und das Zusammenwirken + verschiedener <term type="dh">modes</term> wie Bilder, Ton und Schrift im Prozess + der Generierung von Zeichen verstanden.<note type="footnote"> <ref type="bibliography" target="#lyons_multimodality_2016">Lyons 2016</ref>, 268f.; + <ref type="bibliography" target="#stoeckl_multimodalitaet_2016">Stöckl 2016</ref>, S. 4f. In Bezug auf modes vgl. <ref type="bibliography" target="#kress_mode_2017">Kress 2017</ref>.</note> Im Falle von + Webseiten werden insbesondere Bilder, verschiedentlich formatierte Textelemente + sowie audio-visuelle Elemente wie Videos untersucht. </p> + <p>Aufgrund der Komplexität multimodaler Strukturen, die teils sehr diverse modes + miteinander kombinieren, konzentriert sich die Forschung zum Beispiel im Bereich + der Bildlinguistik oder im Kontext der Analyse von Webseiten zumeist auf eine + qualitativ-manuelle Analyse des Zusammenspiels der verschiedenen modes, wobei die + Ergebnisse der Einzelanalysen dann durchaus quantitativ synthetisiert für + allgemeinere Aussagen herangezogen werden.<note type="footnote"> Vgl. <ref type="bibliography" target="#stoeckl_sprache_2011">Stöckl 2011</ref>; + <ref type="bibliography" target="#meer_einfuehhrung_2019">Meer / Pick 2019</ref>; + <ref type="bibliography" target="#jewitt_handbook_2017">Jewitt (Hg.) 2017</ref>. Für Webseiten vgl. + <ref type="bibliography" target="#meier_websites_2016">Meier 2016</ref>; <ref type="bibliography" target="#freudenberg_representations_2021">Freudenberg / + Sharbat Dar</ref> [im Erscheinen].</note> Um die Komplexität der Multimodalität für + den Prozess der Zeichengenerierung beispielsweise auf Webseiten adäquat zu + besprechen, ist eine manuell-qualitative Untersuchung durchaus sinnvoll, da deren + Automatisierung nur sehr schwer realisierbar ist; nicht zuletzt, weil die + menschliche Perzeption und Einschätzung in diesem Prozess eine zentrale Rolle + spielen und Aspekte wie der initiale Eindruck einer Sehfläche stark vom jeweiligen + Betrachter abhängen.<note type="footnote"> Vgl. die komplexe Terminologie einer + visuellen Grammatik in <ref type="bibliography" target="#stoeckl_sprache_2011">Stöckl 2011</ref>, S. 52. Für die erste Wahrnehmungsebene + einer Sehfläche vgl. <ref type="bibliography" target="#meer_einfuehhrung_2019">Meer / Pick 2019</ref>, S. 60.</note> + </p> + <p>Das hier vorzustellende Analyseverfahren möchte trotz dieser Schwierigkeiten eine + Möglichkeit aufzeigen, wie zumindest grobe Strukturmerkmale der Multimodalität von + Webseiten (teil-)automatisiert untersucht und zusammengefasst werden können. Ein + solches quantitatives, (teil-)automatisiertes Verfahren steht dabei keinesfalls im + Widerspruch zu den etablierten manuell-qualitativen Zugängen, sondern möchte diese + lediglich um eine neue Perspektive ergänzen sowie in ihrer Durchführung + unterstützen. Beispielsweise könnte ein etabliertes automatisiertes Verfahren + künftig dazu genutzt werden, größere Datenmengen (in diesem Falle von Webseiten) + hinsichtlich ihrer multimodalen Struktur vorzufiltern, um damit eine gezieltere + qualitativ-manuelle Analyse einzelner Fallbeispiele aus den unterschiedlichen + Clustern zu ermöglichen. Darüber hinaus kann eine automatisierte Analyse und + Kategorisierung auch dazu verwendet werden, bestehende Klassifizierungen aus der + qualitativ-manuellen Forschung zu kontrastieren, empirisch zu untermauern oder zu + erweitern.<note type="footnote"> Vgl. <ref type="bibliography" target="#meier_websites_2016">Meier 2016</ref>, S. 429f.</note> + </p> + <p>Versuche eines computergestützten Vorgehens bei der Analyse multimodaler + Strukturen finden sich bei O’Halloran et al.<note type="footnote"> <ref type="bibliography" target="#ohalloran_analytics_2017">O'Halloran et + al. 2017</ref>.</note> Allerdings fokussieren sich die dort vorgestellten Ansätze auf + die (automatisierte) Analyse kürzerer Sequenzen (beispielsweise eines + Interviewausschnitts) oder sie arbeiten mit bereits annotierten oder anderweitig + vorstrukturierten Daten (siehe auch <ref type="intern" target="#hd2">Kapitel + 2</ref>).</p> + <p>Zusätzlich zur Etablierung eines (teil-)automatisierten Verfahrens möchte dieser + Artikel die Frage diskutieren, inwiefern die Klassifizierung der Multimodalität + von Webseiten im Zusammenhang mit den gesellschaftlichen Domänen steht, aus denen + die Webseiten stammen (<term type="figure">Politik</term>, <term type="figure" + >Wirtschaft</term>, <term type="figure">Religion</term>, <term type="figure" + >Universität</term>, <term type="figure">Journalismus</term>, <term + type="figure">Unterhaltung</term>). Es wäre zu fragen, ob bestimmte multimodale + Strukturen von Webseiten bereits unabhängig von der konkreten Semantik ihrer + verwendeten modes (beispielsweise eines dargestellten Kreuzes als bildliches + Element) zur domänenspezifischen Zeichengenerierung genutzt werden können. + Zugespitzt gefragt: Gibt es politische, wirtschaftliche oder religiöse multimodale + Strukturen auf Webseiten, die voneinander unterscheidbar sind, ohne die Semantik + der jeweils konkret verwendeten modes einzubeziehen? </p> + <p>Im Folgenden wird in einem ersten Schritt (<ref type="intern" target="#hd2">Kapitel + 2</ref>) nochmals detaillierter auf das Forschungsinteresse dieses Artikels + eingegangen. Hierbei richtet sich der Blick auf aktuelle Forschungen im Bereich + Multimodalität von Webseiten und deren potentielle Ergänzung durch ein + (teil-)automatisiertes Verfahren zur Analyse unbekannter Datensätze. Anschließend + werden die Methode und der Aufbau des Programms beschrieben, das die + (teil-)automatisierte Analyse und Kategorisierung der Webseiten in diesem Artikel + durchführen soll (<ref type="intern" target="#hd3">Kapitel 3</ref>). Auf Basis + dieses Programms wird im Analyseteil (<ref type="intern" target="#hd7">Kapitel + 4</ref>) ein erster Testdatensatz von Webseiten automatisiert analysiert und + kategorisiert, wobei die Untersuchung und der Nachvollzug der Ergebnisse im Fokus + stehen. Im abschließenden letzten Kapitel (<ref type="intern" target="#hd14" + >5</ref>) werden die Ergebnisse des (teil-)automatisierten Analysevorgangs + diskutiert und evaluiert. In diesem Zusammenhang stehen vor allem die Fragen nach + einer zukünftigen Ausweitung der Untersuchung auf größere Datenmengen sowie der + Mehrwert einer (teil-)automatisierten Vorgehensweise gegenüber klassischen + manuell-qualitativen Analysemethoden im Zentrum.</p> + </div> + <div type="chapter"> + <head>2. Forschungsfrage und Forschungsstand</head> + <p>Die Forschungsfrage dieses Artikels betrifft die Möglichkeit einer automatisierten + Auswertung und Klassifizierung unbekannter Webseiten auf Basis ihrer multimodalen + Eigenschaften. Ansätze in Richtung einer automatisierten Auswertung multimodaler + Strukturen finden sich unter anderem bei O’Halloran et al.<note type="footnote"> + Vgl. <ref type="bibliography" target="#ohalloran_analytics_2017">O'Halloran et al. 2017</ref>; + <ref type="bibliography" target="#wignell_language_2021">Wignell et al. 2021</ref>; + <ref type="bibliography" target="#ohalloran_discipline_2020">O’Halloran et al. + 2020</ref>.</note> und auf der Webseite des <ref + target="http://multimodal-analysis-lab.org/">Multimodal Analysis + Lab</ref>.<note type="footnote"> <ref type="bibliography" target="#idmi_analysis_2013">Multimodal Analysis Lab (Hg.) 2013</ref>.</note> + </p> + <p>Obwohl sich die Multimodalitätsforschung nicht auf Webseiten beschränkt, sondern + an unterschiedlichsten Medien und Formen der Multimodalität interessiert ist,<note + type="footnote"> Siehe die Beispiele in <ref type="bibliography" target="#jewitt_handbook_2017">Jewitt (Hg.) 2017</ref>.</note> konzentriert sich + dieser Artikel auf Webseiten. Webseiten haben gegenüber Werbeplakaten, gedruckten + Zeitungen oder Filmen den Vorteil, dass sie bereits in einer digitalen und in + Bezug auf ihre Multimodalität vorstrukturierten Form vorliegen. So sind + beispielsweise eingebundene Bilder auf Webseiten meist durch die Nutzung von + entsprechenden Tags wie <code><img /></code> gekennzeichnet, die sich + relativ leicht automatisiert identifizieren und mit entsprechenden Parsern + auslesen lassen. Selbiges gilt für Texte oder die Einbindung von Videos auf + Webseiten. Somit entfallen im Falle von Webseiten die ansonsten notwendigen und + zeitaufwendigen Schritte der Digitalisierung und anschließenden Vorstrukturierung + der Digitalisate, beispielsweise durch Annotationen.</p> + <p>Darüber hinaus sind Webseiten sehr populär und finden sich in fast allen + gesellschaftlichen Bereichen (<term type="figure">Wirtschaft</term>, <term + type="figure">Religion</term>, <term type="figure">Wissenschaft</term>, <term type="figure">private + Seiten</term> usw.). Diese Tatsache erlaubt es, im Kontext der Analyse und + Kategorisierung der Multimodalität von Webseiten die Frage zu stellen, inwieweit + Cluster von Webseiten mit ähnlichen multimodalen Strukturen mit den + gesellschaftlichen Feldern korrelieren, aus denen sie stammen. Gibt es + beispielsweise eine bestimmte Form von Multimodalität auf politischen Webseiten, + die sich von der religiöser Webseiten unterscheidet, sodass diese nicht nur auf + inhaltlicher, sondern auch auf formaler Ebene unterscheidbar sind? Oder lassen + sich multimodal-strukturelle Muster über die Grenzen gesellschaftlicher Domänen + hinweg verfolgen, sodass etwaige inhaltliche Unterschiede zwischen den Seiten + (Semantik) von einer gemeinsamen multimodalen Struktur (Form) überdeckt werden, + die einem übergreifenden Webseiten-Typ entsprechen? Um diese Frage(n) zu + beantworten, wurden die Webseiten aus dem Testdatensatz zum einen hinsichtlich der + gesellschaftlichen Domäne, aus der sie stammen, sowie auch des ihnen zuweisbaren + Webseiten-Typs nach Stefan Meier<note type="footnote"> <ref type="bibliography" target="#meier_websites_2016">Meier 2016</ref>, S. 429f.</note> + vorannotiert.<note type="footnote"> Eine solche Vorannotation scheint auf den + ersten Blick dem gerade geforderten Prinzip zuwider zu laufen, dass das + Verfahren auf die Analyse unbekannter und eben gerade nicht vorannotierter + Daten konzentriert ist. Dies ist aber nicht der Fall, denn bei der + Domänen-/Typen-Analyse handelt es sich um eine zusätzliche Fragestellung, die + unabhängig von dem eigentlichen Verfahren der Teilautomatisierung zu betrachten + ist und als Beispiel dazu dienen soll, wozu (teil-)automatisierte Verfahren + konkret genutzt werden können.</note> + </p> + <p>Im Folgenden soll eine Methode vorgestellt werden, wie ein solches Programm zur + (teil-)automatisierten Analyse von Multimodalität aussehen könnte. Die + (teil-)automatisierte Analyse wird im Kontext dieses Artikels mit der + Programmiersprache Python und durch eine Mischung aus selbstgeschriebenen Klassen + und interaktiver Arbeit mit <bibl> + <title type="desc">Jupyter Notebooks</title> + </bibl> implementiert. Hierbei handelt es sich jedoch nur um ein + Implementierungsbeispiel. Im Fokus steht die übergreifende Methode und nicht deren + konkrete Realisierung. Die hinter dem Programm stehende Methode sollte auch ohne + jede Programmierkenntnisse verständlich werden und entsprechende Passagen in + diesem Artikel, die Code-Beispiele enthalten, können ohne große Verluste + übersprungen werden. Auch ist das hier vorgestellte Python-Programm nicht als + Prototyp einer zukünftigen Softwarelösung misszuverstehen, sondern wird nur im + Kontext dieses Artikels verwendet, um die Analysen durchzuführen, und zu + Dokumentationszwecken auf meinem <ref + target="https://github.com/thomjur/zfdg_website_scraper">GitHub Account</ref> + bereitgestellt.<note type="footnote"> <ref type="bibliography" target="#jurczyk_zfdg_2021">Jurczyk 2021a</ref>.</note> + </p> + </div> + <div type="chapter"> + <head>3. Methode und Implementierung</head> + <p>Die Methode der (teil-)automatisierten Analyse multimodaler Strukturen von + Webseiten besteht aus folgenden Schritten, die in Form eines in Python + geschriebenen Programms implementiert und ausgeführt werden.<note type="footnote"> + Siehe das <ref target="https://github.com/thomjur/zfdg_website_scraper">GitHub + Repository</ref>, <ref type="bibliography" target="#jurczyk_zfdg_2021">Jurczyk 2021a</ref>.</note> + </p> + <p>Die hier vorgeschlagene Methode zur Analyse der Multimodalität von Webseiten + beschränkt sich auf die Startseiten der Webseiten (sogenannte <hi rend="italic" + >landing pages</hi>). Eine solche Beschränkung ist sinnvoll, weil sie nicht nur + die Operationalisierbarkeit stark vereinfacht, sondern in Anlehnung an die + Sehflächen aus dem Bereich der Bildlinguistik<note type="footnote"> Vgl. <ref type="bibliography" target="#meer_einfuehrung_2019">Meer / + Pick 2019</ref>, S. 59f.</note> den Schwerpunkt der Analysen auf den multimodalen + Ersteindruck der Seiten legt. Es geht also nicht darum, die Komplexität einzelner + Webseiten unter Einbezug ihrer Unterseiten und deren multimodaler Struktur zu + untersuchen, sondern den Bereich in den Fokus zu stellen, der sich den + Nutzer*innen beim erstmaligen Betreten der Seite eröffnet. </p> + <p>Weil diese Art der Erstwahrnehmung der Webseiten wiederum stark von den + verwendeten Endgeräten abhängt, mit denen sie geöffnet werden, ist es wichtig, zu + Beginn die Analysemodalitäten anzugeben. Die folgenden Untersuchungen wurden mit + einem Desktop Computer auf einem relativ großen Bildschirm durchgeführt (32 Zoll + Bildschirmdiagonale). Somit muss während des Nachvollzugs der hier vorgenommenen + Auswertungen beachtet werden, dass sich die multimodalen Strukturen der Webseiten + bei der Verwendung anderer Endgeräte (beispielsweise Mobiltelefone) durchaus von + denen auf dem hier verwendeten Desktop Computer unterscheiden können.</p> + <p>Die Definition der ersten Wahrnehmungsebene einer Sehfläche aus der Bildlinguistik + wird in diesem Artikel dahingehend ausgeweitet, dass der automatisiert zu + untersuchende Bereich den gesamten Inhalt der Startseiten einbezieht. Diese + Entscheidung wurde getroffen, weil eine Beschränkung auf den beim Öffnen der + Webseiten sichtbaren Bereich, der im Browser dargestellt wird (und der meist + deutlich kleiner ist als der Bereich der gesamten Startseite), nur schwer + automatisiert vorzunehmen ist und von Bildschirm zu Bildschirm (beziehungsweise + Fenstergröße zu Fenstergröße) unterschiedlich ausfallen kann. Somit bezieht die + automatisierte Analyse nicht nur den anfänglichen Moment des Öffnens der Seite mit + ein, sondern inkludiert auch das Scrollen und somit die Wahrnehmung der gesamten + Startseite, was zwar über den Moment des Ersteindrucks hinausgeht, aber den + multimodalen Charakter der Webseite dafür adäquater repräsentiert.</p> + <p>Die Methode lässt sich in drei Schritte unterteilen: 1) Corpuserstellung, 2) + Datensammlung und -aufbereitung sowie 3) Analyse. Die ersten beiden Schritte der + Corpuserstellung und der Sammlung sowie Aufbereitung der multimodalen Daten müssen + dabei nur einmal durchgeführt werden, um das Corpus zu initialisieren. Eine + erneute Initialisierung des Corpus ist nur dann notwendig, wenn es sich ändert, + beispielsweise durch das Hinzufügen weiterer Webseiten, oder eine aktuelle Version + der Daten benötigt wird.</p> + <p>Diese drei Schritte werden im Folgenden detailliert diskutiert und anhand einer + exemplarischen Implementierung in Python umgesetzt.</p> + <div type="subchapter"> + <head>3.1 Corpuserstellung</head> + <p>Der erste Schritt besteht aus der Erstellung eines Webseiten-Corpus mit den zu + untersuchenden Webseiten. Das Corpus muss in der hier vorzustellenden + Realisierung von den Nutzer*innen als CSV-Datei (›websites.csv‹) im Ordner des + Programms angelegt werden. Im Kontext dieses Artikels enthält die betreffende + CSV-Datei die folgenden drei Spalten:<note type="footnote"> Wie bereits + angemerkt, erfolgt die Auswertung unabhängig von den Domänen und Typen. + Diese können also in einer anderen Implementierung durchaus weggelassen + werden, ohne dass das eigentliche Verfahren davon beeinflusst würde. Sie + wurden in diesem Artikel hinzugefügt, um die zweite Forschungsfrage (siehe + Einleitung <ref type="intern" target="#hd2">Kapitel 2</ref>) besser + beantworten zu können.</note> + </p> + <table xml:id="multimodalitaet_2021_t1"> + <row> + <cell> + <hi rend="bold">URL</hi> + </cell> + <cell> + <hi rend="bold">Domäne</hi> + </cell> + <cell> + <hi rend="bold">Typen nach Meier</hi> + </cell> + </row> + <row> + <cell>https://marginalie.hypotheses.org/</cell> + <cell>UNI</cell> + <cell>News</cell> + </row> + <trailer><ref type="intern" target="#tab1">Tab. 1</ref>: Beispiel eines Eintrags einer Webseite in der + Datei ›websites.csv‹. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t1"/></trailer> + </table> + + <p>Die erste Spalte enthält die URLs der Webseiten, die zweite deren + gesellschaftliche Domäne (in der hier gezeigten Zeile UNI für <term + type="figure">Universität</term>)<note type="footnote"> Die + gesellschaftlichen Domänen sind <term type="figure">Universität / + Wissenschaft</term> (UNI), <term type="figure">Politik</term> (POL), + <term type="figure">Religion</term> (REL), <term type="figure" + >Unterhaltung</term> (ENT), <term type="figure">Wirtschaft</term> (ECO) + sowie <term type="figure">Journalismus</term> (JOU) und wurden aus der + Sichtung des Materials induktiv generiert. Diese können bei Erweiterung des + Datensatzes natürlich ebenfalls erweitert werden, beispielsweise durch <term + type="figure">Kunst</term> (ART) oder einer allgemeineren Kategorie <term + type="figure">Bildung</term> (EDU).</note> und die Einordnung der + Webseite nach den von Stefan Meier<note type="footnote"> Vgl. <ref type="bibliography" target="#meier_websites_2016">Meier 2016</ref>, S. + 429f.</note> vorgeschlagenen Webseiten-Typen in:</p> + <list type="unordered"> + <item>Newsorientierte Webseiten</item> + <item>Imageorientierte Webseiten</item> + <item>Kampagnenorientierte Webseiten</item> + <item>Plattformorientierte Webseiten</item> + </list> + <p>Die URLs aus der Datei ›websites.csv‹ werden in das in Python geschriebene und + mit einem <bibl> + <title type="desc">Jupyter Notebook</title> + </bibl> ausgeführte Programm geladen.</p> + <list type="ordered"> + <item> <code>from scraper import Corpus  </code></item> + + <item><code>   </code></item> + + <item><code>cp = Corpus()  </code></item> + + <item><code>cp.initCorpus()  </code></item> + </list> + <p>Hierzu wird die Corpus-Klasse importiert und als Corpus-Objekt initialisiert. + Das Corpus wird daraufhin mit der Methode <code>initCorpus()</code> + initialisiert. Es reicht aus, das Corpus einmal zu initialisieren. Eine erneute + Initialisierung ist nur dann notwendig, wenn das Corpus verändert wurde oder + wenn die Nutzer*innen es für sinnvoll erachten, die Daten neu zu erheben. + Entsprechend muss dieser Teil des Programms nur einmal ausgeführt werden.</p> + <p>Die <code>initCorpus()</code>-Methode iteriert über die in ›websites.csv‹ + befindlichen URLs und öffnet diese mit <bibl> + <title type="desc">Selenium</title> + </bibl> + <note type="footnote"> Bei Selenium handelt es sich hier um ein Framework, das + eine automatisierte Steuerung verschiedener Browser ermöglicht. Vgl. auch + die offizielle Webseite unter <ref target="https://www.selenium.dev/" + >SeleniumHQ Browser Automation</ref>. </note> in einem Browserfenster auf + Bildschirmgröße.<note type="footnote"> Im Falle der hier vorgestellten + Implementierung wird der <bibl> + <title type="desc">Edge Browser</title> + </bibl> verwendet.</note> Die User*innen sind daraufhin aufgefordert, + etwaige aufpoppende Banner beziehungsweise Abfragen manuell zu bestätigen. + Sobald dies erledigt ist, kann via Tastendruck das Speichern des Codes der + Webseite im <bibl> + <title type="desc">Jupyter Notebook</title> + </bibl> bestätigt werden. Nachdem automatisiert bis zum Ende der Webseite + gescrollt wurde,<note type="footnote"> Dies ist notwendig, falls gewisse + Bereiche der Seite erst nach und nach geladen werden, sobald diese von den + User*innen erreicht werden.</note> speichert das Programm für jede Seite den + beim Aufruf der Webseite aktuellen HTML-Code in einem separaten Ordner namens + ›CorpusData‹. Der Ordner enthält neben dem HTML-Code außerdem eine + automatisiert erstellte Text-Datei, die allgemeine Informationen wie Zeitpunkt + der Corpus-Initialisierung und die Anzahl der Webseiten enthält. Die + gespeicherten Daten dienen erstens der Dokumentation und werden zweitens im + weiteren Programmverlauf für die Extraktion bestimmter multimodaler + Eigenschaften wie der verwendeten Textmenge genutzt. Wenn das Corpus neu + initialisiert wird, werden alle Daten im Ordner ›CorpusData‹ überschrieben.</p> + <p>Warum wird dieser Vorgang lediglich teil- und nicht vollautomatisiert + durchgeführt? Der Hauptgrund hierfür liegt im Anspruch des Programms, sehr + diverse Webseiten in das Corpus aufnehmen und analysieren zu können. Komplexe + Seiten, die Inhalte dynamisch nachladen oder überhaupt erst durch eine + Bestätigung der User*innen aufgerufen werden können,<note type="footnote"> + Beispielsweise, weil zuerst von den Nutzer*innen Einverständniserklärungen + zur Nutzung von Cookies usw. abgegeben werden müssen.</note> sind nur sehr + schwer ohne Kenntnisse des Webseitenaufbaus automatisiert abrufbar. <bibl> + <title type="desc">Selenium</title> + </bibl> wird in diesem Artikel gegenüber anderen Bibliotheken wie requests der + Vorzug gegeben, weil mit <bibl> + <title type="desc">Selenium</title> + </bibl> die Webseiten in einem Browser geöffnet werden, was das + Erscheinungsbild, wie es sich auch den User*innen beim Aufruf der Seite + offenbart, akkurat widerspiegelt. Dieser Aspekt ist für die Analyse + multimodaler Strukturen äußerst wichtig, da sich beispielsweise die + Darstellungen von Bildern abhängig von dem genutzten Device und der + Fenstergröße stark unterscheiden können.</p> + </div> + <div type="subchapter"> + <head>3.2 Bilder, Videos und Texte</head> + <p>Nachdem das Corpus initialisiert wurde, muss im nächsten Schritt die + <code>DataPreparation()</code>-Klasse importiert werden. Diese Klasse dient + dazu, um mit Hilfe der Methoden <code>getImages()</code> und + <code>createAnalyzerDict()</code> eine Datei zu erstellen, die alle + notwendigen Informationen über den multimodalen Aufbau der Webseiten aus dem + Webseiten-Sample enthält (diese Datei wird als ›merged_data_dict.pickle‹ in + demselben Verzeichnis wie das <bibl> + <title type="desc">Jupyter Notebook</title> + </bibl> gespeichert). Ähnlich wie im Falle der Corpus-Initialisierung ist es + ausreichend, diese Analyse einmalig für jedes Corpus durchzuführen. </p> + <list type="ordered"> + <item> + <code>from data_preparation import DataPreparation  </code> + </item> + <item> </item> + <item> + <code>dp = DataPreparation()</code> + </item> + <item> + <code>dp.getImages()</code> + </item> + <item> + <code>data_dict = dp.createAnalyzerDict()</code> + </item></list> + <p>Genau wie im ersten Schritt der Corpus-Initialisierung arbeitet die + <code>getImages()</code>-Methode ebenfalls mit <bibl> + <title type="desc">Selenium</title> + </bibl> und erfordert die manuelle Bestätigung der User*innen. Die + <code>getimages()</code>-Methode ruft die einzelnen Webseiten auf und + speichert die Bild- und Videoinformationen in einem Byte-File + (›image_data.pickle‹). Die Datei ›image_data.pickle‹ muss solange nicht neu + erzeugt werden, wie sich das Corpus nicht ändert oder die Daten veraltet sind. + Der Vorteil in der Nutzung von <bibl> + <title type="desc">Selenium</title> + </bibl> liegt erneut darin, dass mit <bibl> + <title type="desc">Selenium</title> + </bibl> die Maße der aktuellen Darstellung eines Bildes beziehungsweise Videos + im Browser abgefragt werden können. Somit erlaubt die Nutzung von <bibl> + <title type="desc">Selenium</title> + </bibl> die Erstellung einer präzisen Momentaufnahme der multimodalen Struktur + einer Webseite.</p> + <p>Im abschließenden Schritt des Aufrufs der <code>createAnalyzerDict()</code>-Methode wird das für die Analyse zentrale ›merged_data_dict.pickle‹ erstellt. + Die Generierung der in dieser Datei enthaltenen Informationen werden + vollautomatisiert und auf Basis der in den vorangegangenen Schritten + gesammelten Daten durchgeführt. Die Datei ›merged_data_dict.pickle‹ enthält die + folgenden Informationen (im Datenformat eines Python Dictionary):</p> + <list type="unordered"> + <item>Anzahl der Bilder auf der Webseite<note type="footnote"> SVG-Dateien + wurden bewusst nicht mitgezählt, da diese häufig lediglich für sehr + kleine graphische Elemente genutzt werden und damit möglicherweise ein + fälschliches Bild der Gesamtzahl an Bildern auf einer Webseite + vermitteln.</note> + </item> + <item>Anzahl der großen, mittleren, kleinen und sehr kleinen Bilder<note + type="footnote"> Groß: Größer als 700px (Höhe oder Breite). Mittel: + Größer als 348px (Höhe oder Breite). Klein: Größer als 35px (Höhe oder + Breite). Sehr klein: Größer als 1px (Höhe oder Breite).</note> + </item> + <item>Anzahl der Hintergrundbilder</item> + <item>Anzahl der Videos<note type="footnote"> Hier wurden nur die auf der Seite + befindlichen Video-Tags gezählt und analysiert. Es gibt Webseiten, auf + denen Videos anders integriert sind – zumeist werden diese dann aber auch + nicht live auf der Seite abgespielt, sondern sind als Links + implementiert.</note> + </item> + <item>Anzahl der großen und kleinen Videos<note type="footnote"> Groß: Größer + als 700px (Höhe oder Breite). Alle anderen Videos werden als ›klein‹ + deklariert.</note> + </item> + <item>Die Gesamtlänge textlicher Elemente auf der Seite<note type="footnote"> + Genauso wie die meisten anderen Abfragen ist auch dieser Wert mit + Vorsicht zu behandeln, da nicht immer zuverlässig feststellbar ist, + welche Texte wirklich für die Nutzer*innen sichtbar sind. Manche sind + eventuell in ausklappbaren Menüs versteckt. Für die Details, welche + Maßnahmen getroffen wurden, um möglichst nur den dargestellten Text + einzubeziehen, verweise ich auf den Code in meinem <ref + target="https://github.com/thomjur/zfdg_website_scraper">GitHub + Repository</ref>.</note> + </item> + <item>Die Anzahl der Überschriften</item> + <item>Die Anzahl der Hyperlinks</item> + <item>Die Anzahl der internen Hyperlinks</item> + <item>Die Anzahl der externen Hyperlinks</item> + </list> + <p>Darüber hinaus enthält die Datei zu Dokumentationszwecken und für die weitere + Analyse die vollständigen Daten, darunter die URLs zu den Bildern und Videos, + die Domänen und Webseiten-Typen, sowie den kompletten Text der Webseiten, + welcher der Berechnung der Textlänge zugrunde liegt.</p> + </div> + <div type="subchapter"> + <head>3.3 Analyse</head> + <p>Der Analyseteil der hier vorzustellenden Methode wurde in der Datei + ›analyzer.py‹ realisiert. Die Analyse basiert auf einem <term type="dh" + >k-Means-Clustering</term>, das es erlaubt, die Datensätze auf Basis ihrer + <term type="dh">Features</term> + <note type="footnote"> Unter Features versteht man im Kontext des maschinellen + Lernens die Eigenschaften oder Attribute, die für bestimmte Phänomene erhoben + werden (hier also Anzahl der Bilder, Textlänge, Anzahl Videos etc.), und deren + konkrete Werte (also zum Beispiel 10 Bilder, 2.540 Wörter, 2 Videos etc.) in + der Analyse genutzt werden. Die Begrifflichkeiten werden allerdings nicht immer + einheitlich verwendet. Vgl. <ref type="bibliography" target="#geron_learning_2019">Géron 2019</ref>, S. 8.</note> zu Gruppen mit ähnlichen + Eigenschaften zusammenzufassen.<note type="footnote"> Ein weiteres Beispiel, in + dem k-Means-Clustering für die Analyse von Multimodalität verwendet wurde, + findet sich in <ref type="bibliography" target="#ohalloran_analytics_2017">O'Halloran et al. 2017</ref>. Zur Funktionsweise von + k-Means-Clustering vgl. u. a. <ref type="bibliography" target="#geron_learning_2019">Géron 2019</ref> und mein Clustering Tutorial + »Clustering with Scikit-Learn« auf der Webseite <ref + target="https://programminghistorian.org/en/">The Programming + Historian</ref>, <ref type="bibliography" target="#jurczyk_clustering_2021">Jurczyk 2021b</ref>.</note> Die Klasse + <code>Analyzer()</code> arbeitet mit den Daten, die während des + vorangegangen Schrittes in der Datei ›merged_data_dict.pickle‹ abgespeichert + wurden. Auf Basis der in ›merged_data_dict.pickle‹ vorhandenen Daten generiert + die Klasse <code>Analyzer()</code> außerdem folgende relationale Werte:</p> + <p>Jeweils das Verhältnis zwischen großen / mittleren / kleinen / sehr kleinen + Bildern und der Gesamtzahl der Bilder auf einer Webseite</p> + <list type="unordered"> + <item>Das Verhältnis zwischen der Gesamtzahl der Bilder auf einer Webseite und + der Textlänge</item> + <item>Das Verhältnis zwischen großen und mittleren Bildern und der + Textlänge</item> + <item>Das Verhältnis zwischen internen und externen Links</item> + <item>Das Verhältnis zwischen der Anzahl der Überschriften und der + Textlänge</item> + </list> + <p>Der Ablauf der Analyse besteht aus folgenden Schritten:</p> + <list type="ordered"> + <item>In einem ersten Schritt werden die in die Analyse einzubeziehenden + Features festgelegt. Standardmäßig sind alle Features ausgewählt. Die + Auswahl der Features geschieht über die Methode + <code>setColumnSelection()</code>. Die aktuell ausgewählten Features + können mit der Methode <code>getColumnSelection()</code> abgerufen + werden.</item> + <item>Der zweite Schritt besteht in der Standardisierung der Daten mit Hilfe + der scikit-learn <code>StandardScaler()</code>-Klasse, die eine + Standardisierung der Daten durch Berechnung der <term type="dh" + >z-scores</term> ermöglicht.<note type="footnote"> Für die Details der + Klasse und Implementierung vgl. die offizielle scikit-learn-Dokumentation + auf <ref target="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html">Sklearn.preprocessing.StandardScaler</ref>, <ref type="bibliography" target="#sklearn_preprocessing_2007">scikit-learn developers (Hg.) 2007</ref>.</note> Obwohl dieser + Schritt optional ist und die Analyse auch mit den nicht standardisierten + Daten erfolgen kann, ist eine solche Standardisierung anzuraten, weil es + ansonsten zu Cluster-Bildungen während der Analyse kommen kann, die vor + allem aus den unterschiedlichen Scales zwischen den Features + resultieren.<note type="footnote"> Beispielsweise kann es passieren, dass + Unterschiede in den Textlängen aufgrund ihrer größeren Differenz + plötzlich deutlich ausschlaggebender für die Clusterbildung werden als + Unterschiede in der Anzahl der Bilder, obwohl letzteres Feature für das + multimodale Arrangement der Webseiten vielleicht deutlich wichtiger ist + als die absolute Differenz in der Textmenge. </note> + </item> + <item>Anschließend können die ausgewählten (standardisierten) Features mit der + Methode <code>clusterDataKMeans()</code> analysiert werden. Hierbei ist es + möglich, der Methode die Anzahl k der gewünschten Cluster zu übergeben (der + <hi rend="italic">default</hi>-Wert ist k=3). Die Methode visualisiert + anschließend tabellarisch die Zuordnung der Webseiten zu den einzelnen + Clustern innerhalb des <bibl> + <title type="desc">Jupyter Notebook</title> + </bibl>.</item> + <item>Mit der Methode <code>createElbowPlot()</code> ist es außerdem möglich, + sich auf Basis der <hi rend="italic">inertia</hi> des Clustering-Algorithmus + einen sogenannten ›Elbow-Plot‹ anzeigen zu lassen, der dabei helfen kann, + die adäquate Anzahl von Clustern für den Datensatz und die gewählte + Feature-Auswahl zu ermitteln. Die ideale Anzahl der Cluster lässt sich + dadurch ermitteln, das in dem Plot nach der Anzahl k-Cluster gesucht wird + (X-Achse), bei der die Kurve des Plots einen Knick hat und merklich + abflacht.<note type="footnote"> Genauere Erläuterungen zu dieser Methode + der Ermittlung der Anzahl an k-Clustern für einen Datensatz finden sich + in <ref type="bibliography" target="#geron_learning_2019">Géron 2019</ref>, S. 245f. und in dem bereits erwähnten Tutorial ›Clustering + with Scikit-Learn‹ auf der Webseite <ref + target="https://programminghistorian.org/en/">The Programming + Historian</ref>, <ref type="bibliography" target="#jurczyk_clustering_2021">Jurczyk 2021b</ref>. Es sei an dieser Stelle erwähnt, dass neben den sogenannten + ›Elbow-Plots‹ weitere Verfahren wie die Analyse der Silhouette Scores + existieren, die ebenfalls dazu beitragen können, eine adäquate Anzahl + k-Cluster für einen Datensatz zu ermitteln. Im Falle einer Ausweitung des + zu untersuchenden Webseiten-Corpus bzw. der Ausarbeitung der hier + vorgeschlagenen Methode wäre es entsprechend sinnvoll, diese Verfahren + ebenfalls einzubinden. Dies ist aus Gründen des Umfangs und aus der + Tatsache heraus, dass die ›Elbow-Plots‹ im Kontext des hier zu + betrachtenden Corpus bereits gute Ergebnisse geliefert haben, noch nicht + geschehen.</note> + </item> + <item>Anschließend erlaubt es die Methode + <code>getScreenshotsFromClusters()</code> Screenshots von den in den + jeweiligen Clustern enthaltenen Webseiten zu erstellen und diese in + separaten Ordnern abzuspeichern. Die Screenshots werden dabei wie in <ref + type="intern" target="#hd4">Kapitel 3.1</ref> teilautomatisiert mit <bibl> + <title type="desc">Selenium</title> + </bibl> erstellt, wobei die User*innen dazu aufgefordert sind, etwaige + erscheinende Warnungen und Abfragen manuell zu entfernen. Die Sammlung von + Screenshots kann dazu dienen, die Cluster-Bildungen manuell visuell + nachzuvollziehen, indem die multimodalen Strukturen der Webseiten innerhalb + eines Clusters von den Nutzer*innen manuell miteinander verglichen + werden.<note type="footnote"> Wobei die Einbindung von Videoelementen nur + schwer darstellbar ist.</note> + </item> + </list> + <p>Der Code zur Realisierung der hier beschriebenen Analyse sieht in der hier + vorgestellten Implementierung wie folgt aus:</p> + <list type="ordered"> + <item><code>from analyzer import Analyzer</code> + </item> + <item> </item> + <item> + <code># Initialisierung des Analyzer() Objekts</code> + </item> + <item> + <code>ana = Analyzer()</code> + </item> + <item> </item> + <item> + <code># Übersicht über die default Spalten</code> + </item> + <item> + <code>ana.getColumnSelection()</code> + </item> + <item> </item> + <item> + <code># In diesem Beispiel wird sich auf die Analyse der Textlänge ('total_length') und der Bildanzahl beschränkt ('total_images')</code> + </item> + <item> + <code>ana.setColumnSelection(['total_length', 'total_images'])</code> + </item> + <item> </item> + <item> + <code># Reduzierung des DataFrames auf die ausgewählten Spalten via Indexing mit pandas</code> + </item> + <item> + <code>df_small = ana.data_df[ana.column_selection]</code> + </item> + <item> </item> + <item> + <code># Standardisierung der Daten</code> + </item> + <item> + <code>standardized_data = ana.standardizeData(df_small)</code> + </item> + <item> </item> + <item> + <code># Clustering (k=3)</code> + </item> + <item> + <code>clustered_data = ana.clusterDataKMeans(standardized_data)</code> + </item> + <item> </item> + <item> + <code># Optional: Ermittlung Anzahl k-Clusters für die Analyse (danach evtl. erneut clustern)</code> + </item> + <item> + <code>ana.createElbowPlot(clustered_data)</code> + </item> + <item> </item> + <item> + <code># Screenshots der Webseiten in den jeweiligen Clustern</code> + </item> + <item> + <code>ana.getScreenshotsFromClusters(clustered_data)</code> + </item> + </list> + <p>Die auf diese Weise entstandenen Cluster können nun von den User*innen dazu + genutzt werden, weitere Untersuchungen durchzuführen, wobei ein erster Schritt + darin bestehen sollte, sich einen Überblick über die jeweils in den Clustern + befindlichen Webseiten zu verschaffen und sich mit den dieser Einteilung + zugrunde liegenden Werten, die von den für die Analyse ausgewählten Features + abhängen, vertraut zu machen. Die so entstandenen Cluster können außerdem für + Fragestellungen wie die nach dem Zusammenhang zwischen Webseiten-Typen, + gesellschaftlicher Domäne und der multimodalen Struktur genutzt werden.</p> + <p>Die hier vorgestellte Methode und Implementierung sollen im Folgenden anhand + eines ausgewählten Webseiten-Samples und dessen Analyse exemplifiziert + werden.</p> + </div> + </div> + <div type="chapter"> + <head>4. Analyse eines Webseiten-Samples</head> + + <p>Das in diesem Artikel verwendete Webseiten-Sample ist verhältnismäßig klein + gewählt, um eine Überprüfung der Analyseergebnisse zu gewährleisten. Prinzipiell + ist die Größe des Webseiten-Samples nicht limitiert. Es muss jedoch in die + Überlegungen während der Corpus-Erstellung mit einbezogen werden, dass zumindest + in der hier verwendeten Implementierung ein manuelles Eingreifen der User*innen an + zahlreichen Stellen notwendig ist. Eine zukünftig zu entwickelnde Verbesserung des + Programms könnte jedoch versuchen, den derzeit notwendigen manuellen Teil + ebenfalls zu automatisieren oder zumindest stark zu reduzieren. Auch ist erneut + darauf hinzuweisen, dass die hier vorgestellte Methode eher ergänzenden Charakter + hat und als Vorstufe einer zusätzlichen qualitativen Überprüfung oder Fortsetzung + der Analyse anzusehen ist. Eine qualitativ-manuelle Überprüfung ist ebenfalls ab + einer bestimmten Größe des Datensatzes nur noch schwer möglich.</p> + <p>Bei der Auswahl der Webseiten wurde darauf geachtet, Webseiten aus möglichst + diversen gesellschaftlichen Domänen sowie verschiedener Webseiten-Typen nach Meier + (siehe <ref type="intern" target="#hd4">Kapitel 3.1</ref>) miteinander zu + kombinieren. Dies soll dabei helfen, die eingangs aufgeworfene Frage zu + untersuchen, ob sich Webseiten aus derselben gesellschaftlichen Domäne + beziehungsweise solche desselben Webseiten-Typs hinsichtlich ihres multimodalen + Arrangements ähneln. Da die Startseiten von sozialen Netzwerken wie Facebook oder + Twitter zumeist das Einloggen der User*innen erfordern und kampagnenorientierte + Webseiten nicht immer leicht von imageorientierten Webseiten zu unterscheiden + sind, wurde die Auswahl der Webseiten-Typen der Einfachheit halber in dieser + Analyse auf die zwei Typen der newsorientierten und imageorientierten Webseiten + beschränkt. Eine spätere Integration der beiden anderen Typen kann jedoch leicht + nachträglich vorgenommen werden und wäre für eine Ausweitung der in diesem Artikel + beispielhaft behandelten Fragestellung interessant.</p> + <div type="subchapter"> + <head>4.1 Das Webseiten-Sample und Corpus-Erstellung</head> + + <p>Das in diesem Artikel gewählte Webseiten-Corpus enthält die folgenden zwanzig + Webseiten:</p> + <table xml:id="multimodalitaet_2021_t2"> + <row> + <cell> + <hi rend="bold">URL</hi> + </cell> + <cell> + <hi rend="bold">DOMAIN</hi> + </cell> + <cell> + <hi rend="bold">TYPE</hi> + </cell> + </row> + <row> + <cell>https://marginalie.hypotheses.org/</cell> + <cell>UNI</cell> + <cell>News</cell> + </row> + <row> + <cell>https://www.ruhr-uni-bochum.de/de</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.uni-bielefeld.de/</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.faz.net/</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>https://www.heise.de/</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>https://www.nytimes.com/</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>https://netzpolitik.org/</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>https://www.nike.com/</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.adidas.com/</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.volkswagen.de/</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.lufthansa.com/</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.ekd.de/</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://ditib.de/</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.katholisch.de/</cell> + <cell>REL</cell> + <cell>News</cell> + </row> + <row> + <cell>https://www.gamestar.de/</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>https://www.prosieben.de/</cell> + <cell>ENT</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://de.ign.com/</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>https://www.spd.de/</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.cdu.de/</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>https://www.fdp.de/</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <trailer><ref type="intern" target="#tab2">Tab. 2</ref>: Das zu untersuchende Webseiten-Sample. + katholisch.de wurde als News-Webseite charakterisiert, da es sich der + Selbstbeschreibung nach um eine (katholische) Nachrichtenseite handelt, die + besonders auf tagesaktuelle Neuigkeiten fokussiert ist. Siehe für diese + problematische Einteilung auch das <ref type="intern" target="#hd13" + >Kapitel 4.2.4</ref>). [Jurczyk 2021]<ref + type="graphic" target="#multimodalitaet_2021_t2"/></trailer> + </table> + <p>In einem ersten Schritt wird das Corpus wie in <ref type="intern" target="#hd4" + >Kapitel 3.1</ref> beschrieben initialisiert.<note type="footnote"> Die im + Folgenden beschriebenen Daten basieren auf den Corpus-Webseiten, die am + 15.02.2021 initialisiert wurden. Siehe auch die Datei ›info.txt‹ im + entsprechenden Ordner des <ref + target="https://github.com/thomjur/zfdg_website_scraper">GitHub + Repository</ref>.</note> Daraufhin werden die Bilder und Videos der + einzelnen Webseiten mit Hilfe der <code>DataPreparation()</code>-Klasse + analysiert und die so gewonnen Daten in ›merged_data_dict.pickle‹ gespeichert + (siehe <ref type="intern" target="#hd5">Kapitel 3.2</ref>).</p></div> + <div type="subchapter"> + <head>4.2 Analyse</head> + <p>Die Analyse mit Hilfe der <code>Analyzer()</code>-Klasse wird mit + unterschiedlichen Selektionen der Features der Corpus-Webseiten durchgeführt, + wobei alle Features zuerst via z-score standardisiert werden (siehe <ref + type="intern" target="#hd6">Kapitel 3.3</ref>):</p> + <list type="ordered"> + <item>In einem ersten Schritt werden alle erhobenen Features in die Analyse + einbezogen (Vollständige Features; vgl. auch die Übersicht der Features in + <ref type="intern" target="#hd5">Kapitel 3.2</ref>)</item> + <item>In einem zweiten Schritt werden nur die Bild- und Video-Features als + Basis für das Clustering genutzt (Bild- und Video-Features)<note + type="footnote"> In die Analyse einbezogen werden die folgenden Features: + Hintergrundbilder, Bilder gesamt, große / mittlere / kleine / sehr kleine + Bilder, Verhältnisse zwischen großen / mittleren / kleinen / sehr kleinen + Bildern und der Gesamtzahl der Bilder, Anzahl großer und kleiner + Videos.</note> + </item> + <item>In einem dritten Schritt werden nur die Textlänge sowie die Anzahl der + Überschriften einbezogen (Text-Features)</item> + <item>Der letzte Schritt enthält eine Kombination der Text-, Video- und + Bild-Features (Text- und Bild-Features)<note type="footnote"> In die Analyse + einbezogen werden die folgenden Features: Verhältnisse zwischen + Gesamtzahl der Bilder und der Textlänge sowie zwischen großen und + mittleren Bildern und der Textlänge. Außerdem wurde die Anzahl der großen + und kleinen Videos einbezogen.</note> + </item> + </list> + <p>Im Folgenden sollen die im Kontext der jeweilig ausgewählten Features + entstandenen Cluster vorgestellt und diskutiert werden. Dabei geht es während + der Besprechung zum einen darum, wie nachvollziehbar die Cluster in Bezug auf + das multimodale Erscheinungsbild der Webseiten sind. Als Vergleichswerte werden + die manuell vom Autor des Artikels aufgerufenen Webseiten und die angelegten + Screenshot-Sammlungen herangezogen und qualitativ analysiert. Zum anderen + sollen auch die anderen beiden Kategorien (Domänen und Webseiten-Typen) mit in + die Diskussion einbezogen werden, indem gefragt wird, inwieweit sich auch hier + Clusterbildungen erkennen lassen, die mit der Einteilung auf Basis der + multimodalen Features der Seiten korrelieren.</p> + <p>Jede Teilanalyse beginnt mit der Erstellung eines ›Elbow-Plot‹, um einen + Eindruck von der potentiell ›richtigen‹ Auswahl an Clustern zu erlangen. + Getestet werden dabei k-Means Durchläufe mit k-Werten zwischen zwei und acht. + Anschließend werden die Daten mit dem aus der Analyse des ›Elbow-Plot‹ + resultierenden k-Wert mit einem k-Means-Clustering gruppiert und die Ergebnisse + wie oben beschrieben besprochen. </p></div> + <div type="subchapter"> + <head>4.2.1 Vollständige Features</head> + <figure> + <graphic xml:id="multimodalitaet_2021_001" + url=".../medien/multimodalitaet_2021_001.png"> + <desc> + <ref type="intern" target="#abb1">Abb. 1</ref>: Elbow-Plot der vollständigen + Feature-Auswahl. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_001"/> + </desc> + </graphic> + </figure> + <p>Wie an dem ›Elbow-Plot‹ erkennbar ist, bietet es sich im Kontext der + vollständigen Features an, einen möglichst hohen k-Wert für die Anzahl der + Cluster zu wählen. In diesem Falle wurden sieben Cluster gewählt. Die k-Means + Clusterbildung sieht mit k=7 Clustern wie folgt aus:</p> + <table xml:id="multimodalitaet_2021_t3"> + <row> + <cell> + <hi rend="bold">URL</hi> + </cell> + <cell> + <hi rend="bold">Cluster</hi> + </cell> + <cell> + <hi rend="bold">Domäne</hi> + </cell> + <cell> + <hi rend="bold">Typ</hi> + </cell> + </row> + <row> + <cell>ditib.de</cell> + <cell>0</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>marginalie.hypotheses.org</cell> + <cell>0</cell> + <cell>UNI</cell> + <cell>News</cell> + </row> + <row> + <cell>de.ign.com</cell> + <cell>1</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>ekd.de</cell> + <cell>1</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>faz.net</cell> + <cell>1</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>gamestar.de</cell> + <cell>1</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>heise.de</cell> + <cell>1</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>katholisch.de</cell> + <cell>1</cell> + <cell>REL</cell> + <cell>News</cell> + </row> + <row> + <cell>netzpolitik.org</cell> + <cell>2</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>cdu.de</cell> + <cell>2</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>lufthansa.com</cell> + <cell>2</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>nike.com</cell> + <cell>2</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>spd.de</cell> + <cell>2</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>uni-bielefeld.de</cell> + <cell>2</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>volkswagen.de</cell> + <cell>2</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>nytimes.com</cell> + <cell>3</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>adidas.com</cell> + <cell>4</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>prosieben.de</cell> + <cell>5</cell> + <cell>ENT</cell> + <cell>Image</cell> + </row> + <row> + <cell>fdp.de</cell> + <cell>6</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>ruhr-uni-bochum.de</cell> + <cell>6</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <trailer><ref type="intern" target="#tab3">Tab. 3</ref>: Tabelle mit farblich markiertem k-Means + Clustering des Webseiten-Samples unter Einbezug aller Features. [Jurczyk + 2021]<ref type="graphic" target="#multimodalitaet_2021_t3"/></trailer> + </table> + <p>Das Clustering unter Einbezug aller Features macht es auf den ersten Blick + schwierig, eine Struktur beziehungsweise ein Muster in der Clusterbildung zu + erkennen, was unter anderem durch die hohe Anzahl an Clustern für eine relativ + geringe Anzahl an Webseiten bedingt ist. Dies kann jedoch als Hinweis gewertet + werden, dass die Webseiten in der Tat relativ divers sind, was gut an den + Single-Webseiten-Clustern 3, 4 und 5 deutlich wird.</p> + <p>Neben der Feststellung, dass die Webseiten unter Einbezug aller Features + relativ divers sind, stechen zwei Cluster besonders hervor (Cluster 1 und + Cluster 2).</p> + <p>Cluster 1 enthält vor allem Webseiten vom Typ ›News‹, die sich allerdings über + ganz unterschiedliche Domänen erstrecken und von Entertainment Seiten (ign.com) + über klassische journalistische Angebote (faz.net) bis hin zur religiösen + Newsportalen (katholisch.de) reichen. Es gibt jedoch zwei Webseiten vom Typ + ›News‹, die nicht in Cluster 2 enthalten sind. Der erste <hi rend="italic" + >outlier</hi> ist die Webseite netzpolitik.org, deren multimodale Struktur + sich von der anderer News-Webseiten in der Form absetzt, dass netzpolitik.org + verhältnismäßig wenige Überschriften (netzpolitik.org: 70, faz.net: 167, + heise.de: 164), dafür allerdings viele große Bildern beinhaltet + (netzpolitik.org: 11, faz.net: 3, heise.de: 0)<note type="footnote"> Dies liegt + allerdings bei heise.de nur daran, dass viele der Bilder nur ganz knapp an + der Grenze für große Bilder (700px) gescheitert sind. </note>, was die Seite + zusammen mit der Anordnung der News in nur einer Spalte deutlich aufgeräumter + wirken lässt.<note type="footnote"> Die absoluten Werte der Features für das + hier verwendete Webseiten-Sample können in der CSV-Datei + ›data_abs_values.csv‹ im GitHub Repository nachvollzogen werden, vgl. + <ref type="bibliography" target="#jurczyk_zfdg_2021">Jurczyk 2021a</ref>.</note> Der zweite <hi rend="italic">outlier</hi> ist die + amerikanische News-Webseite nytimes.com. Diese fällt in eine gesonderte + Kategorie, weil nytimes.com als einzige der hier aufgeführten News-Webseiten + direkt abgespielte Videos auf der Startseite eingebaut hat, die sie in der Tat + aus multimodaler Perspektive von den anderen Seiten abhebt.</p> + <p>Cluster 2 enthält vor allem Webseiten vom Typ ›Image‹, die ebenfalls aus + verschiedenen gesellschaftlichen Bereichen stammen, wobei der Bereich der + ›Ökonomie‹ (ECO) dominiert. Ein Blick auf die Werte der Features zeigt, dass im + Falle die Webseiten vom Type ›Image‹ vor allem das Verhältnis zwischen großen + Bildern und der Anzahl der Gesamtbilder deutlich größer und umgekehrt das + Verhältnis zwischen kleinen Bildern und der Gesamtzahl der Bilder deutlich + kleiner ist als im Falle von Cluster 1. Auch unterscheiden sich die Webseiten + in Cluster 1 und Cluster 2 hinsichtlich ihrer Textmenge und Anzahl der + Überschriften.</p> + <p>Zusammenfassend kann festgehalten werden, dass der Einbezug aller Features + bereits in ersten sinnvollen Clusterbildungen des multimodalen Arrangements + mündet, die insbesondere mit dem Typ der Webseiten korrelieren und unter + anderem zwischen Webseiten mit (wenigen) großen Bildern (imageorientierte + Webseiten) und Webseiten mit (vielen) kleineren Bildern und einer größeren + Textmenge (newsorientierte Webseiten) unterscheiden. </p></div> + <div type="subchapter"> + <head>4.2.2 Bild- und Video-Features</head> + <figure> + <graphic xml:id="multimodalitaet_2021_002" + url=".../medien/multimodalitaet_2021_002.png"> + <desc> + <ref type="intern" target="#abb2">Abb. 2</ref>: ›Elbow-Plot‹ der Bilder- und + Video-Feature Auswahl. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_002"/> + </desc> + </graphic> + </figure> + <p>Im Falle der Bild- und Video-Feature-Auswahl wird im ›Elbow-Plot‹ deutlich, + dass sich eine Clusteranzahl von k=6 für die Analyse anbietet. Ein + durchgeführtes k-Means-Clustering mit k=6 Clustern ergibt die folgende + Einteilung des Webseiten-Samples:</p> + <table xml:id="multimodalitaet_2021_t4"> + <row> + <cell> + <hi rend="bold">URL</hi> + </cell> + <cell> + <hi rend="bold">Cluster</hi> + </cell> + <cell> + <hi rend="bold">Domäne</hi> + </cell> + <cell> + <hi rend="bold">Typ</hi> + </cell> + </row> + <row> + <cell>de.ign.com</cell> + <cell>0</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>ruhr-uni-bochum.de</cell> + <cell>1</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>fdp.de</cell> + <cell>1</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>adidas.com</cell> + <cell>1</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>ekd.de</cell> + <cell>1</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>faz.net</cell> + <cell>1</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>gamestar.de</cell> + <cell>1</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>heise.de</cell> + <cell>1</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>katholisch.de</cell> + <cell>1</cell> + <cell>REL</cell> + <cell>News</cell> + </row> + <row> + <cell>cdu.de</cell> + <cell>1</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>lufthansa.com</cell> + <cell>1</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>spd.de</cell> + <cell>1</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>netzpolitik.org</cell> + <cell>1</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>uni-bielefeld.de</cell> + <cell>2</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>nike.com</cell> + <cell>2</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>volkswagen.de</cell> + <cell>2</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>ditib.de</cell> + <cell>3</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>marginalie.hypotheses.org</cell> + <cell>3</cell> + <cell>UNI</cell> + <cell>News</cell> + </row> + <row> + <cell>prosieben.de</cell> + <cell>4</cell> + <cell>ENT</cell> + <cell>Image</cell> + </row> + <row> + <cell>nytimes.com</cell> + <cell>5</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <trailer><ref type="intern" target="#tab4">Tab. 4</ref>: Tabelle mit farblich markiertem k-Means + Clustering des Webseiten-Samples unter Einbezug der Bild- und + Video-Features. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t4"/></trailer> + </table> + <p>Die Analyse basierend auf den Bild- und Video-Features ist in Bezug auf die + Domänen und Webseiten-Typen deutlich schwieriger zu interpretieren als im Falle + der Inklusion aller Features. Ein Blick auf die Werte der Features in der + Tabelle ›data_abs_values.csv‹ macht deutlich, dass die Cluster vor allem aus + der unterschiedlichen Verteilung von großen (Cluster 2), mittleren (Cluster 1) + und sehr kleinen (Cluster 0) Bildern innerhalb des Webseiten-Samples + resultieren. Hinzu kommt die unterschiedliche Verwendung von Videos. Durch die + nur sehr geringe und optisch kaum wahrnehmbare Differenz zwischen mittleren + Bildern, die oft nur knapp unter 700px groß sind (heise.de), und großen + Bildern, die teils nur knapp über 700px groß sind (netzpolitik.org), ist ein + Clustering auf Basis dieser Daten zumindest im Kontext dieses Webseiten-Samples + kaum geeignet, um das multimodale Arrangement der Webseiten zu klassifizieren. + Hinzu kommen <hi rend="italic">outlier</hi> wie prosieben.de. Diese + unterscheidet sich optisch nur geringfügig von anderen News-Webseiten, die + Klassifizierung in einem separaten Cluster erfolgt in diesem Falle aufgrund der + ausgiebigen Nutzung von Hintergrundbildern, die allerdings in + <code><figure></code>-Tags verwendet werden und sich dort sowohl in + Sachen Größe als auch Erscheinungsbild kaum von regulären Bildern + unterscheiden. Dies weist erneut auf die angesprochene Schwierigkeit hin, + diverse und idealiter unbekannte Webseiten vollautomatisiert miteinander zu + vergleichen. </p> + <p>Insgesamt ist die Einschränkung der Features auf Bilder und Videos zwar + geeignet, eine allgemeine Einschätzung der Distribution von Elementen zu + erlangen, die durch ihre vielfache Verwendung und oftmals sehr präsente + Positionierung auf Webseiten eine wichtige Rolle während der multimodalen + Zeichengenerierung spielen, aber um sie als alleinige Merkmale für das + Clustering heranzuziehen, scheinen sie in ihrer diversen Verwendung zumindest + im derzeitigen Zustand des Programms ohne eine Ausarbeitung der + Bildklassifizierungsstrategien während der Datengenerierung nicht geeignet.</p></div> + <div type="subchapter"> + <head>4.2.3 Text-Features</head> + <figure> + <graphic xml:id="multimodalitaet_2021_003" + url=".../medien/multimodalitaet_2021_003.png"> + <desc> + <ref type="intern" target="#abb3">Abb. 3</ref>: ›Elbow-Plot‹ der + Text-Feature-Auswahl. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_003"/> + </desc> + </graphic> + </figure> + <p>Im Falle der Text-Features lässt sich der ›Elbow‹ bei k=3 oder k=4 Clustern + erkennen, wobei in diesem Beispiel k=4 Cluster ausgewählt wurden. Das + k-Means-Clustering mit k=4 Clustern resultiert in der folgenden Einteilung des + Webseiten-Samples:</p> + <table xml:id="multimodalitaet_2021_t5"> + <row> + <cell> + <hi rend="bold">URL</hi> + </cell> + <cell> + <hi rend="bold">Cluster</hi> + </cell> + <cell> + <hi rend="bold">Domäne</hi> + </cell> + <cell> + <hi rend="bold">Typ</hi> + </cell> + </row> + <row> + <cell>volkswagen.de</cell> + <cell>0</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>nike.com</cell> + <cell>0</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>katholisch.de</cell> + <cell>0</cell> + <cell>REL</cell> + <cell>News</cell> + </row> + <row> + <cell>gamestar.de</cell> + <cell>0</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>ekd.de</cell> + <cell>0</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>netzpolitik.org</cell> + <cell>0</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>marginalie.hypotheses.org</cell> + <cell>0</cell> + <cell>UNI</cell> + <cell>News</cell> + </row> + <row> + <cell>prosieben.de</cell> + <cell>1</cell> + <cell>ENT</cell> + <cell>Image</cell> + </row> + <row> + <cell>nytimes.com</cell> + <cell>1</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>faz.net</cell> + <cell>2</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>heise.de</cell> + <cell>2</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>de.ign.com</cell> + <cell>2</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>ruhr-uni-bochum.de</cell> + <cell>3</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>fdp.de</cell> + <cell>3</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>adidas.com</cell> + <cell>3</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>cdu.de</cell> + <cell>3</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>lufthansa.com</cell> + <cell>3</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>spd.de</cell> + <cell>3</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>uni-bielefeld.de</cell> + <cell>3</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>ditib.de</cell> + <cell>3</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <trailer><ref type="intern" target="#tab5">Tab. 5</ref>: Tabelle mit farblich markiertem k-Means + Clustering des Webseiten-Samples unter Einbezug der Text-Features. [Jurczyk + 2021]<ref type="graphic" target="#multimodalitaet_2021_t5"/></trailer> + </table> + + <p>Im Falle des Text-Clustering lassen sich eindeutige Trends erkennen, die vor + allem mit den Webseiten-Typen korrelieren (Cluster 1, Cluster 2 sowie Cluster + 3). Cluster 0 enthält Webseiten, die ungefähr in der Mitte liegen, was die + Textmenge und die Verwendung von Überschriften anbetrifft. Cluster 1 umfasst + Webseiten, die ebenfalls eine mittlere Menge an Text umfassen, aber einen + ausgiebigen Gebrauch von Überschriften machen. Besonders im Falle von + nytimes.com muss jedoch darauf aufmerksam gemacht werden, dass beispielsweise + die Verwendung von <code><h2></code>-Tags im unteren Bereich der Webseite + von der Darstellung her kaum von einem regulären Text zu unterscheiden ist, + weshalb nytimes.com eher in Cluster 2 einzuordnen ist.<note type="footnote"> + Siehe auch die Diskussion in <ref type="intern" target="#hd11">Kapitel + 4.2.2</ref> betreffs der Verwendung von Hintergrundbildern im Falle von + prosieben.de. Die hier vorhandene Verwendung von Überschriften-Tags, die + nicht wirklich als Überschriften deutlich werden, geht bezüglich ihrer + Problematik für die automatisierte multimodale Analyse von Webseiten in eine + ähnliche Richtung.</note> + </p> + <p>Cluster 2 enthält News-Webseiten, die eine große Anzahl an Wörtern und viele + Überschriften aufweisen und die damit als Idealtypen von News-Webseiten gelten + können. Cluster 3 hingegen enthält Webseiten (imageorientierte Webseiten nach + Meier), die im Vergleich zu den anderen Webseiten eine geringe Textmenge und + wenige Überschriften beinhalten.</p> + <p>Insgesamt kann das auf den Textmengen basierende Clustering als durchaus + sinnvoll angesehen werden, um den Typ einer Webseite zu klassifizieren. Auch + deuten die Unterschiede in der Verwendung von Text, trotz der offensichtlich + vorhandenen Schwierigkeiten (siehe nytimes.com), auch auf eine unterschiedliche + Verwendung eines wichtigen multimodalen Elements hin (Schrift und deren + verschiedentliche Verwendung, beispielsweise als Fließtext oder als + Überschrift).</p> + <p>Der letzte Analyseschritt führt die Text-Features mit den Video- und + Bild-Features zusammen. Im Gegensatz zum ersten Analyseschritt, der alle + Features einbezogen hat, werden im folgenden Schritt die Hyperlinks und die + Hintergrundbilder ignoriert, da letztere zumindest in diesem Webseiten-Sample + zu falschen Aussagen geführt haben (siehe <ref type="intern" target="#hd11" + >Kapitel 4.2.2</ref>, Diskussion um prosieben.de) und außerdem zu fragen + ist, inwieweit Hyperlinks einen Einfluss auf die Erstwahrnehmung der Sehfläche + einer Webseite haben, deren Analyse hier im Fokus steht.</p></div> + <div type="subchapter"> + <head>4.2.4 Text-, Video- und Bild-Features</head> + <figure> + <graphic xml:id="multimodalitaet_2021_004" + url=".../medien/multimodalitaet_2021_004.png"> + <desc> + <ref type="intern" target="#abb4">Abb. 4</ref>: ›Elbow-Plot‹ der Bild-, Video- und + Text-Feature-Auswahl. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_004"/> + </desc> + </graphic> + </figure> + <p>Im Falle einer Kombination der Text-, Bild- und Video-Features ist die Wahl der + Clusteranzahl auf Basis des ›Elbow-Plot‹ erneut schwierig und erinnert an die + Analyse unter Einbezug aller Features in <ref type="intern" target="#hd10" + >Kapitel 4.2.1</ref>. In diesem Falle habe ich mich dazu entschieden, das + k-Means-Clustering mit k=8 Clustern durchzuführen, da ein ›Elbow‹ innerhalb des + Plots nur schwer erkennbar ist. Die Einteilung der Webseiten des + Webseiten-Samples sieht mit k=8 Clustern wie folgt aus:</p> + <table xml:id="multimodalitaet_2021_t6"> + <row> + <cell> + <hi rend="bold">URL</hi> + </cell> + <cell> + <hi rend="bold">Cluster</hi> + </cell> + <cell> + <hi rend="bold">Domäne</hi> + </cell> + <cell> + <hi rend="bold">Typ</hi> + </cell> + </row> + <row> + <cell>nytimes.com</cell> + <cell>0</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>spd.de</cell> + <cell>1</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>volkswagen.de</cell> + <cell>1</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>uni-bielefeld.de</cell> + <cell>1</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>nike.com</cell> + <cell>1</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>cdu.de</cell> + <cell>1</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>ekd.de</cell> + <cell>2</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>gamestar.de</cell> + <cell>2</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>lufthansa.com</cell> + <cell>2</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <row> + <cell>heise.de</cell> + <cell>2</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>katholisch.de</cell> + <cell>2</cell> + <cell>REL</cell> + <cell>News</cell> + </row> + <row> + <cell>faz.net</cell> + <cell>2</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>netzpolitik.org</cell> + <cell>2</cell> + <cell>JOU</cell> + <cell>News</cell> + </row> + <row> + <cell>ditib.de</cell> + <cell>3</cell> + <cell>REL</cell> + <cell>Image</cell> + </row> + <row> + <cell>marginalie.hypotheses.org</cell> + <cell>3</cell> + <cell>UNI</cell> + <cell>News</cell> + </row> + <row> + <cell>prosieben.de</cell> + <cell>4</cell> + <cell>ENT</cell> + <cell>Image</cell> + </row> + <row> + <cell>ruhr-uni-bochum.de</cell> + <cell>5</cell> + <cell>UNI</cell> + <cell>Image</cell> + </row> + <row> + <cell>fdp.de</cell> + <cell>5</cell> + <cell>POL</cell> + <cell>Image</cell> + </row> + <row> + <cell>de.ign.com</cell> + <cell>6</cell> + <cell>ENT</cell> + <cell>News</cell> + </row> + <row> + <cell>adidas.com</cell> + <cell>7</cell> + <cell>ECO</cell> + <cell>Image</cell> + </row> + <trailer><ref type="intern" target="#tab6">Tab. 6</ref>: Tabelle mit farblich markiertem k-Means + Clustering des Webseiten-Samples unter Einbezug der Bild-, Video- und + Text-Features. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t6"/></trailer> + </table> + <p>Das hier ersichtliche feingliedrige Clustering zeichnet ein realistisches Bild + der multimodalen Struktur der im Webseiten-Sample enthaltenen Webseiten. + Besonders hervorzuheben sind Cluster 1 und Cluster 2.</p> + <p>Cluster 1 kann als ›Werbe-Cluster‹ bezeichnet werden, da es ausschließlich + Webseiten vom Typ ›Image‹ enthält, die sich durch eine relativ geringe + Textmenge und eine geringe Anzahl an Bildern auszeichnen, die dafür aber meist + sehr groß sind. Die Ersteindruck der Seiten erinnert damit an Werbeplakate oder + Reklame in gedruckten Magazinen.<note type="footnote"> <ref type="bibliography" target="#meer_einfuehhrung_2019">Meer / Pick 2019</ref>, S. + 65–68.</note> Die Seite adidas.de (Cluster 7) fällt nur deshalb aus diesem + Cluster heraus, weil sie ein (sehr großes) Video auf der Startseite platziert + hat, und damit ein anderes multimodales Arrangement aufweist. Ein + vergleichender Blick auf zwei Webseiten aus Cluster 1 (spd.de und + volkswagen.de) unterstreicht die Kohärenz des Clustering in Bezug auf deren + multimodale Struktur und den Ersteindruck beim Öffnen der Webseiten. Beide + Webseiten werden eindeutig von großen Bildern und wenig Text, der eher den + Bildern zuzuarbeiten scheint, dominiert.<note type="footnote"> Die folgende + Auswahl zeigt immer nur zwei Screenshot-Beispiele pro Cluster. Die + restlichen Screenshots finden sich im GitHub Repository. Die Webseiten aus + den einzelnen Clustern wurden mit einer sehr geringen Zoomstufe (50 %) + vorgenommen, um so einen besseren Eindruck von dem gesamten Aufbau der + Webseite zu erhalten. Dies ist beispielsweise im Falle von ign.com wichtig, + da sich der Kopfbereich kaum von dem anderer Nachrichtenseiten + unterscheidet. Sobald aber gescrollt wird, werden die Unterschiede deutlich, + die hier in der sehr großen Anzahl kleiner Bilder gepaart mit kurzen + Teaser-Texten liegen, die in nur einer Spalte angelegt sind. Die Screenshots + der Webseiten wurden am 17.02.2021 erstellt (und damit einige Tage nach + Initialisierung des Corpus).</note> + </p> + <figure> + <graphic xml:id="multimodalitaet_2021_005" + url=".../medien/multimodalitaet_2021_005.png"> + <desc> + <ref type="intern" target="#abb5">Abb. 5</ref>: Ansicht Startseite spd.de (Zoom-Stufe + 50 %, 17.02.2021). [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_005"/> + </desc> + </graphic> + </figure> + <figure> + <graphic xml:id="multimodalitaet_2021_006" + url=".../medien/multimodalitaet_2021_006.png"> + <desc> + <ref type="intern" target="#abb6">Abb. 6</ref>: Ansicht Startseite volkswagen.de + (Zoom-Stufe 50 %, 17.02.2021). [Jurczyk 2021] <ref type="graphic" + target="#multimodalitaet_2021_006"/> + </desc> + </graphic> + </figure> + <p>Cluster 2 umfasst Webseiten mit, im Vergleich zu Cluster 1, viel Text, der + außerdem durch zahlreiche Überschriften unterteilt wird. Webseiten in Cluster 2 + enthalten darüber hinaus relativ viele Bilder. Cluster 2 steht damit + idealtypisch für News-Webseiten. Die Strukturähnlichkeiten der Webseiten dieses + Clusters lassen sich erneut durch einen manuellen Nachvollzug des Ersteindrucks + der Webseiten bestätigen, der sich deutlich von dem der Webseiten in Cluster 1 + unterscheidet. Als Beispiele für Cluster 2 wurden die Webseiten faz.net und + katholisch.de ausgewählt.</p> + <figure> + <graphic xml:id="multimodalitaet_2021_007" + url=".../medien/multimodalitaet_2021_007.png"> + <desc> + <ref type="intern" target="#abb7">Abb. 7</ref>: Ansicht Startseite faz.de (Zoom-Stufe + 50 %, 17.02.2021). [Jurczyk 2021] <ref type="graphic" + target="#multimodalitaet_2021_007"/> + </desc> + </graphic> + </figure> + <figure> + <graphic xml:id="multimodalitaet_2021_008" + url=".../medien/multimodalitaet_2021_008.png"> + <desc> + <ref type="intern" target="#abb8">Abb. 8</ref>: Ansicht Startseite katholisch.de + (Zoom-Stufe 50 %, 17.02.2021). [Jurczyk 2021] <ref type="graphic" + target="#multimodalitaet_2021_008"/> + </desc> + </graphic> + </figure> + <p>Dass in Cluster 2 auch zwei Webseiten vom Typ ›Image‹ erscheinen, zeigt, dass + sich auch imageorientierte Webseiten durchaus als Newsportale multimodal + strukturieren können, was beispielhaft an der Webseite ekd.de deutlich wird. + Die Webseite ekd.de orientiert sich ebenfalls in Form klassischer + Artikelstrukturen (Teaser-Text kombiniert mit kleinen bis mittleren + Teaser-Bildern im Kachelformat) an den News-Webseiten, allerdings überwiegt in + der thematischen Ausrichtung der Hauptseite im Gegensatz zu bspw. katholisch.de + noch die allgemeine Funktion eines digitalen Informationsportals der EKD, das + nicht primär auf tagesaktuelle Geschehnisse ausgerichtet ist. Dahingegen ist + katholisch.de zwar ebenfalls eine kirchlich orientierte Webseite, versteht sich + aber laut Impressum ausdrücklich als News-Webseite, die Neuigkeiten aus dem + Bereich der Katholischen Kirche berichtet bzw. in den Vordergrund stellt. + Dennoch bleibt die Einteilung bezüglich des Webseiten-Typs in diesem Falle + problematisch, und das gemeinsame Erscheinen von sowohl ekd.de als auch + katholisch.de in einem News-orientierten Cluster weist darauf hin, dass beide + Seiten in ihrer multimodalen Struktur mehr Gemeinsamkeiten als Unterschiede + aufweisen, weshalb die Einteilung in unterschiedliche Webseiten-Typen noch + einmal zu überdenken wäre (was durchaus als positives bzw. erkenntnisförderndes + Ergebnis des Clusterings zu werten ist).</p> + <p>Die Webseite nytimes.com fällt aufgrund eines zentral eingebundenen, wenn auch + relativ klein ausfallenden Videos aus diesem Cluster heraus (und bildet mit + Cluster 0 in Bezug auf die multimodale Struktur überzeugend ein separates + Cluster). </p> + <p>Besonders hervorzuheben ist außerdem das Cluster 3, das mit der Seite + marginalien.hypothesis.org und ditib.de zwei Webseiten enthält, die + gewissermaßen Außenseiter innerhalb des Webseiten-Samples darstellen.<note + type="footnote"> Diese beiden Webseiten sind auch in den vorangegangenen + k-Means-Clustering Verfahren mit anderen Feature-Selektionen häufig als + Cluster aufgetreten.</note> Die Webseite marginalien.hypothesis.org + repräsentiert einen klassischen Blog, der nur wenige Bilder, dafür aber relativ + viel Text enthält, und sich entsprechend von sowohl den imageorientierten + Webseiten in Cluster 1 und den News-Webseiten in Cluster 2 absetzt. Die Seite + ditib.de ist spartanisch gehalten, insbesondere was ihre Größe anbetrifft – so + handelt es sich um die einzige Webseite des Samples, bei der von den User*innen + nicht gescrollt werden muss, um das Ende der Seite zu erreichen.</p> + </div> + <div type="chapter"> + <head>5. Fazit</head> + <p>Dieser Artikel hat es sich zur Aufgabe gemacht, ein (teil-)automatisiertes + Verfahren zur Analyse des multimodalen Arrangements von Webseiten vorzustellen, + anzuwenden und kritisch zu diskutieren. Im Fokus stand dabei die erste + Wahrnehmungsebene der multimodalen Struktur der Webseiten, die während des + initialen Aufrufs der Webseiten eine zentrale Rolle spielt (erste + Wahrnehmungsebene der Sehfläche). Im Zentrum stand dabei die Analyse der Video-, + Bild-, Hyperlink- und Textelemente der Webseiten, die anhand eines in Python + geschriebenen Programms gesammelt, verarbeitet und schließlich mit Hilfe eines + k-Means-Clustering analysiert wurden.</p> + <p>Die Analyse in <ref type="intern" target="#hd7">Kapitel 4</ref> hat gezeigt, dass + unterschiedliche Selektionen von Features zu unterschiedlichen Clusterbildungen + des Webseiten-Samples führen, die sich gegenseitig ergänzen. Als besonders + geeignet für die Analyse des multimodalen Arrangements hat sich eine Kombination + aus Video-, Bild- und Text-Features (<ref type="intern" target="#hd13">Kapitel + 4.2.4</ref>) herausgestellt, die anhand von acht Clustern überzeugend in der + Lage war, den Testdatensatz auf Basis des multimodalen Erscheinungsbildes der + Webseiten zu strukturieren. Dies macht Hoffnung für die Möglichkeit eines + zukünftigen Ausbaus und einer Weiterführung der hier vorgeschlagenen Methode, die + dazu dienen könnte, deutlich größere Webseiten-Samples vorzustrukturieren, um so + unter anderem eine gezieltere qualitative Analyse ihrer Multimodalität zu + ermöglichen, die durch das hier aufgezeigte quantitative Verfahren keineswegs + ersetzt, sondern lediglich ergänzt und vereinfacht werden soll.</p> + <p>Neben der Vorstellung dieses (teil-)automatisierten Verfahrens hat es sich dieser + Artikel ebenfalls zur Aufgabe gemacht zu fragen, inwieweit die auf Basis der + multimodalen Features gruppierten Webseiten Hinweise auf mögliche Domänen-Cluster + liefern beziehungsweise inwieweit die von Meier vorgeschlagenen Webseiten-Typen + mit den gefundenen Clustern korrelieren.</p> + <p>Insbesondere in Bezug auf die letztgenannten Webseiten-Typen kann nach + Durchführung der Analyse gesagt werden, dass entsprechende Parallelen erkennbar + waren, obwohl einschränkend hinzugefügt werden muss, dass sich dieser Artikel + lediglich auf zwei der vier von Meier vorgeschlagenen Typen beschränkt hat. So + korrelierten verschiedene Cluster (wie in <ref type="intern" target="#hd13">Kapitel + 4.2.4</ref>) mit Meiers News- oder Image-Typen, wobei das hier vorgeschlagene + Analyseverfahren dazu in der Lage war, innerhalb der jeweiligen Webseiten-Typen + noch einmal feiner zu unterscheiden (beispielsweise, ob News-Webseiten Videos + eingebunden hatten). Dabei traten Überlappungen auf, indem auch imageorientierte + Webseiten (ekd.de) die multimodale Form einer News-Webseite annehmen können.</p> + <p>Keine Korrelation wurde hingegen zwischen den Clustern der multimodalen Analyse + und den gesellschaftlichen Domänen ersichtlich, aus denen die jeweiligen Webseiten + stammen. Vielmehr wurde deutlich, dass sich Webseiten aus verschiedenen + gesellschaftlichen Bereichen durchaus auf ein ›gemeinsames‹ multimodales + Arrangement einigen können, was im Falle des hier vorliegenden Webseiten-Samples + besonders an den Domänen <term type="figure">Politik</term>, <term type="figure" + >Wirtschaft</term> und <term type="figure">Universität</term> (sowie teilweise + <term type="figure">Religion</term> und journalistische Webseiten) deutlich + wurde, die allesamt eine ähnliche multimodale Struktur aufweisen. Somit scheint es + zumindest in Bezug auf das multimodale Arrangement erst einmal keine von der + Semantik der einzelnen modes unabhängige übergreifende Semantik zu geben, die aus + der Struktur der Seiten resultiert und die beispielsweise einen spezifischen + politischen oder religiösen Wert hätte. Vielmehr orientiert sich der Gebrauch + multimodaler Elemente und deren Arrangement aus Sicht der Domänen an der + intendierten Wirkung der Webseite, die sich gut anhand der von Meier + vorgeschlagenen Kategorien klassifizieren lässt. So können beispielsweise + religiöse Webseiten sowohl als News-Webseiten (katholisch.de) oder auch als + imageorientierte Seiten (ditib.de) mit unterschiedlichsten multimodalen + Arrangements auftreten. Dasselbe gilt für die Domäne der <term type="figure" + >Universität</term>, die sowohl als professionell gestaltete imageorientierte + Webseiten oder aber in Form eines Blogs (marginalien.hypothesis.de) in Erscheinung + treten kann.</p> + + </div> + </div> + <div> + <div type="bibliography"> + <head>Bibliographische Angaben</head> + <listBibl> + <bibl xml:id="freudenberg_representations_2021">Maren Freudenberg / Dunja Sharbat Dar: Popular Cultural Representations of + Femininity in the International Christian Fellowship: An Analysis of the + »Ladies Lounge 2021« Webpage. In: Zeitschrift für Religion, Gesellschaft und + Politik. [im Erscheinen] <ptr type="gbv" cRef="868314412"/></bibl> + <bibl xml:id="geron_learning_2019">Aurélien Géron: Hands-on machine learning with Scikit-Learn, Keras, and + TensorFlow. Concepts, tools, and techniques to build intelligent systems. + Beijing u. a. 2019. <ptr type="gbv" cRef="1039858198"/></bibl> + <bibl xml:id="idmi_analysis_2013">Multimodal Analysis Lab. Hg. von Interactive & Digital Media Institute + (IDMI). 2013. [<ref target="http://multimodal-analysis-lab.org/" + >online</ref>]</bibl> + <bibl xml:id="jewitt_handbook_2017">The Routledge handbook of multimodal analysis. Hg. von Carey Jewitt. 2. + Auflage. London u. a. 2017. (= Routledge handbooks) <ptr type="gbv" cRef="873110331"/></bibl> + <bibl xml:id="jurczyk_zfdg_2021">Thomas Jurczyk (2021a): ZfdG Website Scraper. In: GitHub. 22.02.2021. [<ref + target="https://github.com/thomjur/zfdg_website_scraper">online</ref>] </bibl> + <bibl xml:id="jurczyk_clustering_2021">Thomas Jurczyk (2021b): Clustering with Scikit-Learn in Python. In: The + Programming Historian (2021). [im Erscheinen]</bibl> + <bibl xml:id="kress_mode_2017">Gunther Rolf Kress: What is mode? In: The Routledge handbook of multimodal + analysis. Hg. von Carey Jewitt. 2. Auflage. London u. a. 2017, S. 60–76. (= + Routledge handbooks) <ptr type="gbv" cRef="873110331"/></bibl> + <bibl xml:id="lyons_multimodality_2016">Agnieszka Lyons: Multimodality. In: Research Methods in Intercultural + Communication. Hg. von Zhu Hua. Wiley-Blackwell, NJ 2016, S. 268–280. + Siehe auch <ptr type="gbv" cRef="833446169"/></bibl> + <bibl xml:id="meer_einfuehrung_2019">Dorothee Meer / Ina Pick: Einführung in die Angewandte Linguistik. + Gespräche, Texte, Medienformate analysieren. Stuttgart 2019. <ptr type="gbv" cRef="166688314X"/></bibl> + <bibl xml:id="meier_websites_2016">Stefan Meier: Websites als multimodale digitale Texte. In: Handbuch Sprache + im multimodalen Kontext. Hg. von Hartmut Stöckl / Nina-Maria Klug. Berlin u. a. + 2016, S. 410–436. (= Handbücher Sprachwissen, 7) <ptr type="gbv" cRef="86788794X"/></bibl> + <bibl xml:id="ohalloran_discipline_2020">Kay O’Halloran / Sabine Tan / Peter Wignell / Rui Wang / Kevin Chai / + Rebecca Lange: Towards a Discipline of Multimodality: Parallels to Mathematics + and Linguistics and New Ways Forward. In: Multimodality. Disciplinary Thoughts + and the Challenge of Diversity. Hg. von Janina Wildfeuer. 1. Auflage. Boston MA + 2020, S. 93–112. <ptr type="gbv" cRef="102676919"/></bibl> + <bibl xml:id="ohalloran_analytics_2017">Kay L. O'Halloran / Marissa K. L. E / Sabine Tan: Multimodal analytics. + Software and visualization techniques for analyzing and interpreting multimodal + data. In: The Routledge handbook of multimodal analysis. Hg. von Carey Jewitt. + 2. Auflage. London u. a. 2017, S. 386–396. (= Routledge handbooks) + <ptr type="gbv" cRef="873110331"/></bibl> + <bibl xml:id="selenium_browser_2021">SeleniumHQ Browser Automation. In: selenium.dev. Hg. von Software Freedom Conservancy. 2004-2021. [<ref target="https://www.selenium.dev/" + >online</ref>]</bibl> + <bibl xml:id="sklearn_preprocessing_2007">Sklearn.preprocessing. StandardScaler. In: scikit learn.org. Hg. von scikit-learn developers. 2007-2021. [<ref + target="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html" + >online</ref>]</bibl> + <bibl xml:id="stoeckl_sprache_2011">Hartmut Stöckl: Sprache-Bild-Texte lesen. Bausteine zur Methodik einer + Grundkompetenz. In: Bildlinguistik. Theorien - Methoden - Fallbeispiele. Hg. + von Hans-Joachim Diekmannshenke / Michael Klemm / Hartmut Stöckl. Berlin 2011, + S. 45–70. (= Philologische Studien und Quellen, 228) <ptr type="gbv" cRef="638409357"/></bibl> + <bibl xml:id="stoeckl_multimodalitaet_2016">Hartmut Stöckl: Multimodalität. Semiotische und textlinguistische + Grundlagen. In: Handbuch Sprache im multimodalen Kontext. Hg. von Hartmut + Stöckl / Nina-Maria Klug. Berlin u. a. 2016, S. 3–35. (= Handbücher + Sprachwissen, 7) <ptr type="gbv" cRef="86788794X"/></bibl> + <bibl xml:id="wignell_language_2021">Peter Wignell / Kevin Chai / Sabine Tan / Kay O’Halloran / Rebecca Lange: + Natural Language Understanding and Multimodal Discourse Analysis for + Interpreting Extremist Communications and the Re-Use of These Materials Online. + In: Terrorism and Political Violence 33 (2021), H. 1, S. 71–95. + <ptr type="gbv" cRef="170144887"/></bibl> + </listBibl> + </div> + <div type="abbildungsnachweis"> + <head>Abbildungslegenden und -nachweise</head> + + <desc type="graphic" xml:id="tab1"><ref type="intern" target="#multimodalitaet_2021_t1">Tab. 1</ref>: Beispiel + eines Eintrags einer Webseite in der Datei ›websites.csv‹. [Jurczyk 2021]<ref + type="graphic" target="#multimodalitaet_2021_t1"/></desc> + <desc type="graphic" xml:id="tab2"><ref type="intern" target="#multimodalitaet_2021_t2">Tab. 2</ref>: Das zu + untersuchende Webseiten-Sample. katholisch.de wurde als News-Webseite + charakterisiert, da es sich der eigenen Ausrichtung nach um eine (katholische) + Nachrichtenseite handelt. Siehe für diese + problematische Einteilung auch das <ref type="intern" target="#hd13" + >Kapitel 4.2.4</ref>). [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t2"/></desc> + <desc type="graphic" xml:id="abb1">Elbow-Plot der vollständigen Feature-Auswahl. + [Jurczyk 2021]<ref type="graphic" target="#multimodalitaet_2021_001"/></desc> + <desc type="graphic" xml:id="tab3"><ref type="intern" target="#multimodalitaet_2021_t3">Tab. 3</ref>: Tabelle mit + farblich markiertem k-Means Clustering des Webseiten-Samples unter Einbezug + aller Features. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t3"/></desc> + <desc type="graphic" xml:id="abb2">›Elbow-Plot‹ der Bilder- und Video-Feature + Auswahl. [Jurczyk 2021]<ref type="graphic" target="#multimodalitaet_2021_002" + /></desc> + <desc type="graphic" xml:id="tab4"><ref type="intern" target="#multimodalitaet_2021_t4">Tab. 4</ref>: Tabelle mit + farblich markiertem k-Means Clustering des Webseiten-Samples unter Einbezug der + Bild- und Video-Features. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t4"/></desc> + <desc type="graphic" xml:id="abb3">Elbow-Plot der Text-Feature Auswahl. [Jurczyk + 2021]<ref type="graphic" target="#multimodalitaet_2021_003"/></desc> + <desc type="graphic" xml:id="tab5"><ref type="intern" target="#multimodalitaet_2021_t5">Tab. 5</ref>: Tabelle mit + farblich markiertem k-Means Clustering des Webseiten-Samples unter Einbezug der + Text-Features. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t5"/></desc> + <desc type="graphic" xml:id="abb4">›Elbow-Plot‹ der Bild-, Video- und + Text-Feature-Auswahl. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_004"/></desc> + <desc type="graphic" xml:id="tab6"><ref type="intern" target="#multimodalitaet_2021_t6">Tab. 6</ref>: Tabelle mit + farblich markiertem k-Means Clustering des Webseiten-Samples unter Einbezug der + Bild-, Video- und Text-Features. [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_t6"/></desc> + <desc type="graphic" xml:id="abb5">Ansicht Startseite spd.de (Zoom-Stufe 50 %, + 17.02.2021). [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_005"/></desc> + <desc type="graphic" xml:id="abb6">Ansicht Startseite volkswagen.de (Zoom-Stufe + 50 %, 17.02.2021). [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_006"/></desc> + <desc type="graphic" xml:id="abb7">Ansicht Startseite faz.de (Zoom-Stufe 50 %, + 17.02.2021). [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_007"/></desc> + <desc type="graphic" xml:id="abb8">Ansicht Startseite katholisch.de (Zoom-Stufe + 50 %, 17.02.2021). [Jurczyk 2021]<ref type="graphic" + target="#multimodalitaet_2021_008"/></desc> + </div> + </div> + </div> + </body> + </text> +</TEI>