Web-Mining und dessen Einsatzmöglichkeiten im modernen Unternehmen

Leja, Steffen

Blick ins Buch

Web-Mining und dessen Einsatzmöglichkeiten im modernen Unternehmen

Diplomarbeit, 2003, 174 Seiten

Medien / Kommunikation - Medienökonomie, -management

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Abkürzungsverzeichnis

1 Einführung
1.1 Problemstellung
1.2 Ziel und Vorgehensweise

2 Grundlagen
2.1 Web Mining
2.1.1 Richtungen des Web Mining
2.1.2 Web Mining-Prozess
2.2 Das World Wide Web als Internetdienst
2.3 Die Kommunikationssituation im World Wide Web
2.4 Das Hypertext Transfer Protocol (HTTP)

3 Datengewinnung
3.1 Quellen und Techniken der Rohdatengewinnung
3.1.1 Datensammlung mittels Electronic Mail
3.1.2 Datensammlung auf Server-Ebene
3.1.2.1 Web-Server-Logfiles
3.1.2.2 Server-Monitore/ Server-Plugins
3.1.2.3 URL Rewriting
3.1.2.4 Umgebungsvariablen
3.1.2.5 Web Bugs (Pixel-Technologie )
3.1.2.6 Application Monitore
3.1.2.7 Netzwerk-Monitore/ Packet Sniffer
3.1.2.8 Reverse Proxy Monitore
3.1.3 Datensammlung auf Client-Ebene
3.1.3.1 Cookies
3.1.3.2 Remote Agents
3.1.3.3 Modifizierte Browser
3.1.4 Datensammlung mittels Webformulare
3.2 Einbeziehung von Zusatzinformationen

4 Datenhaltung: Datei- vs. Datenbankbasierte Realisierungsansätze

5 Datenaufbereitung und Datenanalyse
5.1 Aggregationsstufen von Web-Daten
5.2 Probleme der Datenanalyse
5.2.1 Caching / Mirroring
5.2.2 Besucheridentifizierung
5.2.3 Besuchsabgrenzung
5.2.4 Kooperation des Anwenders
5.2.5 Datenschutz
5.3 Ansätze zur Lösung der Datenanalyseprobleme
5.3.1 Technische Erweiterungen
5.3.2 Datenaufbereitungsmöglichkeiten
5.3.2.1 Data Cleaning
5.3.2.2 Heuristiken zur User- und Session-Identifikation
5.4 Entdeckung von Mustern
5.4.1 Statistische Analysen
5.4.2 OnLine Analytical Processing (OLAP)
5.4.3 Assoziations- und Sequenzanalyse
5.4.4 Klassifikation und Prognose
5.4.5 Segmentierung
5.4.6 Kausale Netze

6 Datenverwendung:
6.1 Allgemeiner Überblick
6.2 Web Controlling
6.2.1 Online-Kennzahlen als ideelles Controlling-Instrument
6.2.2 Die Web Scorecard
6.2.3 IT- Unterstützung als reales Controlling-Instrument

7 Zusammenfassung und Ausblick

Literaturverzeichnis

Anlage A

Anlage B

Anlage

Abbildungsverzeichnis

Abb. 1: Vorgehensweise

Abb. 2: Mögliche Unterteilungen des Web Mining

Abb. 3: Ablauf des Web Mining

Abb. 4: Web Mining-Prozess

Abb. 5: Web Log Mining-Prozess

Abb. 6: OSI-Referenzmodell

Abb. 7: Funktionsweise eines Routers/Gateways

Abb. 8: Funktionsweise eines Proxies

Abb. 9: Zusammenfassende Darstellung der TCP/IP-Protokollfamilie

Abb. 10: HTTP-Anfrage und –Antwort-Verhalten

Abb. 11: HTTP-Anfragenachricht

Abb. 12: HTTP-Antwortnachricht

Abb. 13: Überblick der verschiedenen Quellen

Abb. 14: Konzept der serverseitigen Protokollaufzeichnung

Abb. 15: Attribute der Protokolldateien

Abb. 16: Combined-Logfile-Format

Abb. 17: Stern-Schema der Protokolldaten

Abb. 18: Die gebräuchlichsten Logfile-Formate

Abb. 19: Server-Monitor (Server-Plugin)

Abb. 20: Funktionsweise von Web Bugs

Abb. 21: Netzwerk-Monitor (Packet Sniffer)

Abb. 22: Reverse Proxy Monitor (Filter Software)

Abb. 23: Typische Informationen eines Cookies

Abb. 24: Quellcode der HTML-Seiten

Abb. 25: Tracking-Mechanismus

Abb. 26: Beispiele für Benutzerprofile

Abb. 27: Überblick website-interner Datenquellen

Abb. 28: Klassifizierung der Datenquellen

Abb. 29: Aggregationsstufen von Logfile-Daten

Abb. 30: Funktionsweise des Caching

Abb. 31: Funktionsweise eines Proxy-Servers mit integriertem Cache

Abb. 32: Technische Erweiterungen und deren Nutzen

Abb. 33: User-Identifikationsmethoden

Abb. 34: Datenmodell nach Stöhr

Abb. 35: Slicing – Reduktion der Dimensionalität

Abb. 36: Dicing – Herausschneiden eines Unterwürfels

Abb. 37: Verweisintegration komplementärer Informationsangebote

Abb. 38: Klassifikationsverfahren des Data Mining

Abb. 39: Zuordnung der Attribute zu den Klassifizierungskriterien

Abb. 40: Klassifikation von Sessions nach dem Kriterium der Verweildauer

Abb. 41: Segmentierungsverfahren des Data Mining

Abb. 42: Segmentierung auf der Basis verhaltensorientierter und technografischer Kriterien.

Abb. 43: Wichtige Anwendungsgebiete des Web Mining

Abb. 44: Wirkungsmodell der Marketing-Kommunikation im Internet

Abb. 45: Erweitertes Modell des Kundenlebenszykluses

Abb. 46: Überblick der verschiedenen Systematisierungen von Online-Kennzahlen

Abb. 47: Die vier Perspektiven der Web Scorecard

Abb. 48: Zusammenhang zwischen Datenquellen und Anwendungssystemen

Abb. 49: Mögliche E-Intelligence-Architektur.

Abb. 50: Auswahl der wichtigsten Anbieter

Abb. 51: Architektur und Ablaufprozess der Logfile-Analyse XXXIX

Abb. 52: Zusammenspiel der beiden Programme Analog und Report Magic XL

Abb. 53: Ausschnitt aus einer beliebigen Batch-Datei XLI

Abb. 54: Ausschnitt aus einer beliebigen CFG-Datei XLII

Abb. 55: Ausschnitt aus der CFG-Datei für die Vergabe von Aliasnamen XLIII

Abb. 56: Aufbau der HTML-Berichtsstruktur XLIV

Abb. 57: Ausschnitt aus einer INI-Datei XLV

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einführung

1.1 Problemstellung

Das Internet entpuppte sich in den letzten Jahren als wahre Revolution. Keine andere Technologie, auch nicht Telefon oder Fernsehen, hatte zuvor derart schnell Einzug in die private und berufliche Sphäre gehalten wie das World Wide Web (WWW)^[1]. E-Commerce und E-Business waren die dominierenden Managementthemen. Es wurden immense Investitionen in den Aufbau, die Optimierung und die interne Integration des neuen Mediums investiert. Durch die Angst getrieben, am großen, gewinnversprechenden Kuchen des E-Business nicht teilzuhaben, stürzten sich viele Unternehmen nach dem Motto „Dabei sein ist alles“ in die Welt des WWW. Wie sich in der Vergangenheit gezeigt hat, konnten die überzogenen Erwartungen nicht erfüllt werden. Negative Schlagzeilen über erfolglose bzw. gescheiterte Online-Projekte oder ganzer „Dot-com“-Unternehmen haben die E-Commerce-Euphorie relativiert. Exemplarisch sind an dieser Stelle nur die Insolvenzverfahren der Internet- und Mediaagentur Popnet, der Internetdienstleister Exodus und Ision oder des Internetportals Sportgate von Boris Becker zu nennen^[2]. Auch in den Führungsetagen herrscht wieder eine größere Vorsicht. Die Einsicht, dass auch Internetaktivitäten eine Strategie und davon abgeleitet auch Instrumente der Steuerung und Kontrolle benötigen, setzt sich nun langsam durch^[3]. Gerade hier liegt das große Unterstützungspotential des Web Mining.

Noch nie konnten Verantwortungsträger ihre Entscheidungen anhand solch detaillierter und umfangreicher Informationen treffen wie heute. Dies betrifft keineswegs nur Daten auf technischer Ebene. Auch Marketing, Vertrieb und Controlling beginnen inzwischen, das große Potenzial der internetbezogenen Datenquellen für sich zu entdecken^[4]. Online-Kunden hinterlassen wissentlich oder unwissentlich eine große Anzahl digitaler Spuren bei ihrem virtuellen Besuch des Unternehmens. Viele dieser Daten liegen zwar in unstrukturierter Form vor, dennoch ist es im Idealfall möglich den gesamten Weg des Kunden, vom Werbemittel bis zur Kaufentscheidung, nachzuzeichnen. Nicht von ungefähr spricht Schida von einem neuen Zeitalter der Erfolgskontrolle^[5].

Viele Unternehmen haben es jedoch bis heute verpasst, mittels Web Mining das umfassende Datenmaterial über Kunden und Besucher für die Optimierung des Web-Angebots zu nutzen^[6]. Aber das Sammeln der Daten alleine verschafft noch keinen Wettbewerbsvorteil. Entscheidend ist, das zunächst vorhandene neutrale Datenmaterial auszuwerten und in aussagekräftige Informationen über die Besucher und deren Nutzungsverhalten umzuwandeln. Zugegeben stellt dies keine triviale Aufgabe dar! Nur wer es versteht, die entscheidenden Erfolgstreiber zu selektieren und für sich zu nutzen, wer Kunden und Marktsegmente im WWW kennt und weiß, wie die einzelnen Faktoren im Internet zusammenspielen, wird auf Dauer erfolgreich sein und sich gegenüber seinen Konkurrenten durchsetzen können.

1.2 Ziel und Vorgehensweise

Vor dem in der Problemstellung geschilderten Hintergrund und der wachsenden Verlegung von Unternehmensdarstellungen, Kommunikation, Marketing und Vertrieb auf das Internet, einhergehend mit einer zunehmenden Tendenz zur Personalisierung der Kundenansprache, erlangt die Analyse von Online-Daten eine herausragende Bedeutung. Aus diesem Grund soll in der vorliegenden Arbeit ein vollständiger Überblick über das Web Mining, von der Datengewinnung, über die Datenaufbereitung und –auswertung, bis zur Datenverwendung gegeben werden. Ziel ist, die technologischen und die betriebswirtschaftlichen Aspekte des Web Mining möglichst kompakt aber dennoch vollständig zu systematisieren und darzustellen, um Verantwortlichen in den Unternehmen, insbesondere in den Bereichen IT, Marketing, Vertrieb und Controlling einen schnellen Einstieg in das weite Feld des Web Mining zu ermöglichen.

Welche Datenquellen gibt es?

Mit welchen Methoden und Techniken können die Daten erhoben werden?

Wie können die gewonnenen Daten gespeichert werden?

Welche Probleme und Schwierigkeiten existieren bei der Datenerhebung?

Wie kann man die Qualität der erhobenen Daten verbessern?

Wie können die Daten ausgewertet werden?

In welchen Bereichen können die zu Informationen gewordenen Daten genutzt werden?

Diesen und weiteren Fragen wird in den folgenden Kapiteln in ausführlicher Weise nachgegangen.

Das Vorgehen zur Erstellung der Arbeit ist in vier Themenkomplexe abgrenzbar, die sich sowohl in der Gliederung der Arbeit als auch in grafisch veranschaulichter Form widerspiegeln.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1 : Vorgehensweise

Was ist Web Mining? Was ist das WWW? Wie funktioniert die Kommunikation im WWW? Was ist das HTTP? Die Klärung dieser grundlegenden Fragestellungen findet im Kapitel 2 statt. Die Zielsetzung ist demnach, ein Basiswissen aufzubauen, mit dem die folgenden Abschnitte leichter nachvollziehbar werden.

Im Kapitel 3 werden die unterschiedliche Quellen und Techniken der Datengewinnung aufgezeigt. Natürlich liegt der Schwerpunkt auf der Gewinnung von Web-Server-Daten, da diese die zentrale Quelle darstellen. Im Rahmen dieser Arbeit werden auch weitere bedeutende Quellen im und außerhalb des Mediums WWW vorgestellt. Zu benennen sind hier die Sammlung von Benutzerdaten mittels Web-Formularen und, als Quelle außerhalb des Mediums WWW, insbesondere die unternehmensinternen Daten aus der Finanzbuchhaltung oder dem Vertrieb.

Aufgrund der Fülle von Daten wird im Kapitel 4 die dateibasierte der datenbankbasierten Datenhaltung gegenübergestellt und die jeweiligen Vor- und Nachteile herausgearbeitet. In diesem Kontext wird zudem das Data Warehouse-Konzept erläutert.

Leider gibt es bis heute in diesem Kontext noch nicht die „eierlegende Wollmilchsau“! Aus diesem Grund werden in Kapitel 5 zunächst die derzeit bedeutendsten Probleme und Beschränkungen im Web Mining beschrieben. Zum Glück existieren inzwischen Methoden und Techniken, die diese Probleme teilweise beheben oder zumindest reduzieren können. Anzuführen sind hier beispielsweise Schlagworte wie Session-ID, Cookies, Web Bugs, Data Cleaning, usw..

Im Rahmen dieses Kapitels wird zudem die Datenauswertung behandelt. Grundsätzlich wird zwischen Verfahren der hypothesengestützten und der hypothesenfreien Entdeckung von Mustern unterschieden. Es werden zum einen hypothesengestützte Verfahren der statistischen Analyse sowie OLAP und zum anderen Methoden, die aus dem Bereich des Data Mining stammen, aufgeführt.

Wie kann man nun die gewonnenen Daten nutzen? Dies ist Hauptgegenstand des Kapitels 6. Darin sollen Möglichkeiten aufgezeigt werden, in welchen Bereichen Online-Daten, insbesondere Web-Server-Daten Verwendung finden können. Hier soll, aufgrund der eingehend geschilderten Situation in der Wirtschaft, besonderes Augenmerk auf das Web-Controlling gelegt werden.

In „Zusammenfassung und Ausblick“ (Kapitel 7) werden die wichtigsten Ergebnisse der Arbeit noch einmal dargestellt und es wird nach der Rolle des Web Mining für die Zukunft gefragt.

2 Grundlagen

2.1 Web Mining

Gegenstand des Web Mining ist die allgemeine Anwendung moderner Verfahren des Data Mining auf Datenstrukturen des Internets^[7]. In der Literatur finden sich unterschiedliche Definitionen zum Thema Web Mining. Nach Cooley et al. kann Web Mining definiert werden als:

Die Entdeckung und Analyse nützlicher Informationen des WWW. Dies umfasst die automatisierte Suche in online verfügbaren Informationsquellen (Web Content Mining) sowie die automatische Generierung von Navigationsmustern bzgl. der Besucher einer Website (Web Usage Mining).

Demnach umfasst Web Mining die Analyse aller Daten des WWW (Web-Daten), incl. Nutzungs- und Kundendaten, sowie inhaltliche Daten des WWW. Dies sind Inhalte von HTML-Dokumenten als auch Daten über die Struktur einer Website. Aus diesem Grund werden die Daten in Nutzungs-, Inhalts- und Strukturdaten differenziert.

- Nutzungsdaten beschreiben die Nutzungsmuster der Besucher einer Website. Dies schließt den Host des Besuchers, verweisende Websiten, sowie das Datum und die Zeit des Zugriffs ein. In diese Kategorie fallen außerdem E-Commerce-Daten wie Transaktionsdaten und spezielle Kundendaten.
- Inhaltliche Daten sind Informationen, die in den Web-Seiten enthalten sind. Im Allgemeinen beinhalten diese Daten Texte und Graphiken.
- Die Strukturinformationen innerhalb einer Web-Seite bzw. Website, wie die Anordnung der Web-Seiten, Einstiegsseiten usw. bilden die Strukturdaten.

Im Kontext des Web Mining spielt die Website als Messobjekt eine zentrale Rolle. So verkörpert eine Website die Präsenz eines Unternehmens im elektronischen Wirtschaftsgefüge^[8] . Die technologische Basis hierfür bietet der Internet-Dienst WWW, der es erlaubt, verknüpfbare Dokumente mit multimedialem Inhalt anzuzeigen. Dabei beschränkt sich eine Website nicht alleine auf den öffentlich zugänglichen Bereich, die so genannte Homepage, sondern beinhaltet auch die abgesicherten Bereiche zur Kooperation mit anderen Unternehmen (Extranet) und für die unternehmenseigene Kommunikation (Intranet) ^[9]. Aus technischer Sicht setzt sich eine Website aus mehreren, durch sogenannte Hyperlinks verbundene Seiten zusammen, die auf einem Web-Server ^[10] vorliegen. Inhaltlich lassen sich die Seiten nach ihrer Funktion in Navigationsseiten, Informationsseiten und in interaktive Anwendungen unterteilen ^[11].

Durch Web Mining können leistungsorientierte Größen wie Verfügbarkeit und übertragenes Datenvolumen erfasst werden. Zusätzlich lassen sich aber auch die Nutzungsvorgänge auf einer Website beobachten, wodurch der Umgang des Nutzers mit den dargebotenen Inhalten ebenfalls zum Beobachtungsobjekt wird. Insbesondere besteht durch Web Mining die Möglichkeit, selbständig Muster in den Nutzungsdaten aufzufinden. Gerade derartige Muster im Verhalten der Online-Kunden können im zunächst anonymen Medium Internet jedoch von hoher Bedeutung für die Informationsgewinnung sein. Daher bietet es sich zur automatischen Mustererkennung an, klassische Data Mining-Verfahren auf Internetdaten anzuwenden, um tiefer gehende Informationen über die Nutzer einer Website aufzupüren^[12].

Zu den Zielen des Web Mining zählen hier einerseits die qualitative Verbesserung der Website und die Beseitigung von Fehlern, aber auch die Gewinnung von Informationen über die Nutzer und deren Verhalten.

Bisher wird Web Mining vor allem im E-Commerce-Bereich^[13], also in der Beziehung zwischen Unternehmen und der Masse, von in der Regel anonymen Nutzern betrieben. Eine Verwendung im Intranet bzw. Extranet - besonders in großen Konzernintranets und –extranets - ist jedoch ebenfalls denkbar.

2.1.1 Richtungen des Web Mining

Web Mining wird, je nach Auffassung des Autors in zwei oder drei Teilbereiche unterteilt. Es beinhaltet grundsätzlich die Analyse von Seiteninhalten (Web Content Mining) als auch die Untersuchung des Nutzerverhaltens (Web Usage Mining). Zaiane bildet eine weitere Kategorie, die die Seitenstrukturen als Grundlage für die Wissensentdeckung heranzieht und wird daher als „Web Structure Mining“ bezeichnet^[14]. Dieser Aufteilung folgt auch Sirvastava^[15]. Bensberg und Spiliopoulou hingegen grenzen lediglich die Teilgebiete „Web Content Mining“ und „Web Usage Mining“ voneinander ab^[16]. Diese spalten jedoch das Web Usage Mining nochmals in zwei Teilbereiche auf. Bei Spiliopoulou wird in Abhängigkeit, ob die bei der Analyse zur Verfügung stehenden Daten personenbezogen sind oder nicht, zwischen „Web Usage Mining - Impersonalized“ und „Web Usage Mining – Personalized“ unterschieden. Letzterer Bereich konzentriert sich auf die Erstellung von Nutzerprofilen und die Anwendung dieser Profile für die Einrichtung personalisierter Dienste^[17]. Bensberg schlägt eine andere Klassifizierung vor: Er unterscheidet zwischen dem „Web Log Mining“(WLM) und dem „Integrated Web Usage Mining“(IWUM). Bei der Ausprägungsform WLM beschränkt sich die Analyse ausschließlich auf die Protokolldateien des Web-Serves. Fließen neben den Protokolldateien noch weitere Datenbestände in den Analyseprozess mit ein, so spricht man vom IWUM^[18]. In der folgenden Abbildung ist ein Überblick möglicher Unterteilungen des Web Mining aufgezeigt:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2 : Mögliche Unterteilungen des Web Mining

Die ersten beiden Richtungen des Web Mining, Web Content Mining, bzw. Web Structure Mining tragen jedoch nicht dazu bei, Informationen über Website-Nutzer zu gewinnen und werden daher nicht näher betrachtet. Wird im folgenden Text von Web Mining gesprochen, so ist dieser Begriff immer im speziellen Kontext des Web Usage Mining zu verstehen^[19].

2.1.2 Web Mining-Prozess

Der Web Mining-Prozess unterteilt sich grob in sechs Schritte.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3 : Ablauf des Web Mining

Quelle: in Anlehnung an Hippner, H.; Merzenich, M.; Wilde, K.D.; S. 8.

Je nach Aufgabenstellung werden zuerst die heranzuziehenden Daten ausgewählt^[20]. Die daran anschließende Datenaufbereitung spaltet sich in die beiden Schritte des Data Cleaning und der User- und Sessionidentifikation^[21]. Diese Schritte sind von großer Bedeutung für die Ergebnisse der Analyse, gleichzeitig nehmen sie jedoch auch die meiste Zeit innerhalb des Web Mining-Prozesses in Anspruch^[22]. Werden weitere Datenquellen^[23] in die Analyse mit einbezogen, so erfolgt im nächsten Schritt eine Integration dieser Daten. Anschließend werden unteranderem mit Hilfe von Data Mining Verfahren Muster extrahiert. Am Schluss dieses Prozesses steht die Interpretation und die Umsetzung der Ergebnisse. Abb. 4 stellt den Prozess in Anlehnung an Mobasher genauer dar.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 4 : Web Mining-Prozess

Quelle: in Anlehnung an Mobasher, B.; Jain, N.; Han, E.-H., Srivastava, J.; S. 3.

Werden keine zusätzlichen Informationen zur Analyse herangezogen, so handelt es sich nach Bensberg um die Form des Web Log Mining. Für diese Ausprägungsform hat er auf Basis des Knowledge Discovery in Databasis (KDD) -Phasenmodells nach Fayyad et al.^[24] einen eigenen, in Abb. 5 dargestellten Web Log Mining Prozess entwickelt.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 5 : Web Log Mining-Prozess

Quelle: in Anlehnung an Bensberg, F. (b) ; S. 133.

Aufgrund der Tatsachen, dass in vielen Unternehmen die Analyse des Nutzerverhaltens vornehmlich mit Hilfe der Protokolldateien des Web-Servers vorgenommen wird, soll nun im Folgenden der WLM-Prozess nach Bensberg kurz vorgestellt werden^[25].

In der ersten Phase erfolgt die Aufzeichnung der Protokolldaten durch die Protokollkomponenten des Web-Servers. Da hier im Rahmen der Konfiguration festgelegt wird, welche Daten aufgezeichnet werden und welches Schema zur Speicherung der Protokolldaten verwendet wird, ist diese Phase von zentraler Bedeutung für den restlichen WLM-Prozess^[26]. In der Phase der Selektion und Extraktion werden die analyserelevanten Einträge und Attribute der Protokolldatei identifiziert und in einen Zieldatenbestand überführt. Hier unterscheidet Bensberg zwischen vertikaler und horizontaler Datenselektion^[27]. Im Zuge der vertikalen Datenselektion werden alle irrelevanten Einträge herausgefiltert. Dies entspricht dem Data Cleaning beim Web Mining Prozess. Bei der horizontalen Datenselektion werden die relevanten Attribute der Protokolldatei bestimmt. Die Auswahl der einzelnen Attribute hängt zum einen von der Zielsetzung des Anwenders ab, zum anderen von den Filterkriterien der vertikalen Datenselektion. Werden beispielsweise nur Einträge ausgewählt, die eine bestimmte Zugriffsmethode (z.B. GET) aufweisen, so ist die Ausprägung im Attribut Zugriffsmethode in allen Einträgen gleich. Da gleiche Attributsausprägungen für die Mustererkennung nicht von Bedeutung sind, ist es nicht sinnvoll, diese in den Zieldatenbestand zu überführen. Die dritte Phase des WLM-Prozesses ist weitgehend identisch mit der User- und Sessionidentifikation des Web Mining-Prozesses. Zur inhaltlichen Vorbereitung der abgeleiteten Sessions für die Mustererkennung ist die Datencodierung vorzunehmen. Diese hängt, wie die durchzuführende Transformation, überwiegend von der verwendeten Data Mining-Methode ab. Während beispielsweise die Assoziations- und Sequenzanalyse Sessiondaten direkt verarbeiten können, setzen die Clusteranalyse und die Entscheidungsbauminduktion meist ein Datenmodell voraus, bei dem die Daten in Form einer Datenmatrix strukturiert sind. Der Abschluss der dritten Phase ist die Transformation der vorbereiteten Daten in ein Format, das von dem anzuwendenden Data Mining-Werkzeug verarbeitet werden kann. Auf Basis dieser transformierten Daten erfolgt in der vierten Phase die Mustererkennung. Im Zuge dieser Phase wird die Assoziations-, die Sequenz- und die Clusteranalyse, sowie die Entscheidungsbauminduktion auf die vorliegende Datenbasis angewandt^[28]. In der Phase der Evaluation ist für jedes gefundene Muster festzustellen, ob es sich um eine bereits bekannten Zusammanhang handelt, der möglicherweise zur Bestätigung bestehender Annahmen und Hypothesen beiträgt, oder ob ein neuer Zusammenhang vorliegt. Anschließend werden die evaluierten Muster in Abhängigkeit von der konkreten Analysemethode grafisch dargestellt. Die Phase der Interpretation stellt den Abschluss des WLM-Prozesses dar. Die Musterinterpretation erfordert ein hohes Maß an Domänenwissen^[29] über die Inhalte und die Struktur der Website. Besitzt der Nutzer kein Wissen über die inhaltlichen bzw. strukturellen Eigenschaften der Website, so ist eine sinnvolle Interpretation von Mustern nicht möglich.

2.2 Das World Wide Web als Internetdienst

Das World Wide Web wurde erst relativ spät, in den neunziger Jahren, geschaffen und stellt als hypertextbasiertes Informationswerkzeug neben Electronic Mail (E-Mail), FTP, Telnet und Newsgroups den wichtigsten Dienst des Internets dar. In der Literatur lassen sich unterschiedlichste Definitionen für den Begriff WWW finden. So bezeichnet Tanenbaum das WWW als Architekturkonzept (architectual framework)^[30], während Schiffer und Templ das WWW als virtuelles Netzwerk definieren, welches innerhalb des physischen Internets besteht^[31]. In dieser Arbeit wird aufgrund des allgemeinen Sprachgebrauchs der letzteren Auffassung gefolgt. Das Internet ist in Abgrenzung zu Intranets – d.h. Netzwerken innerhalb von Unternehmen – und Extranets – d.h. exklusive Anbindung von Unternehmenspartnern – der öffentliche und damit jeder Privatperson zugängliche Teil der weltumspannenden Computernetzwerke^[32]. Verursacht durch die Popularität der Hypertext-Funktionalität und der Fähigkeit des WWW, andere Dienste zu integrieren oder zu ersetzen, hat es das WWW in den letzten Jahren geschafft, begrifflich zum Synonym für das Internet zu werden. Die Synonymität wird deshalb auch im Rahmen dieser Arbeit unterstrichen.

Ein weiterer, im Zusammenhang mit dem WWW oftmals verwendeter Begriff, ist der des „online“. Unter dem Begriff „online“ wird die zeitnahe Informationsübertragung mittels Computernetzwerken verstanden, die direkt oder indirekt miteinander verbunden sind. Nicht inbegriffen sind somit beispielsweise CD-Roms^[33]. Der Begriff „online“ wird heutzutage überwiegend im Zusammenhang mit dem Internet und kaum mehr in Bezug auf Computernetzwerke gebraucht^[34]. Mit Blick auf die eingegrenzte Thematik dieser Arbeit ist daher der Begriff „online“ immer im speziellen Kontext des WWW zu verstehen.

2.3 Die Kommunikationssituation im World Wide Web

Bestimmend für die Erhebung von Online-Daten im WWW ist die dort herrschende technische Kommunikationssituation, die festlegt, was wie erhoben werden kann. Als grundlegendes Element der WWW-Kommunikation ist die Erkennung der teilnehmenden Rechner (Host) zu bezeichnen. Wie Menschen anhand ihres Namens in der Geburtsurkunde identifiziert werden können oder wie dies in den USA anhand der Sozialversicherungsnummer geschieht, können auch Internet-Hosts auf verschiedene Art und Weise erkannt werden. Ein wichtiges Erkennungsmerkmal ist der Rechner- oder Hostname. Hostnamen wie beispielsweise „yahoo.com“ oder „web.de“ sind mnemonisch und werden aus diesem Grund von Menschen bevorzugt^[35]. Da sich Rechnernamen aus alphanumerischen Zeichen mit variabler Länge zusammensetzen können, wären sie von Routern^[36] nur schwer zu verarbeiten. Folglich werden Hosts auch durch so genannte Internet-Protokoll-Adressen (IP-Adressen) identifiziert. Die IP-Adresse ist eine numerische Adresse, die derzeit aus vier, mit Version 6 des IP-Protokolls zukünftig aus 16 Zahlen zwischen 0 und 255 besteht, z.B. 129.13.122.19^[37]. Wie gezeigt wurde, kann ein Host auf zwei verschiedene Arten identifiziert werden: durch einen Rechnernamen oder durch eine IP-Adresse. Menschen ziehen den Rechnernamen vor, während Router die IP-Adressen bevorzugen. Um diese beiden Vorlieben auf einen Nenner zu bringen, benötigt man ein Verzeichnisdienst, der Rechnernamen in IP-Adressen übersetzt. Das ist die Hauptaufgabe des Domain Name System (DNS) im Internet^[38].

In Bezug auf das Web Mining sind drei Eigenschaften der Kommunikationssituation von besonderer Bedeutung. Sie lassen sich durch die Schlagworte Netzwerkstruktur, Verbindungslosigkeit und Funktionsschichten umreißen.

Die Netzwerkstruktur des Internets basiert auf dem Client-Server-Prinzip^[39]. Zu unterscheiden sind der Web-Server, welcher WWW-Dienste im Internet anbietet und der WWW-Client^[40], der WWW-Dienste „konsumiert“ und welcher auch als Browser bezeichnet wird. Im weiteren Sinne dient ein Browser zur strukturierten Präsentation umfangreicher Datenmengen und stellt Navigationsmechanismen zum selektiven Lesen von Dokumenten zur Verfügung^[41]. In dieser Arbeit wird jedoch unter dem Begriff des Browsers, wie schon erwähnt, ein WWW-Client verstanden, mit dem der Anwender in der Lage ist, Hypermedia-Dokumente^[42] von einem Web-Server anzufordern. Der Browser sendet zu diesem Zweck eine Anforderung (request) an den Web-Server, der diese verarbeitet und das angeforderte Dokument an den Browser überträgt. Hier spielt insbesondere das Hypertext Transfer Protocol (HTTP)^[43] eine wichtige Rolle.

Wie bereits angeführt, kann das WWW auch andere Internet-Dienste integrieren. Diese Integration erfolgt über ein Adressierungsschema zur Ressourcenidentifikation, dem Uniform Resource Locator (URL), welches eine einheitliche Schnittstelle für den Zugriff auf Internet-Dienste bietet^[44]. Es setzt sich aus dem Protokoll, der IP-/DNS-Adresse, Port und der Ressource zusammen, z.B. „http://rz.uni-wuerzburg.de:8080/antraege/“. Ports verwendet man, um mehrere Dienste auf einem Rechner laufen lassen zu können. Bestimmten Diensten jedoch, wie dem Web-Server, sind dabei ganz spezielle Standardports zugewiesen. Man nennt diese Ports auch „well known numbers“, die bei der Adressangabe weggelassen werden können.

In der Regel werden Hosts nicht direkt miteinander kommunizieren. Vielmehr werden sie über dazwischen liegende Geräte, die man als Router oder Gateway bezeichnet, verbunden. Die Nachrichtenweiterleitung erfolgt in einer hierarchischen Art und Weise: Jeder Host kann mit benachbarten Hosts direkt kommunizieren und hat einen Router für alle anderen Zieladressen. Ein Router besitzt eine Tabelle, die einen signifikanten Adressbereich angibt, an welchen Rechner eine Nachricht weitergeleitet werden soll. Kann ein Router eine Nachricht nicht direkt an einen Rechner weiterleiten, so wird diese an einen übergeordneten Router delegiert. Dieser Vorgang wiederholt sich solange, bis die Nachricht direkt übergeben werden kann^[45].

Der Weg vom sendenden zum empfangenden Rechner wird als Route oder Pfad (durch das Netzwerk) bezeichnet. Statt einen dedizierten oder feststehenden Pfad zwischen den kommunizierenden Rechnern bereitzustellen – wie dies beim Telefon praktiziert wird - kommt im Internet eine Technik zum Einsatz, die Paketvermittlung (Packet Switching) genannt wird^[46]. Hierbei spielt das HTTP abermals eine zentrale Rolle, denn dieses Protokoll unterbricht nach jeder Paketvermittlung die Verbindung zum anderen Rechner und stellt sie beim nächsten Paket wieder her. Diese Technik bietet die Möglichkeit, dass mehrere kommunizierende Hosts eine Route bzw. Teile einer Route gleichzeitig benutzen können. In der Literatur spricht man bei diesem geschilderten Sachverhalt auch von der Verbindungslosigkeit des WWW.

Funktionsschichten hingegen sind unterschiedliche Abstraktionsebenen, die sich an das Open System Interconnection-Referenzmodell (OSI-Referenzmodell) anlehnen. Dieses Modell differenziert zwei Arten von Kommunikation. Die Anforderung der Dienste einer Schicht geschieht durch die vertikale Kommunikation zwischen den Schichten einer Instanz. Die höchste Schicht stellt Dienste für die Anwendungsprozesse der Nutzer zur Verfügung. Dabei basieren die Dienste einer Schicht ausschließlich auf denen der darunter liegenden Schicht. Eine direkte Kommunikation zwischen zwei Schichten, die sich nicht berühren, ist nicht möglich^[47] . Dieser Vorgang setzt sich bis hin zur niedrigsten Schicht fort, die letztendlich das physische Übertragungsmedium repräsentiert. Insgesamt werden sieben unterschiedliche Schichten in diesem Modell unterschieden, die in Abb. 6 aufgezeigt werden^[48]. Die horizontale Kommunikation ermöglicht die Kooperation von Partnerinstanzen zum Zwecke der verteilten Diensteerbringung. Die Kommunikation zwischen den Partnerinstanzen erfolgt nach festgelegten Regeln, die als Kommunikationsprotokolle bezeichnet werden^[49]. Hierunter fällt auch das HTTP.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6 : OSI-Referenzmodell

Quelle: in Anlehnung an Grob, H.L.; Reepmeyer, J.-A.; S. 80-84

Im Rahmen dieser Arbeit genügt zur Vereinfachung die Unterscheidung in drei oder vier Schichten: Die physikalische Schicht (z.B. Ethernet, X25, X 21, Tokenring), die Netzwerk- und Transportschicht (z.B. das Transmission Control Protocol (TCP) und das Internet Protokoll (IP), meistens zusammengefasst zum TCP/IP) und die Anwendungsschicht (z.B. das Hypertext Transfer Protocol (HTTP) für das WWW, usw.).

Aufgrund dieses Modells ist es nun möglich, die verschiedenen Funktionsweisen von Routern, bzw. Gateways und Proxies zu vergleichen. In Abb. 7 ist die Funktionsweise eines Routers oder Gateways verdeutlicht. Router leiten über die Netzwerkschicht in der Transportschicht kodierte Daten weiter. Sie stehen auf der Transportschicht zwischen Sender und Empfänger und sind nicht in der Lage den anwendungsspezifischen Inhalt der Nachricht zu verstehen ^[50].

Abbildung in dieser Leseprobe nicht enthalten

Abb. 7 : Funktionsweise eines Routers/Gateways

Quelle: in Anlehnung an Schmidt-Thieme, L.; Gaul, W. S. 37

Bei Proxy-Servern^[51] ist man aber gerade daran interessiert. Nachrichten sollen bei dieser Technik, je nach Inhalt, gefiltert oder z.B. bei Viren, besonders behandelt werden oder, um die Netzlast zu reduzieren, in Zwischenspeichern (Web-Caches) festgehalten werden. Da Proxies nur spezifische Anwendungsprotokolle verstehen, spricht man auch von HTTP-Proxies, FTP-Proxies, usw.. Ihre Aufgabe ist es, die Nachrichten zu decodieren, den Zielrechner zu extrahieren, die Anfrage an den Zielrechner (Stellvertreter-Funktion) zu stellen und dessen Antwort an die Rechner weiterzuleiten, von denen die Anfrage ursprünglich stammt. Folglich stehen Proxies auf der Anwendungsschicht zwischen Sender und Empfänger (siehe Abb. 8). Sie fungieren sowohl als Server, als auch als Client. Wenn er Anfragen von einem Browser empfängt und Antworten an einen Browser sendet, ist er ein Server. Wenn er hingegen Anfragen und Antworten mit einem Ursprungsserver austauscht, agiert er als Client^[52]. Beim Masquerading können aber auch Router, wenn sie z.B. als Firewall fungieren und ein internes Netzwerk vor Zugriffen von außen abschirmen, die Stellvertreter-Funktion erhalten.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 8 : Funktionsweise eines Proxies

Quelle: in Anlehnung an Schmidt-Thieme, L.; Gaul, W.; S.38

2.4 Das Hypertext Transfer Protocol (HTTP)

Das Hypertext Transfer Protocol (HTTP) ist das Anwendungsprotokoll für das WWW. Wie an folgender Abbildung zu sehen, ist das HTTP im OSI-Referenzmodell ebenfalls in der Anwendungsschicht wiederzufinden.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 9 : Zusammenfassende Darstellung der TCP/IP-Protokollfamilie

Quelle: in Anlehnung an Scheller, M.; S. 24

Dieses Protokoll wurde für den effizienten Transport von Hypermedia-Dokumenten entwickelt und ergänzt die TCP/IP-Protokollfamilie. Aufgrund der hohen praktischen Bedeutung des HTTP für die Kommunikation im WWW wird das HTTP explizit als Teil der TCP/IP-Protokollfamilie erfasst, obwohl es erst wesentlich später als das TCP/IP entwickelt wurde. Empirische Untersuchungen belegen, dass das HTTP das am häufigsten genutzte Internet-Protokoll ist und daher eine Schlüsselrolle für die Kommunikation im WWW einnimmt^[53].

HTTP regelt also die Kommunikation zwischen Web-Browser und Web-Server. Dieses Protokoll wird als Standard vom World Wide Web Consortium (W3C) verwaltet. Seit 1996 ist die HTTP-Version 1.0 und seit 1999 parallel dazu die HTTP-Version 1.1 in Gebrauch^[54]. HTTP-Version 1.1 ist abwärts kompatibel mit HTTP-Version 1.0, d.h ein Web-Server, der 1.1 ausführt, kann mit einem Browser kommunizieren, der unter 1.0 läuft. Umgekehrt gilt, dass ein Browser, der 1.1 ausführt, mit einem Server kommunizieren kann, auf dem 1.0 läuft.

Im Folgenden wird die zuvor kurz skizzierte Interaktion zwischen Client und Server ausführlich beschrieben. Das allgemeine Konzept wird aus Abb. 10 deutlich.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 10 : HTTP-Anfrage und –Antwort-Verhalten

Quelle: in Anlehnung an Schmidt-Thieme, L.; Gaul, W.; S.40

Wenn ein Benutzer eine Webseite von einem Server anfordert, indem er z.B. die URL im Browser eingibt oder einen Hyperlink anklickt, sendet der Browser HTTP-Anfragenachrichten für jedes einzelne Objekt der Seite an den Server. Ein Objekt ist einfach eine Datei, etwa eine HTML-, JPEG- oder GIF-Datei, die mit einer URL zugänglich ist^[55]. Der Server nimmt diese Anfragen entgegen und antwortet mit einer HTTP-Anwortnachricht, in der sich die Objekte befinden. Ein allgemeines Format einer Anfrage- und Antwortnachricht ist in Abb. 11 und 12 dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 11 : HTTP-Anfragenachricht

Quelle: in Anlehnung an Kurose, J. F.; Ross, K. W.; S. 107

Zunächst wird die HTTP-Anfragenachricht genauer beschrieben. Die erste Zeile einer HTTP-Anfragenachricht bezeichnet man als Anfragezeile oder Request Line. Sie setzt sich aus den Feldern Methode, URL und HTTP zusammen. Im Methodenfeld können unterschiedliche Werte, wie GET, POST oder HEAD stehen^[56]. Am häufigsten tritt jedoch die GET-Methode auf. Sie wird benutzt, wenn der Browser ein Objekt anfordert, wobei das angeforderte Objekt im URL-Feld identifiziert wird. In der Abb. 10 wird das Objekt „/webmining/script/HTTP-5.html“ verlangt. Die Version ist selbsterklärend. Die darauf folgenden Zeilen werden als Header-Zeilen bezeichnet. Sie bestehen aus einem Header-Feldnamen und aus einem durch einen Doppelpunkt getrennten Wert. Wichtige Header-Zeilen bei einer HTTP-Anfragenachricht sind z.B. host, referer und user-agent (= Browser-Typ). Nach den Header-Zeilen, durch eine zusätzliche Leerzeile getrennt, folgt der „Entity Body“. Dieser wird nicht mit der GET-Methode, sondern mit der POST-Methode benutzt. Diese Zeile wird gefüllt, wenn beispielsweise ein Nutzer ein Formular einer Suchmaschine ausfüllt. Ist POST der Wert im Methodenfeld, so enthält der Entity Body die zuvor im Formular eingegebenen Suchwörter des Nutzers^[57].

Abbildung in dieser Leseprobe nicht enthalten

Abb. 12 : HTTP-Antwortnachricht

Quelle: in Anlehnung an Kurose, J. F.; Ross, K. W.; S. 109

Die HTTP-Antwortnachricht ist genauso aufgebaut, wie die HTTP-Anfragenachricht, mit dem einzigen Unterschied, dass die Anfragezeile als Statuszeile bezeichnet wird. Die Statuszeile umfasst daher die Protokollversion, einen Statuscode und eine entsprechende Statusnachricht (Phrase). Der Statuscode und die Phrase gibt dem Client Auskunft darüber, ob und inwieweit der Server die Anfrage bearbeiten konnte^[58].

Wichtige Header-Zeilen bei einer HTTP-Antwortnachricht stellen Meta-Informationen, wie z.B. der Zeitpunkt der Bearbeitung der Anfrage (date), das Format der gesendeten Ressource (content-type) oder die Länge der gesendeten Ressource in Bytes (content-length) dar. Getrennt durch eine Leerzeile folgt letztlich der Entity Body mit der angefragten Ressource.

Somit lässt sich zusammenfassend feststellen, dass die Kommunikation im WWW, wie oben geschildert, über einen Pull-Mechanismus erfolgt, d.h. Nutzer müssen Informationen durch einen Request beim Web-Server explizit anfordern. Hier spielt das Hypertext Transfer Protocol (HTTP), das die Koordination der anfallenden Requests und Responses übernimmt, die zentrale Rolle. Erst durch die Interaktion des Benutzers und seiner Anwendungssoftware mit der Serversoftware ist die Erfassung und Messung des Nutzerverhaltens möglich. Dies unterscheidet auch das WWW von den klassischen Push-Medien wie Radio und Fernsehen^[59]

3 Datengewinnung

3.1 Quellen und Techniken der Rohdatengewinnung

Die Möglichkeiten der Rohdatengewinnung lassen sich in zwei Bereiche unterteilen. Einerseits in die Erhebung von Daten, die unmittelbar aus einer Website im Internet resultieren, dem sogenannten Usertracking und andererseits in die Nutzung von betrieblichen und externen Datenquellen, die als mittelbare Folge der Website berührt sind. Typische Daten für das Web Mining sind Daten aus den Quellen der Server- und Client-Ebene, sowie unternehmensinterne Datenquellen. Einen groben Überblick bietet die folgende Abbildung:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 13 : Überblick der verschiedenen Quellen

3.1.1 Datensammlung mittels Electronic Mail

Die wohl häufigste Form der Kommunikation im Internet ist die Electronic Mail oder in Kurzform E-Mail^[60]. Sie ist zu den reaktiven oder aktiven Verfahren der Datengewinnung zu zählen. Laut Janetzko ist bei reaktiven Datenerhebungen den Besuchern von Websites bewusst, dass sie Gegenstand einer Untersuchung bzw. Datenerhebung sind^[61]. Hüneberg spricht in diesem Zusammenhang von aktiven Messverfahren^[62]. Bei der Definition des Web Mining wurde der Internet-Dienst WWW als Basistechnologie einer Website definiert. E-Mail ist aber kein Bestandteil des WWW, sondern ein eigenständiger Dienst. Dennoch kann der Dienst E-Mail als Quelle für das Web Mining nützliche Daten beinhalten. Da in Websites meist auch Mailfunktionen integriert werden, erhält der Benutzer die Möglichkeit, den Verantwortlichen einer Website direkt Anregungen, Kritik oder Fragen zu übermitteln. Die Übertragung der E-Mail erfolgt mit Hilfe des Protokolls SMTP. Der Absender einer E-Mail schickt diese an seinen Mail-Server. Von dort wird sie über weiterere Mail-Server zum Mail-Server des Empfängers weitergeleitet, wo sie bis zum Abruf zwischengespeichert wird. Wenn der Empfänger sein Mail-Programm, auch User-Agent genannt, aktiviert, startet dieses eine Abfrage an den Mail-Server und ruft die vorliegenden Nachrichten unter Verwendung der Übertragungsprotokolle POP oder IMAP ab. Eine E-Mail enthält außer dem Nachrichtentext einen Kopfbereich (Header), dem folgende Angaben entnommen werden können^[63].

- Name des sendenden SMTP- oder Mail-Servers und der Name des empfangenden SMTP- oder Mail-Servers
- Sendedatum und -uhrzeit
- Adresse von Sender (From) und Empfänger (To)
- Mögliche Betreffzeile (Subject)
- Identifikationsnummer der Nachricht
- Technische Infrastruktur des Absenders (Betriebsystem, Mail-Programm)
- Sendepfad der Nachricht

Diese Headerinformationen enthalten nur in geringem Maße verwertbare Hinweise. Besonders wertvoll sind jedoch die gesammelten E-Mail-Adressen. Hier bieten sich Ansprechpartner, die aktiv an den Website-Betreiber herangetreten sind und durch ihre E-Mail zum Dialog auffordern. Diese Adressdaten zeigen dem Website-Anbieter eine Nutzergruppe auf, welche für gezieltere Ansprache, wie Newsletters herangezogen werden können. Diesen Newsletter-Mails können dann beispielsweise mit der noch im folgenden Text vorgestellten, serverseitigen Datenerhebungsmethode der Web Bugs auf ihren Erfolg geprüft werden. Die Anregungen und Bedürfnisse erschließen sich jedoch erst aus dem Inhalt der E-Mails. Ein erhebliches Problem bei der Auswertung stellt die Tatsache dar, dass die Information im Text einer E-Mail in unstrukturierter Form vorliegt und ihre Analyse nur unter Verwendung von personellen Ressourcen möglich ist. Mögliche Hilfe bieten hier Text-Mining-Systeme, die Dokumente nach Schlagwörtern filtern und kategorisieren^[64]. Der Anwender erhält damit eine thematische Vorauswahl, die dann einer weiteren Untersuchung bedürfen. Diese Problematik fällt jedoch in den Bereich des Web Content Mining, auf den in dieser Arbeit nicht eingegangen werden soll.

[...]

^[1] Das World Wide Web (WWW) stellt als hypertextbasiertes Informationswerkzeug neben Electronic Mail (E-Mail), FTP, Telnet und Newsgroups den wichtigsten Dienst des Internets dar. Eine genaue Definition des Begriffs erfolgt ebenfalls im Punkt 2.1.3 dieser Arbeit.

^[2] Vgl. o. V. (d), vgl. o. V. (e), vgl. o. V. (f), vgl. auch o. V. (l)

^[3] Vgl. Scheer, A.-W.; Breitling, M.; S.397 ff.

^[4] Vgl. Bensberg, F. (b), S. 78

^[5] Vgl. Schida, R.; Busch, V.; Diederichs, M., S. 252

^[6] Vgl. Mena, J. (c), S.2

^[7] Vgl. Mobasher, B.; Jain, N.; Han,E.—H., Srivastava, J., S. 1, vgl. auch . Cooley, R.; Mobasher, B.;Sirvastava, J. (b), S. 568

^[8] Vgl. Schwickert, A.C. (c), S. 7

^[9] Vgl. Schwickert, A.C. (c); S. 6 ff. . Ein Intranet ist ein unternehmensinternes, informationsverteilendes, IP-basiertes Netzwerk, das allerdings vom öffentlich zugänglichen Internet durch eine Firewall abgekoppelt ist. Ein Extranet ist ebenfalls vom Internet abgekoppel, jedoch ist ein unternehmensübergreifendes Netzwerk. Vgl. Meyer, M.; Weingärtner, S.; Döring, F.; S. 5 ff.. Eine Abgrenzung der Begriffe Internet, Intranet und Extranet erfolgt im Punkt 2.1.3 dieser Arbeit.

^[10] Unter Web-Server ist ein Rechner oder eine Gruppe von Rechnern, die zusammen eine Web-Anwendung realisieren. Ist der Oberbegriff für HTTP-, Applications- und Daten-Server, wird aber auch als Synonym für HTTP-Server verwendet. Vgl Rahm, E.; Stöhr, T. ; S.477

^[11] Vgl. Schwickert, A.C. (c); S.16

^[12] Vgl. Bensberg, F.; Weiß, T.; S. 426

^[13] E-Commerce umfasst im wesentlichen den Kontakt mit Kunden über das Internet als Vertriebskanal. Vgl. Meyer, M.; Weingärtner, S.; Döring, F.; S. 9

^[14] Vgl. Zaiane, Osmar R. (b); S. 17 u. S. 20

^[15] Vgl. Sirvastava, J.; Cooley, R.; Deshpande M.; Tan, P.-N. ; S. 12

^[16] Vgl. Bensberg, F. ( b) , S. 131; Bensberg, F.; Weiß, T.; S. 426 , vgl. auch Spiliopoulou, M.; S 490 f . Bensberg folgt der dreigeteilten Kategorisierung nicht, da seiner Ansicht nach Strukturdaten als inhaltsbezogene Daten erfasst werden, deren Analyse durch den Aufgabenbereich des Web Content Mining abgedeckt wird. Vgl. Bensberg, F. (b) ; S. 131

^[17] Vgl. Spiliopoulou, M.; S 490

^[18] Vgl. Bensberg, F. (b) ; S. 131; Bensberg, F.; Weiß, T.; S. 426

^[19] Nähere Informationen zu Web Content Mining, bzw. Web Struture Mining sind bei Gudivada, V. N.; Raghavan, V. V.; Grosk W. I. Kasanagottu, R. , bei Madria, S. K.; Bhowmick, S. S.; Ng, W. K.; Lim, E. P., bei Kosala, R.; Blockeel, H. und bei Zaiane, O.R. (b) zu finden.

^[20] Die Auswahl der Daten bezieht sich hauptsächlich auf Quellen der Web-Server- und Client-Ebene. Vgl. hierzu die Punkte 3.1.2 und 3.1.3.

^[21] Eine ausführliche Beschreibung der Datanaufbereitung ist im Punkt 4.3.2 dieser Arbeit zu finden.

^[22] Vgl . Zaiane, O.R.; Xin, M.; Han, J.; S 27

^[23] Weitere Datenquellen sind z.B. Registrierungsdaten (siehe Punkt 3.1.4), aber auch Daten aus externen Quellen (siehe Punkt 3.2).

^[24] Nach Fayyad et al. wird KDD wie folgt definiert: „Knowledge discovery in databasis is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data”. Vgl. Fayyad, U. M., Piatetsky-Shapiro, G.; Smyth, P.; S. 6. u. S. 10 f.

^[25] Eine ausführliche Beschreibung des WLM-Prozesses ist bei Bensberg, F. (b) ; S. 133 ff. zu finden.

^[26] Tipps zur richtigen Konfiguration der gängigen Servertypen sind bei Mena, J. (b) ; S. 274 ff. zu finden.

^[27] Vgl. Bensberg, F. (b) ; S. 134 ff. .

^[28] Eine Vorstellung dieser und weiterer Data Mining-Methoden im Rahmen des Web Mining erfolgt im Punkt 4.4.3.

^[29] Unter Domänenwissen wird das nicht-formale Wissen des Anwenders über das Untersuchungsobjekt verstanden. Vgl. Bensberg, F. (b); S. 72.

^[30] Vgl. Tanenbaum, A.S.; S. 681

^[31] Vgl. Schiffer, S.; Templ J.; S. 846

^[32] Vgl. Gora, W.; Mann, E.; S.140 ff.

^[33] Vgl. Guba, A.; Gebert, O.; S. 4

^[34] Vgl. o. V. (k)

^[35] Vgl. Kurose, J. F.; Ross, K. W.; S. 137

^[36] Ein Router ist ein zwischen zwei Endsystemen liegendes Gerät, welches die von einer seiner Eingangsleitungen ankommenden Informationen annimmt und diese über eine seiner abgehenden Kommunikationsleitungen weiterleitet. Vgl. Kurose, J. F.; Ross, K. W.; S. 22

^[37] Vgl. Schmidt-Thieme, L.; Gaul, W.; S. 36

^[38] Eine sehr detaillierte Beschreibung der Funktionsweise des DNS befindet sich bei Kurose, J. F.; Ross, K. W.; S. 137 ff. oder bei Schärtel, M.; S.70 ff..

^[39] Vgl. Fielding, R. ; S. 87

^[40] Unter einem WWW-Client oder nur Client ist ein Rechner oder elektronisches Gerät eines Endbenutzers bzw. Rechner/ Programm zu verstehen, von dem aus Programme (Dienste) eines Servers aufgerufen werden.Vgl Rahm, E.; Stöhr, T. ; S.465

^[41] Vgl. Mössenböck, H.; S. 612

^[42] Zur Beschreibung von Hypermedia-Dokumenten dient die Sprache Hypertext Markup Language (HTML). Aber auch andere Sprachen, wie PHP, ASP oder JAVA sind in der Lage, Hypermedia-Dokumente zu generieren.

^[43] Das HTTP ist das Anwendungsprotokoll für das WWW und ist für den effizienten Transport von Hypermedia-Dokumenten verantwortlich. Eine genaue Beschreibung der Funktionsweise wird unter dem Punkt 2.3 durchgeführt.

^[44] Das ursprüngliche Adressierungsschema wurde als Universal Resource Identifier (URI) bezeichnet und von der IETF weiterentwickelt. Vgl. Berners-Lee, T.; S. 76 ff.

^[45] Vgl. Schmidt-Thieme, L.; Gaul, W.; S. 36

^[46] Vgl. Kurose, J. F.; Ross, K. W.; S. 23

^[47] Vgl. Von Thienen, W.; S. 43

^[48] Zu den Aufgaben der Schichten im einzelnen vgl. Tanenbaum, A.S.; S. 28-35, Grob, H.L.; Reepmeyer, J.-A.; S. 80 ff.

^[49] Vgl. Mühlhäuser, M.; S. 560

^[50] Vgl. Schmidt-Thieme, L.; Gaul, W.; S. 37

^[51] Unter einem Proxy-Server ist ein Rechner zu verstehen, über den eine Gruppe von Clients mit dem Internet verbunden ist. Vgl Rahm, E.; Stöhr, T.; S.472

^[52] Vgl. Kurose, J. F.; Ross, K. W.; S. 113

^[53] Vgl . Fielding, R.; S. 87

^[54] Vgl. Fielding, R.; Gettys; J.; Mogul, J.; Frystyk, H.; Masinter, L.; Leach, P.; Berners-Lee, T.; S. 7; vgl. auch Berners-Lee, T.; Fielding, R.; Frystyk, H. (b).

^[55] Vgl. Kurose, J. F.; Ross, K. W.; S. 101

^[56] Einen vollständigen Überblick erhält man bei Fielding, R.; Gettys; J.; Mogul, J.; Frystyk, H.; Masinter, L.; Leach, P.; Berners-Lee, T.; S. 24.

^[57] Vgl. Kurose, J. F.; Ross, K. W.; S. 106 ff.

^[58] Eine ausführliche Klassifizierung aller Satuscodes und die dazugehörigen Phrasen werden in der Anlage A oder bei Fielding, R.; Gettys; J.; Mogul, J.; Frystyk, H.; Masinter, L.; Leach, P.; Berners-Lee, T.; S. 27 aufgezeigt.

^[59] Vgl. Schmidt-Thieme, L.; Gaul, W.; S. 38

^[60] Vgl. o. V. (h); vgl.auch Kurose, J. F.; Ross, K. W.; S. 121

^[61] Vgl. Janetzko, D. (a), S. 159

^[62] Vgl. Hüneberg, R.; Heise, G.; Mann, A. (Hrsg.); S. 207

^[63] Vgl. Kurose, J. F.; Ross, K. W.; S. 121; vgl. auch Köhntopp, M.; Köhntopp, K.; S. 254

^[64] Vgl. Gentsch, P. (b); S. 181 f.

Ende der Leseprobe aus 174 Seiten - nach oben

Details

Titel

Web-Mining und dessen Einsatzmöglichkeiten im modernen Unternehmen

Autor

Steffen Leja (Autor:in)

Erscheinungsjahr

2003

Seiten

174

Katalognummer

V222387

ISBN (eBook)

9783832470685

ISBN (Buch)

9783838670683

Dateigröße

1690 KB

Sprache

Deutsch

Schlagworte

datengewinnung scorecard olap logfiles adserver

Produktsicherheit

Diplom.de

Arbeit zitieren

Steffen Leja (Autor:in)

, 2003, Web-Mining und dessen Einsatzmöglichkeiten im modernen Unternehmen, Hamburg, Bedey Media GmbH, https://www.diplom.de/document/222387

Web-Mining und dessen Einsatzmöglichkeiten im modernen Unternehmen

Kategorie

Institution / Hochschule

Note

Leseprobe

Inhaltsverzeichnis

1 Einführung

1.1 Problemstellung

1.2 Ziel und Vorgehensweise

2 Grundlagen

2.1 Web Mining

2.1.1 Richtungen des Web Mining

2.1.2 Web Mining-Prozess

2.2 Das World Wide Web als Internetdienst

2.3 Die Kommunikationssituation im World Wide Web

2.4 Das Hypertext Transfer Protocol (HTTP)

3 Datengewinnung

3.1 Quellen und Techniken der Rohdatengewinnung

3.1.1 Datensammlung mittels Electronic Mail

Details

Ihre Vorteile als Autor