Bachelor + Master Publishing
810 Bachelorarbeiten, 531 Masterarbeiten, 10.101 Diplomarbeiten

Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung

Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: David Reindler
  • Abgabedatum: Juli 2005
  • Umfang: 121 Seiten
  • Dateigröße: 2,8 MB
  • Note: 1,0
  • Institution / Hochschule: Technische Universität Carolo-Wilhelmina zu Braunschweig Deutschland
  • ISBN (eBook): 978-3-8324-9186-4
  • ISBN (Paperback) :
    978-3-8324-9186-4 P
  • ISBN (CD) :978-3-8324-9186-4 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Reindler, David Juli 2005: Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung, Hamburg: Diplomica Verlag
  • Schlagworte: Clustering, Ähnlichkeitsanalyse, Produktrecherche, E-Commerce, Online Shopping

Diplomarbeit von David Reindler

Problemstellung:

Seit Ende der neunziger Jahre unterliegt der E-Commerce Sektor einer wachsenden Dynamik. Immer mehr Menschen verfügen über einen Internetanschluss und nutzen diesen nicht nur für den Austausch von Informationen, sondern bestellen immer häufiger auch Produkte und nehmen Dienstleistungen über das Internet in Anspruch. Mittlerweile steht fest, dass sich das Internet als Distributionskanal eignet. Beim Kauf über das Internet gibt es keinen Ladenschluss, keine Standortprobleme oder lange Wartezeiten. All dies macht den Onlineeinkauf so bequem und letztlich auch immer attraktiver für die Kunden. Aufgrund dieser Entwicklung ist es nicht verwunderlich, dass auch die Umsätze, die über das Internet erwirtschaftet werden, weiter ansteigen und dadurch vermehrt neue Anbieter angezogen werden. Durch die steigende Zahl der Anbieter verschärft sich mittlerweile auch der Konkurrenzkampf im Internet.

Eine weitere erkennbare Entwicklung ist die steigende Produktvielfalt. Hierbei ist zu vermerken, dass einerseits die Anzahl der Produkte rasant zunimmt, während die Produkte andererseits immer ähnlicher und damit schwerer vergleichbar werden. Dies ist eine Entwicklung, die es speziell für weniger fachkundige Interessenten oftmals schwierig macht, die möglichen Alternativen zu überblicken. Die Fülle an verschiedenen aber doch ähnlichen und sogar austauschbaren Produkten macht es fast unmöglich, sich schnell für ein Produkt zu entscheiden.

Um dem Kunden diese „Qual der Wahl“ zu ersparen, sind neue Methoden für eine Produktauswahl nötig. Auch ohne großes Fachwissen muss es möglich sein, die Produktvielfalt zu überschauen und für die eigenen Wünsche positiv zu nutzen.

Ziel dieser Arbeit ist es, Methoden zu entwickeln, die den Auswahlprozess für den Kunden deutlich vereinfachen. Ohne großes Fachwissen soll es jedem Interessenten möglich sein, sich schnell und einfach eine Liste der für ihn relevanten Produkte erstellen zu lassen.

Hierzu wird untersucht, ob mit Hilfe von Clustermethoden des Data Minings eine Entscheidungsunterstützung für den Bereich des E-Commerce entwickelt werden kann. Idee ist es, Produkte nach Ähnlichkeiten zu gruppieren und dem Nutzer so eine Hilfestellung bei der Auswahl der für ihn interessanten Produkte zu geben.

Im Mittelpunkt dieser Arbeit stehen die Analyse der existierenden Clusteralgorithmen sowie die Anpassung und Entwicklung eigener Verfahren zur Produktauswahl. Clusteralgorithmen bezeichnen Verfahren, die es ermöglichen, eine Menge von Objekten in unterschiedliche Cluster einzuteilen. Dabei sollen Objekte innerhalb desselben Clusters möglichst homogen sein, während Objekte aus unterschiedlichen Clustern möglichst heterogen sein sollen. Mit Hilfe solcher Algorithmen könnte es dem Nutzer ermöglicht werden, sich schrittweise durch die Menge von Produkten zu arbeiten. Bei jedem Schritt werden die Produkte in mehrere Cluster aufgeteilt und nach Ähnlichkeit gruppiert. Durch die Auswahl eines speziellen Clusters kann der Kunde die Produktgruppe nach und nach einschränken. Im Idealfall ergibt sich dadurch am Ende eine Auswahl aller Produkte, die die speziellen Anforderungen des Kunden erfüllen. Alle irrelevanten Produkte, die diesen Anforderungen nicht entsprechen, sind durch die Entscheidung für ein spezielles Cluster bereits weggefallen.

Auf dem Gebiet des Clusterings könnten hierzu bereits einige anwendbare Algorithmen existieren. In dieser Arbeit werden daher die Anforderungen an die Clusterverfahren anhand eines konkreten Beispielmarktes herausgearbeitet. Durch einen Vergleich der Anforderungen mit den Eigenschaften der Algorithmen könnte so ein geeignetes Verfahren ermittelt und implementiert werden.

Gang der Untersuchung:

Die Struktur der Arbeit gliedert sich in sieben Kapitel. Im Anschluss an die Einleitung wird in Kapitel zwei und drei auf die theoretischen Grundlagen des Data Minings eingegangen. Der Knowledge Discovery Prozess bildet den Einstieg in das Thema. In Kapitel zwei werden die Phasen dieses Prozesses kurz beschrieben und die für die Problemstellung relevanten Aspekte herausgearbeitet. Die entscheidende Phase ist dabei das Data Mining, der eigentliche Schritt der Informationsgewinnung. Im Abschnitt 2.2 werden die verschiedenen Aufgabengebiete des Data Minings kurz vorgestellt, der Fokus wird aber auf das Clustering gelegt, da diese Methoden eine mögliche Problemlösung darstellen. Das Kapitel drei soll einen umfassenden Einblick in diesen Forschungsbereich geben und die unterschiedlichen Verfahren gegeneinander abgrenzen.

Aufbauend auf diesen Grundlagen wird in Kapitel vier und fünf die Problemstellung näher beschrieben, und es wird ein erster Lösungsansatz vorgeschlagen. Zunächst werden die speziellen Probleme des dynamischen Clusterings dargestellt. Die Herausforderung beim dynamischen Clustering stellt die Interaktion mit dem Benutzer dar. Durch die aktive Beeinflussung des Clusterprozesses treten aber neue Probleme auf, die in Kapitel vier genauer dargestellt werden. Außerdem wird der aktuelle Stand der Forschung näher untersucht. Das Kapitel fünf soll die Grundlagen Clustering in einen engeren Zusammenhang mit der Problemstellung bringen. Hierbei werden die verschiedenen Aspekte miteinander verknüpft und die möglichen Einflussfaktoren näher beschrieben.

Abschließend soll das Kapitel sechs der Arbeit diese Lösungsansätze durch ein praktisches Beispiel evaluieren und die Auswirkungen der Einflussfaktoren detailliert untersuchen. Anschließend werden die Ergebnisse in Kapitel sieben zusammengefasst, es werden Potentiale identifiziert und eine Handlungsempfehlung für die Zukunft gegeben.

Des Weiteren befindet sich am Ende der Arbeit ein Glossar, dieses dient dazu, einzelne Begriffe der Arbeit näher zu erläutert. Begriffe, die im Glossar definiert wurden, sind in der Arbeitkursiv gedruckt. Der darauf folgende Anhang stellt detaillierte Testergebnisse zur Verfügung.

Inhaltsverzeichnis:

Inhaltsverzeichnis I
1. Einleitung 1
1.1 Problemstellung 1
1.2 Zielsetzung 1
1.3 Aufbau der Arbeit 2
2. Knowledge Discovery in Databases 4
2.1 Phasen des Knowledge Discovery in Databases 4
2.2 Normalisierung der Daten 8
2.3 Aufgaben des Data Minings 10
2.3.1 Explorative Datenanalyse 12
2.3.2 Deskriptive Datenanalyse 12
2.3.3 Predictive Modeling 13
2.3.4 Pattern Discovery 13
2.3.5 Retrieval by Content 14
3. Deskriptive Analyse im Data Mining: Clustering 15
3.1 Distanzberechnung beim Clustering 16
3.1.1 Distanzberechnung bei Intervallbasierten Variablen 18
3.1.2 Distanzberechnung bei Binären Variablen 20
3.1.3 Distanzberechnung bei Nominalen Variablen 21
3.1.4 Distanzberechnung bei Ordinalen Variablen 21
3.1.5 Distanzberechnung bei gemischt skalierten Daten 21
3.1.6 Distanzberechnung bei fehlenden Werten 23
3.1.7 Distanzberechnung bei speziellen Strukturen 24
3.1.8 Standardisierung der Distanzwerte 24
3.2 Clusterverfahren 25
3.2.1 Partitionierende Algorithmen 27
3.2.2 Hierarchische Algorithmen 34
3.2.3 Dichtebasierte Algorithmen 38
3.2.4 Gitterbasierte Algorithmen 42
3.2.5 Modellbasierte Algorithmen 44
4. Dynamisches Clustering 48
4.1 Anforderungen des Produktclustering 49
4.2 Aktueller Forschungsstand 50
5. Problemmodellierung 53
5.1 Lösungsansätze 55
5.2 Einflussfaktoren 58
5.2.1 Verfahren 58
5.2.2 Daten 59
5.2.3 Benutzer 59
5.3 Vergleichsmöglichkeiten 60
6. Testergebnisse 62
6.1 Ausgewählte Anwendungsfälle 63
6.1.1 Bildschirme 63
6.1.2 Festplatten 65
6.2 Einfluss des Verfahrens 66
6.2.1 Spezifische Parameter 67
6.2.2 Clusteranzahl 68
6.2.3 Distanzfunktion 70
6.2.4 Algorithmen 73
6.3 Einfluss der Daten 77
6.3.1 Fehlende Werte 77
6.3.2 Normalisierung der Daten 77
6.3.3 Spezialprodukte 80
6.4 Einfluss des Benutzers 81
6.4.1 Gewichtung 81
6.4.2 Vorabauswahl 85
6.5 Repräsentation der Cluster 87
6.6 Laufzeit der Verfahren 89
6.7 Zusammenfassung der Ergebnisse 90
7. Schlussbetrachtung 94
Anhang 97
Literaturverzeichnis 108
Abbildungsverzeichnis 113
Tabellenverzeichnis 114
Glossar 116
Eidesstattliche Erklärung 118

Automatisiert erstellter Textauszug:

Die betrachteten Dokumente befinden sich oft in Verteilten Netzen. Der Zugriff auf diese Ressourcen muss daher für die Algorithmen möglichst effizient sein. Zwischen dem Produktclustering und dem Clustern von Dokumenten bestehen also einige wesentliche Unterschiede. Diese beginnen natürlich schon beim Datenrohmaterial, also den Dokumenten beziehungsweise den Produktbeschreibungen. Für die Dokumente ist eine aufwendige Aufbereitung der Daten notwendig, um die relevanten Schlüsselwörter zu identifizieren und die Darstellung im Vektorraum zu berechnen. Die Produktdaten müssen nicht zwingend aufbereitet werden. Lediglich eine Identifizierung von Ausreißern kann eventuell sinnvoll sein, um die Qualität der Ergebnisse zu steigern. Beim anschließenden Clusterprozess besteht der wesentliche Unterschied in der Dimensionalität der Daten. Die Produkteigenschaften bestehen aus relativ wenigen Attributen, wobei diese sehr unterschiedlich sein können und verschiedene Variablentypen betrachtet werden müssen. Die Dokumente hingegen haben eine sehr hohe Dimensionalität, da jedes Schlüsselwort eine eigene Dimension aufspannt. Die möglichen Werte sind dabei allerdings auf quantitative beschränkt. Aufgrund der bestehenden Unterschiede zu den vorhandenen dynamischen Forschungsansätzen müssen beim Produktclustering neue Methoden gefunden werden. Im folgenden Kapitel werden hierzu erste Ansätze vorgeschlagen und das Vorgehen für das Produktclustering näher definiert. [...]

Texte aus einer unstrukturierten Sammlung von Wörtern bestehen [BR99]. Zunächst müssen also relevante Schlüsselwörter identifiziert werden, um so Ähnlichkeiten und Unterschiede bestimmen zu können. Problematisch ist dabei die hohe Dimensionalität der Daten. Jedes Dokument besteht aus einer Vielzahl von Wörtern, die im Vektorraum abgebildet werden müssen. Diese hohe Dimensionalität macht die Berechnungen besonders schwierig, da sie komplexer und aufwendiger werden [AGGR98]. Des Weiteren stellt die Größe der Datenmenge eine entscheidende Anforderung an die Algorithmen [Fer03]. Viele Data Mining Methoden verlangen, dass die zu untersuchenden Daten das Volumen des Hauptspeichers nicht überschreiten. Diese Einschränkung kann beim Clustern von Dokumenten jedoch nicht eingehalten werden. Die Vielzahl der Dokumente sowie deren Größe macht dies unmöglich. Trotzdem müssen Verfahren gefunden werden, die die Rechenzeit kurz halten und nicht mehrfach auf die Daten zugreifen müssen. Eine weitere Herausforderung bringt die zunehmende Bedeutung von Netzwerken mit sich. Dadurch entsteht häufig eine Verteilung der Daten auf unterschiedliche Rechner. Die Dokumente befinden sich nicht mehr zentral auf einem Server, sondern sind in einem Netzwerk verteilt gespeichert [BR99]. Die Verfahren müssen daher in der Lage sein, möglichst effizient auf diese verteilten Ressourcen zugreifen zu können. Die daraus entstehenden Anforderungen des Dokumenten Clustering lassen sich wie folgt zusammenfassen: [...]

professionellen Lösungen auf dem Markt. Der ‚Intelligent Classifier’ von Verity ist zum Beispiel eine solche professionelle Lösung für das Clustering von Dokumenten. Das Ziel derartiger Verfahren ist es, Dokumente nach ihrer Ähnlichkeit zu gruppieren, um dem Nutzer auf diese Weise bei der Suche nach für ihn relevanten Dokumenten zu helfen. Das Vorgehen für ein solches Dokumenten Clustering setzt auf den bereits bekannten und in Kapitel 3 vorgestellten Algorithmen auf [Bol99]. Jedoch kommen einige neue Aspekte hinzu, die das Dokumenten Clustering vom Produktclustering abgrenzen. Entscheidend ist dabei die Auswahl von Schlüsselwörtern. Sie sollen die Dokumente beschreiben und so die Gruppierung ermöglichen. Dazu werden die betrachteten Dokumente in einem n-Dimensionalen Vektorraum dargestellt [Fer03]. Jedes Schlüsselwort spannt dabei eine Dimension des Vektorraums auf. Die Häufigkeit des Auftretens eines Schlüsselwortes spezifiziert den jeweiligen Wert des Dokuments auf dieser Dimension [SKK00]. Jedes 50 [...]

Arbeit zitieren:
Reindler, David Juli 2005: Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung, Hamburg: Diplomica Verlag

Schlagworte:
Clustering, Ähnlichkeitsanalyse, Produktrecherche, E-Commerce, Online Shopping

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren