Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung
- Art: Diplomarbeit
- Autor: David Reindler
- Abgabedatum: Juli 2005
- Umfang: 121 Seiten
- Dateigröße: 2,8 MB
- Note: 1,0
- Institution / Hochschule: Technische Universität Carolo-Wilhelmina zu Braunschweig Deutschland
- ISBN (eBook): 978-3-8324-9186-4
-
ISBN (Paperback) :
978-3-8324-9186-4 P - ISBN (CD) :978-3-8324-9186-4 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Reindler, David Juli 2005: Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung, Hamburg: Diplomica Verlag
- Schlagworte: Clustering, Ähnlichkeitsanalyse, Produktrecherche, E-Commerce, Online Shopping
In den Warenkorb
98,00 €
Diplomarbeit von David Reindler
Problemstellung:
Seit Ende der neunziger Jahre unterliegt der E-Commerce Sektor einer wachsenden Dynamik. Immer mehr Menschen verfügen über einen Internetanschluss und nutzen diesen nicht nur für den Austausch von Informationen, sondern bestellen immer häufiger auch Produkte und nehmen Dienstleistungen über das Internet in Anspruch. Mittlerweile steht fest, dass sich das Internet als Distributionskanal eignet. Beim Kauf über das Internet gibt es keinen Ladenschluss, keine Standortprobleme oder lange Wartezeiten. All dies macht den Onlineeinkauf so bequem und letztlich auch immer attraktiver für die Kunden. Aufgrund dieser Entwicklung ist es nicht verwunderlich, dass auch die Umsätze, die über das Internet erwirtschaftet werden, weiter ansteigen und dadurch vermehrt neue Anbieter angezogen werden. Durch die steigende Zahl der Anbieter verschärft sich mittlerweile auch der Konkurrenzkampf im Internet.
Eine weitere erkennbare Entwicklung ist die steigende Produktvielfalt. Hierbei ist zu vermerken, dass einerseits die Anzahl der Produkte rasant zunimmt, während die Produkte andererseits immer ähnlicher und damit schwerer vergleichbar werden. Dies ist eine Entwicklung, die es speziell für weniger fachkundige Interessenten oftmals schwierig macht, die möglichen Alternativen zu überblicken. Die Fülle an verschiedenen aber doch ähnlichen und sogar austauschbaren Produkten macht es fast unmöglich, sich schnell für ein Produkt zu entscheiden.
Um dem Kunden diese „Qual der Wahl“ zu ersparen, sind neue Methoden für eine Produktauswahl nötig. Auch ohne großes Fachwissen muss es möglich sein, die Produktvielfalt zu überschauen und für die eigenen Wünsche positiv zu nutzen.
Ziel dieser Arbeit ist es, Methoden zu entwickeln, die den Auswahlprozess für den Kunden deutlich vereinfachen. Ohne großes Fachwissen soll es jedem Interessenten möglich sein, sich schnell und einfach eine Liste der für ihn relevanten Produkte erstellen zu lassen.
Hierzu wird untersucht, ob mit Hilfe von Clustermethoden des Data Minings eine Entscheidungsunterstützung für den Bereich des E-Commerce entwickelt werden kann. Idee ist es, Produkte nach Ähnlichkeiten zu gruppieren und dem Nutzer so eine Hilfestellung bei der Auswahl der für ihn interessanten Produkte zu geben.
Im Mittelpunkt dieser Arbeit stehen die Analyse der existierenden Clusteralgorithmen sowie die Anpassung und Entwicklung eigener Verfahren zur Produktauswahl. Clusteralgorithmen bezeichnen Verfahren, die es ermöglichen, eine Menge von Objekten in unterschiedliche Cluster einzuteilen. Dabei sollen Objekte innerhalb desselben Clusters möglichst homogen sein, während Objekte aus unterschiedlichen Clustern möglichst heterogen sein sollen. Mit Hilfe solcher Algorithmen könnte es dem Nutzer ermöglicht werden, sich schrittweise durch die Menge von Produkten zu arbeiten. Bei jedem Schritt werden die Produkte in mehrere Cluster aufgeteilt und nach Ähnlichkeit gruppiert. Durch die Auswahl eines speziellen Clusters kann der Kunde die Produktgruppe nach und nach einschränken. Im Idealfall ergibt sich dadurch am Ende eine Auswahl aller Produkte, die die speziellen Anforderungen des Kunden erfüllen. Alle irrelevanten Produkte, die diesen Anforderungen nicht entsprechen, sind durch die Entscheidung für ein spezielles Cluster bereits weggefallen.
Auf dem Gebiet des Clusterings könnten hierzu bereits einige anwendbare Algorithmen existieren. In dieser Arbeit werden daher die Anforderungen an die Clusterverfahren anhand eines konkreten Beispielmarktes herausgearbeitet. Durch einen Vergleich der Anforderungen mit den Eigenschaften der Algorithmen könnte so ein geeignetes Verfahren ermittelt und implementiert werden.
Gang der Untersuchung:
Die Struktur der Arbeit gliedert sich in sieben Kapitel. Im Anschluss an die Einleitung wird in Kapitel zwei und drei auf die theoretischen Grundlagen des Data Minings eingegangen. Der Knowledge Discovery Prozess bildet den Einstieg in das Thema. In Kapitel zwei werden die Phasen dieses Prozesses kurz beschrieben und die für die Problemstellung relevanten Aspekte herausgearbeitet. Die entscheidende Phase ist dabei das Data Mining, der eigentliche Schritt der Informationsgewinnung. Im Abschnitt 2.2 werden die verschiedenen Aufgabengebiete des Data Minings kurz vorgestellt, der Fokus wird aber auf das Clustering gelegt, da diese Methoden eine mögliche Problemlösung darstellen. Das Kapitel drei soll einen umfassenden Einblick in diesen Forschungsbereich geben und die unterschiedlichen Verfahren gegeneinander abgrenzen.
Aufbauend auf diesen Grundlagen wird in Kapitel vier und fünf die Problemstellung näher beschrieben, und es wird ein erster Lösungsansatz vorgeschlagen. Zunächst werden die speziellen Probleme des dynamischen Clusterings dargestellt. Die Herausforderung beim dynamischen Clustering stellt die Interaktion mit dem Benutzer dar. Durch die aktive Beeinflussung des Clusterprozesses treten aber neue Probleme auf, die in Kapitel vier genauer dargestellt werden. Außerdem wird der aktuelle Stand der Forschung näher untersucht. Das Kapitel fünf soll die Grundlagen Clustering in einen engeren Zusammenhang mit der Problemstellung bringen. Hierbei werden die verschiedenen Aspekte miteinander verknüpft und die möglichen Einflussfaktoren näher beschrieben.
Abschließend soll das Kapitel sechs der Arbeit diese Lösungsansätze durch ein praktisches Beispiel evaluieren und die Auswirkungen der Einflussfaktoren detailliert untersuchen. Anschließend werden die Ergebnisse in Kapitel sieben zusammengefasst, es werden Potentiale identifiziert und eine Handlungsempfehlung für die Zukunft gegeben.
Des Weiteren befindet sich am Ende der Arbeit ein Glossar, dieses dient dazu, einzelne Begriffe der Arbeit näher zu erläutert. Begriffe, die im Glossar definiert wurden, sind in der Arbeitkursiv gedruckt. Der darauf folgende Anhang stellt detaillierte Testergebnisse zur Verfügung.
Inhaltsverzeichnis:
| Inhaltsverzeichnis | I | |
| 1. | Einleitung | 1 |
| 1.1 | Problemstellung | 1 |
| 1.2 | Zielsetzung | 1 |
| 1.3 | Aufbau der Arbeit | 2 |
| 2. | Knowledge Discovery in Databases | 4 |
| 2.1 | Phasen des Knowledge Discovery in Databases | 4 |
| 2.2 | Normalisierung der Daten | 8 |
| 2.3 | Aufgaben des Data Minings | 10 |
| 2.3.1 | Explorative Datenanalyse | 12 |
| 2.3.2 | Deskriptive Datenanalyse | 12 |
| 2.3.3 | Predictive Modeling | 13 |
| 2.3.4 | Pattern Discovery | 13 |
| 2.3.5 | Retrieval by Content | 14 |
| 3. | Deskriptive Analyse im Data Mining: Clustering | 15 |
| 3.1 | Distanzberechnung beim Clustering | 16 |
| 3.1.1 | Distanzberechnung bei Intervallbasierten Variablen | 18 |
| 3.1.2 | Distanzberechnung bei Binären Variablen | 20 |
| 3.1.3 | Distanzberechnung bei Nominalen Variablen | 21 |
| 3.1.4 | Distanzberechnung bei Ordinalen Variablen | 21 |
| 3.1.5 | Distanzberechnung bei gemischt skalierten Daten | 21 |
| 3.1.6 | Distanzberechnung bei fehlenden Werten | 23 |
| 3.1.7 | Distanzberechnung bei speziellen Strukturen | 24 |
| 3.1.8 | Standardisierung der Distanzwerte | 24 |
| 3.2 | Clusterverfahren | 25 |
| 3.2.1 | Partitionierende Algorithmen | 27 |
| 3.2.2 | Hierarchische Algorithmen | 34 |
| 3.2.3 | Dichtebasierte Algorithmen | 38 |
| 3.2.4 | Gitterbasierte Algorithmen | 42 |
| 3.2.5 | Modellbasierte Algorithmen | 44 |
| 4. | Dynamisches Clustering | 48 |
| 4.1 | Anforderungen des Produktclustering | 49 |
| 4.2 | Aktueller Forschungsstand | 50 |
| 5. | Problemmodellierung | 53 |
| 5.1 | Lösungsansätze | 55 |
| 5.2 | Einflussfaktoren | 58 |
| 5.2.1 | Verfahren | 58 |
| 5.2.2 | Daten | 59 |
| 5.2.3 | Benutzer | 59 |
| 5.3 | Vergleichsmöglichkeiten | 60 |
| 6. | Testergebnisse | 62 |
| 6.1 | Ausgewählte Anwendungsfälle | 63 |
| 6.1.1 | Bildschirme | 63 |
| 6.1.2 | Festplatten | 65 |
| 6.2 | Einfluss des Verfahrens | 66 |
| 6.2.1 | Spezifische Parameter | 67 |
| 6.2.2 | Clusteranzahl | 68 |
| 6.2.3 | Distanzfunktion | 70 |
| 6.2.4 | Algorithmen | 73 |
| 6.3 | Einfluss der Daten | 77 |
| 6.3.1 | Fehlende Werte | 77 |
| 6.3.2 | Normalisierung der Daten | 77 |
| 6.3.3 | Spezialprodukte | 80 |
| 6.4 | Einfluss des Benutzers | 81 |
| 6.4.1 | Gewichtung | 81 |
| 6.4.2 | Vorabauswahl | 85 |
| 6.5 | Repräsentation der Cluster | 87 |
| 6.6 | Laufzeit der Verfahren | 89 |
| 6.7 | Zusammenfassung der Ergebnisse | 90 |
| 7. | Schlussbetrachtung | 94 |
| Anhang | 97 | |
| Literaturverzeichnis | 108 | |
| Abbildungsverzeichnis | 113 | |
| Tabellenverzeichnis | 114 | |
| Glossar | 116 | |
| Eidesstattliche Erklärung | 118 |
Die betrachteten Dokumente befinden sich oft in Verteilten Netzen. Der Zugriff auf diese Ressourcen muss daher für die Algorithmen möglichst effizient sein. Zwischen dem Produktclustering und dem Clustern von Dokumenten bestehen also einige wesentliche Unterschiede. Diese beginnen natürlich schon beim Datenrohmaterial, also den Dokumenten beziehungsweise den Produktbeschreibungen. Für die Dokumente ist eine aufwendige Aufbereitung der Daten notwendig, um die relevanten Schlüsselwörter zu identifizieren und die Darstellung im Vektorraum zu berechnen. Die Produktdaten müssen nicht zwingend aufbereitet werden. Lediglich eine Identifizierung von Ausreißern kann eventuell sinnvoll sein, um die Qualität der Ergebnisse zu steigern. Beim anschließenden Clusterprozess besteht der wesentliche Unterschied in der Dimensionalität der Daten. Die Produkteigenschaften bestehen aus relativ wenigen Attributen, wobei diese sehr unterschiedlich sein können und verschiedene Variablentypen betrachtet werden müssen. Die Dokumente hingegen haben eine sehr hohe Dimensionalität, da jedes Schlüsselwort eine eigene Dimension aufspannt. Die möglichen Werte sind dabei allerdings auf quantitative beschränkt. Aufgrund der bestehenden Unterschiede zu den vorhandenen dynamischen Forschungsansätzen müssen beim Produktclustering neue Methoden gefunden werden. Im folgenden Kapitel werden hierzu erste Ansätze vorgeschlagen und das Vorgehen für das Produktclustering näher definiert. [...]
Texte aus einer unstrukturierten Sammlung von Wörtern bestehen [BR99]. Zunächst müssen also relevante Schlüsselwörter identifiziert werden, um so Ähnlichkeiten und Unterschiede bestimmen zu können. Problematisch ist dabei die hohe Dimensionalität der Daten. Jedes Dokument besteht aus einer Vielzahl von Wörtern, die im Vektorraum abgebildet werden müssen. Diese hohe Dimensionalität macht die Berechnungen besonders schwierig, da sie komplexer und aufwendiger werden [AGGR98]. Des Weiteren stellt die Größe der Datenmenge eine entscheidende Anforderung an die Algorithmen [Fer03]. Viele Data Mining Methoden verlangen, dass die zu untersuchenden Daten das Volumen des Hauptspeichers nicht überschreiten. Diese Einschränkung kann beim Clustern von Dokumenten jedoch nicht eingehalten werden. Die Vielzahl der Dokumente sowie deren Größe macht dies unmöglich. Trotzdem müssen Verfahren gefunden werden, die die Rechenzeit kurz halten und nicht mehrfach auf die Daten zugreifen müssen. Eine weitere Herausforderung bringt die zunehmende Bedeutung von Netzwerken mit sich. Dadurch entsteht häufig eine Verteilung der Daten auf unterschiedliche Rechner. Die Dokumente befinden sich nicht mehr zentral auf einem Server, sondern sind in einem Netzwerk verteilt gespeichert [BR99]. Die Verfahren müssen daher in der Lage sein, möglichst effizient auf diese verteilten Ressourcen zugreifen zu können. Die daraus entstehenden Anforderungen des Dokumenten Clustering lassen sich wie folgt zusammenfassen: [...]
professionellen Lösungen auf dem Markt. Der ‚Intelligent Classifier’ von Verity ist zum Beispiel eine solche professionelle Lösung für das Clustering von Dokumenten. Das Ziel derartiger Verfahren ist es, Dokumente nach ihrer Ähnlichkeit zu gruppieren, um dem Nutzer auf diese Weise bei der Suche nach für ihn relevanten Dokumenten zu helfen. Das Vorgehen für ein solches Dokumenten Clustering setzt auf den bereits bekannten und in Kapitel 3 vorgestellten Algorithmen auf [Bol99]. Jedoch kommen einige neue Aspekte hinzu, die das Dokumenten Clustering vom Produktclustering abgrenzen. Entscheidend ist dabei die Auswahl von Schlüsselwörtern. Sie sollen die Dokumente beschreiben und so die Gruppierung ermöglichen. Dazu werden die betrachteten Dokumente in einem n-Dimensionalen Vektorraum dargestellt [Fer03]. Jedes Schlüsselwort spannt dabei eine Dimension des Vektorraums auf. Die Häufigkeit des Auftretens eines Schlüsselwortes spezifiziert den jeweiligen Wert des Dokuments auf dieser Dimension [SKK00]. Jedes 50 [...]
In den Warenkorb
98,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832491864
Arbeit zitieren:
Reindler, David Juli 2005: Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung, Hamburg: Diplomica Verlag
Schlagworte:
Clustering, Ähnlichkeitsanalyse, Produktrecherche, E-Commerce, Online Shopping



