Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Statistische Methoden des Data Mining und deren Anwendung

Statistische Methoden des Data Mining und deren Anwendung
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Hendrik Eisenberg
  • Abgabedatum: September 2003
  • Umfang: 111 Seiten
  • Dateigröße: 986,5 KB
  • Note: 1,3
  • Institution / Hochschule: Fachhochschule Anhalt Deutschland
  • ISBN (eBook): 978-3-8324-7963-3
  • ISBN (Paperback) :
    978-3-8324-7963-3 P
  • ISBN (CD) :978-3-8324-7963-3 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Eisenberg, Hendrik September 2003: Statistische Methoden des Data Mining und deren Anwendung, Hamburg: Diplomica Verlag
  • Schlagworte: Datenanalyse, Knowledge Discovery, Regression, Modellierung, Modellbildung

Diplomarbeit von Hendrik Eisenberg

Zusammenfassung:

In dieser Arbeit stehen neben dem Begriff des „Data Mining“ besonders die statistischen Methoden im Mittelpunkt. Interessenten sollen den kreativen Prozess des Data Mining näher kennen lernen und erfahren, welche Rolle dabei der Statistik zukommt.

Das Ziel der Arbeit ist, eine weiterreichende Darstellung des Prozesses des Data Mining mit statistischen Methoden zu erstellen, angefangen bei der Zielfindung, über die Modellbildung, bis hin zur Bewertung der Ergebnisse. Dabei orientiert sich die Vorgehensweise der systematischen Auswertung an der Methode des CRoss Industry Standard Process for Data Mining, mit der sich Data Mining Prozesse beschreiben lassen. Zum besseren Verständnis werden grundlegende Begriffe zum Data Mining sowie die bedeutsamsten Methoden und Verfahren zur statistischen Datenanalyse erläutert, welche bei den im Anschluss aufgezeigten Data Mining Problemen zur Anwendung kommen.

Die veranschaulichten Analyseprobleme entsprechen den Aufgaben der Data Mining Cups der Jahre 2001 und 2002. Dabei werden die zur Lösung angewendeten statistischen Methoden nachvollziehbar wiedergegeben und es wird auf die kritischen Erfolgsfaktoren eingegangen. Oftmals wirken sich schon einzelne Teilentscheidungen bei der Datenaufbereitung und bei den eingesetzten Klassifizierungsmethoden auf die Lösung der Data Mining Aufgabe aus. Daher stellte sich die Frage, wie solche Abweichungen von den aufgezeigten Methoden aussehen könnten. In dieser Arbeit werden im Einzelnen verschiedene Abwandlungen durchgeführt, am Ende zusammengefasst und diskutiert.

Inhaltsverzeichnis:

Abbildungsverzeichnis 6
Tabellenverzeichnis 7
1. Einleitung 9
1.1 Problemstellung 10
1.2 Ziel der Arbeit 11
1.3 Themenabgrenzung 12
2. Der Data Mining Prozess im CRISP-DM Referenzmodell 14
2.1 Das CRISP-DM Referenzmodell 14
2.2 Die Phasen des CRISP-DM Referenzmodells 15
2.2.1 business understanding (Anwendungsverstehen) 15
2.2.2 data understanding (Datenverstehen) 16
2.2.3 data preparation (Datenaufbereitung) 16
2.2.4 modeling (Modellerstellung) 17
2.2.5 evaluation (Bewertung der Ergebnisse) 18
2.2.6 deployment (Anwendung) 19
3. Grundlegende Begriffe 20
3.1 Die Statistik im Data Mining Prozess 20
3.2 Segmentierung und Klassifikation 22
3.2.1 Begriff der Segmentierung 22
3.2.2 Begriff der Klassifikation 22
3.3 Standardisierung 23
3.4 Maße für die Ähnlichkeit von Objekten 24
4. Methoden der statistischen Datenanalyse 27
4.1 Faktorenanalyse 27
4.2 Clusteranalyse 32
4.3 Lineare und logistische Regression 38
4.4 Diskriminanzanalyse 40
5. Gegebene Daten und Modelle 44
5.1 Data Mining Cup 2002 44
5.1.1 Szenario 44
5.1.2 Gegebene Daten 45
5.2 Modellbildung zum DMC 2002 Problem 46
5.2.1 Phase 1: business understanding 47
5.2.2 Phase 2: data understanding 47
5.2.3 Phase 3: data preparation 51
5.2.4 Phase 4: modeling 61
5.2.5 Phase 5: evaluation 67
5.2.6 Phase 6: deployment 67
5.2.7 Andere Lösungsmethoden im Vergleich 68
5.3 Data Mining Cup 2001 75
5.3.1 Szenario 75
5.3.2 Gegebene Daten 76
5.4 Modellbildung zum DMC 2001 Problem 77
5.4.1 Phase 2: data understanding 78
5.4.2 Phase 3: data preparation 80
5.4.3 Phase 4: modeling 83
5.4.4 Andere Lösungsmethoden im Vergleich 87
6. Fazit 94
Literatur 96
Anhang 99
A1 Tabellen zum Data Mining Cup 2002 Problem 100
A2 Tabellen zum Data Mining Cup 2001 Problem 104
A3 Dateien auf der Begleit-CD 105
Ergänzung 108

Automatisiert erstellter Textauszug:

werden. Die „schlechtere“ Methode, der Rangkorrelationskoeffizient von Spearman, war hier nur bedingt einsetzbar, weil das Kündigerverhalten als ordinalskaliert behandelt wurde, obwohl es nominalskaliert war. Das Verfahren der Kreuztabellen mit dem Chi-Quadrat Test nach Pearson fand dagegen selbst kleine Abhängigkeiten der Merkmale zum Zielmerkmal und wurde daher als bevorzugt angesehen. Faktorenanalyse Neben der Abhängigkeit der Merkmale vom Zielmerkmal war aber auch der Zusammenhang der Merkmale untereinander von Bedeutung. Dass z.B. starke Abhängigkeiten zwischen den einzelnen Wohlstandindices existieren, ließ sich aus der Beschreibung der Merkmale vermuten. Ein geeignetes Verfahren, um an dieser Stelle die starken wechselseitigen Abhängigkeiten der meisten mikrogeografischen Merkmale systematisch zu modellieren, war die Faktorenanalyse (siehe Abschnitt 4.1, Faktorenanalyse, S.27). Diese macht bevorzugte Richtungen im Merkmalsraum sichtbar. Die von der Faktorenanalyse erzeugten neuen Merkmale können als unabhängig wirkende Einflussfaktoren interpretiert werden, die hinter den wechselseitig abhängigen Daten stehen. Zudem werden nicht nur aus der Trainingsdatenmenge, sondern auch aus der Klassifizierungsdatenmenge Informationen gewonnen, denn die Faktorenanalyse erfolgt über den gesamten Datenbestand. Die Einstellungen bei der Durchführung der Faktorenanalyse entsprachen weitgehend den Voreinstellungen in SPSS. Verwendet wurde das Extraktionsverfahren der Hauptkomponenten, fehlende Werte wurden durch ihre Mittelwerte ersetzt und die entstandenen Faktorwerte wurden zur weiteren Verwendung in extra Variablen gespeichert. Auf eine vorherige Auswertung der Korrelationsmatrix sowie eine anschließende Rotation zur besseren Interpretierbarkeit der Faktoren wurde verzichtet. Die Tabelle 5, S.55 zeigt die Eigenwerte und die Anteile der Varianzen der entstandenen Faktoren. Zu erkennen ist, dass die Eigenwerte der ersten fünf Faktoren stärker und die der Faktoren 6 bis 14 moderat abfallen, während erst der 15. Faktor wieder stark abfällt. Dies wird auch durch die grafische Darstellung der Eigenwerte in dem von SPSS erzeugten Screeplot (siehe Abbildung 9, S.55) deutlich. [...]

Test auf Abhängigkeit Um die Abhängigkeit des Zielmerkmals von den mikrogeografischen Merkmalen in Zahlen o. Ä. auszudrücken, standen mehrere statistische Unabhängigkeitstests je nach Skalierung zur Verfügung. Zudem war aufgrund der großen Zahl der zu untersuchenden Fälle eine sichere Entscheidung möglich und schon geringe Abhängigkeiten konnten zuverlässig aufgedeckt werden. Jene Merkmale, die nicht vom Kündigerverhalten abhängig waren, wurden nicht in weitere Untersuchungen einbezogen. Mit Hilfe der Kreuztabellen, ausgewertet wurde die Signifikanz des Chi-Quadrat Tests nach Pearson, wurde in den Trainingsdaten die Abhängigkeit der Merkmale zum Zielmerkmal bestimmt. War die Signifikanz der Variablen mit einem Niveau von unter 10% (kleiner als 0,100) gegeben, konnte diese in weitere Analysen einbezogen werden. Von den 31 Variablen blieben 15 signifikante Merkmale erhalten, wobei z.B. die meisten Pharmawerte und Psychonomics-Versicherungstypologien als nicht signifikant ausgewiesen wurden. An dieser Stelle soll auf die drei zusätzlich eingeführten Indikatorvariablen hingewiesen werden, die die Information über fehlende Werte enthielten. Nach dem Test auf Abhängigkeit erwiesen sich zwei dieser Merkmale (sm, pm) als signifikant zum Zielmerkmal und gingen auch in folgende Tests ein. Eine andere Methode, um die Stärke des Zusammenhangs bzw. die Abhängigkeit einer Variablen zum Zielmerkmal zu messen, bietet z.B. der Rangkorrelationskoeffizient für ordinalskalierte Merkmale von Spearman (Näheres in [1]). Dieser wurde nun zur Überprüfung des vorhergehenden Ergebnisses nachträglich herangezogen. Ausgewertet wurde die Signifikanz, wobei auch hier ein Niveau von unter 10% (kleiner als 0,100) das Merkmal in weitere Untersuchungen einfließen lassen würde. Im Gegensatz zu den Kreuztabellen blieben nur sieben signifikante Variablen erhalten. Die anderen acht, als signifikant ausgezeichneten Merkmale der Kreuztabellen wurden, wie z.B. das Merkmal mtreg0g (Regionaltyp) mit einer Signifikanz von 0,917 (deutlich größer als 0,100), zurückgewiesen. Da der Regionaltyp aber neben den ebenso ausgewiesenen Variablen mtstr0g (Straßentyp) und mtkgl0g (PKW-Gebrauchtwagenindex) später im Faktorenmodell von Bedeutung war, soll an dieser Stelle über Tauglichkeit der beiden Methoden entschieden [...]

Im ersten Schritt der Datenaufbereitung wurde festgelegt, dass die Merkmale des Energieversorgers, also jene, die im Unterschied zu den mikrogeografischen Merkmalen für jeden individuellen Kunden eindeutig waren, nicht zusammengefasst werden, sondern direkt in nachfolgende Auswertungen zur Klassifizierung der Kunden einfließen. Die anderen, meist ordinalskalierten mikrogeografischen Merkmale wurden vorbetrachtet, um diejenigen zu eliminieren, die keine Information über das Zielmerkmal liefern und somit das Ergebnis der eigentlichen Untersuchungsmethode nicht verfälschen. Diese intuitive Entscheidung stützte sich einerseits auf die Vermutung, dass die vier, eindeutig dem individuellen Kunden zuordenbaren Merkmale einen gewissen Einfluss auf das Kündigerverhalten haben. Andererseits vereinfacht sich die Modellbildung durch ein Reduzieren der gegebenen Merkmale und liefert letztlich eine genauere Vorhersage der Klassenzugehörigkeit. Die nun folgenden Untersuchungen der Datenaufbereitung beziehen sich auf die „dazugekauften“ mikrogeografischen Merkmale. Datensichtung In den Variablengruppen Mikroselections-Merkmale, PKW-Indices, PsychonomicsVersicherungstypologien und Pharmatypologien waren nicht alle Variablenwerte vorhanden. Diese mussten geeignet ersetzt werden, um diese Datensätze in den nachfolgenden Auswertungen nicht zu verlieren. Zudem stellten die eingeführten binären Indikatorvariablen fm, sm und pm die Informationen dar, ob ein Variablenwert in dieser Gruppe vorlag oder nicht. Auf diese Informationen wurde in weiteren Auswertungen zurückgegriffen. Das Zielmerkmal canceler, welches nur in den Trainingsdaten vorhanden war, besaß die Merkmalsausprägungen „yes“ und „no“. Um bei den folgenden Tests den Zusammenhang zwischen diesem Merkmal und den anderen zu untersuchen, war es notwendig, das Zielmerkmal canceler umzukodieren. Die so neu erzeugte Variable kün erhielt den Wert 1, falls canceler gleich „yes“ war, bzw. den Wert 0, falls canceler gleich „no“ war. [...]

Arbeit zitieren:
Eisenberg, Hendrik September 2003: Statistische Methoden des Data Mining und deren Anwendung, Hamburg: Diplomica Verlag

Schlagworte:
Datenanalyse, Knowledge Discovery, Regression, Modellierung, Modellbildung

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren