Data Mining
Modellierung und Durchführung ausgewählter Fallstudien mit dem SAS Enterprise Miner
- Art: Diplomarbeit
- Autor: Christian Gottermeier
- Abgabedatum: Januar 2003
- Umfang: 127 Seiten
- Dateigröße: 1,2 MB
- Note: 1,3
- Institution / Hochschule: Ruprecht-Karls-Universität Heidelberg Deutschland
- ISBN (eBook): 978-3-8324-7217-7
-
ISBN (Paperback) :
978-3-8324-7217-7 P - ISBN (CD) :978-3-8324-7217-7 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Gottermeier, Christian Januar 2003: Data Mining, Hamburg: Diplomica Verlag
- Schlagworte: Business Intelligence, künstliche neuronale Netze, Data Warehouse, OLAP, Knowledge Discovery in Databases
In den Warenkorb
74,00 €
Diplomarbeit von Christian Gottermeier
Einleitung:
Entscheidungen sind ein Akt des menschlichen Verhaltens, bei denen eine Festlegung für eine unter mehreren Möglichkeiten stattfindet. Da bei diesen Handlungen die Berufung auf Traditionen oder Autoritäten oftmals nicht möglich ist, wurde schon früh auf verschiedenste Hilfsmittel zurückgegriffen. So ließ sich Julius Cäsar von einem Würfelergebnis leiten, General Wallenstein von einem Astrologen beraten oder es wurden Prognosen mit Hilfe von Glaskugeln, Spielkarten oder dem Stand der Sterne getroffen.
Unter wirtschaftlichen Gesichtspunkten sind Entscheidungen eine rationale Wahl zwischen mehreren Möglichkeiten, wobei der Entscheidungsprozess als tragendes Element der ökonomischen Tätigkeit herausgestellt wird. Gerade in diesem Umfeld wird die Entscheidungsfindung – nun allerdings wissenschaftlich fundiert und mit weitreichenden Konsequenzen – durch folgende Verfahren unterstützt: Analysemethoden wie Benchmarking, Lebenszyklus- oder Erfahrungskurvenkonzept und Prognoseverfahren wie die Delphi-Methode oder die Szenario-Technik. Allerdings sind die meisten dieser Verfahren i.d.R. auf spezielle Problemstellungen ausgerichtet. Ganzheitliche Lösungsansätze werden seit den 60er Jahren zur Unterstützung des Managements bereitgestellt. Mit Hilfe von Informationssystemen soll die Entscheidungsfindung verbessert werden. Häufig wechselnde Schlagworte wie z.B. Management Information System (MIS) oder Decision Support System (DSS) konnten allerdings noch keine durchschlagenden Erfolge erzielen. Seit Mitte der 90er Jahre wurden mit neuen konzeptionellen Ansätzen, die meist unter dem Oberbegriff „Business Intelligence“ zusammengefasst werden, erfolgsversprechende Lösungen zum Aufbau entscheidungsorientierter Informationssysteme (EIS) etabliert. EIS setzen sich dabei aus Werkzeugen zur Selektion und Speicherung entscheidungsrelevanter Informationen (Data Warehouse) sowie zur entscheidungsunterstützenden Modellierung (OLAP-Tools) zusammen. Eine konsequente Umsetzung des Data Warehouse Gedanken führt zu immensen Datensammlungen, die, um die Archivierung nicht zum Selbstzweck werden zu lassen, dann auch ausgewertet werden sollen. An dieser Stelle setzt Data Mining an.
In Kapitel 2 werden die Grundzüge des Data Mining dargestellt, eine Verbindung zu Data Warehouse und OLAP gezogen und die Einsatzgebiete skizziert, in denen sich Data Mining durchgesetzt hat. In Kapitel 3 wird der erste wichtige Schritt, der vor der eigentlichen Modellierung stattfinden sollte, das Pre-Processing, erläutert. Die Modelle und die damit verbundenen Methodiken der Data Mining-Verfahren werden in Kapitel 4 vorgestellt. Stets wird eine Verbindung zum SAS® Enterprise Miner™ gesucht und so eine Anpassung der dort verankerten Möglichkeiten an die Theorie vorgenommen. Die Vorgehensweise der Modellbewertung und die dafür existierenden Kriterien werden in Kapitel 5 dargestellt. Die praktische Umsetzung der Data Mining-Modelle wird anhand verschiedener Fallstudien im sechsten Kapitel gezeigt. Dafür werden die von der SAS® Institute Inc. erstellten Fälle bearbeitet. Diese Daten sind stark idealisiert, d.h. sofort analysierbar und deshalb sehr gut geeignet, um die einzelnen Schritte Pre-Processing, Modellierung der einzelnen Verfahren und Modellbewertung durchzuführen.
Inhaltsverzeichnis:
| 1. | Einführung | 1 |
| 2. | Data Mining | 3 |
| 2.1 | Definitionen und Erklärungen | 3 |
| 2.2 | Einführung in die wichtigsten Verfahren | 5 |
| 2.2.1 | Data Mining als interdisziplinäre Wissenschaft | 5 |
| 2.2.1.1 | Multivariate Analysemethoden | 6 |
| 2.2.1.1.1 | Regressionsanalyse | 6 |
| 2.2.1.1.2 | Clusteranalyse | 6 |
| 2.2.1.2 | Künstliche Intelligenz (KI) und maschinelles Lernen | 6 |
| 2.2.1.2.1 | Entscheidungsbaumverfahren | 7 |
| 2.2.1.2.2 | Künstliche neuronale Netze (KNN) | 7 |
| 2.2.1.2.3 | Selbstorganisierende Karten (SOM) / Kohonen-Netze | 7 |
| 2.2.1.3 | Assoziations- und Sequenzanalyse | 8 |
| 2.2.2 | Alternative Einordnungsmöglichkeiten | 8 |
| 2.2.2.1 | Überwachtes vs. unüberwachtes Lernen | 8 |
| 2.2.2.2 | Parametrische vs. nichtparametrische Verfahren | 9 |
| 2.3 | Architekturüberlegungen | 10 |
| 2.3.1 | Data Warehouse (DWH) und Data Marts | 10 |
| 2.3.2 | Integration mit Data Mining | 11 |
| 2.3.3 | OLAP | 11 |
| 2.3.4 | OLAP und Data Mining | 12 |
| 2.4 | Einsatzgebiete | 13 |
| 2.4.1 | Customer Relationship Management (CRM) | 14 |
| 2.4.2 | Text Mining | 14 |
| 2.4.2 | Web Mining | 15 |
| 3. | Pre-Processing | 17 |
| 3.1 | Partitionierung der Daten | 17 |
| 3.1.1 | Trainings-, Validierungs- und Testdaten | 17 |
| 3.1.2 | Seltene Zielereignisse | 17 |
| 3.1.3 | Massiv große oder beschränkt kleine Datensätze | 18 |
| 3.1.3.1 | Cross Validation | 18 |
| 3.1.3.2 | Sampling | 18 |
| 3.2 | Variablenselektion oder das Problem hoher Dimensionalität | 19 |
| 3.3 | Fehlende Werte | 19 |
| 3.4 | Transformationsprozesse | 20 |
| 4. | Die Methoden | 21 |
| Vorbemerkungen: Grundproblematik Generalisierbarkeit | 21 | |
| 4.1 | Regressionsanalyse | 22 |
| 4.1.1 | Einführung in die lineare Regression | 22 |
| 4.1.1.1 | Lineare Einfachregression | 22 |
| 4.1.1.1.1 | Schätzung der Koeffizienten | 22 |
| 4.1.1.2 | Lineare Mehrfachregression | 23 |
| 4.1.1.3 | Annahmen des linearen Regressionsmodells | 24 |
| 4.1.2 | Logistische Regression | 24 |
| 4.1.2.1 | Einführung in die logistische Regression | 24 |
| 4.1.2.2 | Der Rechenansatz der logistischen Regression | 25 |
| 4.1.2.3 | Schätzung der Koeffizienten | 25 |
| 4.1.3 | Variablenauswahlverfahren | 26 |
| 4.2 | Clusteranalyse | 26 |
| 4.2.1 | Einführung in die Clusteranalyse | 26 |
| 4.2.2 | K-Means-Verfahren | 27 |
| 4.2.3 | Der K-Means-Algorithmus | 27 |
| 4.3 | Entscheidungsbaumverfahren | 28 |
| 4.3.1 | Aufbau eines Entscheidungsbaums | 28 |
| 4.3.1.1 | Algorithmen | 29 |
| 4.3.1.2 | Auswahlmaße | 29 |
| 4.3.1.2.1 | Informationsgewinn und Entropie | 30 |
| 4.3.1.2.2 | Gini-Index | 30 |
| 4.3.1.2.3 | x²-Maß | 31 |
| 4.3.1.3 | Stoppkriterien | 32 |
| 4.3.2 | Pruning | 32 |
| 4.3.3 | Surrogat-Splits für das Einfügen fehlender Werte | 33 |
| 4.3.4 | Wälder: Bagging und Boosting | 33 |
| 4.4 | Künstliche neuronale Netze | 35 |
| 4.4.1 | Einführung in die künstlichen neuronalen Netze | 35 |
| 4.4.2 | Netzwerkarchitektur | 35 |
| 4.4.2.1 | Multilayer Perceptron (MLP) | 35 |
| 4.4.2.2 | Radiale-Basisfunktionen-Netze (RBF-Netze) | 39 |
| 4.4.3 | Lernregel | 42 |
| 4.4.3.1 | Gradientenabstiegsverfahren | 43 |
| 4.4.3.1.1 | Probleme bei Gradientenverfahren | 43 |
| 4.4.3.2 | Backpropagation | 44 |
| 4.4.3.3 | Konjugierter Gradientenabstieg | 46 |
| 4.4.3.4 | Newton-Verfahren | 46 |
| 4.4.3.5 | Levenberg-Marquard | 46 |
| 4.4.4 | Regulierbarkeit | 46 |
| 4.4.4.1 | Early Stopping | 46 |
| 4.4.4.2 | Weight Decay | 47 |
| 4.4.5 | Selbstorganisierende Karten (SOM) / Kohonen-Netze | 47 |
| 4.4.5.1 | Prinzipien der selbstorganisierenden Karten | 47 |
| 4.4.5.2 | Lernverfahren der selbstorganisierenden Karten | 48 |
| 4.5 | Assoziations- und Sequenzanalyse | 49 |
| 4.5.1 | Einführung in die Assoziationsregeln | 49 |
| 4.5.1.1 | Support | 50 |
| 4.5.1.2 | Konfidenz | 50 |
| 4.5.1.3 | Lift | 50 |
| 4.5.2 | Sequenzmuster | 51 |
| 5. | Modellbewertung | 52 |
| 5.1 | Bewertung der Klassifizierungsleistung | 52 |
| 5.2 | Draw Lift Charts | 53 |
| 6. | Fallstudien | 55 |
| 6.1 | Fallstudie A: Optimierung einer Mailing-Aktion | 55 |
| 6.2 | Fallstudie B: Funktionsweise der KNN | 58 |
| 6.2.1 | Auswahl der Netzwerkarchitektur bei NRBF-Netzen | 58 |
| 6.2.2 | Auswahl des Lernverfahrens bei MLP-Netzwerkarchitekturen | 60 |
| 6.2.3 | Early Stopping | 63 |
| 6.3 | Fallstudie C: Entscheidungsbaumverfahren | 64 |
| 6.3.1 | Bestimmung des Auswahlmaßes | 64 |
| 6.3.2 | Bagging | 67 |
| 7. | Zusammenfassung | 68 |
| Anhang | V | |
| Abbildungsverzeichnis | XLIX | |
| Literaturverzeichnis | LII | |
| Abkürzungsverzeichnis | LIV |
Mittels der Regressionsanalyse werden die Parameter funktionaler Beziehungen zwischen Variablen geschätzt. Üblicherweise wird eine Kausalrichtung postuliert, so dass der Einfluss der Regressoren auf die erklärende Variable geschätzt wird. 4.1.1.1 Lineare Einfachregression Es wird angenommen, dass ein linearer Zusammenhang zwischen den beobachtbaren Variablen X und Y besteht. Es wird dabei aber lediglich eine Wirkung von X auf Y unterstellt. Der beobachtete Zusammenhang ist allerdings nicht perfekt, d.h. es gibt noch weitere unbeobachtbare Einflussfaktoren, die keinen systematischen Einfluss auf Y haben und deshalb in der Zufallsvariable ε zusammengefasst werden können. Dadurch wird das Modell stochastisch. Die zugrunde liegende Modellgleichung53 lautet: (4.1) Yi = α + βXi + εi (i = 1, …, N). Das lineare Regressionsmodell übernimmt damit die Aufgabe einer Identifikationsstrategie zur Lösung kontrafaktischer Fragestellungen. 4.1.1.1.1 Schätzung der Koeffizienten Die Parameter α und β sind die zu schätzenden Koeffizienten des Modells. Der Parameter β gibt den Einfluss einer marginalen Veränderung der Variable X auf die Variable Y an. Entsprechend der oben verwendeten Argumentation gibt α an, wie groß Yi wäre, wenn Xi Null wäre. Anschaulich bedeutet die Schätzung von α und β, aus der gegebenen Stichprobe eine Gerade in die Punktwolke, die durch die Beobachtungspaare (Yi, Xi) entsteht, zu legen, so dass ein festgelegtes Optimierungsziel erfüllt wird. Für die Schätzung der Parameter existieren mehrere Schätzmethoden, wobei die Methode der kleinsten Quadrate (Ordinary Least Squares, OLS)54 und die Maximum Likelihood-Methode55 zu den bekanntesten und am weitesten verbreiteten gehören. Das OLS-Prinzip gibt als Optimierungsziel die Minimierung der Summe der quadrierten senkrechten Abstände e der Beobachtungspaare (Yi, Xi) von der Gerade an. Formal bedeutet dies: (4.2) [...]
Abbildung 4.1 zeigt Modelle, deren Anpassungen an den Datenbestand nicht für das Scoring geeignet sind. Das erste Modell besitzt keine Aussagekraft, es ist ein sog. NullModell. Es ist nicht ausreichend komplex, was auch als Underfitting bezeichnet wird. Modelle mit Underfitting zeichnen sich durch einen hohen Bias und eine geringe Varianz aus. Dagegen ist das zweite Modell zu komplex gestaltet worden, so dass eine Interpolation der Daten vorliegt. Dieses Overfitting hat als Merkmale geringen Bias und hohe Varianz. Wie schon in Abschnitt 2.2.2 angedeutet, ist die Bestimmung der Modellkomplexität ein Problem, welches häufig im Zusammenhang mit KNN und der Möglichkeit der Variation bei der Anzahl der Neuronen und den verdeckten Schichten auftritt. Durch die Tatsache, dass der funktionale Zusammenhang i.d.R. vor der Modellanpassung nicht bekannt ist, können die verschiedenen Verfahren stark unterschiedliche Generalisierungsfähigkeiten aufweisen. Entscheidungsbäume mit univariaten Splits können nur senkrechte bzw. waagerechte Trennungen vornehmen. Die lineare Separierbarkeit ist daher mit Bäumen – im Gegensatz zur Regressionsanalyse – nur näherungsweise zu bewerkstelligen. Die Regressionsanalyse dagegen hat trotz Interaktionstermen Schwierigkeiten bei nicht-linearen Abhängigkeiten: [...]
Ein weiterer wichtiger Schritt, der vor der Modellanpassung bedacht werden sollte, ist die Transformation der Variablen. Folgende Probleme können auftreten: Fehlende Normalverteilung51, ungünstige Skalierungen oder Probleme mit Ausreißern. Eine Normalverteilung kann durch verschiedene Transformationen52 erzeugt werden. Skalierungen wie beispielsweise Postleitzahlen haben aufgrund ihrer Intervallskaliertheit nur einen geringen Aussagewert. Dasselbe gilt für viele Variablen, die ordinalskaliert sind. An dieser Stelle müssen Rekodierungen vorgenommen werden. Dies kann durch den Einsatz von Dummy-Variablen oder durch Bildung neuer Variablen geschehen. Eine weitere Möglichkeit der Verbesserung ist die Behebung der Ausreißer durch Filter. Dies kann ökonomisch signifikant sein. So sorgt beispielsweise ab einem gewissen Niveau ein weiterer Anstieg des Einkommens für keine nennenswerten Steigerungen im Konsum. [...]
In den Warenkorb
74,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832472177
Arbeit zitieren:
Gottermeier, Christian Januar 2003: Data Mining, Hamburg: Diplomica Verlag
Schlagworte:
Business Intelligence, künstliche neuronale Netze, Data Warehouse, OLAP, Knowledge Discovery in Databases



