Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Data Mining

Modellierung und Durchführung ausgewählter Fallstudien mit dem SAS Enterprise Miner

Data Mining
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Christian Gottermeier
  • Abgabedatum: Januar 2003
  • Umfang: 127 Seiten
  • Dateigröße: 1,2 MB
  • Note: 1,3
  • Institution / Hochschule: Ruprecht-Karls-Universität Heidelberg Deutschland
  • ISBN (eBook): 978-3-8324-7217-7
  • ISBN (Paperback) :
    978-3-8324-7217-7 P
  • ISBN (CD) :978-3-8324-7217-7 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Gottermeier, Christian Januar 2003: Data Mining, Hamburg: Diplomica Verlag
  • Schlagworte: Business Intelligence, künstliche neuronale Netze, Data Warehouse, OLAP, Knowledge Discovery in Databases

Diplomarbeit von Christian Gottermeier

Einleitung:

Entscheidungen sind ein Akt des menschlichen Verhaltens, bei denen eine Festlegung für eine unter mehreren Möglichkeiten stattfindet. Da bei diesen Handlungen die Berufung auf Traditionen oder Autoritäten oftmals nicht möglich ist, wurde schon früh auf verschiedenste Hilfsmittel zurückgegriffen. So ließ sich Julius Cäsar von einem Würfelergebnis leiten, General Wallenstein von einem Astrologen beraten oder es wurden Prognosen mit Hilfe von Glaskugeln, Spielkarten oder dem Stand der Sterne getroffen.

Unter wirtschaftlichen Gesichtspunkten sind Entscheidungen eine rationale Wahl zwischen mehreren Möglichkeiten, wobei der Entscheidungsprozess als tragendes Element der ökonomischen Tätigkeit herausgestellt wird. Gerade in diesem Umfeld wird die Entscheidungsfindung – nun allerdings wissenschaftlich fundiert und mit weitreichenden Konsequenzen – durch folgende Verfahren unterstützt: Analysemethoden wie Benchmarking, Lebenszyklus- oder Erfahrungskurvenkonzept und Prognoseverfahren wie die Delphi-Methode oder die Szenario-Technik. Allerdings sind die meisten dieser Verfahren i.d.R. auf spezielle Problemstellungen ausgerichtet. Ganzheitliche Lösungsansätze werden seit den 60er Jahren zur Unterstützung des Managements bereitgestellt. Mit Hilfe von Informationssystemen soll die Entscheidungsfindung verbessert werden. Häufig wechselnde Schlagworte wie z.B. Management Information System (MIS) oder Decision Support System (DSS) konnten allerdings noch keine durchschlagenden Erfolge erzielen. Seit Mitte der 90er Jahre wurden mit neuen konzeptionellen Ansätzen, die meist unter dem Oberbegriff „Business Intelligence“ zusammengefasst werden, erfolgsversprechende Lösungen zum Aufbau entscheidungsorientierter Informationssysteme (EIS) etabliert. EIS setzen sich dabei aus Werkzeugen zur Selektion und Speicherung entscheidungsrelevanter Informationen (Data Warehouse) sowie zur entscheidungsunterstützenden Modellierung (OLAP-Tools) zusammen. Eine konsequente Umsetzung des Data Warehouse Gedanken führt zu immensen Datensammlungen, die, um die Archivierung nicht zum Selbstzweck werden zu lassen, dann auch ausgewertet werden sollen. An dieser Stelle setzt Data Mining an.

In Kapitel 2 werden die Grundzüge des Data Mining dargestellt, eine Verbindung zu Data Warehouse und OLAP gezogen und die Einsatzgebiete skizziert, in denen sich Data Mining durchgesetzt hat. In Kapitel 3 wird der erste wichtige Schritt, der vor der eigentlichen Modellierung stattfinden sollte, das Pre-Processing, erläutert. Die Modelle und die damit verbundenen Methodiken der Data Mining-Verfahren werden in Kapitel 4 vorgestellt. Stets wird eine Verbindung zum SAS® Enterprise Miner™ gesucht und so eine Anpassung der dort verankerten Möglichkeiten an die Theorie vorgenommen. Die Vorgehensweise der Modellbewertung und die dafür existierenden Kriterien werden in Kapitel 5 dargestellt. Die praktische Umsetzung der Data Mining-Modelle wird anhand verschiedener Fallstudien im sechsten Kapitel gezeigt. Dafür werden die von der SAS® Institute Inc. erstellten Fälle bearbeitet. Diese Daten sind stark idealisiert, d.h. sofort analysierbar und deshalb sehr gut geeignet, um die einzelnen Schritte Pre-Processing, Modellierung der einzelnen Verfahren und Modellbewertung durchzuführen.

Inhaltsverzeichnis:

1. Einführung 1
2. Data Mining 3
2.1 Definitionen und Erklärungen 3
2.2 Einführung in die wichtigsten Verfahren 5
2.2.1 Data Mining als interdisziplinäre Wissenschaft 5
2.2.1.1 Multivariate Analysemethoden 6
2.2.1.1.1 Regressionsanalyse 6
2.2.1.1.2 Clusteranalyse 6
2.2.1.2 Künstliche Intelligenz (KI) und maschinelles Lernen 6
2.2.1.2.1 Entscheidungsbaumverfahren 7
2.2.1.2.2 Künstliche neuronale Netze (KNN) 7
2.2.1.2.3 Selbstorganisierende Karten (SOM) / Kohonen-Netze 7
2.2.1.3 Assoziations- und Sequenzanalyse 8
2.2.2 Alternative Einordnungsmöglichkeiten 8
2.2.2.1 Überwachtes vs. unüberwachtes Lernen 8
2.2.2.2 Parametrische vs. nichtparametrische Verfahren 9
2.3 Architekturüberlegungen 10
2.3.1 Data Warehouse (DWH) und Data Marts 10
2.3.2 Integration mit Data Mining 11
2.3.3 OLAP 11
2.3.4 OLAP und Data Mining 12
2.4 Einsatzgebiete 13
2.4.1 Customer Relationship Management (CRM) 14
2.4.2 Text Mining 14
2.4.2 Web Mining 15
3. Pre-Processing 17
3.1 Partitionierung der Daten 17
3.1.1 Trainings-, Validierungs- und Testdaten 17
3.1.2 Seltene Zielereignisse 17
3.1.3 Massiv große oder beschränkt kleine Datensätze 18
3.1.3.1 Cross Validation 18
3.1.3.2 Sampling 18
3.2 Variablenselektion oder das Problem hoher Dimensionalität 19
3.3 Fehlende Werte 19
3.4 Transformationsprozesse 20
4. Die Methoden 21
Vorbemerkungen: Grundproblematik Generalisierbarkeit 21
4.1 Regressionsanalyse 22
4.1.1 Einführung in die lineare Regression 22
4.1.1.1 Lineare Einfachregression 22
4.1.1.1.1 Schätzung der Koeffizienten 22
4.1.1.2 Lineare Mehrfachregression 23
4.1.1.3 Annahmen des linearen Regressionsmodells 24
4.1.2 Logistische Regression 24
4.1.2.1 Einführung in die logistische Regression 24
4.1.2.2 Der Rechenansatz der logistischen Regression 25
4.1.2.3 Schätzung der Koeffizienten 25
4.1.3 Variablenauswahlverfahren 26
4.2 Clusteranalyse 26
4.2.1 Einführung in die Clusteranalyse 26
4.2.2 K-Means-Verfahren 27
4.2.3 Der K-Means-Algorithmus 27
4.3 Entscheidungsbaumverfahren 28
4.3.1 Aufbau eines Entscheidungsbaums 28
4.3.1.1 Algorithmen 29
4.3.1.2 Auswahlmaße 29
4.3.1.2.1 Informationsgewinn und Entropie 30
4.3.1.2.2 Gini-Index 30
4.3.1.2.3 x²-Maß 31
4.3.1.3 Stoppkriterien 32
4.3.2 Pruning 32
4.3.3 Surrogat-Splits für das Einfügen fehlender Werte 33
4.3.4 Wälder: Bagging und Boosting 33
4.4 Künstliche neuronale Netze 35
4.4.1 Einführung in die künstlichen neuronalen Netze 35
4.4.2 Netzwerkarchitektur 35
4.4.2.1 Multilayer Perceptron (MLP) 35
4.4.2.2 Radiale-Basisfunktionen-Netze (RBF-Netze) 39
4.4.3 Lernregel 42
4.4.3.1 Gradientenabstiegsverfahren 43
4.4.3.1.1 Probleme bei Gradientenverfahren 43
4.4.3.2 Backpropagation 44
4.4.3.3 Konjugierter Gradientenabstieg 46
4.4.3.4 Newton-Verfahren 46
4.4.3.5 Levenberg-Marquard 46
4.4.4 Regulierbarkeit 46
4.4.4.1 Early Stopping 46
4.4.4.2 Weight Decay 47
4.4.5 Selbstorganisierende Karten (SOM) / Kohonen-Netze 47
4.4.5.1 Prinzipien der selbstorganisierenden Karten 47
4.4.5.2 Lernverfahren der selbstorganisierenden Karten 48
4.5 Assoziations- und Sequenzanalyse 49
4.5.1 Einführung in die Assoziationsregeln 49
4.5.1.1 Support 50
4.5.1.2 Konfidenz 50
4.5.1.3 Lift 50
4.5.2 Sequenzmuster 51
5. Modellbewertung 52
5.1 Bewertung der Klassifizierungsleistung 52
5.2 Draw Lift Charts 53
6. Fallstudien 55
6.1 Fallstudie A: Optimierung einer Mailing-Aktion 55
6.2 Fallstudie B: Funktionsweise der KNN 58
6.2.1 Auswahl der Netzwerkarchitektur bei NRBF-Netzen 58
6.2.2 Auswahl des Lernverfahrens bei MLP-Netzwerkarchitekturen 60
6.2.3 Early Stopping 63
6.3 Fallstudie C: Entscheidungsbaumverfahren 64
6.3.1 Bestimmung des Auswahlmaßes 64
6.3.2 Bagging 67
7. Zusammenfassung 68
Anhang V
Abbildungsverzeichnis XLIX
Literaturverzeichnis LII
Abkürzungsverzeichnis LIV

Automatisiert erstellter Textauszug:

Mittels der Regressionsanalyse werden die Parameter funktionaler Beziehungen zwischen Variablen geschätzt. Üblicherweise wird eine Kausalrichtung postuliert, so dass der Einfluss der Regressoren auf die erklärende Variable geschätzt wird. 4.1.1.1 Lineare Einfachregression Es wird angenommen, dass ein linearer Zusammenhang zwischen den beobachtbaren Variablen X und Y besteht. Es wird dabei aber lediglich eine Wirkung von X auf Y unterstellt. Der beobachtete Zusammenhang ist allerdings nicht perfekt, d.h. es gibt noch weitere unbeobachtbare Einflussfaktoren, die keinen systematischen Einfluss auf Y haben und deshalb in der Zufallsvariable ε zusammengefasst werden können. Dadurch wird das Modell stochastisch. Die zugrunde liegende Modellgleichung53 lautet: (4.1) Yi = α + βXi + εi (i = 1, …, N). Das lineare Regressionsmodell übernimmt damit die Aufgabe einer Identifikationsstrategie zur Lösung kontrafaktischer Fragestellungen. 4.1.1.1.1 Schätzung der Koeffizienten Die Parameter α und β sind die zu schätzenden Koeffizienten des Modells. Der Parameter β gibt den Einfluss einer marginalen Veränderung der Variable X auf die Variable Y an. Entsprechend der oben verwendeten Argumentation gibt α an, wie groß Yi wäre, wenn Xi Null wäre. Anschaulich bedeutet die Schätzung von α und β, aus der gegebenen Stichprobe eine Gerade in die Punktwolke, die durch die Beobachtungspaare (Yi, Xi) entsteht, zu legen, so dass ein festgelegtes Optimierungsziel erfüllt wird. Für die Schätzung der Parameter existieren mehrere Schätzmethoden, wobei die Methode der kleinsten Quadrate (Ordinary Least Squares, OLS)54 und die Maximum Likelihood-Methode55 zu den bekanntesten und am weitesten verbreiteten gehören. Das OLS-Prinzip gibt als Optimierungsziel die Minimierung der Summe der quadrierten senkrechten Abstände e der Beobachtungspaare (Yi, Xi) von der Gerade an. Formal bedeutet dies: (4.2) [...]

Abbildung 4.1 zeigt Modelle, deren Anpassungen an den Datenbestand nicht für das Scoring geeignet sind. Das erste Modell besitzt keine Aussagekraft, es ist ein sog. NullModell. Es ist nicht ausreichend komplex, was auch als Underfitting bezeichnet wird. Modelle mit Underfitting zeichnen sich durch einen hohen Bias und eine geringe Varianz aus. Dagegen ist das zweite Modell zu komplex gestaltet worden, so dass eine Interpolation der Daten vorliegt. Dieses Overfitting hat als Merkmale geringen Bias und hohe Varianz. Wie schon in Abschnitt 2.2.2 angedeutet, ist die Bestimmung der Modellkomplexität ein Problem, welches häufig im Zusammenhang mit KNN und der Möglichkeit der Variation bei der Anzahl der Neuronen und den verdeckten Schichten auftritt. Durch die Tatsache, dass der funktionale Zusammenhang i.d.R. vor der Modellanpassung nicht bekannt ist, können die verschiedenen Verfahren stark unterschiedliche Generalisierungsfähigkeiten aufweisen. Entscheidungsbäume mit univariaten Splits können nur senkrechte bzw. waagerechte Trennungen vornehmen. Die lineare Separierbarkeit ist daher mit Bäumen – im Gegensatz zur Regressionsanalyse – nur näherungsweise zu bewerkstelligen. Die Regressionsanalyse dagegen hat trotz Interaktionstermen Schwierigkeiten bei nicht-linearen Abhängigkeiten: [...]

Ein weiterer wichtiger Schritt, der vor der Modellanpassung bedacht werden sollte, ist die Transformation der Variablen. Folgende Probleme können auftreten: Fehlende Normalverteilung51, ungünstige Skalierungen oder Probleme mit Ausreißern. Eine Normalverteilung kann durch verschiedene Transformationen52 erzeugt werden. Skalierungen wie beispielsweise Postleitzahlen haben aufgrund ihrer Intervallskaliertheit nur einen geringen Aussagewert. Dasselbe gilt für viele Variablen, die ordinalskaliert sind. An dieser Stelle müssen Rekodierungen vorgenommen werden. Dies kann durch den Einsatz von Dummy-Variablen oder durch Bildung neuer Variablen geschehen. Eine weitere Möglichkeit der Verbesserung ist die Behebung der Ausreißer durch Filter. Dies kann ökonomisch signifikant sein. So sorgt beispielsweise ab einem gewissen Niveau ein weiterer Anstieg des Einkommens für keine nennenswerten Steigerungen im Konsum. [...]

Arbeit zitieren:
Gottermeier, Christian Januar 2003: Data Mining, Hamburg: Diplomica Verlag

Schlagworte:
Business Intelligence, künstliche neuronale Netze, Data Warehouse, OLAP, Knowledge Discovery in Databases

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren