Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Datenanalyse mit Modellen für Cluster linearer Regression

Datenanalyse mit Modellen für Cluster linearer Regression
Über dieses Buch
  • Art: Dissertation / Doktorarbeit
  • Autor: Christian Hennig
  • Abgabedatum: Mai 1997
  • Umfang: 186 Seiten
  • Dateigröße: 1,4 MB
  • Note: 1,0
  • Institution / Hochschule: Universität Hamburg Deutschland
  • ISBN (eBook): 978-3-8324-2157-1
  • ISBN (Paperback) :
    978-3-8324-2157-1 P
  • ISBN (CD) :978-3-8324-2157-1 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Hennig, Christian Mai 1997: Datenanalyse mit Modellen für Cluster linearer Regression, Hamburg: Diplomica Verlag
  • Schlagworte: Clusteranalyse, Simulationen, Ausreißererkennung, Statistik

Dissertation / Doktorarbeit von Christian Hennig

Einleitung:

In dieser Arbeit geht es um die Analyse von Daten, in denen Cluster linearer Regression erwartet werden können. Ein "Cluster linearer Regression" ist ein Teildatensatz, der sich von den übrigen Daten unterscheidet in Hinsicht auf den Zusammenhang zwischen einer oder mehreren Einflußgrößen und einer abhängigen Variablen. Dieser Zusammenhang wird pro Gruppe als linear vorausgesetzt ("lineare Regression").

Es werden mehrere Verfahren analysiert, um solche Gruppen zu finden. Mit der "Fixpunktcluster-Analyse" wird ein neues Verfahren vorgestellt und mit Hilfe von statistischer Theorie und Simulations-Studien untersucht. Es hat gegenüber den "klassischen" Verfahren den Vorteil, dass Fixpunktcluster unempfindlich gegenüber Veränderungen in "entfernten" Teilen der Daten (z.B. Ausreißer) sind. Das Verfahren lässt sich auch auf andere Probleme der Clusteranalyse übertragen.

Inhaltsverzeichnis:

Inhaltsverzeichnis 4
English abstract 3
1. Einführung 7
1.1 Das Problem 7
1.2 Modelle für die Clusteranalyse (Teil I) 9
1.3 Exkurs: Angemessenheit von Modellen 10
1.4 Fixpunktcluster (Teil II und III) 12
1.5 Vergleich der Verfahren (Teil IV) 13
1.6 Formale und stilistische Bemerkungen 14
1.7 Bezeichnungen 15
I. Mischungen linearer Regressionen 17
2. Modellierung 17
3. Ansätze zur Analyse der Modelle 22
3.1 Wechselpunktprobleme 22
3.2 Kleinste Quadrate 23
3.3 Parameterschätzung im Mischmodell 24
3.4 Parameterschätzung im Fixed Partition Model 28
3.5 Alternative Ansätze 30
3.5.1 Robuste Regression 30
3.5.2 Schwache Hierarchien 33
4. Einführung: Identifizierbarkeit 34
5. Beispiele für Nicht-Identfizierbarkeit 38
6. Identifizierbarkeitsresultate 43
II. Fixpunktcluster 54
7. Einführung: Fixpunktcluster 54
7.1 Cluster und Ausreißer: Die allgemeine Fixpunktcluster-Idee 54
7.2 Beispiel: Fixpunktcluster für 0-1-Vektoren 60
7.3 Fixpunktcluster und die Selbstorganisation der Wahrnehmung 62
8. Fixpunktcluster im Regressionsfall 63
8.1 Regressions-Fixpunktclusterindikatoren 63
8.2 Regressions-Fixpunktclustervektoren 65
9. Berechnung von KQ-Fixpunktclustervektoren 67
10. Analyse von Beispieldatensätzen 73
10.1 Telefondaten 74
10.2 Artifizieller Datensatz 76
III. Fixpunktclusterindikatoren in speziellen Modellen 81
11. Hilfsresultate 81
11.1 Eigenschaften der Fixpunktcluster-Parameterfunktion 81
11.2 Abgeschnittene Normalverteilungen 84
12. Fixpunktclusterindikatoren in homogenen Modellen 91
13. Fixpunktclusterindikatoren in Mischmodellen 99
13.1 Scharf trennbare Mischungen 99
13.2 Überlappende Mischungen im Lokationsfall 102
13.3 Überlappende Mischungen: Regression ohne Achsenabschnitt 115
IV .Simulationen 135
14. Einführung: Simulationen 135
14.1 Die Rolle der Simulationen bei der Beurteilung der Verfahren 135
14.2 Überlegungen zum Versuchsaufbau 136
15. Beschreibung der Simulationen 140
15.1 Die Verfahren 140
15.1.1 Fixpunktclusteranalyse (FPCA) 140
15.1.2 Mischmodell-ML (MML) 141
15.1.3 Fixed Partition-ML (FPML) 141
15.1.4 Geschwindigkeitsvergleich 142
15.2 Die Erzeugung der Testdaten 143
15.3 Die erhobenen Statistiken 146
16. Simulationsergebnisse 148
16.1 Homogene Populationen 148
16.2 Konstellationen mit festen Parameterwerten 149
16.3 Gleichartige Cluster mit zufälligen Regressionsparametern 152
16.3.1 Alle Regressorenverteilungen gleich 152
16.3.2 Unterschiedliche Regressorenverteilungen 155
16.4 Verschiedenartige Cluster 159
16.5 Ausreißerkonstellationen 162
17. Fazit: Simulationen 165
17.1 Fixpunktclusteranalyse 165
17.2 Mischmodell-Maximum Likelihood 166
17.3 Fixed Partition Maximum Likelihood 167
18. Schlußbetrachtung 168
18.1 Konsequenzen für die Anwendung 168
18.2 Ausblick 169
Anhang 170
Abbildungsverzeichnis 170
Symbolverzeichnis 171
Index 172
Literaturverzeichnis 175
Zusammenfassung 179
Lebenslauf 180

Automatisiert erstellter Textauszug:

Au allig ist, da der Gesamtdatensatz extrem hau g gefunden wurde. Das ist nach meiner Erfahrung fast immer der Fall bei gro eren Datensatzen fallt normalerweise der eine oder andere Punkt heraus. Dafur gibt es einen einfachen Grund: Wenn der Algorithmus mit Punkten gestartet wird, die nicht zum selben Cluster gehoren, wird normalerweise eine recht hohe Storskala geschatzt. Die Schatzung fur 2 ist schlie lich, wie in Abschnitt 8.2 diskutiert, nicht robust. Dadurch wird der ganze oder ein gro er Teil des Datensatzes nicht als Ausrei er klassi ziert. Wird dann die Ausrei eridenti kation auf der Basis des gesamten Datensatzes berechnet, ist es kaum moglich, Mitglieder unterschiedlicher vorhandener Cluster in Ausrei er und Nichtausrei er aufzuteilen. In vielen Datensatzen wird aufgrund mangelnder Robustheit der Parameterschatzer gar kein Ausrei er gefunden, so da der Gesamtdatensatz ein KQ-FPC ist. Dieser E ekt mu bei der Interpretation des Ergebnisses einer Fixpunktclusteranalyse bekannt sein. [...]

Abschnitt 3.3 berechnet. Zur Ermittlung einer Approximation des globalen Maximums der Loglikelihood-Funktion pro vorgegebener Clusterzahl wurde das Maximum aus 20 Durchlaufen des dort vorgestellten EM-Algorithmus ermittelt. Au erdem wurde der Fixed Partition-ML-Schatzer aus Abschnitt 3.4 berechnet, indem der dortige Algorithmus 50 mal pro vorgegebener Clusterzahl durchgefuhrt wurde. Die ML-Verfahren wurden mit vorgegebener Clusterzahl 1-5 durchgerechnet. Die Schatzung der Clusterzahl wurde wie in den Abschnitten 3.3 und 3.4 beschrieben durchgefuhrt. Eine genauere Beschreibung der Verfahren ndet sich in Abschnitt 15, wobei in den Simulationen aber weniger Iterationen durchgefuhrt wurden als hier. Hierbei handelt es sich um den bereits in der Einleitung diskutierten Datensatz aus Rousseeuw und Leroy (1988). Zur Orientierung: Der von Rousseeuw und Leroy vorgeschlagene robuste Least Median of Squares-Schatzer, der nur die Jahre anpa t, in denen die Telefonate gezahlt wurden, ergibt ^LMS = (0:115 ;5:610). In 140 Durchlaufen der Fixpunktclusteranalyse wurden 4 FPC gefunden: 115 mal wurde der Gesamtdatensatz als KQ-FPCV (g1 = (1 : : : 1)) gefunden. Die dazu gehorigen Schatzer sind die normalen KQ-Schatzer: (Z(g1)) = (0:504 ;26:006) (Z(g2)) = (0:111 ;5:260) (Z(g3)) = (0:108 ;5:164) (Z(g4)) = (2:150 ;127:65) [...]

(gk+2 indiziert nur die durch gk+1 indizierten Punkte, die bzgl. gk+1 keine Ausrei er sind.) Schritt 5: Ende, wenn gk = gk+1 = gk+2, sonst k = k + 2, Schritt 1. Algorithmus 2: Ersetzt man Schritt 2 durch gik+1 = 1((yi ; x0i (Z(gk )))2 c 2 (Z(gk ))) i = 1 : : : n (9.1) und la t Schritt 3 und 4 weg, so erhalt man den ublichen Fixpunktalgorithmus, der erfahrungsgema auch immer konvergiert. Ein Beweis dafur ware aber vermutlich extrem umstandlich. Da dieser Algorithmus etwas schneller ist als Algorithmus 1 und um zu prufen, ob er allgemein konvergiert, habe ich ihn in den Simulationen und Abschnitt 10 verwendet. Der Beweis der Konvergenz von Algorithmus 1 wird folgende Resultate benotigen: [...]

Arbeit zitieren:
Hennig, Christian Mai 1997: Datenanalyse mit Modellen für Cluster linearer Regression, Hamburg: Diplomica Verlag

Schlagworte:
Clusteranalyse, Simulationen, Ausreißererkennung, Statistik

Entdecken Sie mehr zum Thema

Elemente der Maß- und Integrationstheorie
Elemente der Maß- und Integrationstheorie Diplomarbeit von Regine Stefanie Martschiske | Juli 2008 | Note 1,3
diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren