Datenanalyse mit Modellen für Cluster linearer Regression
- Art: Dissertation / Doktorarbeit
- Autor: Christian Hennig
- Abgabedatum: Mai 1997
- Umfang: 186 Seiten
- Dateigröße: 1,4 MB
- Note: 1,0
- Institution / Hochschule: Universität Hamburg Deutschland
- ISBN (eBook): 978-3-8324-2157-1
-
ISBN (Paperback) :
978-3-8324-2157-1 P - ISBN (CD) :978-3-8324-2157-1 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Hennig, Christian Mai 1997: Datenanalyse mit Modellen für Cluster linearer Regression, Hamburg: Diplomica Verlag
- Schlagworte: Clusteranalyse, Simulationen, Ausreißererkennung, Statistik
In den Warenkorb
38,00 €
Dissertation / Doktorarbeit von Christian Hennig
Einleitung:
In dieser Arbeit geht es um die Analyse von Daten, in denen Cluster linearer Regression erwartet werden können. Ein "Cluster linearer Regression" ist ein Teildatensatz, der sich von den übrigen Daten unterscheidet in Hinsicht auf den Zusammenhang zwischen einer oder mehreren Einflußgrößen und einer abhängigen Variablen. Dieser Zusammenhang wird pro Gruppe als linear vorausgesetzt ("lineare Regression").
Es werden mehrere Verfahren analysiert, um solche Gruppen zu finden. Mit der "Fixpunktcluster-Analyse" wird ein neues Verfahren vorgestellt und mit Hilfe von statistischer Theorie und Simulations-Studien untersucht. Es hat gegenüber den "klassischen" Verfahren den Vorteil, dass Fixpunktcluster unempfindlich gegenüber Veränderungen in "entfernten" Teilen der Daten (z.B. Ausreißer) sind. Das Verfahren lässt sich auch auf andere Probleme der Clusteranalyse übertragen.
Inhaltsverzeichnis:
| Inhaltsverzeichnis | 4 | |
| English abstract | 3 | |
| 1. | Einführung | 7 |
| 1.1 | Das Problem | 7 |
| 1.2 | Modelle für die Clusteranalyse (Teil I) | 9 |
| 1.3 | Exkurs: Angemessenheit von Modellen | 10 |
| 1.4 | Fixpunktcluster (Teil II und III) | 12 |
| 1.5 | Vergleich der Verfahren (Teil IV) | 13 |
| 1.6 | Formale und stilistische Bemerkungen | 14 |
| 1.7 | Bezeichnungen | 15 |
| I. | Mischungen linearer Regressionen | 17 |
| 2. | Modellierung | 17 |
| 3. | Ansätze zur Analyse der Modelle | 22 |
| 3.1 | Wechselpunktprobleme | 22 |
| 3.2 | Kleinste Quadrate | 23 |
| 3.3 | Parameterschätzung im Mischmodell | 24 |
| 3.4 | Parameterschätzung im Fixed Partition Model | 28 |
| 3.5 | Alternative Ansätze | 30 |
| 3.5.1 | Robuste Regression | 30 |
| 3.5.2 | Schwache Hierarchien | 33 |
| 4. | Einführung: Identifizierbarkeit | 34 |
| 5. | Beispiele für Nicht-Identfizierbarkeit | 38 |
| 6. | Identifizierbarkeitsresultate | 43 |
| II. | Fixpunktcluster | 54 |
| 7. | Einführung: Fixpunktcluster | 54 |
| 7.1 | Cluster und Ausreißer: Die allgemeine Fixpunktcluster-Idee | 54 |
| 7.2 | Beispiel: Fixpunktcluster für 0-1-Vektoren | 60 |
| 7.3 | Fixpunktcluster und die Selbstorganisation der Wahrnehmung | 62 |
| 8. | Fixpunktcluster im Regressionsfall | 63 |
| 8.1 | Regressions-Fixpunktclusterindikatoren | 63 |
| 8.2 | Regressions-Fixpunktclustervektoren | 65 |
| 9. | Berechnung von KQ-Fixpunktclustervektoren | 67 |
| 10. | Analyse von Beispieldatensätzen | 73 |
| 10.1 | Telefondaten | 74 |
| 10.2 | Artifizieller Datensatz | 76 |
| III. | Fixpunktclusterindikatoren in speziellen Modellen | 81 |
| 11. | Hilfsresultate | 81 |
| 11.1 | Eigenschaften der Fixpunktcluster-Parameterfunktion | 81 |
| 11.2 | Abgeschnittene Normalverteilungen | 84 |
| 12. | Fixpunktclusterindikatoren in homogenen Modellen | 91 |
| 13. | Fixpunktclusterindikatoren in Mischmodellen | 99 |
| 13.1 | Scharf trennbare Mischungen | 99 |
| 13.2 | Überlappende Mischungen im Lokationsfall | 102 |
| 13.3 | Überlappende Mischungen: Regression ohne Achsenabschnitt | 115 |
| IV | .Simulationen | 135 |
| 14. | Einführung: Simulationen | 135 |
| 14.1 | Die Rolle der Simulationen bei der Beurteilung der Verfahren | 135 |
| 14.2 | Überlegungen zum Versuchsaufbau | 136 |
| 15. | Beschreibung der Simulationen | 140 |
| 15.1 | Die Verfahren | 140 |
| 15.1.1 | Fixpunktclusteranalyse (FPCA) | 140 |
| 15.1.2 | Mischmodell-ML (MML) | 141 |
| 15.1.3 | Fixed Partition-ML (FPML) | 141 |
| 15.1.4 | Geschwindigkeitsvergleich | 142 |
| 15.2 | Die Erzeugung der Testdaten | 143 |
| 15.3 | Die erhobenen Statistiken | 146 |
| 16. | Simulationsergebnisse | 148 |
| 16.1 | Homogene Populationen | 148 |
| 16.2 | Konstellationen mit festen Parameterwerten | 149 |
| 16.3 | Gleichartige Cluster mit zufälligen Regressionsparametern | 152 |
| 16.3.1 | Alle Regressorenverteilungen gleich | 152 |
| 16.3.2 | Unterschiedliche Regressorenverteilungen | 155 |
| 16.4 | Verschiedenartige Cluster | 159 |
| 16.5 | Ausreißerkonstellationen | 162 |
| 17. | Fazit: Simulationen | 165 |
| 17.1 | Fixpunktclusteranalyse | 165 |
| 17.2 | Mischmodell-Maximum Likelihood | 166 |
| 17.3 | Fixed Partition Maximum Likelihood | 167 |
| 18. | Schlußbetrachtung | 168 |
| 18.1 | Konsequenzen für die Anwendung | 168 |
| 18.2 | Ausblick | 169 |
| Anhang | 170 | |
| Abbildungsverzeichnis | 170 | |
| Symbolverzeichnis | 171 | |
| Index | 172 | |
| Literaturverzeichnis | 175 | |
| Zusammenfassung | 179 | |
| Lebenslauf | 180 |
Au allig ist, da der Gesamtdatensatz extrem hau g gefunden wurde. Das ist nach meiner Erfahrung fast immer der Fall bei gro eren Datensatzen fallt normalerweise der eine oder andere Punkt heraus. Dafur gibt es einen einfachen Grund: Wenn der Algorithmus mit Punkten gestartet wird, die nicht zum selben Cluster gehoren, wird normalerweise eine recht hohe Storskala geschatzt. Die Schatzung fur 2 ist schlie lich, wie in Abschnitt 8.2 diskutiert, nicht robust. Dadurch wird der ganze oder ein gro er Teil des Datensatzes nicht als Ausrei er klassi ziert. Wird dann die Ausrei eridenti kation auf der Basis des gesamten Datensatzes berechnet, ist es kaum moglich, Mitglieder unterschiedlicher vorhandener Cluster in Ausrei er und Nichtausrei er aufzuteilen. In vielen Datensatzen wird aufgrund mangelnder Robustheit der Parameterschatzer gar kein Ausrei er gefunden, so da der Gesamtdatensatz ein KQ-FPC ist. Dieser E ekt mu bei der Interpretation des Ergebnisses einer Fixpunktclusteranalyse bekannt sein. [...]
Abschnitt 3.3 berechnet. Zur Ermittlung einer Approximation des globalen Maximums der Loglikelihood-Funktion pro vorgegebener Clusterzahl wurde das Maximum aus 20 Durchlaufen des dort vorgestellten EM-Algorithmus ermittelt. Au erdem wurde der Fixed Partition-ML-Schatzer aus Abschnitt 3.4 berechnet, indem der dortige Algorithmus 50 mal pro vorgegebener Clusterzahl durchgefuhrt wurde. Die ML-Verfahren wurden mit vorgegebener Clusterzahl 1-5 durchgerechnet. Die Schatzung der Clusterzahl wurde wie in den Abschnitten 3.3 und 3.4 beschrieben durchgefuhrt. Eine genauere Beschreibung der Verfahren ndet sich in Abschnitt 15, wobei in den Simulationen aber weniger Iterationen durchgefuhrt wurden als hier. Hierbei handelt es sich um den bereits in der Einleitung diskutierten Datensatz aus Rousseeuw und Leroy (1988). Zur Orientierung: Der von Rousseeuw und Leroy vorgeschlagene robuste Least Median of Squares-Schatzer, der nur die Jahre anpa t, in denen die Telefonate gezahlt wurden, ergibt ^LMS = (0:115 ;5:610). In 140 Durchlaufen der Fixpunktclusteranalyse wurden 4 FPC gefunden: 115 mal wurde der Gesamtdatensatz als KQ-FPCV (g1 = (1 : : : 1)) gefunden. Die dazu gehorigen Schatzer sind die normalen KQ-Schatzer: (Z(g1)) = (0:504 ;26:006) (Z(g2)) = (0:111 ;5:260) (Z(g3)) = (0:108 ;5:164) (Z(g4)) = (2:150 ;127:65) [...]
(gk+2 indiziert nur die durch gk+1 indizierten Punkte, die bzgl. gk+1 keine Ausrei er sind.) Schritt 5: Ende, wenn gk = gk+1 = gk+2, sonst k = k + 2, Schritt 1. Algorithmus 2: Ersetzt man Schritt 2 durch gik+1 = 1((yi ; x0i (Z(gk )))2 c 2 (Z(gk ))) i = 1 : : : n (9.1) und la t Schritt 3 und 4 weg, so erhalt man den ublichen Fixpunktalgorithmus, der erfahrungsgema auch immer konvergiert. Ein Beweis dafur ware aber vermutlich extrem umstandlich. Da dieser Algorithmus etwas schneller ist als Algorithmus 1 und um zu prufen, ob er allgemein konvergiert, habe ich ihn in den Simulationen und Abschnitt 10 verwendet. Der Beweis der Konvergenz von Algorithmus 1 wird folgende Resultate benotigen: [...]
In den Warenkorb
38,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832421571
Arbeit zitieren:
Hennig, Christian Mai 1997: Datenanalyse mit Modellen für Cluster linearer Regression, Hamburg: Diplomica Verlag
Schlagworte:
Clusteranalyse, Simulationen, Ausreißererkennung, Statistik



