Design und Implementation eines Softwaresystems für die Klassifikation und Prognose von Zeitreihen
- Art: Diplomarbeit
- Autor: Stephan Wöbbeking
- Abgabedatum: Februar 2001
- Umfang: 164 Seiten
- Dateigröße: 1,5 MB
- Note: 1,0
- Institution / Hochschule: Hochschule Mittweida (FH) Deutschland
- ISBN (eBook): 978-3-8324-4862-2
-
ISBN (Paperback) :
978-3-8324-4862-2 P - ISBN (CD) :978-3-8324-4862-2 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Wöbbeking, Stephan Februar 2001: Design und Implementation eines Softwaresystems für die Klassifikation und Prognose von Zeitreihen, Hamburg: Diplomica Verlag
- Schlagworte: Zeitreihen, Splus, Klassifikation, Prognose, Statistik
In den Warenkorb
58,00 €
Diplomarbeit von Stephan Wöbbeking
Problemstellung:
Im Rahmen dieser Diplomarbeit wird ein Problem der Klassifikation und Prognose von Zeitreihen bearbeitet. Es behandelt die Vorhersage von Verkaufszahlen. Ein führender amerikanischer Hersteller von Glühbirnen möchte Produktion und Vertrieb effizienter gestalten. Daher ist es von entscheidender Bedeutung, gute Prognosen über die eintretenden Verkaufsmengen erstellen zu können. Eine breite Auswahl unterschiedlicher Produkte führt zu einer großen Menge auftretender Daten. Pro Monat werden für jeden Artikel in verschiedenen Regionalbereichen die Bestellmengen aufsummiert und in Form von Zeitreihen in einer Datenbank abgelegt. Diese Daten dienen als Ausgangspunkt für die vorgenommenen Untersuchungen. In einer ersten Abstraktionsstufe werden die Verkaufszahlen von dem eigentlichen Produkt gelöst. Es handelt sich nun nur noch um einfache Zeitreihen, deren Verhalten untersucht, klassifiziert und prognostiziert werden soll. Diese Abstraktion wird bereits seitens des Herstellers vorgenommen und soll daher auch nicht im einzelnen erläutert werden. Die folgenden Untersuchungen beziehen sich daher auf Zeitreihen mit den verschiedenen Besonderheiten.
Zusammenfassung:
Es werden Wege und Ansätze aufgezeigt, die eher zu einer zufriedenstellenden Vorhersage der Zeitreihen führen können, als dies mit untersuchten Komplettlösungen möglich ist. So stand am Anfang die Beurteilung zweier verfügbarer Systeme, die laut Herstellerangaben bereits gute Ergebnisse liefern können.
Nachdem sich jedoch herausgestellt hatte, daß diese Lösungen zu ungenaue Ergebnisse liefern, fiel die Entscheidung, eine eigene Programmierung vorzunehmen. Als Sprache stand hier das in Abschnitt 1.4 charakterisierte Paket S-PLUS zur Verfügung. Es waren bereits wenige Lösungsansätze erarbeitet worden. Diese ordneten sich allerdings nicht in ein Komplettsystem ein, sondern waren vielmehr unzusammenhängende Teilimplementationen für Ausschnitte aus dem Gesamtproblem. Sie mußten sowohl aufbereitet als auch um weitere Teillösungen erweitert werden. Der vorhandene Datenbestand war ungeordnet in verschiedenen Datensammlungen und Formaten verfügbar. Die Erarbeitung eines möglichst einfachen, jedoch universellen Datenkonzeptes wurde angestrebt. Anschließend wurden einige Programmfragmente analysiert, um die umgesetzten Algorithmen herauszufiltern und zu ordnen.
Die Problemanalyse schloß die Analyse der vorhandenen Ideen und die Überprüfung ihrer Effizienz ein. Nach einer ersten Datenanalyse wurde ein Konzept erarbeitet, um Strukturen und Relationen zu erkennen. Innerhalb dieses Systems ist es möglich, die erforderlichen Berechnungen durchzuführen sowie verschiedene Ergänzungen vorzunehmen. Hierbei wurde größtmöglicher Wert auf die Erweiterbarkeit, Wiederverwendbarkeit und Wartbarkeit gelegt, da weitere Untersuchungen durchgeführt werden sollen und diese zu weiteren Ergänzungen führen könnten. Die weitere Analyse der Daten soll mit Hilfe des erstellten Systems leichter durchgeführt werden können. Soweit möglich, werden sinnvoll erscheinende Änderungen direkt in das Programmsystem übernommen.
Das Ziel dieser Diplomarbeit ist es, mathematische Modelle zu entwickeln und in ein Programmsystem umzusetzen. Dieses wird um einfache Berechnungen ergänzt, die die Modelle unterstützen und ergänzen, jedoch grundsätzlich nicht verändern. Der Schwerpunkt liegt somit in der Programmierung eines Systems, mit dessen Hilfe der Nutzer Prognosen erstellen, visualisieren und später auch deren Genauigkeit darstellen kann.
Inhaltsverzeichnis:
| 1. | Einführung | 1 |
| 1.1 | Aufgabe | 2 |
| 1.2 | Problemstellung | 3 |
| 1.2.1 | Prognose | 3 |
| 1.2.2 | Visualisierung | 3 |
| 1.3 | Rahmenbedingungen: Ein Praktikum bei der Firma Siemens | 3 |
| 1.4 | Überblick über die zeitliche Entwicklung | 3 |
| 1.5 | Die Wahl der Programmiersprache | 5 |
| 1.6 | Aufbau der Datenbasis | 5 |
| 2. | Grundlagen | 7 |
| 2.1 | Methoden der Regression | 8 |
| 2.2 | Die Modellbildung | 8 |
| 2.3 | Klassifikation | 9 |
| 3. | Problemanalyse und Lösungsansätze | 11 |
| 3.1 | Der Kennwert: volume weighted accuracy | 12 |
| 3.2 | Modelle | 14 |
| 3.3 | Notwendigkeit einer Klassifikation | 16 |
| 3.4 | Nullwerte | 16 |
| 3.5 | Weitere Modelle | 16 |
| 3.6 | Spitzenwerte | 17 |
| 3.7 | Unterteilung der Spitzenwerte | 17 |
| 3.8 | Der gleitende Durchschnitt | 18 |
| 3.9 | Trendwechsel | 18 |
| 3.10 | Negative Werte | 21 |
| 3.11 | Visualisierung | 21 |
| 4. | Systementwurf | 22 |
| 4.1 | Programmkomplexe und Namensgebung für Funktionen | 23 |
| 4.2 | Datenstruktur | 24 |
| 4.2.1 | Wertetabellen | 24 |
| 4.2.2 | Ergebnisdaten | 24 |
| 4.3 | Vorhersageberechnung | 26 |
| 4.3.1 | Vorbehandlung der Datenbasis | 26 |
| 4.3.2 | Gleitwerte | 27 |
| 4.3.3 | Kennwerte | 28 |
| 4.3.4 | Klassifikation | 31 |
| 4.3.5 | Modelle | 31 |
| 4.3.6 | Nachbearbeitung der Vorhersagen | 31 |
| 4.4 | Komplex Kennwertberechnung | 33 |
| 4.4.1 | Die Ergebniskomponenten | 33 |
| 4.4.2 | Aufbau des Komplexes | 34 |
| 4.5 | Visualisierung | 34 |
| 4.6 | Ergänzende Systemteile | 34 |
| 5. | Ergebnisse der Prognosen | 36 |
| 5.1 | Vergleich mit kommerziellen Produkten | 37 |
| 5.1.1 | Manugistics | 37 |
| 5.1.2 | Autobox | 37 |
| 5.1.3 | Die Modelle L0 bis L8 | 37 |
| 5.1.4 | Wertung | 39 |
| 5.2 | Vergleich von Mittelwert und Median | 40 |
| 5.3 | Vorhersagezeitraum | 41 |
| 5.4 | Eine erste Klassifikation | 43 |
| 5.5 | Weitere Modelle | 45 |
| 5.6 | Eine erste Modellauswahl | 47 |
| 5.7 | Große Spitzen | 47 |
| 5.7.1 | Modellrechnung für große Spitzen | 47 |
| 5.7.2 | Entfernen großer Spitzen | 48 |
| 5.8 | Trendwechselpunkte | 52 |
| 5.8.1 | Effizienz der Trendwechselpunkterkennung | 52 |
| 5.8.2 | Parameter für Trendwechselpunkte | 52 |
| 5.9 | Vorhersage negativer Werte | 53 |
| 5.10 | Menge der bekannten Werte | 55 |
| 5.11 | Einfluß von Rundungen | 58 |
| 5.12 | Schranke für Nulltendenzwerte | 58 |
| 5.13 | PostHoc-Berechnungen | 58 |
| 5.14 | Rechenaufwand für die durchgeführten Berechnungen | 59 |
| 5.15 | Abschließende Wertung | 60 |
| 6. | Ausblick | 62 |
| 6.1 | Verbesserte changepoint Erkennung | 63 |
| 6.2 | Robustes Verhalten nach Trendwechsel | 63 |
| 6.3 | Andere "side-values" für rMedian und lpVal | 63 |
| 6.4 | Klassifikation nur nach einem Wechselpunkt | 64 |
| 6.5 | Andere Modelle integrieren | 64 |
| 6.6 | Andere Klassen für bestimmte Zeitreihen | 64 |
| 6.7 | Korrelation bei Zeitreihen einer Region | 65 |
| 6.8 | Integration weiterer Merkmale; Verbesserung der Klassifikation | 65 |
| 6.9 | Abweichungen der Modellwahl von einer PostHoc-Wahl | 65 |
| 6.10 | Implementation neuronaler Netze für Vorhersagen | 66 |
| 6.11 | Iteratives Eliminieren großer Spitzen | 66 |
| Anhang | 67 | |
| 7. | Begrifferläuterung | 67 |
| 7.1 | Accuracy | 68 |
| 7.2 | ACM | 68 |
| 7.3 | AutoBox | 68 |
| 7.4 | changepoint | 68 |
| 7.5 | changepoint detection | 68 |
| 7.6 | classAve | 69 |
| 7.7 | classCount | 69 |
| 7.8 | classDistDia | 69 |
| 7.9 | gleitender Durchschnitt | 69 |
| 7.10 | große Spitze | 69 |
| 7.11 | itemAve | 69 |
| 7.12 | lag.x | 70 |
| 7.13 | lpVal | 70 |
| 7.14 | Manugistics | 70 |
| 7.15 | monthAve | 70 |
| 7.16 | null | 70 |
| 7.17 | ODBC | 70 |
| 7.18 | Oracle | 71 |
| 7.19 | params | 71 |
| 7.20 | peak | 71 |
| 7.21 | perClass | 71 |
| 7.22 | perItem | 71 |
| 7.23 | perMonth | 72 |
| 7.24 | PostHoc | 72 |
| 7.25 | Result | 72 |
| 7.26 | Siemens Corporate Research | 72 |
| 7.27 | Spitze | 73 |
| 7.28 | SSP - Siemens students program | 73 |
| 7.29 | Trendwechsel | 73 |
| 7.30 | volume weighted accuracy | 73 |
| 8. | Das Programmiersystem S-PLUS | 74 |
| 8.1 | Allgemeines | 75 |
| 8.2 | Syntax-Überblick | 76 |
| 8.3 | Datentypen | 78 |
| 8.4 | Arbeiten mit Vektoren | 79 |
| 8.5 | Arbeiten mit Matrizen, Arrays und Dataframes | 81 |
| 8.6 | Arbeiten mit Listen | 84 |
| 8.7 | Funktionsdefinitionen | 84 |
| 8.8 | Daten- und Programmstrukturen | 85 |
| 8.9 | Datenaustausch | 87 |
| 9. | Weitere Ergebnisse der Prognosen | 88 |
| 10. | Implementierung ausgewählter Details | 97 |
| 10.1 | Ergänzungen zur Datenstruktur | 98 |
| 10.1.1 | Verschiedene Wertetabellen | 98 |
| 10.1.2 | Verwaltung der Ergebnisse | 98 |
| 10.2 | Die drei Programmkomplexe | 99 |
| 10.3 | Protokollsystem | 99 |
| 10.3.1 | Bezeichner | 99 |
| 10.3.2 | Funktionsweise | 100 |
| 10.3.3 | Drucken einer Zeile | 100 |
| 10.3.4 | Ausgabe einzelner Zeichen | 101 |
| 10.3.5 | Initialisierung des Systems | 103 |
| 10.3.6 | Protokollklassen | 103 |
| 10.3.7 | Aktueller Ausgabelevel | 104 |
| 10.3.8 | Protokolldatei | 104 |
| 10.3.9 | Zeitangaben | 104 |
| 10.3.10 | Baumstruktur | 105 |
| 10.4 | Datumsangaben | 105 |
| 10.4.1 | Format des realDate | 105 |
| 10.4.2 | Scannen des textuellen Datums | 105 |
| 10.4.3 | Konvertierung in Textform | 106 |
| 10.5 | Prognosesystem | 106 |
| 10.5.1 | Vorbehandlung der Daten | 106 |
| 10.5.2 | Die Einsprungfunktion | 109 |
| 10.5.3 | Trendlinie | 116 |
| 10.6 | Kennwertberechnung | 117 |
| 10.6.1 | Die Funktion Accuracy | 117 |
| 10.6.2 | Die Funktion monthlyAccs | 122 |
| 10.7 | Diagrammgenerator | 124 |
| 10.8 | Die Hilfsfunktion paramsDiff | 126 |
| 10.9 | Die Hilfsfunktion listData | 129 |
| 10.10 | Die Hilfsfunktion listParams | 129 |
| 11. | Literaturverzeichnis | 131 |
| 12. | Selbstständigkeitserklärung | 132 |
In den Warenkorb
58,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832448622
Arbeit zitieren:
Wöbbeking, Stephan Februar 2001: Design und Implementation eines Softwaresystems für die Klassifikation und Prognose von Zeitreihen, Hamburg: Diplomica Verlag
Schlagworte:
Zeitreihen, Splus, Klassifikation, Prognose, Statistik



