Evaluierung des Schnittstellen-Standards
Predictive Model Markup Language (PMML) für Data Mining
- Art: Diplomarbeit
- Autor: Mark O. Thilo
- Abgabedatum: Dezember 2002
- Umfang: 168 Seiten
- Dateigröße: 2,9 MB
- Note: 1,3
- Institution / Hochschule: Fachhochschule Pforzheim Deutschland
- ISBN (eBook): 978-3-8324-6781-4
-
ISBN (Paperback) :
978-3-8324-6781-4 P - ISBN (CD) :978-3-8324-6781-4 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Thilo, Mark O. Dezember 2002: Evaluierung des Schnittstellen-Standards, Hamburg: Diplomica Verlag
- Schlagworte: Business Intelligence, Standardisierung, Schnittstelle, Data Warehouse, analytisches CRM
In den Warenkorb
68,00 €
Diplomarbeit von Mark O. Thilo
Zusammenfassung:
Für den Einsatz von Data Mining in branchenspezifischen Projektlösungen bietet sich die Einbeziehung von etablierten Schnittstellen-Standards an. Dies ermöglicht einerseits eine dynamisch strukturierte Analyse-Infrastruktur, die je nach Bedarfs- und Marktentwicklung erweitert werden kann und erlaubt andererseits einen schnelleren und effizienteren Einsatz der erstellten Modelle in der operativen Umgebung.
Um die Bedeutung des PMML Standards für Data Mining Lösungen in der nächsten Zukunft einschätzen zu können, ist der Gegenstand der Arbeit die Untersuchung der verschiedenen Aspekte dieser Schnittstelle.
Im zweiten Kapitel erfolgt ein Überblick über die neben PMML existierenden Data Mining Schnittstellen, um diese später (am Ende des dritten Kapitels) mit dem PMML Standard vergleichen zu können. Dabei soll im zweiten Kapitel auf die Entstehung, Zusammenhänge und Komponenten beziehungsweise Bestandteile jedes einzelnen Standards eingegangen werden.
Im dritten Kapitel erfolgt die Evaluierung des PMML Standards. Dies geschieht zunächst anhand der Beschreibung von PMML bezüglich der Struktur und Document Type Definition (DTD). Anschließend werden die in Kapitel zwei betrachteten Schnittstellen mit ihren Besonderheiten zusammengefasst, um sie dann mit PMML vergleichen zu können. Anhand einer SWOT-Analyse werden die Stärken/ Schwächen- beziehungsweise Chancen- und Risiken von PMML erarbeitet und beurteilt. Am Kapitelende erfolgt ein Ausblick bezüglich der Zukunft von PMML.
In Kapitel vier werden mögliche Data Mining Lösungsarchitekturen aufgeführt, um dem Leser den Zusammenhang von Data Mining und Data Warehouse aufzuzeigen und ihn auf die folgenden Kapitel bezüglich des PMML Einsatzes vorzubereiten.
Die Kapitel fünf und sechs stellen den praxisorientierten Teil dar. Dabei werden in Kapitel fünf zunächst die drei für SBS Siemens Business Services interessantesten und auch mächtigsten Data Mining-Tools als PMML Provider ausführlicher betrachtet und bezüglich der Möglichkeiten der PMML Implementierung beurteilt. Folgend werden weitere Data Mining-Tools anhand der entwickelten Kriterien in tabellarischer Form aufgeführt.
Kapitel sechs befasst sich mit den Client-seitigen Einsatzmöglichkeiten von PMML in den Bereichen des Supply Chain Managements (SCM), Customer Relationship Managements (CRM), Electronic Commerce (eCommerce) und in Datenbanken.
Abschließend sollen die wichtigsten Erkenntnisse im Rahmen eines Fazits zusammengefasst werden.
Inhaltsverzeichnis:
| 1. | Einleitung | 1 |
| 1.1 | Inhalt und Aufbau dieser Arbeit | 2 |
| 2. | Überblick zu existierenden Data Mining Schnittstellen | 4 |
| 2.1 | Object Linking And Embedding DataBase für Data Mining (OLE DB DM) | 4 |
| 2.1.1 | Object Linking And Embedding (OLE) | 5 |
| 2.1.2 | Object Linking And Embedding DataBase (OLE DB) und Open Database Connectivity (ODBC) | 6 |
| 2.2 | Object Management Group's Common Warehouse Metamodel (OMG CWM) | 7 |
| 2.2.1 | Die Object Management Group (OMG) | 7 |
| 2.2.2 | Das Common Warehouse Metamodel (CWM) | 8 |
| 2.2.3 | Das CWM Data Mining Metamodel | 15 |
| 2.3 | Structured Query Language für Medienobjekte (SQL/ MM Data Mining) | 19 |
| 2.3.1 | Data Mining Phasen | 21 |
| 2.3.2 | SQL/ MM Typen am Beispiel von Klassifikation | 25 |
| 2.4 | Java Data Mining Application Program Interface (JDMAPI) | 27 |
| 2.4.1 | Java Database Connectivity (JDBC) | 31 |
| 3. | Beschreibung von PMML | 34 |
| 3.1 | Die aktuelle PMML Version | 36 |
| 3.1.1 | Die allgemeine Struktur eines PMML Dokuments | 36 |
| 3.1.2 | Die Grundstruktur eines PMML Dokumentes | 37 |
| 3.1.3 | Das Mining Schema | 48 |
| 3.1.4 | Grundlegende Datentypen und Entitäten | 49 |
| 3.2 | Zusammenfassung und Vergleich mit anderen Schnittstellen | 50 |
| 3.3 | Die Zukunft von PMML/ Geplante Änderungen | 58 |
| 4. | Beschreibung möglicher Data Mining Lösungs-architekturen | 60 |
| 4.1 | Data Mining „Über dem Warehouse“ | 60 |
| 4.2 | Data Mining „Neben dem Warehouse“ | 62 |
| 4.3 | Data Mining „Innerhalb des Warehouses“ | 64 |
| 5. | Existierende Data Mining-Tools (PMML Provider) und Möglichkeiten der PMML Implementierung | 67 |
| 5.1 | SAS Enterprise MinerTM | 67 |
| 5.2 | SPSS Clementine(r) | 73 |
| 5.3 | IBM DB2(r) Intelligent Miner | 84 |
| 5.4 | Oracle9i(r) Data Mining | 98 |
| 5.5 | NCR Teradata(r) Warehouse Miner | 100 |
| 5.6 | Quadstone DecisionhouseTM | 102 |
| 5.7 | ANGOSS(r) KnowledgeSTUDIO | 104 |
| 5.8 | KXEN Analytic Framework(tm) | 106 |
| 5.9. | prudsys(r) Softwarepaket | 108 |
| 6. | Einsatzmöglichkeiten von PMML in operativen Systemen (PMML Clients) | 113 |
| 6.1 | Supply Chain Management (SCM) | 113 |
| 6.2 | Customer Relationship Management (CRM) | 117 |
| 6.3 | eCommerce | 126 |
| 6.4 | Datenbanken | 130 |
| 7. | Fazit | 133 |
| Anlage 1: | Document Type Definition (PMML 2.0 DTD) | 136 |
| Anlage 2: | Gängige OLE DB Provider | 145 |
| Anlage 3: | Beispiel-Code JDMAPI, JSR-073 | 146 |
| Anlage 4: | Beispiel einer Data Mining Lösungsarchitektur der Firma prudsys (PREMINER): | 147 |
| Anlage 5: | Übersicht der features früherer Clementine Versionen: | 148 |
| Anlage 6: | Abkürzungsverzeichnis | 149 |
| Anlage 7: | Begriffsdefinitionen | 152 |
| Anlage 8: | Abbildungsverzeichnis | 154 |
| Anlage 9: | Tabellenverzeichnis | 156 |
| Anlage 10: | Literaturverzeichnis | 157 |
Abbildung 4.1: Data Mining „über dem Warehouse“ (Quelle: Posch, F., 2002, S. 1) Abbildung 4.1 spiegelt diese Variante wider. Im oberen Drittel der Abbildung ist eine Reihe von Conceptual Views über den Warehouse Tabellen aufgeführt, die zum Beispiel über SQL statements generiert werden können. Zusätzlich können teilweise noch externe Daten aus anderen Tabellen (External Data) in die Conceptual Views eingehen. Die über dem Warehouse gebildeten Views können zum Beispiel durch Abspeichern als neue Tabellen auf einem Datenträger „materialisiert“, das heißt skalierbar gemacht werden oder nicht. Hierin liegt in dieser Annäherung das Problem, wenn nicht sogar ein Widerspruch. Sind die Views von unzureichender Größe, kann kein ernsthaftes und nutzenbringendes Data Mining betrieben werden. Besitzen die Views jedoch ohne „Materialisierung“ eine ausreichende Größe, so erfordert der Aufwand der sich immer wiederholenden Berechnungen und eine enorme Prozessorleistung. von Dies kann mit unter Umständen die Verfügbarkeit der Warehouse Ressourcen beeinflussen Systeminstabilitäten aufgrund Konflikten anderen Anwendungen hervorrufen. Haben die Views jedoch eine ausreichende Größe und wurden sie dazu noch „materialisiert“, kann man dies nicht mehr als Data Mining „über dem Warehouse“ bezeichnen, sondern vielmehr als eine Abwandlung der dritten Form (siehe oben, 3. „Innerhalb des Warehouses“). Liegt eine Materialisierung vor, ist diese Variante meist besser geeignet als die erste. Hier können sowohl die Möglichkeiten einer passenden [...]
Zusammenhang, denn Data Mining kann ohne geeignete Daten, die meist aus einem Data Warehouse stammen, nicht sinnvoll durchgeführt werden. Betrachtet man jedoch Data Mining als einen selbständigen Bereich, so ergeben sich Fragen wie: Wo existiert Data Mining, wo findet es statt? Wo kann es bei einem Data Warehouse architektonisch angesiedelt beziehungsweise eingeordnet werden? Ist es ein eigenständiger Bereich mit einem getrennten repository neben dem Warehouse? Kann man es als eine Art Überbau über dem Warehouse betrachten (Conceptual View 1-3, vergleiche Abbildung 4.1 oben), der abhängig vom Einsatz und Bedarf als eine Art Platzhalter für entsprechendes Data Mining fungiert? Oder ist Data Mining als ein Teil des Warehouses anzusehen? Data Mining kann in drei unterschiedlichen Formen zum Einsatz kommen: 1. „Über dem Warehouse“, als „Überbau“ bestehend aus den Conceptual Views. 2. „Neben dem Warehouse“, als ein vom Warehouse getrenntes, eigenständiges repository. 3. „Innerhalb des Warehouses“, als eine getrennt erkennbare Ansammlung von Daten. [...]
- 59 In der Zukunft erfordern Automatisierung und eine Reduzierung des Komplexitätsgrades vielmehr organisatorische/ planerische und administrative Aufgaben. Diese können zusehends vom bestehenden IT Personal übernommen werden, wodurch der Einsatz zusätzlicher, meist sehr teurer Experten, die zum Beispiel für den Einsatz eines Modells ad hoc source code programmieren müssen, überflüssig wird.29 Dadurch können die Unternehmen ihre Personalkosten senken. Die gemeinsame Weiterentwicklung von PMML ermöglicht den daran beteiligten Unternehmen sowohl eine Risikostreuung beziehungsweise -teilung als auch eine Reduzierung der Entwicklungskosten. Durch die Unabhängigkeit von PMML bezüglich der vor allem in größeren Betrieben oft unterschiedlichen Systeme, Plattformen und Applikationen werden Inkompatibilitäten vermieden, wodurch proprietäre Systeme an Bedeutung verlieren. Dies stellt vor allem hinsichtlich des Zeitfaktors eine große Ersparnis dar, da ohne PMML die oft sehr (zeit-) aufwendigen Modelle handish geändert, angepasst oder konfiguriert und im schlimmsten Fall völlig neu aufgesetzt werden müssten. Damit können mit PMML Kosten, die beim Einsatz neuer Modelle, dem updaten alter Modelle und dem Austausch von Modellen entstehen, drastisch reduziert werden. [...]
In den Warenkorb
68,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832467814
Arbeit zitieren:
Thilo, Mark O. Dezember 2002: Evaluierung des Schnittstellen-Standards, Hamburg: Diplomica Verlag
Schlagworte:
Business Intelligence, Standardisierung, Schnittstelle, Data Warehouse, analytisches CRM




