Bachelor + Master Publishing
873 Bachelorarbeiten, 0 Masterarbeiten, 10.111 Diplomarbeiten

Evaluierung des Schnittstellen-Standards

Predictive Model Markup Language (PMML) für Data Mining

Evaluierung des Schnittstellen-Standards
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Mark O. Thilo
  • Abgabedatum: Dezember 2002
  • Umfang: 168 Seiten
  • Dateigröße: 2,9 MB
  • Note: 1,3
  • Institution / Hochschule: Fachhochschule Pforzheim Deutschland
  • ISBN (eBook): 978-3-8324-6781-4
  • ISBN (Paperback) :
    978-3-8324-6781-4 P
  • ISBN (CD) :978-3-8324-6781-4 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Thilo, Mark O. Dezember 2002: Evaluierung des Schnittstellen-Standards, Hamburg: Diplomica Verlag
  • Schlagworte: Business Intelligence, Standardisierung, Schnittstelle, Data Warehouse, analytisches CRM

Diplomarbeit von Mark O. Thilo

Zusammenfassung:

Für den Einsatz von Data Mining in branchenspezifischen Projektlösungen bietet sich die Einbeziehung von etablierten Schnittstellen-Standards an. Dies ermöglicht einerseits eine dynamisch strukturierte Analyse-Infrastruktur, die je nach Bedarfs- und Marktentwicklung erweitert werden kann und erlaubt andererseits einen schnelleren und effizienteren Einsatz der erstellten Modelle in der operativen Umgebung.

Um die Bedeutung des PMML Standards für Data Mining Lösungen in der nächsten Zukunft einschätzen zu können, ist der Gegenstand der Arbeit die Untersuchung der verschiedenen Aspekte dieser Schnittstelle.

Im zweiten Kapitel erfolgt ein Überblick über die neben PMML existierenden Data Mining Schnittstellen, um diese später (am Ende des dritten Kapitels) mit dem PMML Standard vergleichen zu können. Dabei soll im zweiten Kapitel auf die Entstehung, Zusammenhänge und Komponenten beziehungsweise Bestandteile jedes einzelnen Standards eingegangen werden.

Im dritten Kapitel erfolgt die Evaluierung des PMML Standards. Dies geschieht zunächst anhand der Beschreibung von PMML bezüglich der Struktur und Document Type Definition (DTD). Anschließend werden die in Kapitel zwei betrachteten Schnittstellen mit ihren Besonderheiten zusammengefasst, um sie dann mit PMML vergleichen zu können. Anhand einer SWOT-Analyse werden die Stärken/ Schwächen- beziehungsweise Chancen- und Risiken von PMML erarbeitet und beurteilt. Am Kapitelende erfolgt ein Ausblick bezüglich der Zukunft von PMML.

In Kapitel vier werden mögliche Data Mining Lösungsarchitekturen aufgeführt, um dem Leser den Zusammenhang von Data Mining und Data Warehouse aufzuzeigen und ihn auf die folgenden Kapitel bezüglich des PMML Einsatzes vorzubereiten.

Die Kapitel fünf und sechs stellen den praxisorientierten Teil dar. Dabei werden in Kapitel fünf zunächst die drei für SBS Siemens Business Services interessantesten und auch mächtigsten Data Mining-Tools als PMML Provider ausführlicher betrachtet und bezüglich der Möglichkeiten der PMML Implementierung beurteilt. Folgend werden weitere Data Mining-Tools anhand der entwickelten Kriterien in tabellarischer Form aufgeführt.

Kapitel sechs befasst sich mit den Client-seitigen Einsatzmöglichkeiten von PMML in den Bereichen des Supply Chain Managements (SCM), Customer Relationship Managements (CRM), Electronic Commerce (eCommerce) und in Datenbanken.

Abschließend sollen die wichtigsten Erkenntnisse im Rahmen eines Fazits zusammengefasst werden.

Inhaltsverzeichnis:

1. Einleitung 1
1.1 Inhalt und Aufbau dieser Arbeit 2
2. Überblick zu existierenden Data Mining Schnittstellen 4
2.1 Object Linking And Embedding DataBase für Data Mining (OLE DB DM) 4
2.1.1 Object Linking And Embedding (OLE) 5
2.1.2 Object Linking And Embedding DataBase (OLE DB) und Open Database Connectivity (ODBC) 6
2.2 Object Management Group's Common Warehouse Metamodel (OMG CWM) 7
2.2.1 Die Object Management Group (OMG) 7
2.2.2 Das Common Warehouse Metamodel (CWM) 8
2.2.3 Das CWM Data Mining Metamodel 15
2.3 Structured Query Language für Medienobjekte (SQL/ MM Data Mining) 19
2.3.1 Data Mining Phasen 21
2.3.2 SQL/ MM Typen am Beispiel von Klassifikation 25
2.4 Java Data Mining Application Program Interface (JDMAPI) 27
2.4.1 Java Database Connectivity (JDBC) 31
3. Beschreibung von PMML 34
3.1 Die aktuelle PMML Version 36
3.1.1 Die allgemeine Struktur eines PMML Dokuments 36
3.1.2 Die Grundstruktur eines PMML Dokumentes 37
3.1.3 Das Mining Schema 48
3.1.4 Grundlegende Datentypen und Entitäten 49
3.2 Zusammenfassung und Vergleich mit anderen Schnittstellen 50
3.3 Die Zukunft von PMML/ Geplante Änderungen 58
4. Beschreibung möglicher Data Mining Lösungs-architekturen 60
4.1 Data Mining „Über dem Warehouse“ 60
4.2 Data Mining „Neben dem Warehouse“ 62
4.3 Data Mining „Innerhalb des Warehouses“ 64
5. Existierende Data Mining-Tools (PMML Provider) und Möglichkeiten der PMML Implementierung 67
5.1 SAS Enterprise MinerTM 67
5.2 SPSS Clementine(r) 73
5.3 IBM DB2(r) Intelligent Miner 84
5.4 Oracle9i(r) Data Mining 98
5.5 NCR Teradata(r) Warehouse Miner 100
5.6 Quadstone DecisionhouseTM 102
5.7 ANGOSS(r) KnowledgeSTUDIO 104
5.8 KXEN Analytic Framework(tm) 106
5.9. prudsys(r) Softwarepaket 108
6. Einsatzmöglichkeiten von PMML in operativen Systemen (PMML Clients) 113
6.1 Supply Chain Management (SCM) 113
6.2 Customer Relationship Management (CRM) 117
6.3 eCommerce 126
6.4 Datenbanken 130
7. Fazit 133
Anlage 1: Document Type Definition (PMML 2.0 DTD) 136
Anlage 2: Gängige OLE DB Provider 145
Anlage 3: Beispiel-Code JDMAPI, JSR-073 146
Anlage 4: Beispiel einer Data Mining Lösungsarchitektur der Firma prudsys (PREMINER): 147
Anlage 5: Übersicht der features früherer Clementine Versionen: 148
Anlage 6: Abkürzungsverzeichnis 149
Anlage 7: Begriffsdefinitionen 152
Anlage 8: Abbildungsverzeichnis 154
Anlage 9: Tabellenverzeichnis 156
Anlage 10: Literaturverzeichnis 157

Automatisiert erstellter Textauszug:

Abbildung 4.1: Data Mining „über dem Warehouse“ (Quelle: Posch, F., 2002, S. 1) Abbildung 4.1 spiegelt diese Variante wider. Im oberen Drittel der Abbildung ist eine Reihe von Conceptual Views über den Warehouse Tabellen aufgeführt, die zum Beispiel über SQL statements generiert werden können. Zusätzlich können teilweise noch externe Daten aus anderen Tabellen (External Data) in die Conceptual Views eingehen. Die über dem Warehouse gebildeten Views können zum Beispiel durch Abspeichern als neue Tabellen auf einem Datenträger „materialisiert“, das heißt skalierbar gemacht werden oder nicht. Hierin liegt in dieser Annäherung das Problem, wenn nicht sogar ein Widerspruch. Sind die Views von unzureichender Größe, kann kein ernsthaftes und nutzenbringendes Data Mining betrieben werden. Besitzen die Views jedoch ohne „Materialisierung“ eine ausreichende Größe, so erfordert der Aufwand der sich immer wiederholenden Berechnungen und eine enorme Prozessorleistung. von Dies kann mit unter Umständen die Verfügbarkeit der Warehouse Ressourcen beeinflussen Systeminstabilitäten aufgrund Konflikten anderen Anwendungen hervorrufen. Haben die Views jedoch eine ausreichende Größe und wurden sie dazu noch „materialisiert“, kann man dies nicht mehr als Data Mining „über dem Warehouse“ bezeichnen, sondern vielmehr als eine Abwandlung der dritten Form (siehe oben, 3. „Innerhalb des Warehouses“). Liegt eine Materialisierung vor, ist diese Variante meist besser geeignet als die erste. Hier können sowohl die Möglichkeiten einer passenden [...]

Zusammenhang, denn Data Mining kann ohne geeignete Daten, die meist aus einem Data Warehouse stammen, nicht sinnvoll durchgeführt werden. Betrachtet man jedoch Data Mining als einen selbständigen Bereich, so ergeben sich Fragen wie: Wo existiert Data Mining, wo findet es statt? Wo kann es bei einem Data Warehouse architektonisch angesiedelt beziehungsweise eingeordnet werden? Ist es ein eigenständiger Bereich mit einem getrennten repository neben dem Warehouse? Kann man es als eine Art Überbau über dem Warehouse betrachten (Conceptual View 1-3, vergleiche Abbildung 4.1 oben), der abhängig vom Einsatz und Bedarf als eine Art Platzhalter für entsprechendes Data Mining fungiert? Oder ist Data Mining als ein Teil des Warehouses anzusehen? Data Mining kann in drei unterschiedlichen Formen zum Einsatz kommen: 1. „Über dem Warehouse“, als „Überbau“ bestehend aus den Conceptual Views. 2. „Neben dem Warehouse“, als ein vom Warehouse getrenntes, eigenständiges repository. 3. „Innerhalb des Warehouses“, als eine getrennt erkennbare Ansammlung von Daten. [...]

- 59 In der Zukunft erfordern Automatisierung und eine Reduzierung des Komplexitätsgrades vielmehr organisatorische/ planerische und administrative Aufgaben. Diese können zusehends vom bestehenden IT Personal übernommen werden, wodurch der Einsatz zusätzlicher, meist sehr teurer Experten, die zum Beispiel für den Einsatz eines Modells ad hoc source code programmieren müssen, überflüssig wird.29 Dadurch können die Unternehmen ihre Personalkosten senken. Die gemeinsame Weiterentwicklung von PMML ermöglicht den daran beteiligten Unternehmen sowohl eine Risikostreuung beziehungsweise -teilung als auch eine Reduzierung der Entwicklungskosten. Durch die Unabhängigkeit von PMML bezüglich der vor allem in größeren Betrieben oft unterschiedlichen Systeme, Plattformen und Applikationen werden Inkompatibilitäten vermieden, wodurch proprietäre Systeme an Bedeutung verlieren. Dies stellt vor allem hinsichtlich des Zeitfaktors eine große Ersparnis dar, da ohne PMML die oft sehr (zeit-) aufwendigen Modelle handish geändert, angepasst oder konfiguriert und im schlimmsten Fall völlig neu aufgesetzt werden müssten. Damit können mit PMML Kosten, die beim Einsatz neuer Modelle, dem updaten alter Modelle und dem Austausch von Modellen entstehen, drastisch reduziert werden. [...]

Arbeit zitieren:
Thilo, Mark O. Dezember 2002: Evaluierung des Schnittstellen-Standards, Hamburg: Diplomica Verlag

Schlagworte:
Business Intelligence, Standardisierung, Schnittstelle, Data Warehouse, analytisches CRM

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2013, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren