Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3
- Art: Diplomarbeit
- Autor: Karsten Hoermann
- Abgabedatum: April 2001
- Umfang: 124 Seiten
- Dateigröße: 1,0 MB
- Note: 1,7
- Institution / Hochschule: Technische Universität Dortmund Deutschland
- ISBN (eBook): 978-3-8324-6392-2
-
ISBN (Paperback) :
978-3-8324-6392-2 P - ISBN (CD) :978-3-8324-6392-2 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Hoermann, Karsten April 2001: Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3, Hamburg: Diplomica Verlag
- Schlagworte: Client-Server-Architektur, Suchmaschine, Data Warehouse, Produktionsplanung, Knowledge Discovery
In den Warenkorb
58,00 €
Diplomarbeit von Karsten Hoermann
Zusammenfassung:
In den letzten zehn Jahren ist die Menge der weltweit gesammelten und gespeicherten Daten immens angestiegen. Diese Daten können nur dann sinnvoll genutzt werden, wenn die Nutzenden wissen, wo und wie sie die Daten finden, was die Daten beinhalten und wie die Daten verwendet werden können. Im Verlauf der industriellen Auftragsabwicklung ist es z.B. notwendig, existierende Materialstammdaten schnellstmöglich wiederzufinden. Die Einordnung der Materialstammdaten in das Fachgebiet der Produktionsplanung und –steuerung verdeutlicht die Problematik. Dieser Zustand macht eine Datenauswertung mit traditionellen Mitteln unmöglich. Daher ist der Wunsch nach Verfahren entstanden, die automatisch interessante Muster aus großen Datenbeständen filtern. Aus dieser Zielsetzung ist das Forschungsgebiet des Knowledge Discovery in Databases (KDD) Anfang der 90er Jahre entstanden. Mit Hilfe eigener Methoden werden Abhängigkeiten und Regelmäßigkeiten zwischen Datenbankeinträgen und Dokumenten gefunden. Anschließend wird das gefundene Wissen in einer für den Menschen verständlichen Form präsentiert. In diesem Zusammenhang stellt ein von der SAP AG neu entwickeltes Tool eine Lösungsmöglichkeit für das Materialstammdatenmanagement dar. Dazu wird in der vorliegenden Arbeit das Thema KDD unter ausgewählten Aspekten analysiert. Das neuartige Tool soll in den KDD Prozeß integriert werden. Anschließend werden die einzelnen Schritte des KDD Prozeß für die Materialstammdaten diskutiert. Insgesamt wird ein Verfahren zur Wiederverwendung von Materialstammdaten mit Hilfe eines neuartigen Tool unter Verwendung von Methoden des KDD entworfen.
Einleitung:
Data Mining und Knowledge Discovery in Datenbanken (KDD) erhalten zunehmende Beachtung in der Forschung, in der Industrie und in den Medien. In den letzten Jahren wurden die Fähigkeiten, immense Mengen an Daten zu produzieren und zu sammeln enorm verstärkt. Die Anzahl und die Größe der genutzten Datenbanken im Handel, in der öffentlichen Verwaltung, in der Wissenschaft, in der Produktion und anderen Bereichen wächst stetig. Die gleiche Entwicklung ist für den Bereich der EDV-Anwendungen zu beobachten. Mit der zunehmenden Vernetzung der Unternehmen steigt im industriellen Bereich demnach die Anzahl der internen und externen Datenquellen. Diese Informationsflut hat zur Folge, daß in den Unternehmen ein großer Teil der Arbeitszeit mit der Erstellung, Änderung, Ablage und Weiterleitung von Informationen verbracht wird.
Weiterhin gewinnen Informationen sowohl als wichtiger Produktionsfaktor im operativen Betrieb als auch in strategischen Entscheidungsprozessen an Bedeutung. Dieser Zustand läßt die dringende Notwendigkeit entstehen, eine neue Generation computergestützter Theorien und Tools zu entwickeln. Diese Hilfsmittel und Methoden sollen den Menschen bei der Entdeckung nützlicher Informationen aus dem schnell wachsenden Bestand gespeicherter Daten unterstützen.
Problemstellung Elektronische Informations- und Speichermedien verbreiten sich nach Küppers zunehmend. Die Menge der Daten, die prinzipiell digital zur Verfügung stehen, wächst immer schneller an. Bereits die existierende Menge der Daten im wissenschaftlichen und betrieblichen Bereich verhindert häufig eine Auswertung mit traditionellen Mitteln. Die US-amerikanische Warenhauskette Wal-Mart ist z. B. mit mehr als 2.000 Geschäften eines der größten Einzelhandelsunternehmen weltweit. Dort werden täglich bis zu 20 Millionen Transaktionen gespeichert. Dieses Beispiel weist bereits auf das Problem der Redundanzen und Inkonsistenzen in gegenwärtig genutzten integrierten Systemen hin. Ursache für diesen Zustand sind u.a. Bedienerfehler und unzulänglich geprüfte Datenübernahmen aus Altsystemen. Stellvertretend für die dargestellte allgemeine Problematik erreicht das Materialstammdatenmanagement zunehmende Bedeutung. Dort ist die Forderung nach einem geeigneten Instrument zur Bereinigung der Materialstammdaten entstanden. Das Wiederfinden und Zuordnen von unklassifizierten Stammdaten stellt eine besondere Herausforderung dar. Als besonderes Merkmal weisen Materialstammdaten sog. Materialkurztexte sowie Langtexte auf. Schwach strukturierte Textdaten können jedoch nicht direkt zur Bestimmung von Regelmäßigkeiten benutzt werden. Es sind zusätzliche Eigenschaften zu bestimmen, zwischen denen Abhängigkeiten, Regelmäßigkeiten und Beziehungen gesucht werden können. So kann nach Ferber in einer Datenbank mit einem Attributvergleich einfach festgestellt werden, welches von zwei Büchern mehr Seiten hat. Zu erkennen, welches der beiden Bücher besser geeignet ist, ein bestimmtes Thema zu lernen, kann dagegen sehr viel schwieriger sein. Entweder sind hierfür kein geeigneten Attribute vorhanden oder es existiert kein Vergleichsoperator. An diesem Punkt setzen die Methoden der Knowledge Discovery in Datenbanken (KDD) und des Data Mining an. Das Ziel besteht darin, Abhängigkeiten, Regelmäßigkeiten und Beziehungen zwischen den Dokumenten und Datensätzen zu finden. Diese Informationen müssen anschließend für den Anwender in eine verständliche Form übertragen werden. Es steht also nicht der einzelne Datensatz im Vordergrund, der in der Datenbank sicher gespeichert wird. Die Daten werden quasi als Rohstoff genutzt, aus dem neues Wissen gewonnen werden soll. Die erläuterte Problemstellung läßt sich am Beispiel der Materialstammdaten des SAP R/3-Systems erläutern. Neben den obligatorisch zu füllenden Datenfeldern „Materialart“ und „Materialbezeichnung“ ist die „Warengruppe“ ein oft gepflegtes Datenfeld. Diese Datenfelder können demnach eine Grundlage für einen Klassifizierungsansatz der Materialstammdaten darstellen. Weitere, für eine Klassifizierung notwendige Datenfelder wie z.B. „Größe/Abmessung“ oder „Werkstoff“ sind oft unvollständig gepflegt. Für diese Problematik ist im SAP R/3-System keine Suchhilfe implementiert.
Gang der Untersuchung:
Die vorliegende Arbeit soll zunächst die Begriffe des Forschungsgebietes Data Mining und Knowledge Discovery in Datenbanken definieren und abgrenzen. Die Zusammenhänge zwischen dem KDD, dem Data Mining und verwandten Bereichen werden beschrieben. Weiterhin werden ausgewählte Methoden des Data Mining analysiert. In einer Fallstudie wird die Struktur, die Funktionalität und die benutzte Methodik eines realen Systems untersucht. Als Referenz wird das von der SAP AG entwickelte Tool DrFuzz ™ (Nomenklatur der SAP AG und nicht der wissenschaftlichen Definition der Fuzzy Logic entsprechend) genutzt. Dazu muß der relevante Ausschnitt des Datenmodells identifiziert werden. Der Aufbau der notwendigen Infrastruktur für das neu entwickelte Tool mit seinen charakteristischen Systemelementen wird dargestellt. Um den Leistungsumfang des Tools überprüfen zu können, werden von einem Unternehmen Materialstammdaten aus dem SAP R/3-System zur Verfügung gestellt. Mit Hilfe von Testläufen des Tool sollen einerseits dessen korrekte Arbeitsweise überprüft und andererseits dessen Nutzen auf dem Gebiet der Materialstammdaten nachgewiesen werden. Dies beinhaltet insbesondere die Möglichkeit zur Wiederfind- und Wiederverwertbarkeit von Materialstammdaten durch das Identifizieren von Dubletten. Die Client/Server-Architektur des SAP R/3-Systems wird erläutert. Mit Hilfe der Materialstammdaten wird ein Anwendungsszenario für das KDD entworfen. Es soll geprüft werden, ob das Tool in den KDD Prozeß integriert werden kann.
Die beschriebene Zielsetzung umfaßt unterschiedliche theoretische und praktische Themenbereiche. Demnach erfolgt zunächst die Beschreibung und Abgrenzung der Problemstellung. Nach der Dokumentation der gegenwärtigen Situation wird anschließend das Forschungsgebiet präsentiert, das Lösungsmethoden bereithält.
Nach der Darstellung der Struktur werden im folgenden die Inhalte der einzelnen Kapitel präsentiert.
Kapitel 2 liefert als Ausgangspunkt der vorliegenden Arbeit eine umfassende Problembeschreibung. Zu diesem Zweck wird die Prozeßaufnahme zur Aufnahme der Ist-Situation in den Fachabteilungen eines Unternehmen beschrieben. Neben einer geeigneten Methode zur Aufnahme des Ist-Zustand werden auch die zu untersuchenden Fachabteilungen ausgewählt. Zur Gewinnung der Anforderungen für das weitere Vorgehen werden die Sichtweisen der relevanten Unternehmensabteilungen auf die Materialstammdaten aufgenommen. Mit Hilfe der Merkmale eines Materials werden die zugehörigen Datenfelder und Datentabellen bestimmt. Der für die vorliegende Arbeit gewählte Anwendungsfall der Materialstammdaten verlangt zur Problemabgrenzung eine Einordnung in den zugehörigen fachlichen Hintergrund.
Dementsprechend ordnet Kapitel 3 den Begriff der Materialstammdaten in den thematischen Zusammenhang der Produktionsplanung und –steuerung (PPS) ein. Neben der Begriffsdefinition wird das prinzipielle Aufgabenmodell anhand eines Referenzmodells beschrieben. Besondere Berücksichtigung findet an dieser Stelle die Aufgabe der Datenhaltung. Die Bedeutung der Materialstammdaten in der Produktionsplanung und –steuerung wird herausgestellt. Dazu dient auch die Beschreibung der Umsetzung eines Referenzmodells in PPS-Systemen. Die Stellung der Materialstammdaten wird im Zusammenhang mit der Entwicklung dieser Systeme hin zu integrierten Systemen zur Planung und Steuerung sämtlicher Unternehmensressourcen weiter verdeutlicht.
Da die PPS in integrierten Systemen wie z.B. SAP R/3 angewendet wird, erfolgt in Kapitel 4 die Beschreibung dieser Systemumgebung. Eine Fallstudie erläutert die unterschiedlichen Methoden zur Datensuche der betriebswirtschaftlichen Standardsoftware SAP R/3. An dieser Stelle wird die neuartige Suchmaschine DrFuzzyÔ als eine Methode zur Datensuche hinsichtlich des Funktionsumfang und der internen Struktur präsentiert und mit der herkömmlichen Methode zur Datensuche (Matchcodesuche) verglichen. Die Anwendung von DrFuzzyÔ mit Hilfe von Originaldaten eines Unternehmens für die in Kapitel 2 gewonnenen Anforderungen wird beschrieben. Ebenso wird der Aufbau der notwendigen Infrastruktur dokumentiert und eine Begriffsabgrenzung zum Thema Fuzzy Logic erarbeitet. Insgesamt wird ein Lösungsansatz zur beschriebenen Zielsetzung für die Materialstammdatenproblematik erarbeitet.
Dieser Lösungsansatz wird in Kapitel 5 in das Forschungsgebiet des Knowledge Discovery in Datenbanken und Data Mining eingeordnet. Zu diesem Zweck werden anfangs die Begriffe Knowledge Discovery in Datenbanken und Data Mining präzisiert. Dies beinhaltet neben der Begriffsdefinition auch die Begriffsabgrenzung. Unterschiedliche Methoden des Data Mining werden erläutert. Weiterhin werden die Ziele und Probleme des Data Mining sowie mögliche Anwendungsgebiete aufgezeigt. Für die betrachtete Materialstammdatenproblematik der vorliegenden Arbeit wird ein Anwendungsszenario im Sinne des KDD entworfen. Dies beschreibt die notwendigen Voraussetzungen sowie die potentiellen Analysemöglichkeiten für die Materialstammdaten bei dem Einsatz des KDD.
Kapitel 6 bildet mit einer Zusammenfassung und dem Ausblick auf Weiterentwicklungen den Abschluß der Arbeit. Die erarbeiteten Ergebnisse und Aussagen der vorliegenden Arbeit werden resümiert. Es wird die Frage diskutiert, ob sich das Tool DrFuzzyÔ der SAP AG als Data Mining Werkzeug einordnen läßt. Anregungen für eine mögliche Verschmelzung der Ziele und Ideen des KDD mit dem integrierten SAP Tool DrFuzzyÔ dienen schließlich ebenso als Ausblick für weiterführende Arbeiten wie mögliche Perspektiven und Ansatzpunkte für das KDD.
Inhaltsverzeichnis:
| 1. | Einleitung | 1 |
| 1.1 | Problemstellung | 2 |
| 1.2 | Zielsetzung | 3 |
| 1.3 | Aufbau der Arbeit | 3 |
| 2. | Anwendungen bei der MGB | 7 |
| 2.1 | Sichtweisen auf die Materialstammdaten | 8 |
| 2.1.1 | Einkauf MPE | 9 |
| 2.1.2 | Turbokompressoren MPT2 | 10 |
| 2.1.3 | Schraubenmaschinen MPT4 | 11 |
| 2.1.4 | Anlagentechnik MPP | 11 |
| 2.1.5 | Fertigungstechnik MWL | 12 |
| 2.2 | Ergebnisse der Prozeßaufnahme bei der MGB | 13 |
| 2.3 | Zugriff auf die Materialstammdaten | 16 |
| 3. | Materialstammdaten innerhalb der Produktionsplanung und -steuerung | 18 |
| 3.1 | Die Bedeutung der Materialstammdaten | 22 |
| 4. | Fallstudie: SAP R/3 | 25 |
| 4.1 | Die SAP R/3 Architektur | 25 |
| 4.2 | Die Matchcodesuche im SAP R/3-System | 28 |
| 4.2.1 | Das Prinzip der Matchcodes | 29 |
| 4.3 | Die Suchmaschine DrFuzzyÔ | 33 |
| 4.3.1 | Begriffsabgrenzung | 33 |
| 4.3.1.1 | Fuzzy Logic | 33 |
| 4.3.2 | Funktionsumfang | 34 |
| 4.3.3 | Interne Struktur | 40 |
| 4.3.4 | Aufbau der Infrastruktur | 42 |
| 4.4 | Testreihen und Ergebnisse | 44 |
| 5. | Knowledge Discovery in Datenbanken und Data Mining | 49 |
| 5.1 | Daten, Wissen und Information | 50 |
| 5.2 | Die Begriffe Data Mining und Knowledge Discovery in Datenbanken | 51 |
| 5.2.1 | Definitionen | 51 |
| 5.2.2 | Begriffsabgrenzung | 53 |
| 5.2.2.1 | OLAP | 53 |
| 5.2.2.2 | Data Warehouse | 54 |
| 5.3 | Anwendungsgebiete des KDD | 54 |
| 5.4 | Ziele des Data Mining und des KDD | 55 |
| 5.5 | Herausforderungen des Data Mining und des KDD | 56 |
| 5.6 | Methoden des Data Mining | 57 |
| 5.6.1 | Clustering | 58 |
| 5.6.1.1 | Ähnlichkeits- und Distanzfunktionen | 59 |
| 5.6.1.2 | Verfahren des Clustering | 61 |
| 5.6.2 | Klassifizierung | 65 |
| 5.6.2.1 | Klassifizierung mit Hilfe von Entscheidungsbäumen | 66 |
| 5.6.3 | Assoziationsregeln | 70 |
| 5.6.3.1 | Apriori Algorithmus | 72 |
| 5.6.4 | Generalisierung | 75 |
| 5.6.5 | Musterbasierte Ähnlichkeitssuche | 76 |
| 5.6.6 | Data Mining Ansätze für Text Retrieval Systeme | 78 |
| 5.7 | Der KDD Prozeß | 81 |
| 5.7.1 | Data Selection | 83 |
| 5.7.2 | Cleaning | 85 |
| 5.7.3 | Enrichment | 86 |
| 5.7.4 | Coding | 87 |
| 5.7.5 | Data Mining | 90 |
| 5.7.6 | Reporting | 93 |
| 5.8 | Die KDD Umgebung | 94 |
| 6. | Zusammenfassung | 96 |
| 6.1 | Fazit | 96 |
| 6.2 | Ausblick | 97 |
| 7. | Literaturverzeichnis | 99 |
Zunächst werden die Daten aus den operativen Systemen in einem eigenen System, dem Data Warehouse, gesammelt. Dort stehen die Daten unabhängig vom operativen System zur Verfügung. Beim Transport in das Data Warehouse werden die Daten bereinigt und standardisiert. Mit Hilfe von Transformationsregeln werden die Daten mit unterschiedlichen Normierungen vergleichbar gemacht. Das Data Warehouse ist für die besonderen Anforderungen des OLAP aufgebaut und optimiert. Man unterscheidet entsprechend ihrem Ausmaß zwei Typen von Data Warehouses: Unternehmensweite Systeme und solche Systeme, die nur ein Teilgebiet abdecken, sog. Data Marts. Häufig werden zunächst einzelne Data Marts in kurzer Zeit und mit geringen Kosten aufgebaut. Anschließend werden die einzelnen Data Marts zu einem Data Warehouse zusammengefaßt. Der Zugriff auf das Data Warehouse erfolgt mit einer sog. Frontend Komponente. Diese stellt dem Anwender unterschiedliche Abfragemöglichkeiten zur Verfügung. Statische und dynamische Berichte und Abfragegeneratoren werden ebenso eingesetzt wie Tabellenkalkulation und SQL Schnittstellen. Wenn die Infrastruktur eines unternehmensweiten Data Warehouse eingerichtet ist und ein umfassender Datenbestand vorliegt, entsteht häufig der Wunsch, neue Erkenntnisse aus den Daten abzuleiten. An dieser Stelle setzt das KDD an, um den Datenbestand auf interessante Muster hin zu untersuchen. Dies bedeutet, daß die OLAP Tools generell darauf abzielen Informationen aus Daten zu gewinnen /OLDW00/. Weiterhin unterstützen sie den Anwender bei der interaktiven Datenanalyse. Beim KDD werden aus den Daten Muster extrahiert. Der gesamte Prozeß des Knowledge Discovery soll so weit wie möglich automatisiert werden. Demnach geht das Knowledge Discovery einen Schritt weiter als bisherige Ansätze der Datenbankanalyse /FAYY96b/, S. 40. [...]
Die betrieblichen Abläufe eines Unternehmens werden mit Anwendungssystemen abgebildet. Die notwendigen Daten sind in einer Datenbank gespeichert. Im täglichen Betrieb werden hierbei in kürzester Zeit viele kleine, einfache Transaktionen ausgeführt, die als OnLine Transaction Processing (OLTP) bezeichnet werden. Aus den gesammelten Daten müssen für die Unternehmenssteuerung interessante Informationen gewonnen werden. Zu diesem Zweck werden die Daten mit komplexen Abfragen ausgewertet. Derartige Anfragen werden OnLine Analytical Processing (OLAP) genannt. Es wird versucht, die Daten aus unterschiedlichen Unternehmensbereichen wie Einkauf, Lagerhaltung oder Buchhaltung zu unterschiedlichen Zwecken miteinander zu verknüpfen. Dabei können die Daten aus verschiedenen Unternehmenseinheiten und aus diversen Ländern stammen. Dieses Vorgehen führt zu vielfältigen Problemen. Daten aus unterschiedlichen Datenbanksystemen können nicht ohne weiteres miteinander verknüpft werden. Verschiedene Normierungen bzgl. Maßeinheiten, Währungen und Bezeichnungen verhindern das unmittelbare Vergleichen der Daten. Die Daten in den operativen Systemen sind häufig nicht vollständig gepflegt. Mögliche komplexe OLAP-Anfragen mit langen Laufzeiten stören das operative Geschäft im OLTP-System. [...]
In dem letzten Jahrzehnt ist die Menge der weltweit generierten und gesammelten Daten immens angewachsen. Allein durch den weitverbreiteten Einsatz von Barcodes für die meisten kommerziellen Produkte werden immer mehr Geschäftsvorgänge über den Rechner abgewickelt. Auch in der Wissenschaft und der Verwaltung werden täglich große Datenmengen gespeichert /CHEN96/, S. 866. Aufgrund der Datenmengen wird ein schneller Zugriff immer schwieriger. Dies hat zur Folge, daß wichtige Informationen ignoriert werden, weil sie unauffindbar bleiben. Weiterhin führt dieser Zustand zu zahlreichen Redundanzen innerhalb des Datenbestandes. An diesem Punkt setzt das Knowledge Discovery in Datenbanken (KDD) bzw. das Data Mining an. Zunächst sollen Abhängigkeiten und Regelmäßigkeiten zwischen Datenbankeinträgen und Dokumenten gefunden werden. Anschließend sollen die gefundenen Muster in einer für den Menschen verständlichen Form präsentiert werden. Die gewonnenen Regeln werden benutzt und als eigenständiges Wissen über die Daten weiterverarbeitet /FERB98/, S. 1. Neben dem gestiegenen Informationsbedarfs ist die technische Machbarkeit die Grundlage für die Entwicklung derartiger Informationssysteme. Die kontinuierliche Verbesserung der Leistungsfähigkeit der Informationstechnik, macht die Verarbeitung großer Datenmengen überhaupt erst möglich. In industriellen Anwendungen sollen Data Mining Anwendungen den geschäftlichen Erfolg sichern. Existierende Auswertungsmethoden arbeiten auf den steigenden Datenmengen nicht zufriedenstellend und führen zu einer zunehmenden Unzufriedenheit /KÜPP99/, S. 13. Mit der Entdeckung und Präsentation solcher globalen Zusammenhänge befaßt sich das Forschungsgebiet des Knowledge Discovery in Datenbanken (Wissensentdeckung in Datenbanken) und Data Mining (Datengewinnung). Unter den Wissenschaftlern und Entwicklern herrscht keine Einigkeit darüber, welche Methoden und Wissensbereiche diesem Gebiet zuzuordnen sind, da es sich um ein sehr junges Gebiet handelt. Forscher aus vielen unterschiedlichen Bereichen, wie Datenbanksysteme, künstliche Intelligenz, Statistik, maschinelles Lernen und Datenvisualisierung zeigen Interesse an diesem neuen Gebiet /CHEN96/, S. 866. Auch die verwendeten Begriffe werden häufig uneinheitlich verwendet /FERB98/, S. 2. Für viele Begriffe existieren keine oder nur umschreibende deutsche Übersetzungen. Des- [...]
In den Warenkorb
58,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832463922
Arbeit zitieren:
Hoermann, Karsten April 2001: Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3, Hamburg: Diplomica Verlag
Schlagworte:
Client-Server-Architektur, Suchmaschine, Data Warehouse, Produktionsplanung, Knowledge Discovery



