Data-Mining im Immobilien E-Business
- Art: Diplomarbeit
- Autor: Mirko Prescha
- Abgabedatum: November 2006
- Umfang: 79 Seiten
- Dateigröße: 1,2 MB
- Note: 2,1
- Institution / Hochschule: Private FernFachhochschule Darmstadt Deutschland
- Bibliografie: ca. 38
- ISBN (eBook): 978-3-8366-2415-2
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Prescha, Mirko November 2006: Data-Mining im Immobilien E-Business, Hamburg: Diplomica Verlag
- Schlagworte: Data Mining, Business Intelligence, Datenanalyse, Customer Relationship Management, Marketing
38,00 €
PDF-eBook Download: 38,00 €
Diplomarbeit von Mirko Prescha
Einleitung:
Im Zeitalter des Internets und der Globalisierung bekommt der Wettbewerbsfaktor Information als unterstützendes Instrument in Entscheidungssituationen einen immer größeren Stellenwert. Die Intensivierung globaler Handels- und Wirtschaftsbeziehungen stellen selbst kleine und mittlere Unternehmen vor komplexe Entscheidungssituationen, die eine umfangreiche und belastbare Datengrundlage erfordern. Mit der folgerichtigen Entwicklung von Anwendungen, die automatisch riesige Datenmengen sammeln und abspeichern, entwickelte sich gleichzeitig ein weiteres Problem: es kommt zur explosionsartigen Vermehrung von Daten. Eine manuelle Auswertung der immer unübersichtlicheren Datenbestände, mit traditionellen statistischen Methoden, herkömmlichen Datenbankabfragen oder Online Analytical Processing (OLAP) gelangt schnell an ihre Grenzen. Zeitmangel und natürliche Grenzen der menschlichen Kognition, lassen lediglich einen Teil der in den Daten vergrabenen und potentiell interessanten Zusammenhänge entdecken. Durch das wachsende Bedürfnis, das in den Daten schlummernde Informationspotential besser zu nutzen, entstand mit Data Mining eine neue Disziplin zur Datenanalyse. Data Mining - das sinnvolle Zusammenfassen großer Datenmengen und (halb-)automatische Auffinden neuer interessanter Zusammenhänge – ist daher ein Thema das mehr und mehr an Bedeutung gewinnt.
In dieser Arbeit werden Konzepte erarbeitet, die zeigen, wie sich Data Mining zur Unterstützung von Marketing und Customer Relationship Management (CRM) im Immobilien E-Business praktisch nutzen lässt. Als Anwendungsbeispiel dient die Firma ImmoPortal-XY. Dazu werden die prinzipiellen Verfahren und Effekte des Data Mining erörtert und anschließend erarbeitet, wie sie sich im genannten praktischen Umfeld nutzbar machen lassen.
Bei der Identifikation von potentiellen Bereichen zur Verbesserung von Marketingaktivitäten und Kundenbeziehungen sollen die Bedürfnisse der Fachbereiche, die Besonderheiten des Marktes und die Ausgangssituation der benötigten Daten berücksichtigt werden. Im Rahmen eines Feldversuches soll ein Anwendungsfall praktisch untersucht werden. Dabei sollen auch Vorgehensmodelle oder best practices vorgestellt und angewandt werden. Die Ergebnisse dieser Datenanalysen müssen interpretiert und aufbereitet werden und sollen abschließend Aufschluss zum weiteren Einsatz von Data Mining bei ImmoPortal-XY bringen.
Die ersten Bemühungen, Entscheidungsträger durch Informationstechnologie in Entscheidungssituationen zu unterstützen, gibt es bereits seit den 60er Jahren. Diese mehr oder weniger erfolgreichen Entwicklungen können unter dem Begriff Management Support Systeme (MSS) zusammengefasst werden. Seit dem letzten Jahrzehnt sind es die Technologien des Data Warehouse und OLAP, die zur Umsetzung genutzt werden. Alle genannten Technologien haben das Ziel, die im operativen Geschäft gesammelten Daten so aufzubereiten, dass sie in wertvolle Informationen und letztendlich Wissen transformiert werden können. Die Nutzung dieser Systeme geht einher mit einer ständig wachsenden Menge an Daten, sowie der Notwendigkeit einer immer schnelleren Analyse zur Erzielung und Erhaltung von Wettbewerbsvorteilen.
Während die dauerhafte Speicherung bei immer preiswerteren und leistungsfähiger werdenden Speichermedien in vielen Unternehmen erfolgreich etabliert ist, steigt mit der Datenmenge jedoch die Komplexität der Analyseprozesse und damit das Risiko, dass nützliche Informationen in den Datenmassen verborgen bleiben. Vielleicht trifft es die Aussage von John Naisbitt genau auf den Punkt: „Wir ertrinken in Daten und dürsten nach Wissen“.
Antworten auf folgende Fragen lassen sich mit den traditionellen Verfahren beispielsweise kaum beantworten: Welchen meiner Kunden muss ich welches Angebot zu welchem Zeitpunkt über welchen Kommunikationskanal unterbreiten? Was charakterisiert einen treuen Kunden und wann wandert ein Kunde ab?
Eine neue Qualität bei der Datenanalyse versprechen die Verfahren und Techniken, die unter dem Begriff Data Mining zusammengefasst werden. Versteckte Beziehungen, Muster und Regeln, die vom Menschen allein in den großen Datenmengen nicht mehr entdeckt werden können, sollen mit Data Mining gefunden und herausgefiltert werden. Im Gegensatz zur klassischen Datenanalyse werden die Datenbestände weitestgehend hypothesenfrei (vgl. Abschnitt 2.1) mit Hilfe von (halb-)automatischen Verfahren aus der Statistik, künstlichen Intelligenz und dem maschinellen Lernen durchsucht. Diese Suche nach Mustern in Daten verspricht überall dort nützliche Potentiale, wo viele Daten anfallen. Handelsketten, Banken, Versicherungen seien nur Vertretungsweise genannt.
Auch bei dem Internet-Unternehmen ImmoPortal-XY - einem Marktführer bei Immobilienanzeigen in Deutschland - wächst das Datenvolumen beständig und der Bedarf an Informationen zum Ausbau der marktbeherrschenden Stellung steigt.
Inhaltsverzeichnis:
| Inhaltsverzeichnis | I | |
| Abbildungsverzeichnis | IV | |
| Tabellenverzeichnis | V | |
| Abkürzungsverzeichnis | VI | |
| 1. | Einleitung | 1 |
| 1.1 | Motivation | 1 |
| 1.2 | Erörterung des Umfelds der Aufgabenstellung | 2 |
| 1.3 | Ziele und Kriterien für ImmoPortal-XY | 3 |
| 1.4 | Zielsetzung und Aufbau dieser Arbeit | 5 |
| 1.5 | Abgrenzung | 6 |
| 2. | Der Begriff Data Mining | 7 |
| 2.1 | Ansätze der Datenanalyse | 7 |
| 2.1.1 | Hypothesengetriebene Analyse | 7 |
| 2.1.2 | Hypothesenfreie/ Datengetriebene Analyse | 8 |
| 2.1.3 | Iterativ-inkrementelles Vorgehen bei der Datenanalyse | 9 |
| 2.2 | Definition Data Mining/ Knowledge Discovery in Databases | 10 |
| 2.3 | Rahmen und Abgrenzung zu verwandten Gebieten | 12 |
| 2.3.1 | Statistik | 12 |
| 2.3.2 | Explorative Datenanalyse | 13 |
| 2.3.3 | Data Warehouse | 13 |
| 2.3.4 | Online Analytical Processing (OLAP) | 14 |
| 2.3.5 | Business Intelligence (BI) | 16 |
| 3. | Knowledge Discovery in Databases (KDD) | 17 |
| 3.1 | Motivation für Data Mining-Prozessmodelle | 17 |
| 3.2 | Cross-Industry Standard Process for Data Mining(CRISP-DM) | 18 |
| 3.2.1 | Verstehen des Geschäftsablaufs (Business understanding) | 19 |
| 3.2.2 | Verstehen der Daten (Data understanding) | 20 |
| 3.2.3 | Datenvorverarbeitung (Data preparation) | 22 |
| 3.2.4 | Modellierung - (Data Mining) | 24 |
| 3.2.5 | Evaluierung (Evaluation) | 25 |
| 3.2.6 | Inbetriebnahme (Deployment) | 25 |
| 4. | Ansätze, Aufgaben und Methoden des Data Mining | 27 |
| 4.1 | Überwachtes und unüberwachtes Lernen | 27 |
| 4.2 | Data Mining-Aufgaben | 28 |
| 4.2.1 | Segmentierung | 28 |
| 4.2.2 | Klassifizierung | 29 |
| 4.2.3 | Prognose / Regression | 30 |
| 4.2.4 | Abhängigkeitsanalyse | 31 |
| 4.3 | Data Mining-Techniken | 31 |
| 4.3.1 | Überblick | 32 |
| 4.3.2 | Clusteranalyse | 32 |
| 4.3.3 | Entscheidungsbäume | 35 |
| 4.3.4 | Künstliche neuronale Netze (KNN) | 38 |
| 4.3.5 | Assoziationsanalysen | 40 |
| 5. | Fallbeispiel: Kündigerprävention | 42 |
| 5.1 | Verstehen des Geschäftsablaufs | 42 |
| 5.1.1 | Bestimmung der Geschäftsziele | 42 |
| 5.1.2 | Einschätzen der Situation | 43 |
| 5.1.3 | Bestimmung der Data Mining-Ziele | 44 |
| 5.1.4 | Zeitlicher Rahmen | 44 |
| 5.2 | Verstehen der Daten | 44 |
| 5.2.1 | Gesammelte Daten | 44 |
| 5.2.2 | Datenbeschreibung | 47 |
| 5.2.3 | Datenqualität | 47 |
| 5.2.4 | Datenexploration | 48 |
| 5.3 | Datenvorverarbeitung | 50 |
| 5.3.1 | Abgeleitete Daten | 50 |
| 5.3.2 | Datenauswahl | 51 |
| 5.3.3 | Datenbereinigung | 52 |
| 5.3.4 | Datenformatierung | 52 |
| 5.4 | Modellierung | 52 |
| 5.4.1 | Verwendete Data Mining-Technik | 52 |
| 5.4.2 | Testkriterien | 53 |
| 5.4.3 | Modellerstellung und -beurteilung | 53 |
| 5.5 | Evaluierung | 55 |
| 5.5.1 | Bewertung des Ergebnisses | 55 |
| 5.5.2 | Beurteilung des Prozesses | 57 |
| 5.5.3 | Weitere Schritte | 57 |
| 5.6 | Inbetriebnahme | 57 |
| 6. | Fazit und Ausblick | 59 |
| 6.1 | Projektbewertung | 59 |
| 6.2 | Weitere Anwendungsmöglichkeiten | 59 |
| Anhang A: Ergänzungen zu ImmoPortal-XY | 60 | |
| A.1 Technisches Umfeld | 60 | |
| Anhang B: Beschreibung der Merkmale | 61 | |
| Anhang C: Datenexploration | 64 | |
| C.1 Histogramme numerischer Merkmale | 64 | |
| C.2 Histogramme nominaler Merkmale | 65 | |
| C.3 Histogramme abgeleiteter Merkmale | 66 | |
| Anhang D: Modellbewertung | 67 | |
| D.1 Technische Parameter | 67 | |
| D.2 Verwendete Dateien | 68 | |
| Anhang E: Modellevaluierung | 69 | |
| E.1 Kalkulationsbeispiel | 69 | |
| Anhang F: Beiliegende CD | 71 | |
| Literaturverzeichnis | 72 |
Textprobe:
Kapitel 4.1, Überwachtes und unüberwachtes Lernen: Die Methoden des Data Mining lassen sich nach der Autonomie der Suchverfahren, in die Methoden des überwachten (supervised) und in die Methoden des unüberwachten (unsupervised) Lernens gliedern.
Die Gruppe der überwachten Lernverfahren lernt aus vorgegebenen Mustern und dazugehörigen Beispielen. Als Grundlage dient eine Menge so genannter Trainingsdaten, die für jeden Eingabedatensatz bereits das Ergebnis (Funktionswert) einer noch zu bildenden Zielfunktion enthalten. Aus diesen Daten wird ein allgemeines Modell gebildet, das anschließend auf neue Daten angewendet wird. Beispielsweise wird aus einer Stichprobe von Kundendaten, bei denen bekannt ist, ob sie nach einer Marketingaktion das angebotene Produkt gekauft haben oder nicht (Zielmerkmal), ein allgemeines Klassifikationsmodell entwickelt. Andere Kunden können damit anhand ihrer Merkmale klassifiziert und gezielt kontaktiert werden.
Unüberwachte Lernverfahren dagegen arbeiten ohne im Voraus bekannte Klassenausprägungen oder Muster. Explizite Lernbeispiele sind also nicht notwendig. Die Verfahren generieren denkbare Ausprägungen selbstständig auf Grundlage der zu Grunde liegenden Daten und ordnen die Eingabeobjekte entsprechend zu.
Diese Einteilung aus dem Bereich des maschinellen Lernens ist zwar überschneidungsfrei, allerdings sehr grob und in der Praxis kaum eine Hilfestellung zum Überblicken der zahlreichen Data Mining-Techniken.
Kapitel 4.2, Data Mining-Aufgaben: Die Einteilung auf der Aufgabenebene ergibt sich aus der Art der Mustererkennung. Sie erlaubt eine Einordnung der Methoden anhand zu erreichender Ergebnisse und gibt im konkreten Anwendungsfall Hinweise zur Auswahl geeigneter Verfahren. In der Literatur werden häufig die folgenden vier Aufgaben bzw. Anwendungsklassen unterschieden:
Segmentierung (unüberwachtes Lernen) Klassifizierung (überwachtes Lernen) Prognose (überwachtes Lernen) Abhängigkeitsanalyse (unüberwachtes Lernen) Einige Autoren nennen weitere Aufgaben, wie z.B. die Regressionsanalyse und die Datenzusammenfassung, die aber eher zu trivial oder der Statistik zu zuordnen sind.
Kapitel 4.2.1, Segmentierung: Bei der Segmentierung werden alle Objekte einer Datenmenge (z.B. Kunden, Immobilien), anhand ihrer Merkmale in interessante und praktikable Teilmengen (Segmente, Cluster) aufgespaltet. Ziel dieser Strukturierung ist es, alle Objekte die möglichst ähnlich zueinander sind, in einem Segment zusammenzufassen. Die Segmente selbst, sollten jedoch möglichst verschieden sein. Die Cluster und ihre Eigenschaften sind vorher nicht bekannt und werden erst im Laufe der Segmentierung auf Grund der Verschiedenheit der Objekte weitgehend automatisch identifiziert. Sogar die Anzahl der zu bildenden Cluster muss nicht unbedingt vorgegeben werden. Da keine Trainingsmenge benötigt wird, sprechen wir hier von einem unüberwachten Lernverfahren. Nach der gefundenen Gruppierung muss der Anwender ihre Bedeutung durch Interpretation feststellen und ggf. die Clusteranzahl anpassen und einen neuen Analyseschritt durchführen.
Betriebswirtschaftliche Anwendungsgebiete gehen aus dem Ziel einer möglichst sinnvollen Marktbearbeitung hervor. Für Unternehmen ist es essentiell, bestehende Marktsegmente zu verstehen – vielleicht sogar neue Segmente zu entdecken – und sie zielgerichtet mit Produkten zu bedienen. Bei Internetunternehmen dient sie auch der Strukturierung von Internetbesuchern (z.B. nach Herkunft des Nutzers, eingegebenen Suchbegriffen oder angeforderten Seiten). Ziel ist eine zielgruppengerichtete Inhaltszusteuerung auf Webseiten und eine möglichst individuelle Kundenansprache. Die Zusammenfassung von ähnlichen Kunden liefert dazu einen wertvollen Beitrag.
Die Abbildung 4-1 ist eine schematische Darstellung von drei Benutzersegmenten, wie sie das Ergebnis einer Nutzersegmentierung auf Basis von Logfiles bei ImmoPortal-XY sein könnte.
Die Segmentierung kann ein eigenständiges Data Mining-Ziel sein (z.B. Kundensegmentierung), ist häufig allerdings auch der Ausgangspunkt einer umfangreichen Analysereihe (vgl. Abschnitt 2.1.3). Sie wird dann genutzt, um große Datenmengen handhabbar zu halten oder Teilmengen zu identifizieren, die einzeln auf Grund vielfacher Einflüsse sinnvoller analysiert werden können.
Kapitel 4.1.2, Klassifizierung: Die Klassifizierung ist eine der am meisten genutzten Anwendungsformen von Data Mining. Um unsere Umwelt besser zu verstehen, kategorisieren und klassifizieren wir ständig. Bei der Klassifizierung werden Objekte auf Grund ihrer Eigenschaften einer vorher definierten, nominal skalierten Klasse zugewiesen. Im Gegensatz zur Segmentierung sind die möglichen Klassenausprägungen bereits vorher bekannt und werden nicht wie bei der Segmentierung erst generiert. Ein häufig zitiertes Beispiel ist die Beurteilung der Kreditwürdigkeit eines Bankkunden. Denkbar sind die zwei Klassen „kreditwürdig“ und „nicht kreditwürdig“. Auf Basis von bekannten Kunden der Bank (Trainingsdaten) wird ein Klassifikationsmodell gebildet, mit dessen Hilfe neue (noch nicht klassifizierte) Kunden korrekt eingeordnet werden können.
Auf ImmoPortal-XY bezogen, wäre ein Anwendungsfall für die Klassifizierung die Optimierung einer Direktmailingaktion: In einer E-Mail sollen Produktinformationen (z.B. Finanzierungsangebote) strategischer Partner kommuniziert werden. Für jeden Empfänger, der auf die Partner-Website geführt wird (Lead), bekommt ImmoPortal-XY eine Provision. Da die Leadrate (resp. Öffnungsrate, Antwortrate) häufig recht niedrig ist, ist die Tendenz zum Massenmailing groß. Angebote sind dann selten auf die Bedürfnisse der Kunden zugeschnitten und landen im Papierkorb. Der Schaden durch verärgerte Kunden ist oft höher als die Kosten des Anschreibens. Mit Data Mining kann das Massenmarketing in individualisierte Bahnen gelenkt werden, was zu höheren Antwort- oder Abschlussraten führt. Anstatt alle ca. 115.000 registrierten Haus-, Wohnung- oder Grundstücksuchende anzuschreiben, kann aus den Erfahrungen früherer Aktionen ein Klassifikationsmodell erstellt werden. Falls keine Erfahrungsdaten vorliegen, können diese durch eine Testaktion mit geringer Auflage gesammelt werden. Anhand der Zielgröße „Weiterleitung an Partner“ mit den Ausprägungen „Ja“/“Nein“ werden die erklärenden Merkmale gesucht, die einen Zusammenhang zur Zielgröße aufweisen und damit eine Klassifikation von weiteren Kunden ermöglichen. Für die folgende Mailingaktion werden nur die Kunden selektiert, deren Zielgröße „Ja“ ist und die damit wahrscheinlich wie gewünscht reagieren.
Kapitel 4.1.3, Prognose / Regression: Die Prognose ist der o.g. Klassifizierung sehr ähnlich. Der wesentliche Unterschied besteht darin, dass im Gegensatz zur Klassifizierung stetige Werte statt nominaler Attribute vorhergesagt werden. Anwendung findet die Prognose damit beispielsweise zur Vorhersage von Zinssätzen, Umsätzen oder Aktienkursen.
Bei dem zu untersuchenden Unternehmen ImmoPortal-XY ist ein Prognosemodell zur Vorhersage von Exposéaufrufen denkbar. Jedes vermarktete Objekt hat eine Vielzahl vom Immobilientyp abhängige Attribute (z.B. Zimmeranzahl, Lage, Preis/qm, Baujahr) und Einstellungs-/Vermarktungsmerkmale (z.B. TopListing, Highlighting, Objekt der Woche). Diese Merkmale haben entscheidenden Einfluss auf die Resonanz einer Anzeige beim Nachfrager. Welche Attributsausprägungen in welcher Kombination für eine positive Werbewirkung, sprich viele Exposéaufrufe, verantwortlich sind, lässt sich auf Grund der enormen Vielfalt nur mit Data Mining-Techniken ermitteln. Die Ergebnisse des Prognosemodells sind für Anbieter zur Apriori Abschätzung ihrer Werbemaßnahmen interessant und offenbaren Trends auf dem Immobilienmarkt. Bei einem kostenpflichtigen Angebot dieser Informationen, stellen die Ergebnisse für ImmoPortal-XY auch eine weitere Vermarktungsmöglichkeit dar.
Kapitel 4.1.4, Abhängigkeitsanalyse: Bei der Abhängigkeitsanalyse wird nach signifikanten Beziehungsmustern zwischen Merkmalen eines Objekts oder verschiedenen Objekten gesucht. Das klassische Einsatzgebiet für Abhängigkeitsanalysen ist die Warenkorbanalyse (Welche Waren werden gemeinsam gekauft?). Während bei der Klassifikation und Prognose nur ein Attribut als abhängiges Zielmerkmal dient, werden hier alle Attribute und sogar mehrere gleichzeitig als abhängiges Zielmerkmal betrachtet (Wenn A, B und C, dann D und E). Die Abhängigkeiten können zunächst auf qualitativer Ebene beschrieben werden: „Ein Benutzer von ImmoPortal-XY sucht nach Kaufobjekten und interessiert sich für Finanzierungsangebote“. Zusätzlich können die Abhängigkeiten dazu benutzt werden, gewisse Wahrscheinlichkeiten des Auftretens eines Wertes abhängig von einem anderen abzuleiten (Beispiel: Obiger Fall tritt bei 10% aller Gesuchen nach Grundstücken auf).
Falls auch die Reihenfolge der Daten bzw. Zeitverläufe eine Rolle spielen, können die Abhängigkeiten als sequentielle Muster dargestellt werden. Zum Beispiel kann das Navigationsverhalten der ImmoPortal-XY-Benutzer jeweils über einen Zeitraum hinweg analysiert werden, um Beziehungen zwischen zeitlich verschiedenen Aktivitäten zu ermitteln. Als Voraussetzung muss jede Aktivität einen Zeitpunkt und ein Benutzeridentifikationsmerkmal (z.B. Session-ID) besitzen. Gesucht werden Pfade, auf denen sich Besucher häufig bewegen. Bei transaktionsübergreifender Nutzeridentifikation (z.B. Cookie) können sogar verschiedene Besuche eines Nutzers analysiert werden. Eine Erkenntnis mag z.B. sein: Ein Benutzer sucht in der Rubrik „Grundstück“, erstellt nach mehreren anderen Seitenaufrufen einen Finanzierungsplan und geht zurück in die Grundstückssuche. Eine auf dieser Erkenntnis aufbauende direkte Verknüpfung dieser Seitenkombination durch Links, trägt zu einer besseren Konfiguration des Website-Auftritts bei. Konsequenz sind eine bessere Benutzerfreundlichkeit sowie eine effizientere Werbeplatzierung.
38,00 €
PDF-eBook Download: 38,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783836624152
Arbeit zitieren:
Prescha, Mirko November 2006: Data-Mining im Immobilien E-Business, Hamburg: Diplomica Verlag
Schlagworte:
Data Mining, Business Intelligence, Datenanalyse, Customer Relationship Management, Marketing



