Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Data-Mining im Immobilien E-Business

Data-Mining im Immobilien E-Business
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Mirko Prescha
  • Abgabedatum: November 2006
  • Umfang: 79 Seiten
  • Dateigröße: 1,2 MB
  • Note: 2,1
  • Institution / Hochschule: Private FernFachhochschule Darmstadt Deutschland
  • Bibliografie: ca. 38
  • ISBN (eBook): 978-3-8366-2415-2
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Prescha, Mirko November 2006: Data-Mining im Immobilien E-Business, Hamburg: Diplomica Verlag
  • Schlagworte: Data Mining, Business Intelligence, Datenanalyse, Customer Relationship Management, Marketing

Diplomarbeit von Mirko Prescha

Einleitung:

Im Zeitalter des Internets und der Globalisierung bekommt der Wettbewerbsfaktor Information als unterstützendes Instrument in Entscheidungssituationen einen immer größeren Stellenwert. Die Intensivierung globaler Handels- und Wirtschaftsbeziehungen stellen selbst kleine und mittlere Unternehmen vor komplexe Entscheidungssituationen, die eine umfangreiche und belastbare Datengrundlage erfordern. Mit der folgerichtigen Entwicklung von Anwendungen, die automatisch riesige Datenmengen sammeln und abspeichern, entwickelte sich gleichzeitig ein weiteres Problem: es kommt zur explosionsartigen Vermehrung von Daten. Eine manuelle Auswertung der immer unübersichtlicheren Datenbestände, mit traditionellen statistischen Methoden, herkömmlichen Datenbankabfragen oder Online Analytical Processing (OLAP) gelangt schnell an ihre Grenzen. Zeitmangel und natürliche Grenzen der menschlichen Kognition, lassen lediglich einen Teil der in den Daten vergrabenen und potentiell interessanten Zusammenhänge entdecken. Durch das wachsende Bedürfnis, das in den Daten schlummernde Informationspotential besser zu nutzen, entstand mit Data Mining eine neue Disziplin zur Datenanalyse. Data Mining - das sinnvolle Zusammenfassen großer Datenmengen und (halb-)automatische Auffinden neuer interessanter Zusammenhänge – ist daher ein Thema das mehr und mehr an Bedeutung gewinnt.

In dieser Arbeit werden Konzepte erarbeitet, die zeigen, wie sich Data Mining zur Unterstützung von Marketing und Customer Relationship Management (CRM) im Immobilien E-Business praktisch nutzen lässt. Als Anwendungsbeispiel dient die Firma ImmoPortal-XY. Dazu werden die prinzipiellen Verfahren und Effekte des Data Mining erörtert und anschließend erarbeitet, wie sie sich im genannten praktischen Umfeld nutzbar machen lassen.

Bei der Identifikation von potentiellen Bereichen zur Verbesserung von Marketingaktivitäten und Kundenbeziehungen sollen die Bedürfnisse der Fachbereiche, die Besonderheiten des Marktes und die Ausgangssituation der benötigten Daten berücksichtigt werden. Im Rahmen eines Feldversuches soll ein Anwendungsfall praktisch untersucht werden. Dabei sollen auch Vorgehensmodelle oder best practices vorgestellt und angewandt werden. Die Ergebnisse dieser Datenanalysen müssen interpretiert und aufbereitet werden und sollen abschließend Aufschluss zum weiteren Einsatz von Data Mining bei ImmoPortal-XY bringen.

Die ersten Bemühungen, Entscheidungsträger durch Informationstechnologie in Entscheidungssituationen zu unterstützen, gibt es bereits seit den 60er Jahren. Diese mehr oder weniger erfolgreichen Entwicklungen können unter dem Begriff Management Support Systeme (MSS) zusammengefasst werden. Seit dem letzten Jahrzehnt sind es die Technologien des Data Warehouse und OLAP, die zur Umsetzung genutzt werden. Alle genannten Technologien haben das Ziel, die im operativen Geschäft gesammelten Daten so aufzubereiten, dass sie in wertvolle Informationen und letztendlich Wissen transformiert werden können. Die Nutzung dieser Systeme geht einher mit einer ständig wachsenden Menge an Daten, sowie der Notwendigkeit einer immer schnelleren Analyse zur Erzielung und Erhaltung von Wettbewerbsvorteilen.

Während die dauerhafte Speicherung bei immer preiswerteren und leistungsfähiger werdenden Speichermedien in vielen Unternehmen erfolgreich etabliert ist, steigt mit der Datenmenge jedoch die Komplexität der Analyseprozesse und damit das Risiko, dass nützliche Informationen in den Datenmassen verborgen bleiben. Vielleicht trifft es die Aussage von John Naisbitt genau auf den Punkt: „Wir ertrinken in Daten und dürsten nach Wissen“.

Antworten auf folgende Fragen lassen sich mit den traditionellen Verfahren beispielsweise kaum beantworten: Welchen meiner Kunden muss ich welches Angebot zu welchem Zeitpunkt über welchen Kommunikationskanal unterbreiten? Was charakterisiert einen treuen Kunden und wann wandert ein Kunde ab?

Eine neue Qualität bei der Datenanalyse versprechen die Verfahren und Techniken, die unter dem Begriff Data Mining zusammengefasst werden. Versteckte Beziehungen, Muster und Regeln, die vom Menschen allein in den großen Datenmengen nicht mehr entdeckt werden können, sollen mit Data Mining gefunden und herausgefiltert werden. Im Gegensatz zur klassischen Datenanalyse werden die Datenbestände weitestgehend hypothesenfrei (vgl. Abschnitt 2.1) mit Hilfe von (halb-)automatischen Verfahren aus der Statistik, künstlichen Intelligenz und dem maschinellen Lernen durchsucht. Diese Suche nach Mustern in Daten verspricht überall dort nützliche Potentiale, wo viele Daten anfallen. Handelsketten, Banken, Versicherungen seien nur Vertretungsweise genannt.

Auch bei dem Internet-Unternehmen ImmoPortal-XY - einem Marktführer bei Immobilienanzeigen in Deutschland - wächst das Datenvolumen beständig und der Bedarf an Informationen zum Ausbau der marktbeherrschenden Stellung steigt.

Inhaltsverzeichnis:

Inhaltsverzeichnis I
Abbildungsverzeichnis IV
Tabellenverzeichnis V
Abkürzungsverzeichnis VI
1. Einleitung 1
1.1 Motivation 1
1.2 Erörterung des Umfelds der Aufgabenstellung 2
1.3 Ziele und Kriterien für ImmoPortal-XY 3
1.4 Zielsetzung und Aufbau dieser Arbeit 5
1.5 Abgrenzung 6
2. Der Begriff Data Mining 7
2.1 Ansätze der Datenanalyse 7
2.1.1 Hypothesengetriebene Analyse 7
2.1.2 Hypothesenfreie/ Datengetriebene Analyse 8
2.1.3 Iterativ-inkrementelles Vorgehen bei der Datenanalyse 9
2.2 Definition Data Mining/ Knowledge Discovery in Databases 10
2.3 Rahmen und Abgrenzung zu verwandten Gebieten 12
2.3.1 Statistik 12
2.3.2 Explorative Datenanalyse 13
2.3.3 Data Warehouse 13
2.3.4 Online Analytical Processing (OLAP) 14
2.3.5 Business Intelligence (BI) 16
3. Knowledge Discovery in Databases (KDD) 17
3.1 Motivation für Data Mining-Prozessmodelle 17
3.2 Cross-Industry Standard Process for Data Mining(CRISP-DM) 18
3.2.1 Verstehen des Geschäftsablaufs (Business understanding) 19
3.2.2 Verstehen der Daten (Data understanding) 20
3.2.3 Datenvorverarbeitung (Data preparation) 22
3.2.4 Modellierung - (Data Mining) 24
3.2.5 Evaluierung (Evaluation) 25
3.2.6 Inbetriebnahme (Deployment) 25
4. Ansätze, Aufgaben und Methoden des Data Mining 27
4.1 Überwachtes und unüberwachtes Lernen 27
4.2 Data Mining-Aufgaben 28
4.2.1 Segmentierung 28
4.2.2 Klassifizierung 29
4.2.3 Prognose / Regression 30
4.2.4 Abhängigkeitsanalyse 31
4.3 Data Mining-Techniken 31
4.3.1 Überblick 32
4.3.2 Clusteranalyse 32
4.3.3 Entscheidungsbäume 35
4.3.4 Künstliche neuronale Netze (KNN) 38
4.3.5 Assoziationsanalysen 40
5. Fallbeispiel: Kündigerprävention 42
5.1 Verstehen des Geschäftsablaufs 42
5.1.1 Bestimmung der Geschäftsziele 42
5.1.2 Einschätzen der Situation 43
5.1.3 Bestimmung der Data Mining-Ziele 44
5.1.4 Zeitlicher Rahmen 44
5.2 Verstehen der Daten 44
5.2.1 Gesammelte Daten 44
5.2.2 Datenbeschreibung 47
5.2.3 Datenqualität 47
5.2.4 Datenexploration 48
5.3 Datenvorverarbeitung 50
5.3.1 Abgeleitete Daten 50
5.3.2 Datenauswahl 51
5.3.3 Datenbereinigung 52
5.3.4 Datenformatierung 52
5.4 Modellierung 52
5.4.1 Verwendete Data Mining-Technik 52
5.4.2 Testkriterien 53
5.4.3 Modellerstellung und -beurteilung 53
5.5 Evaluierung 55
5.5.1 Bewertung des Ergebnisses 55
5.5.2 Beurteilung des Prozesses 57
5.5.3 Weitere Schritte 57
5.6 Inbetriebnahme 57
6. Fazit und Ausblick 59
6.1 Projektbewertung 59
6.2 Weitere Anwendungsmöglichkeiten 59
Anhang A: Ergänzungen zu ImmoPortal-XY 60
A.1 Technisches Umfeld 60
Anhang B: Beschreibung der Merkmale 61
Anhang C: Datenexploration 64
C.1 Histogramme numerischer Merkmale 64
C.2 Histogramme nominaler Merkmale 65
C.3 Histogramme abgeleiteter Merkmale 66
Anhang D: Modellbewertung 67
D.1 Technische Parameter 67
D.2 Verwendete Dateien 68
Anhang E: Modellevaluierung 69
E.1 Kalkulationsbeispiel 69
Anhang F: Beiliegende CD 71
Literaturverzeichnis 72

Textprobe:

Kapitel 4.1, Überwachtes und unüberwachtes Lernen: Die Methoden des Data Mining lassen sich nach der Autonomie der Suchverfahren, in die Methoden des überwachten (supervised) und in die Methoden des unüberwachten (unsupervised) Lernens gliedern.

Die Gruppe der überwachten Lernverfahren lernt aus vorgegebenen Mustern und dazugehörigen Beispielen. Als Grundlage dient eine Menge so genannter Trainingsdaten, die für jeden Eingabedatensatz bereits das Ergebnis (Funktionswert) einer noch zu bildenden Zielfunktion enthalten. Aus diesen Daten wird ein allgemeines Modell gebildet, das anschließend auf neue Daten angewendet wird. Beispielsweise wird aus einer Stichprobe von Kundendaten, bei denen bekannt ist, ob sie nach einer Marketingaktion das angebotene Produkt gekauft haben oder nicht (Zielmerkmal), ein allgemeines Klassifikationsmodell entwickelt. Andere Kunden können damit anhand ihrer Merkmale klassifiziert und gezielt kontaktiert werden.

Unüberwachte Lernverfahren dagegen arbeiten ohne im Voraus bekannte Klassenausprägungen oder Muster. Explizite Lernbeispiele sind also nicht notwendig. Die Verfahren generieren denkbare Ausprägungen selbstständig auf Grundlage der zu Grunde liegenden Daten und ordnen die Eingabeobjekte entsprechend zu.

Diese Einteilung aus dem Bereich des maschinellen Lernens ist zwar überschneidungsfrei, allerdings sehr grob und in der Praxis kaum eine Hilfestellung zum Überblicken der zahlreichen Data Mining-Techniken.

Kapitel 4.2, Data Mining-Aufgaben: Die Einteilung auf der Aufgabenebene ergibt sich aus der Art der Mustererkennung. Sie erlaubt eine Einordnung der Methoden anhand zu erreichender Ergebnisse und gibt im konkreten Anwendungsfall Hinweise zur Auswahl geeigneter Verfahren. In der Literatur werden häufig die folgenden vier Aufgaben bzw. Anwendungsklassen unterschieden:

Segmentierung (unüberwachtes Lernen) Klassifizierung (überwachtes Lernen) Prognose (überwachtes Lernen) Abhängigkeitsanalyse (unüberwachtes Lernen) Einige Autoren nennen weitere Aufgaben, wie z.B. die Regressionsanalyse und die Datenzusammenfassung, die aber eher zu trivial oder der Statistik zu zuordnen sind.

Kapitel 4.2.1, Segmentierung: Bei der Segmentierung werden alle Objekte einer Datenmenge (z.B. Kunden, Immobilien), anhand ihrer Merkmale in interessante und praktikable Teilmengen (Segmente, Cluster) aufgespaltet. Ziel dieser Strukturierung ist es, alle Objekte die möglichst ähnlich zueinander sind, in einem Segment zusammenzufassen. Die Segmente selbst, sollten jedoch möglichst verschieden sein. Die Cluster und ihre Eigenschaften sind vorher nicht bekannt und werden erst im Laufe der Segmentierung auf Grund der Verschiedenheit der Objekte weitgehend automatisch identifiziert. Sogar die Anzahl der zu bildenden Cluster muss nicht unbedingt vorgegeben werden. Da keine Trainingsmenge benötigt wird, sprechen wir hier von einem unüberwachten Lernverfahren. Nach der gefundenen Gruppierung muss der Anwender ihre Bedeutung durch Interpretation feststellen und ggf. die Clusteranzahl anpassen und einen neuen Analyseschritt durchführen.

Betriebswirtschaftliche Anwendungsgebiete gehen aus dem Ziel einer möglichst sinnvollen Marktbearbeitung hervor. Für Unternehmen ist es essentiell, bestehende Marktsegmente zu verstehen – vielleicht sogar neue Segmente zu entdecken – und sie zielgerichtet mit Produkten zu bedienen. Bei Internetunternehmen dient sie auch der Strukturierung von Internetbesuchern (z.B. nach Herkunft des Nutzers, eingegebenen Suchbegriffen oder angeforderten Seiten). Ziel ist eine zielgruppengerichtete Inhaltszusteuerung auf Webseiten und eine möglichst individuelle Kundenansprache. Die Zusammenfassung von ähnlichen Kunden liefert dazu einen wertvollen Beitrag.

Die Abbildung 4-1 ist eine schematische Darstellung von drei Benutzersegmenten, wie sie das Ergebnis einer Nutzersegmentierung auf Basis von Logfiles bei ImmoPortal-XY sein könnte.

Die Segmentierung kann ein eigenständiges Data Mining-Ziel sein (z.B. Kundensegmentierung), ist häufig allerdings auch der Ausgangspunkt einer umfangreichen Analysereihe (vgl. Abschnitt 2.1.3). Sie wird dann genutzt, um große Datenmengen handhabbar zu halten oder Teilmengen zu identifizieren, die einzeln auf Grund vielfacher Einflüsse sinnvoller analysiert werden können.

Kapitel 4.1.2, Klassifizierung: Die Klassifizierung ist eine der am meisten genutzten Anwendungsformen von Data Mining. Um unsere Umwelt besser zu verstehen, kategorisieren und klassifizieren wir ständig. Bei der Klassifizierung werden Objekte auf Grund ihrer Eigenschaften einer vorher definierten, nominal skalierten Klasse zugewiesen. Im Gegensatz zur Segmentierung sind die möglichen Klassenausprägungen bereits vorher bekannt und werden nicht wie bei der Segmentierung erst generiert. Ein häufig zitiertes Beispiel ist die Beurteilung der Kreditwürdigkeit eines Bankkunden. Denkbar sind die zwei Klassen „kreditwürdig“ und „nicht kreditwürdig“. Auf Basis von bekannten Kunden der Bank (Trainingsdaten) wird ein Klassifikationsmodell gebildet, mit dessen Hilfe neue (noch nicht klassifizierte) Kunden korrekt eingeordnet werden können.

Auf ImmoPortal-XY bezogen, wäre ein Anwendungsfall für die Klassifizierung die Optimierung einer Direktmailingaktion: In einer E-Mail sollen Produktinformationen (z.B. Finanzierungsangebote) strategischer Partner kommuniziert werden. Für jeden Empfänger, der auf die Partner-Website geführt wird (Lead), bekommt ImmoPortal-XY eine Provision. Da die Leadrate (resp. Öffnungsrate, Antwortrate) häufig recht niedrig ist, ist die Tendenz zum Massenmailing groß. Angebote sind dann selten auf die Bedürfnisse der Kunden zugeschnitten und landen im Papierkorb. Der Schaden durch verärgerte Kunden ist oft höher als die Kosten des Anschreibens. Mit Data Mining kann das Massenmarketing in individualisierte Bahnen gelenkt werden, was zu höheren Antwort- oder Abschlussraten führt. Anstatt alle ca. 115.000 registrierten Haus-, Wohnung- oder Grundstücksuchende anzuschreiben, kann aus den Erfahrungen früherer Aktionen ein Klassifikationsmodell erstellt werden. Falls keine Erfahrungsdaten vorliegen, können diese durch eine Testaktion mit geringer Auflage gesammelt werden. Anhand der Zielgröße „Weiterleitung an Partner“ mit den Ausprägungen „Ja“/“Nein“ werden die erklärenden Merkmale gesucht, die einen Zusammenhang zur Zielgröße aufweisen und damit eine Klassifikation von weiteren Kunden ermöglichen. Für die folgende Mailingaktion werden nur die Kunden selektiert, deren Zielgröße „Ja“ ist und die damit wahrscheinlich wie gewünscht reagieren.

Kapitel 4.1.3, Prognose / Regression: Die Prognose ist der o.g. Klassifizierung sehr ähnlich. Der wesentliche Unterschied besteht darin, dass im Gegensatz zur Klassifizierung stetige Werte statt nominaler Attribute vorhergesagt werden. Anwendung findet die Prognose damit beispielsweise zur Vorhersage von Zinssätzen, Umsätzen oder Aktienkursen.

Bei dem zu untersuchenden Unternehmen ImmoPortal-XY ist ein Prognosemodell zur Vorhersage von Exposéaufrufen denkbar. Jedes vermarktete Objekt hat eine Vielzahl vom Immobilientyp abhängige Attribute (z.B. Zimmeranzahl, Lage, Preis/qm, Baujahr) und Einstellungs-/Vermarktungsmerkmale (z.B. TopListing, Highlighting, Objekt der Woche). Diese Merkmale haben entscheidenden Einfluss auf die Resonanz einer Anzeige beim Nachfrager. Welche Attributsausprägungen in welcher Kombination für eine positive Werbewirkung, sprich viele Exposéaufrufe, verantwortlich sind, lässt sich auf Grund der enormen Vielfalt nur mit Data Mining-Techniken ermitteln. Die Ergebnisse des Prognosemodells sind für Anbieter zur Apriori Abschätzung ihrer Werbemaßnahmen interessant und offenbaren Trends auf dem Immobilienmarkt. Bei einem kostenpflichtigen Angebot dieser Informationen, stellen die Ergebnisse für ImmoPortal-XY auch eine weitere Vermarktungsmöglichkeit dar.

Kapitel 4.1.4, Abhängigkeitsanalyse: Bei der Abhängigkeitsanalyse wird nach signifikanten Beziehungsmustern zwischen Merkmalen eines Objekts oder verschiedenen Objekten gesucht. Das klassische Einsatzgebiet für Abhängigkeitsanalysen ist die Warenkorbanalyse (Welche Waren werden gemeinsam gekauft?). Während bei der Klassifikation und Prognose nur ein Attribut als abhängiges Zielmerkmal dient, werden hier alle Attribute und sogar mehrere gleichzeitig als abhängiges Zielmerkmal betrachtet (Wenn A, B und C, dann D und E). Die Abhängigkeiten können zunächst auf qualitativer Ebene beschrieben werden: „Ein Benutzer von ImmoPortal-XY sucht nach Kaufobjekten und interessiert sich für Finanzierungsangebote“. Zusätzlich können die Abhängigkeiten dazu benutzt werden, gewisse Wahrscheinlichkeiten des Auftretens eines Wertes abhängig von einem anderen abzuleiten (Beispiel: Obiger Fall tritt bei 10% aller Gesuchen nach Grundstücken auf).

Falls auch die Reihenfolge der Daten bzw. Zeitverläufe eine Rolle spielen, können die Abhängigkeiten als sequentielle Muster dargestellt werden. Zum Beispiel kann das Navigationsverhalten der ImmoPortal-XY-Benutzer jeweils über einen Zeitraum hinweg analysiert werden, um Beziehungen zwischen zeitlich verschiedenen Aktivitäten zu ermitteln. Als Voraussetzung muss jede Aktivität einen Zeitpunkt und ein Benutzeridentifikationsmerkmal (z.B. Session-ID) besitzen. Gesucht werden Pfade, auf denen sich Besucher häufig bewegen. Bei transaktionsübergreifender Nutzeridentifikation (z.B. Cookie) können sogar verschiedene Besuche eines Nutzers analysiert werden. Eine Erkenntnis mag z.B. sein: Ein Benutzer sucht in der Rubrik „Grundstück“, erstellt nach mehreren anderen Seitenaufrufen einen Finanzierungsplan und geht zurück in die Grundstückssuche. Eine auf dieser Erkenntnis aufbauende direkte Verknüpfung dieser Seitenkombination durch Links, trägt zu einer besseren Konfiguration des Website-Auftritts bei. Konsequenz sind eine bessere Benutzerfreundlichkeit sowie eine effizientere Werbeplatzierung.

Arbeit zitieren:
Prescha, Mirko November 2006: Data-Mining im Immobilien E-Business, Hamburg: Diplomica Verlag

Schlagworte:
Data Mining, Business Intelligence, Datenanalyse, Customer Relationship Management, Marketing

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren