Strategien zur Erkennung von Betrug in der Onlinewerbung
- Art: Diplomarbeit
- Autor: Manuel Kirchner
- Abgabedatum: September 2005
- Umfang: 87 Seiten
- Dateigröße: 912,2 KB
- Note: 1,7
- Institution / Hochschule: Fachhochschule Frankfurt am Main - University of Applied Sciences Deutschland
- ISBN (eBook): 978-3-8324-9071-3
-
ISBN (Paperback) :
978-3-8324-9071-3 P - ISBN (CD) :978-3-8324-9071-3 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Kirchner, Manuel September 2005: Strategien zur Erkennung von Betrug in der Onlinewerbung, Hamburg: Diplomica Verlag
- Schlagworte: Klickbetrug, Google, Pay-Per-Click, Vermarktung, Clickbot
In den Warenkorb
38,00 €
Diplomarbeit von Manuel Kirchner
Einleitung:
Durch die immer stärkere Durchdringung des Internets über alle Altersschichten hinweg ist Onlinewerbung ein wichtiges Medium für die Vermarktung von Werbung geworden. Im World Wide Web lassen sich äußerst zielgruppenspezifische Anzeigen schalten und deren Verbreitung detailliert kontrollieren. Durch Beobachtung des Besucherverhaltens werden dem Verbraucher maßgeschneiderte Anzeigen präsentiert. Anzeigen lassen sich genauestens reglementieren, budgetieren und kontrollieren. Sogar die direkte Erfolgskontrolle von Kampagnen im Vergleich zum Absatz ist möglich (Konversionsrate). In dieser Form ist das bei keiner anderen Werbeplattform möglich. Im Internet sind verschiedene Abrechnungssysteme für Onlinewerbung vorhanden. Grob unterschieden wird die Abrechnung nach Seitenimpressionen (Pay-Per-View) und die Abrechnung pro Klick (Pay-Per-Click, PPC, Bezahllink). In dieser Arbeit liegt der Schwerpunkt der Untersuchung auf Betrug im Zusammenhang mit Pay-Per-Click Abrechnungssystemen.
Pay-Per-Click Systeme bieten eine vermeintlich gerechte Art der Abrechnung. Bezahlt werden nur tatsächliche Klicks. Mit der Einführung von AdWords durch den Suchmaschinenbetreiber Google wurde das System perfektioniert und für jedermann leicht einsetzbar. Die monopolartige Stellung der Google Suchmaschine bietet die ideale Werbeplattform. AdWords sind kontextbezogende Werbeanzeigen die zu einer Suchanfrage thematisch passende Anzeigen liefern. Die bestechende Idee dahinter ist, dass der Suchmaschinennutzer immer die passende Werbung zu seiner Suchanfrage (und damit auch seinem Interessengebiet) präsentiert bekommt.
Google geht mit seinen AdWords aber auch optisch neue Wege. Die aus reinem Text bestehenden AdWords Anzeigen heben sich angenehm von den vormals dominierenden blinkenden und bunten Bannerwerbungen ab. Für Laien sind sie kaum von normalen Suchergebnissen zu unterscheiden. Der nächste Schritt war die Einführung von AdSense. Bei AdSense ist es Betreibern von Webseiten möglich, mit dem Hosting von AdWords auf ihren Seiten Geld zu verdienen. Der Webseitenbetreiber bindet dabei dynamisch AdWords auf seinen Seiten ein und partizipiert so am AdWords Umsatz von Google. Google analysiert die Seiten und liefert zum Kontext passende Anzeigen. Damit steigert Google die Verbreitung von AdWords und die Webseitenbetreiber verdienen Geld. Google hat mit diesen beiden Programme die Onlinewerbung revolutioniert.
Die schöne neue Werbewelt hat aber in jüngster Zeit Risse bekommen. Klickbetrug wird zunehmend publik und stellt eine ernsthafte Gefahr für das System des Suchmaschinenmarketings (PPC) dar. Klickbetrug liegt vor, wenn ohne Kaufabsicht bzw. Interesse an der Werbung auf Bezahllinks geklickt wird. Klickbetrug wird durch manuelles Klicken auf Bezahllinks oder mit automatisierten Klickprogrammen (Clickbots) durchgeführt. Für Suchworte mit geringem Wert muss der Betrüger für "erfolgreichen" Klickbetrug auf Clickbots zurückgreifen, da das manuelle Klicken zu aufwändig und durchschaubar ist.
Dafür gibt es verschiedenste Motivationen. Von Geschäftsleuten die ihre Konkurrenten schädigen wollen bis zu Webseitenbetreibern die ihren AdSense Umsatz erhöhen wollen reicht die Bandbreite. Die Expertenschätzungen über das Ausmaß von Klickbetrug reichen von 10% bis 50%. Diese Bandbreite zeigt bereits das Problem: Klickbetrug ist nur sehr schwer nachzuweisen. Nach anfänglicher Marginalisierung des Problems sind mittlerweile auch die Suchmaschinenbetreiber in die Offensive gegangen und haben das Problem benannt. Alle Suchmaschinenbetreiber haben Mechanismen gegen Klickbetrug implementiert. Die Details dieser Mechanismen unterliegen allerdings strengster Geheimhaltung. Vordergründig sollen die Mechanismen geheimgehalten werden um potentiellen Klickbetrügern keine Angriffsfläche zu bieten. Die Untersuchungen dieser Arbeit zeigen aber, dass der Suchmaschinenbetreiber allein Klickbetrug nicht sicher erkennen kann.
Das Thema Klickbetrug ist ein noch relativ junges Thema, und von daher in wissenschaftlichen Abhandlungen kaum beachtet. Dazu trägt sicherlich auch die restriktive Informationspolitik seitens der Suchmaschinenbetreiber bei.
Gang der Untersuchung:
Ziel der Arbeit war die Erkennung von betrügerischen Mustern auf Basis der Logdateien des Webservers.
Kapitel 2 stellt zunächst die Grundlagen der jeweiligen Werbekonzepte vor, untersucht die Motivationen der Protagonisten und beleuchtet die Bedeutung für die Onlinewerbung im Allgemeinen und für die Suchmaschinenbetreiber im Speziellen.
Kapitel 3 entwickelt mögliche Strategien eines dynamischen Betrugserkennungs- bzw. Warnsystems. Zu diesem Zweck wurde untersucht, an welchen Stellen betrugsrelevante Daten anfallen. Damit einher ging die Frage, welche Daten den Suchmaschinenbetreibern zur Verfügung stehen bzw. wie deren Blickfeld aussieht. Dazu wurden verschiedene Lokalitätsbereiche (Bewegungsräume) definiert und auf Relevanz hin untersucht. Ergebnis waren 3 unterschiedliche Bewegungsräume mit unterschiedlicher Relevanz für die Betrugserkennung. Der wichtigste Bereich für die Erkennung ist die Website des Werbetreibenden. Die hier anfallenden Daten sollen Rückschlüsse auf die Motivation des Besuchers geben. Schließlich wird ein Verfahren zur Erkennung entwickelt.
In Kapitel 4 werden mögliche Kennzahlen entwickelt und auf Relevanz hin untersucht. Zunächst wird hierzu eine schematische Einteilung der Kennzahlarten vorgenommen. Die Bandbreite reicht von einfachen atomistischen bis aufwendig berechneten, psychologisch motivierten Kennwerten. Diese Kennzahlen beschreiben das Navigationsverhalten von Besuchern. Außerdem wird deren Bedeutung im Rahmen der Klickbetrugerkennung diskutiert.
In Kapitel 5 wird im ersten Teil die Berechnung der psychologisch motivierten Kennzahlen Stratum und Compactness detailliert erläutert. Dann werden gängige Data-Mining bzw. Web-Usage-Mining Verfahren vorgestellt und auf Einsetzbarkeit in der Klickbetrugerkennung hin untersucht. Im letzten Teil werden aus-gewählte Algorithmen zur Erkennung typischer Wege von Besuchern detailliert untersucht. Diese typischen Wege sind ein wichtiger Bestandteil bei der Erstellung von Besucherprofilen.
Inhaltsverzeichnis:
| 1. | Einleitung | 1 |
| 1.1 | Problemstellung | 3 |
| 1.2 | Ziel und Gang der Arbeit | 3 |
| 2. | Grundlagen | 5 |
| 2.1 | Onlinewerbung | 5 |
| 2.2 | Onlinewerbung in Zahlen (Deutschland) | 5 |
| 2.3 | Konzepte der Onlinewerbung | 7 |
| 2.3.1 | Abrechnung nach Seitenimpressionen | 7 |
| 2.3.2 | Pay-Per-Click | 7 |
| 2.3.2.1 | Keyword Cluster | 8 |
| 2.3.2.2 | Berechnung der Rangfolge | 8 |
| 2.3.2.3 | Kosten pro Klick | 9 |
| 2.3.2.4 | Restriktionen | 10 |
| 2.3.3 | Das Google AdSense Programm | 10 |
| 2.3.4 | Affiliate Programme | 11 |
| 2.4 | Klickbetrug | 11 |
| 2.4.1 | Motivation für Klickbetrug | 12 |
| 2.4.1.1 | Motivationen in Konkurrenz Situationen | 12 |
| 2.4.1.2 | Motivation im AdSense Umfeld | 13 |
| 2.4.2 | Bedeutung für die Suchmaschinenbetreiber | 13 |
| 2.4.3 | Humane und automatische Klickbetrüger | 15 |
| 2.5 | Wer kann Klickbetrug erkennen ? | 16 |
| 3. | Strategien | 18 |
| 3.1 | Lokalität von Klickbetrügern und Bots | 18 |
| 3.2 | Bewegungsräume | 19 |
| 3.2.1 | Website des Werbetreibenden | 19 |
| 3.2.2 | Suchergebnisseiten | 19 |
| 3.2.3 | Internet | 20 |
| 3.3 | Das Verfahren im Überblick | 21 |
| 3.3.1 | Rohmaterial Aggregation und Konvertierung | 22 |
| 3.3.2 | Datenbereinigung (Cleaning) / Separation | 24 |
| 3.3.3 | User / Session Identifikation | 24 |
| 3.3.3.1 | Grundlagen | 25 |
| 3.3.3.2 | User Identifikation | 26 |
| 3.3.3.3 | Session Identifikation | 28 |
| 3.3.3.4 | Probleme durch inkonsistente Daten | 29 |
| 3.3.3.5 | Pfad Vervollständigung | 29 |
| 3.3.4 | Mustererkennung | 30 |
| 3.3.5 | Kennzahlen pro Session | 30 |
| 3.3.6 | Auswertung | 30 |
| 3.3.7 | Kennzahlenpool | 31 |
| 3.4 | Erkennungsstrategien | 31 |
| 3.4.1 | Nachweis anhand von betrügerischen Mustern | 31 |
| 3.4.2 | Nachweis anhand von Abweichungen in Kennzahlbereichen | 32 |
| 3.4.2.1 | Strategien zur Datenhaltung | 32 |
| 3.4.2.2 | Vergleichsstrategien | 34 |
| 4. | Kennzahlen und Metriken | 35 |
| 4.1 | Basisdaten | 35 |
| 4.2 | Kategorisierung | 36 |
| 4.3 | Übersicht | 37 |
| 4.4 | Kennzahlen und Metriken im Detail | 39 |
| 4.4.1 | Content | 40 |
| 4.4.2 | Page Impressions (PI) | 42 |
| 4.4.3 | Statistische Daten | 46 |
| 4.4.4 | Graphentheoretische Kennzahlen | 47 |
| 4.4.5 | Gewichtung von Kennzahlen | 56 |
| 5. | Algorithmen gegen Klickbetrug | 57 |
| 5.1 | Graphentheoretische Kennwerte | 57 |
| 5.1.1 | Distanzmatrix Algorithmus | 58 |
| 5.1.2 | Compactness (Cp) | 60 |
| 5.1.3 | Stratum (S) | 61 |
| 5.2 | Betrug durch Data-Mining erkennen | 63 |
| 5.2.1 | Definitionen | 63 |
| 5.2.2 | Verfahren | 64 |
| 5.2.2.1 | Clusteranalysen | 64 |
| 5.2.2.2 | Klassifikation | 65 |
| 5.2.2.3 | Assoziationsregeln | 66 |
| 5.2.3 | Ermittlung häufig besuchter Wege | 69 |
| 5.2.3.1 | Maximal-Forward-Reference (MFR) Algorithmus | 70 |
| 5.2.3.2 | Large-Reference-Sequences (LRS) | 73 |
| 5.2.3.3 | Maximal-Reference-Sequences | 77 |
| 5.2.3.4 | Bewertung | 77 |
| 6. | Zusammenfassung und Ausblick | 79 |
| Literaturverzeichnis | 81 | |
| Abbildungsverzeichnis | 83 |
Die Kennzahlen lassen sich in unterschiedliche Kategorien einteilen. Eine Gruppe bilden die atomistischen Kennzahlen, die sich wiederum in binäre und numerisch / deskriptive Werte aufteilen. Diese Werte lassen sich direkt aus dem Rohmaterial gewinnen. Ein Beispiel für deskriptive Werte ist z.B. die IP-Adresse oder der Referer. Binäre Werte zeigen einen bestimmten Zustand an. Zum Beispiel “Cookie akzeptiert?” , “Bilder geladen”, Ja oder Nein. Die andere Gruppe besteht aus den aggregierten Kennzahlen. Diese Zahlen werden algorithmisch aus der Menge der Rohdaten errechnet. Die aggregierten Kennzahlen können in drei grosse Kennzahlgruppen1 unterteilt werden: Graphentheoretische, Navigationsmuster- und Ähnlichkeits-Kennzahlen. Abbildung 6 zeigt die einzelnen Kategorien im Überblick. [...]
3.3.6. Auswertung Die Kennzahlen werden auf dieser Stufe in zwei Lager getrennt. Sessions die über Bezahllinks kamen und Sessions die nicht über Bezahllinks kamen. Besucher die nicht über einen Bezahllink kommen, haben die Seite auf konventionellem Wege aufgesucht. Dabei handelt es sich um Besucher die über normale Suchmaschinenverweise kommen oder die URL direkt eingeben. Die Werte von normalen Besuchern werden direkt in die Datenbasis übernommen, da es sich hierbei mit grosser Wahrscheinlichkeit nicht um Sessions von Klickbetrügern handelt. Die Kennzahlen der verbleibenden Sessions werden nun zunächst auf verdächtige Ausreisser hin überprüft. Die Validierung der Kennzahlen erfolgt zum einen über einen Abgleich mit statischen Werten und zum anderen mit dem Ab- [...]
Bei diesem Schritt werden die Daten auf Pfadkonsistenz untersucht. Fehlen wichtige Pfadinformationen, die z.B. durch Caches oder Proxies nicht aufgezeichnet wurden? Zur Erkennung von Lücken in Pfaden wird die Sitetopolgie und der Referer zugrunde gelegt. Ist eine Seitenanforderung nicht direkt mit der vorhergehenden Seite verlinkt, wird über den Referer die Vorgängerseite festgestellt. Wenn diese Seite von dem User innerhalb des Visits schon einmal besucht wurde, wird angenommen, dass er mit der Backtaste hierher zurücknavigiert ist. Gibt es die Seite im Besucherpfad mehrfach, wird die am nächsten liegende Seite gewählt. Die fehlenden Einträge (Seiten) werden dann vervollständigt. Die Zeitstempel für die einzufügenden Seiten können über verschiedene Strategien ermittelt werden. Eine Methode ist die Annahme, dass es sich bei den Seiten um bereits besuchte Seiten handelt. Als Zeitstempel wird dann die durchschnittliche Verweildauer der umliegenden Seiten angenommen. [...]
In den Warenkorb
38,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832490713
Arbeit zitieren:
Kirchner, Manuel September 2005: Strategien zur Erkennung von Betrug in der Onlinewerbung, Hamburg: Diplomica Verlag
Schlagworte:
Klickbetrug, Google, Pay-Per-Click, Vermarktung, Clickbot



