Bachelor + Master Publishing
765 Bachelorarbeiten, 508 Masterarbeiten, 10.071 Diplomarbeiten

Entwicklung eines Verfahrens zur Identifikation von Spam-Mail mit künstlichen neuronalen Netzen

Entwicklung eines Verfahrens zur Identifikation von Spam-Mail mit künstlichen neuronalen Netzen
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Gerald Weinberger
  • Abgabedatum: Februar 2009
  • Umfang: 92 Seiten
  • Dateigröße: 1,8 MB
  • Note: 1,0
  • Institution / Hochschule: Fachhochschule St. Pölten Österreich
  • Bibliografie: ca. 40
  • ISBN (eBook): 978-3-8366-2754-2
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Weinberger, Gerald Februar 2009: Entwicklung eines Verfahrens zur Identifikation von Spam-Mail mit künstlichen neuronalen Netzen, Hamburg: Diplomica Verlag
  • Schlagworte: Spam-Filter, Software Entwicklung, Sigmoide Funktion, Neuron, Feedforward Netz

Diplomarbeit von Gerald Weinberger

Einleitung:

Die Informationsübertragung mittels E-Mail ist heutzutage ein fundamentaler Bestandteil der Geschäftswelt sowie der privaten Kommunikation über das Internet. 80-85% der E-Mails werden missbräuchlich verwendet und als Spam unerwünscht zugestellt. Diese Spam-Mails verursachen einen erheblichen ökonomischen Schaden, der sich nur durch Einsatz moderner Filtersysteme eindämmen lässt. Hierzu wird der Inhalt der Nachricht mit Text-Klassifizierungs-Algorithmen untersucht um eine mögliche Spam-Gefahr zu erkennen. Aktuelle Filter arbeiten mit statischen-, oder halbintelligenten Filtern wie dem Naive-Bayes-Algorithmus.

Forschungen der Neuroinformatik befassen sich mit der Simulation neuronaler Netze und eröffnen neue Möglichkeiten einer intelligenten, lernenden Text-Klassifizierung. Durch mathematische Beschreibungen wird ein künstliches neuronales Netz modelliert und mit einer Lernmenge trainiert. Dem Netz ist es möglich, das erlernte Wissen auf neue Eingaben anzuwenden und sich durch wiederholtes Training an veränderte Bedingungen anzupassen.

Problemstellung:

Viele der derzeit eingesetzten Verfahren der Mail-Klassifikation beruhen auf den Naive-Bayes-Algorithmus, Blacklists oder anderen mehr oder weniger statischen Prozeduren. Es liegt auf der Hand sich zu fragen, ob nicht maschinengelerntes Wissen zur automatischen Erkennung von Spam-Mails eingesetzt werden kann, die der Entscheidung eines Menschen ähnelt - beispielsweise mit genetischen Algorithmen oder künstlichen neuronalen Netzen (KNN bzw. ANN - artificial neural network). Wie schon die wissenschaftliche Arbeit _A LVQ-based neural network anti-spam email approach feststellt, könnte ein selbstlernendes System eine eindeutige Erkennung von Spam-Mails zu etwa 98% ermöglichen.

Ist es möglich, ein pragmatisches, technisch realisierbares Verfahren zu entwickeln, das eine E-Mail Klassifikation durch Einsatz von ein- oder mehreren künstlichen neuronalen Netzen ermöglicht?

Wie lässt sich eine derartige Software entwickeln und ist diese performant und wirkungsvoll?

Können die errechneten Zahlen der Arbeit bestätigt werden?

Inhaltsverzeichnis:

1. Einleitung 8
1.1 Forschungsfeld 8
1.2 Problemstellung 8
1.3 Ziel und Aufbau der Arbeit 9
2. Spam Grundlagen 10
2.1 Herkunft und Arten von Spam 10
2.2 Rechtliche Relevanz von Spam 12
2.3 Ökonomische Auswirkung von Spam 14
2.4 Maßnahmen zur Spam-Bekämpfung 15
2.5 Text-Klassifizierung 16
2.5.1 Grundlagen 16
2.5.2 Algorithmen 17
3. Künstliche Neuronale Netze 21
3.1 Einleitung 21
3.2 Abgrenzung zur künstlichen Intelligenz 23
3.3 Historie und Grundlagen 23
3.4 Biologische Analogie 27
3.5 Modellaufbau 30
3.6 Units (Neuronen) 32
3.6.1 Aktivitätsfunktionen 35
3.6.1.1 Lineare Funktion 35
3.6.1.2 Linear mit Schwelle 36
3.6.1.3 Binäre Schwellenwertfunktion (threshold) 36
3.6.1.4 Sigmoide Funktion 37
3.7 Netztypen 38
3.7.1 Feedforward Netze 38
3.7.2 Feedback Netze 39
3.8 Lernregeln 41
3.8.1 Supervised learning 41
3.8.1.1 Hebb-Regel 42
3.8.1.2 Delta-Regel 42
3.8.1.3 Backpropagation 43
3.8.2 Unsupervised learning 45
3.8.2.1 Competetive learning 45
4. Entwicklung eines KNN-Klassifizierers 46
4.1 Methodik des Verfahrens 46
4.1.1 Struktureller Aufbau 48
4.1.2 Einsatz-Szenarien 51
4.2 Softwareentwicklung: nAntiSpam 52
4.2.1 MailConnector Layer 57
4.2.2 Core Layer 59
4.2.3 Executor Layer 65
4.3 Analyse des Prototypen 66
5. Zusammenfassung 74
5.1 Zusammenfassung der Arbeit 74
5.2 Optimierung des Verfahrens 77
5.3 Persönliche Meinung 80
Literaturverzeichnis 81
Abbildungsverzeichnis 85
Tabellenverzeichnis 87
Stichwortverzeichnis 88
Glossar 90
Anhang: AForge.Neuro Klassendiagramm 93

Textprobe:

Kapitel 2.3, Ökonomische Auswirkung von Spam:

Spam-Mails bedeuten nicht nur lästige Werbung, sondern verursachen auch einen erheblichen wirtschaftlichen Schaden. ‘Heutzutage geht man von etwa 100 Milliarden Spam- oder Junk-E-Mails pro Jahr aus, rund 80 bis 85 Prozent des E-Mail- Verkehrs seien verspamt’.

In einem österreichischen Kleinbetrieb mit 15 öffentlichen E-Mail-Adressen werden derzeit (Stand August 2008) wöchentlich etwa 4000 Spam-Mails identifiziert. Eine Studie des deutschen Bundesamt für Sicherheit in der Informationstechnik (BSI) errechnet bei einem kleineren Provider (ca. 50.000 Kunden) Kosten pro Spam- Mail von 0,20 EURO-Cent. In einem Unternehmen hingegen müssen die Mitarbeiter die Mails sortieren, um Spam zu filtern. Das BSI geht davon aus, dass bei einem Unternehmen mit 5000 Mitarbeitern Kosten von 0,22 EURO-Cent pro Spam-Mail anfallen. In einem Kleinunternehmen mit nur fünf Mitarbeitern steigen die Kosten auf bis zu 0,70 EURO-Cent pro Spam-Mail.

Es liegt auf der Hand, dass eine zuverlässige automatisierte Mail-Klassifizierung unumgänglich geworden ist.

Maßnahmen zur Spam-Bekämpfung:

Die derzeit meist eingesetzten Maßnahmen zur Spam-Abwehr untersuchen die Mails nach verschiedensten Kriterien um die Mails als unerwünscht (Spam) oder erwünscht (Ham) zu klassifizieren. Diese Maßnahmen erreichen eine Erkennungsrate von etwa 80-97%. Wird eine Spam-Mail fälschlicherweise als harmloses Ham klassifiziert, spricht man von einem false negative. Für den Benutzer weit aus dramatischer ist der Fall, wenn das System eine erwünschte Ham-Mail als Spam identifiziert (false positive).

Zu den aktuellen Anti-Spam Technologien zählen:

Blacklists, Whitelists.

Auf Blacklists werden Domains, IP- oder E-Mail Adressen von Spammern gespeichert. Der Spamfilter kann aufgrund dieser Liste relativ einfach entscheiden, ob eine E-Mail Spam oder Ham ist. Bei Whitelists hingegen werden jene Adressen eingetragen, die bedenkenlos akzeptiert werden können. Solche Listen können lokal, oder zentral auf Servern (Realtime Blackhole List - RBL) gespeichert sein. Spammer umgehen solche Listen indem sie mit Bot-Netzen ständig die IP-Adressen und die Domains ändern. Um über eine Whitelist-Adresse gefahrlos zu spammen, werden die lokalen Adressbücher eines Zombie durchforstet (meist werden die darin gespeicherten Adressen in Whitelists eingetragen).

Header-Überprüfung:

Bei dieser Art der Analyse werden die Header-Felder einer Mail überprüft um potentielle Spam-Mails zu erkennen. Ungerer, 04.08.2008) beschreibt im Computermagazin iX in einem Artikel unter anderem folgende Kriterien: Zeichensatzprüfung, Zahl der Received-Header, Zeichen/Zahlenkombination der Absenderadresse, Zeitzonen, korrekter MIME-Type (base64-Encoding und UUencode schalten Content-Filter aus), etc.

Content Filter:

Eine einfache Art des Contentfilters ist, die einzelnen Wörter des Bodies einer Mail zu überprüfen und festzustellen, ob deren Aussage auf Spam schließen lässt (Wörter wie z.B. Sex oder Adult). Leider versagen solche einfachen Filter wenn beispielsweise eine Einladung zur Erwachsenenbildung (adult education) versendet wird, die im Anmeldeformular auch das Geschlecht (sex) auswählen lässt. Dieses Problem lässt sich durch Gewichtung der einzelnen Wörter oder auch durch Berechnung der räumlichen Nähe der Wörter zueinander relativieren. In den Contentfiltern steckt wohl das meiste Entwicklungspotential - wie die Möglichkeit von selbstlernenden Algorithmen, welche später genauer behandelt werden.

Arbeit zitieren:
Weinberger, Gerald Februar 2009: Entwicklung eines Verfahrens zur Identifikation von Spam-Mail mit künstlichen neuronalen Netzen, Hamburg: Diplomica Verlag

Schlagworte:
Spam-Filter, Software Entwicklung, Sigmoide Funktion, Neuron, Feedforward Netz

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren