Entwicklung eines Verfahrens zur Identifikation von Spam-Mail mit künstlichen neuronalen Netzen
- Art: Diplomarbeit
- Autor: Gerald Weinberger
- Abgabedatum: Februar 2009
- Umfang: 92 Seiten
- Dateigröße: 1,8 MB
- Note: 1,0
- Institution / Hochschule: Fachhochschule St. Pölten Österreich
- Bibliografie: ca. 40
- ISBN (eBook): 978-3-8366-2754-2
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Weinberger, Gerald Februar 2009: Entwicklung eines Verfahrens zur Identifikation von Spam-Mail mit künstlichen neuronalen Netzen, Hamburg: Diplomica Verlag
- Schlagworte: Spam-Filter, Software Entwicklung, Sigmoide Funktion, Neuron, Feedforward Netz
48,00 €
PDF-eBook Download: 48,00 €
Diplomarbeit von Gerald Weinberger
Einleitung:
Die Informationsübertragung mittels E-Mail ist heutzutage ein fundamentaler Bestandteil der Geschäftswelt sowie der privaten Kommunikation über das Internet. 80-85% der E-Mails werden missbräuchlich verwendet und als Spam unerwünscht zugestellt. Diese Spam-Mails verursachen einen erheblichen ökonomischen Schaden, der sich nur durch Einsatz moderner Filtersysteme eindämmen lässt. Hierzu wird der Inhalt der Nachricht mit Text-Klassifizierungs-Algorithmen untersucht um eine mögliche Spam-Gefahr zu erkennen. Aktuelle Filter arbeiten mit statischen-, oder halbintelligenten Filtern wie dem Naive-Bayes-Algorithmus.
Forschungen der Neuroinformatik befassen sich mit der Simulation neuronaler Netze und eröffnen neue Möglichkeiten einer intelligenten, lernenden Text-Klassifizierung. Durch mathematische Beschreibungen wird ein künstliches neuronales Netz modelliert und mit einer Lernmenge trainiert. Dem Netz ist es möglich, das erlernte Wissen auf neue Eingaben anzuwenden und sich durch wiederholtes Training an veränderte Bedingungen anzupassen.
Problemstellung:
Viele der derzeit eingesetzten Verfahren der Mail-Klassifikation beruhen auf den Naive-Bayes-Algorithmus, Blacklists oder anderen mehr oder weniger statischen Prozeduren. Es liegt auf der Hand sich zu fragen, ob nicht maschinengelerntes Wissen zur automatischen Erkennung von Spam-Mails eingesetzt werden kann, die der Entscheidung eines Menschen ähnelt - beispielsweise mit genetischen Algorithmen oder künstlichen neuronalen Netzen (KNN bzw. ANN - artificial neural network). Wie schon die wissenschaftliche Arbeit _A LVQ-based neural network anti-spam email approach feststellt, könnte ein selbstlernendes System eine eindeutige Erkennung von Spam-Mails zu etwa 98% ermöglichen.
Ist es möglich, ein pragmatisches, technisch realisierbares Verfahren zu entwickeln, das eine E-Mail Klassifikation durch Einsatz von ein- oder mehreren künstlichen neuronalen Netzen ermöglicht?
Wie lässt sich eine derartige Software entwickeln und ist diese performant und wirkungsvoll?
Können die errechneten Zahlen der Arbeit bestätigt werden?
Inhaltsverzeichnis:
| 1. | Einleitung | 8 |
| 1.1 | Forschungsfeld | 8 |
| 1.2 | Problemstellung | 8 |
| 1.3 | Ziel und Aufbau der Arbeit | 9 |
| 2. | Spam Grundlagen | 10 |
| 2.1 | Herkunft und Arten von Spam | 10 |
| 2.2 | Rechtliche Relevanz von Spam | 12 |
| 2.3 | Ökonomische Auswirkung von Spam | 14 |
| 2.4 | Maßnahmen zur Spam-Bekämpfung | 15 |
| 2.5 | Text-Klassifizierung | 16 |
| 2.5.1 | Grundlagen | 16 |
| 2.5.2 | Algorithmen | 17 |
| 3. | Künstliche Neuronale Netze | 21 |
| 3.1 | Einleitung | 21 |
| 3.2 | Abgrenzung zur künstlichen Intelligenz | 23 |
| 3.3 | Historie und Grundlagen | 23 |
| 3.4 | Biologische Analogie | 27 |
| 3.5 | Modellaufbau | 30 |
| 3.6 | Units (Neuronen) | 32 |
| 3.6.1 | Aktivitätsfunktionen | 35 |
| 3.6.1.1 | Lineare Funktion | 35 |
| 3.6.1.2 | Linear mit Schwelle | 36 |
| 3.6.1.3 | Binäre Schwellenwertfunktion (threshold) | 36 |
| 3.6.1.4 | Sigmoide Funktion | 37 |
| 3.7 | Netztypen | 38 |
| 3.7.1 | Feedforward Netze | 38 |
| 3.7.2 | Feedback Netze | 39 |
| 3.8 | Lernregeln | 41 |
| 3.8.1 | Supervised learning | 41 |
| 3.8.1.1 | Hebb-Regel | 42 |
| 3.8.1.2 | Delta-Regel | 42 |
| 3.8.1.3 | Backpropagation | 43 |
| 3.8.2 | Unsupervised learning | 45 |
| 3.8.2.1 | Competetive learning | 45 |
| 4. | Entwicklung eines KNN-Klassifizierers | 46 |
| 4.1 | Methodik des Verfahrens | 46 |
| 4.1.1 | Struktureller Aufbau | 48 |
| 4.1.2 | Einsatz-Szenarien | 51 |
| 4.2 | Softwareentwicklung: nAntiSpam | 52 |
| 4.2.1 | MailConnector Layer | 57 |
| 4.2.2 | Core Layer | 59 |
| 4.2.3 | Executor Layer | 65 |
| 4.3 | Analyse des Prototypen | 66 |
| 5. | Zusammenfassung | 74 |
| 5.1 | Zusammenfassung der Arbeit | 74 |
| 5.2 | Optimierung des Verfahrens | 77 |
| 5.3 | Persönliche Meinung | 80 |
| Literaturverzeichnis | 81 | |
| Abbildungsverzeichnis | 85 | |
| Tabellenverzeichnis | 87 | |
| Stichwortverzeichnis | 88 | |
| Glossar | 90 | |
| Anhang: AForge.Neuro Klassendiagramm | 93 |
Textprobe:
Kapitel 2.3, Ökonomische Auswirkung von Spam:
Spam-Mails bedeuten nicht nur lästige Werbung, sondern verursachen auch einen erheblichen wirtschaftlichen Schaden. ‘Heutzutage geht man von etwa 100 Milliarden Spam- oder Junk-E-Mails pro Jahr aus, rund 80 bis 85 Prozent des E-Mail- Verkehrs seien verspamt’.
In einem österreichischen Kleinbetrieb mit 15 öffentlichen E-Mail-Adressen werden derzeit (Stand August 2008) wöchentlich etwa 4000 Spam-Mails identifiziert. Eine Studie des deutschen Bundesamt für Sicherheit in der Informationstechnik (BSI) errechnet bei einem kleineren Provider (ca. 50.000 Kunden) Kosten pro Spam- Mail von 0,20 EURO-Cent. In einem Unternehmen hingegen müssen die Mitarbeiter die Mails sortieren, um Spam zu filtern. Das BSI geht davon aus, dass bei einem Unternehmen mit 5000 Mitarbeitern Kosten von 0,22 EURO-Cent pro Spam-Mail anfallen. In einem Kleinunternehmen mit nur fünf Mitarbeitern steigen die Kosten auf bis zu 0,70 EURO-Cent pro Spam-Mail.
Es liegt auf der Hand, dass eine zuverlässige automatisierte Mail-Klassifizierung unumgänglich geworden ist.
Maßnahmen zur Spam-Bekämpfung:
Die derzeit meist eingesetzten Maßnahmen zur Spam-Abwehr untersuchen die Mails nach verschiedensten Kriterien um die Mails als unerwünscht (Spam) oder erwünscht (Ham) zu klassifizieren. Diese Maßnahmen erreichen eine Erkennungsrate von etwa 80-97%. Wird eine Spam-Mail fälschlicherweise als harmloses Ham klassifiziert, spricht man von einem false negative. Für den Benutzer weit aus dramatischer ist der Fall, wenn das System eine erwünschte Ham-Mail als Spam identifiziert (false positive).
Zu den aktuellen Anti-Spam Technologien zählen:
Blacklists, Whitelists.
Auf Blacklists werden Domains, IP- oder E-Mail Adressen von Spammern gespeichert. Der Spamfilter kann aufgrund dieser Liste relativ einfach entscheiden, ob eine E-Mail Spam oder Ham ist. Bei Whitelists hingegen werden jene Adressen eingetragen, die bedenkenlos akzeptiert werden können. Solche Listen können lokal, oder zentral auf Servern (Realtime Blackhole List - RBL) gespeichert sein. Spammer umgehen solche Listen indem sie mit Bot-Netzen ständig die IP-Adressen und die Domains ändern. Um über eine Whitelist-Adresse gefahrlos zu spammen, werden die lokalen Adressbücher eines Zombie durchforstet (meist werden die darin gespeicherten Adressen in Whitelists eingetragen).
Header-Überprüfung:
Bei dieser Art der Analyse werden die Header-Felder einer Mail überprüft um potentielle Spam-Mails zu erkennen. Ungerer, 04.08.2008) beschreibt im Computermagazin iX in einem Artikel unter anderem folgende Kriterien: Zeichensatzprüfung, Zahl der Received-Header, Zeichen/Zahlenkombination der Absenderadresse, Zeitzonen, korrekter MIME-Type (base64-Encoding und UUencode schalten Content-Filter aus), etc.
Content Filter:
Eine einfache Art des Contentfilters ist, die einzelnen Wörter des Bodies einer Mail zu überprüfen und festzustellen, ob deren Aussage auf Spam schließen lässt (Wörter wie z.B. Sex oder Adult). Leider versagen solche einfachen Filter wenn beispielsweise eine Einladung zur Erwachsenenbildung (adult education) versendet wird, die im Anmeldeformular auch das Geschlecht (sex) auswählen lässt. Dieses Problem lässt sich durch Gewichtung der einzelnen Wörter oder auch durch Berechnung der räumlichen Nähe der Wörter zueinander relativieren. In den Contentfiltern steckt wohl das meiste Entwicklungspotential - wie die Möglichkeit von selbstlernenden Algorithmen, welche später genauer behandelt werden.
48,00 €
PDF-eBook Download: 48,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783836627542
Arbeit zitieren:
Weinberger, Gerald Februar 2009: Entwicklung eines Verfahrens zur Identifikation von Spam-Mail mit künstlichen neuronalen Netzen, Hamburg: Diplomica Verlag
Schlagworte:
Spam-Filter, Software Entwicklung, Sigmoide Funktion, Neuron, Feedforward Netz




