Bachelor + Master Publishing
810 Bachelorarbeiten, 531 Masterarbeiten, 10.101 Diplomarbeiten

Ähnlichkeitssuche in der "Lost Art Internet Database"

Ähnlichkeitssuche in der "Lost Art Internet Database"
Über dieses Buch
  • Art: Bachelorarbeit
  • Autor: Christian Urban
  • Abgabedatum: März 2003
  • Umfang: 49 Seiten
  • Dateigröße: 517,2 KB
  • Note: 1,7
  • Institution / Hochschule: Otto-von-Guericke-Universität Magdeburg Deutschland
  • ISBN (eBook): 978-3-8324-7786-8
  • ISBN (Paperback) :
    978-3-8324-7786-8 P
  • ISBN (CD) :978-3-8324-7786-8 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Urban, Christian März 2003: Ähnlichkeitssuche in der "Lost Art Internet Database", Hamburg: Diplomica Verlag
  • Schlagworte: Segmentierung, Softwareentwicklung, Java, Bildretrieval, Datenbank

Bachelorarbeit von Christian Urban

Einleitung:

Das Ziel dieses Praktikums ist es, unter Berücksichtigung der Phasen der Softwareentwicklung, eine Webanwendung zur effizienten Recherche in der Lost Art Internet Datenbank zu entwerfen und einzelne Module zu implementieren. Die Webanwendung soll den vollständigen Rechercheprozess, angefangen von der Vorverarbeitung der Daten bis hin zur Repräsentation der Ergebnisse unterstützen. Auch für bereits existierende Abbildungen muss die Möglichkeit bestehen diverse Feature (z.B. Farbe oder Textur) zu extrahierten und diese in einer Datenbank abzulegen. Der Nutzer soll die Möglichkeit bekommen die Ähnlichkeitssuche, die Suche nach Objekten und die textbasierte Suche einzeln oder in Kombination einzusetzen.

Das heißt das System muss in der Lage sein auch komplexe Nutzeranfragen zu bearbeiten, die aus mehreren Anfragetermen zusammengesetzt sind. Aufgrund dieser Anforderungen ist ein wesentlicher Bestandteil der Arbeit die Vorverarbeitung der Daten und die dazu gehörende Entwicklung von Programmmodulen zur Bildsegmentierung, Verschlagwortung, Featureextraktion und Bestimmung der Lagebeziehungen.

Da vollautomatische Objekterkennungssysteme, die z.B. mit dem Split and Merge Algorithmus arbeiten, nicht immer die gewünschten Ergebnisse liefern und das manuelle Nachzeichnen von Objektkanten ungenau und sehr zeitintensiv ist, soll ein semiautomatisches Segmentierungstool entwickelt werden, das den Benutzer bei dieser Aufgabe unterstützt. Ein weiterer wichtiger Aspekt ist die Entwicklung eines Recherchesystems mit den entsprechenden Schnittstellen zur Integration der Programmkomponenten. Am Ende des Rechercheprozesses sollen dem Nutzer die Abbildungen, die eine Ähnlichkeit von beispielsweise 90 Prozent aufweisen, in entsprechender Reihenfolge präsentiert werden.

Um in das Lost Art Projekt integriert werden zukönnen muss das zu entwickelnde System als Webanwendung z.B. mit Hilfe von Servlets, JSP, Applets, PHP oder CGI implementieren werden. Der Systemaufbau soll dabei mit Hilfe von Modulen erfolgen und somit flexibel erweiterbar sein. Weiterhin muss das existierende Datenbankschema an die neuen Anforderungen angepasst oder weiterentwickelt werden. Bei der Umsetzung von Datenbankoperationen ist zu berücksichtigen, dass die Datenbanksoftware Oracle 8i zum Einsatz kommt.

Im zweiten Kapitel dieser Studienarbeit werden bereits existierende Bild-Retrievalsysteme vorgestellt und ihre Suchkriterien verglichen, wobei besonders die Wahl der eingesetzten Features eine entscheidende Rolle spielt. Die bei der Implementierung der Webanwendung und Programmmodule eingesetzten Techniken der Bildsegmentierung und Ähnlichkeitssuche werden im Kapitel Grundlagen näher erläutert. Der Schwerpunkt wird dabei auf den im Vorverarbeitungsmodul eingesetzten Live Wire Algorithmus und die Ermittlung der Distanz zweier Abbildungen gelegt.

Das vierte Kapitel beschreibt die Entwicklung der Datenbank vom konzeptionellen bis hin zum logischen Entwurf, außerdem wird der Entwurf der einzelnen Programmteile, des Vorverarbeitungssystems und des Retrievalsystems dargestellt. Die Implementierungen des Segmentierungstools, des Retrievalsystems und der Datenbank werden im fünften Kapitel beschrieben. Dazu steht im Abschnitt 5.2 die Auswahl der eingesetzten Skript und Programmiersprachen im Mittelpunkt. Abschließend erfolgt eine Zusammenfassung der Arbeit mit einem kurzen Ausblick auf mögliche Veränderungen und Erweiterungen. Die in der Entwurfsphase entstandenen Modelle, Tabellen und Diagramme sind im Anhang zu finden.

Inhaltsverzeichnis:

Abkürzungsverzeichnis III
Abbildungsverzeichnis IV
Tabellenverzeichnis V
1. Einleitung und Motivation 1
1.1 Zielstellung der Arbeit 2
1.2 Gliederung der Arbeit 3
2. Verwandte Arbeiten 4
2.1 CHARIOT - ETH Zürich 4
2.2 MARS - University of California, Irvine 5
2.3 Blobworld - University of California, Berkley 5
2.4 QBIC – IBM 6
2.5 Viper - University of Geneva 6
2.6 Image Rover - Boston University 7
2.7 Oracle Visual Information Retrieval Cartridge 8
2.8 Zusammenfassung 8
3. Grundlagen 10
3.1 Segmentierung von Abbildungen 10
3.2 Ähnlichkeitssuche 11
4. Entwurf eines Retrievalsystems für Lostart 14
4.1 Datenbankentwurf 15
4.2 Entwurf des Vorverarbeitungssystems 17
4.3 Entwurf des Retrievalsystems 19
4.3.1 Textbasierte Suche 19
4.3.2 Ähnlichkeitssuche 19
4.3.3 Iconisierte Suche 20
5. Implementierung 21
5.1 Implementierung der Datenbank 21
5.2 Auswahl der Programmiersprachen 22
5.3 Implementierung des Vorverarbeitungssystems 24
5.4 Implementierung des Retrievalsystems 26
6. Zusammenfassung und Ausblick 30
Literaturverzeichnis 32
Anhang
A ER-Modell 36
B Beschreibung der Entities und Attribute 37
C Aktivitätsdiagramm Modul Vorverarbeitung 38
D Aktivitätsdiagramm Modul Retrieval und Ergebnisdarstellung 39
E Klassendiagramm Vorverarbeitungssystem 40
F Komponentendiagramm Retrieval und Ergebnisdarstellung 41

Automatisiert erstellter Textauszug:

Das zu entwickelnde Retrievalsystem soll bereits in der Lost Art Internet Datenbank existierende, sowie neue Abbildungen in den Rechercheprozess einbinden. Um dieses Ziel zu erreichen, ist es notwendig verschiedene in Kapitel 2 vorgestellte Methoden der inhaltsbasierten Suche einzusetzen. Wie auch in anderen Retrievalsystemen sollte hier die Extraktion und Speicherung von Basisfeature, wie Farbe und Textur eine entscheidende Rolle spielen. Ein weiterer wichtiger Punkt ist die Realisierung einer effizienten Objekterkennung, um die Ergebnisse weiter zu verbessern. Im QBIC-System wurde gezeigt, dass auch eine Suche über die räumlichen Lagebeziehungen von Objekten gute Resultate liefern kann. Außerdem können die vorhandenen textuellen Informationen mit in den Retrievalprozess integriert werden. Die Featureextraktion der Abbildungen soll automatisch erfolgen, dabei ist zu beachten, dass bei neuen Abbildungen dieselben Features extrahiert werden wie bei den bereits existierenden Bildern. Das System soll so aufgebaut sein, dass eine flexible Erweiterung der Featureextraktion und -speicherung möglich ist. Da das zu entwickelnde Retrievalsystem ähnlich dem Blobworld oder Viper Projekt die Suche über Objekte unterstützen soll, ist es notwendig ein spezielles Programmmodul zur Segmentierung zu entwickeln. Wie im Kapitel 2 vorgestellt, haben sich regionenbasierte Verfahren als sehr ungenau herausgestellt, deshalb wird eine kantenbasierte Methode eingesetzt. Zusätzlich kann eine Verschlagwortung der Objekte die Suche erleichtern. Um eine Vorverarbeitung der Abbildungen zu gewährleisten, muss das Segmentierungstool unabhängig vom Retrievalsystem arbeiten. Es soll in der Lage sein Abbildungen semiautomatisch zu segmentieren, die Lagebeziehungen und Schlagworte von Objekten zu ermitteln und diese Informationen zu speichern. Für das Retrievalsystem muss ein weiteres Programm entwickelt werden, das die Suche über Schlagwörter und Lagebeziehungen unterstützt. Das Retrievalsystem selbst sollte eine Suche über alle genannten Bildattribute gewährleisten und dem Nutzer die Ergebnisse repräsentieren. Abbildung 8 zeigt die Grobarchitektur dieses Entwurfs. [...]

Diese Feature werden dann zur Ermöglichung von NN-Anfragen in einer mehrdimensionalen Indexstruktur (z.B. R-Baum, R*-Baum, X-Baum, TV-Baum, etc.) gespeichert. Allerdings ist dabei zu beachten, dass bei der Wahl einer ungeeigneten Indexstruktur oder hoher Dimensionalität die Retrievalzeit stark im Verhältnis zur Anzahl der Dimensionen ansteigt. Es ist deshalb unter Umständen notwendig zum Beispiel mit Hilfe der Diskreten Fourier Transformation (DFT) die Dimensionalität der Featurevektoren zu reduzieren [YuMe98], um die Suche zu beschleunigen. Anschließend können über die Distanz (Abstandsmaß) mit Hilfe der NN-Suche die ähnlichsten Abbildungen ermittelt werden [Schm01]. Die Wahl der verwendeten Distanz- bzw. Ähnlichkeitsfunktion ist dabei abhängig von den verwendeten Features. Mögliche Funktionen sind z.B.: • • • Lm-Distanz, Mahalanobis-Distanz und Kosinusmaß. [...]

und bildet somit die Grundlage für das entwickelte Segmentierungstool. Kanten liefern wichtige Informationen über die Umrisse und die Form von Objekten in einem Bild. Allerdings gibt es bis heute keine Algorithmen, die vollautomatisch die korrekten Objektkanten in einem Bild ermitteln [Schm01]. Sich überdeckende Objekte sind aus diesem Grund schwierig zu segmentieren, besonders wenn sie sich bezüglich ihrer Feature wenig unterscheiden. Um dieses Problem zu lösen, wird als Hilfe ein Kantendetektor eingesetzt, welcher als Vorraussetzung ein Grauwertbild benötigt [Lüni99]. Im Segmentierungstool soll daher der Live-Wire Algorithmus (Intelligent Scissors) als Kantendetektor integriert werden, weil er sich bei der Bildverarbeitung im medizinischen Sektor bereits bewährt hat [Weis99]. Der Algorithmus wurde 1992 erstmals vorgestellt und gehört zur Klasse der Graphenalgorithmen, welche das Auffinden eines Objektrandes (Kante) als Suche eines optimalen Pfades in einem Graphen definieren. Da ein optimaler Pfad dem Rand eines Objektes folgen soll, müssen den Kanten des Graphen niedrige Kosten zugewiesen werden. Zur Kostenberechnung werden verschiedene Funktionen (Filter) herangezogen [Wepf97]. Die lokalen Kosten l der gerichteten Kante von p nach q werden dabei wie folgt berechnet [Weis99]: l ( p, q ) = w1 * f1 (q ) + ... + w2 * f n (q ) + w3 * f n +1 ( p, q ) Dabei sind folgende Eigenschaften der Kostenfunktion zu beachten: • • • fi .. sind Kostenfunktionen (Filter) z.B.: Laplace- Operator, Sobel- Operator oder Funktionen für die Gradientenrichtung wi .. sind Wichtungen der einzelnen Funktionen ∑ wi = 1 [...]

Arbeit zitieren:
Urban, Christian März 2003: Ähnlichkeitssuche in der "Lost Art Internet Database", Hamburg: Diplomica Verlag

Schlagworte:
Segmentierung, Softwareentwicklung, Java, Bildretrieval, Datenbank

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren