Ähnlichkeitssuche in der "Lost Art Internet Database"
- Art: Bachelorarbeit
- Autor: Christian Urban
- Abgabedatum: März 2003
- Umfang: 49 Seiten
- Dateigröße: 517,2 KB
- Note: 1,7
- Institution / Hochschule: Otto-von-Guericke-Universität Magdeburg Deutschland
- ISBN (eBook): 978-3-8324-7786-8
-
ISBN (Paperback) :
978-3-8324-7786-8 P - ISBN (CD) :978-3-8324-7786-8 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Urban, Christian März 2003: Ähnlichkeitssuche in der "Lost Art Internet Database", Hamburg: Diplomica Verlag
- Schlagworte: Segmentierung, Softwareentwicklung, Java, Bildretrieval, Datenbank
In den Warenkorb
74,00 €
Bachelorarbeit von Christian Urban
Einleitung:
Das Ziel dieses Praktikums ist es, unter Berücksichtigung der Phasen der Softwareentwicklung, eine Webanwendung zur effizienten Recherche in der Lost Art Internet Datenbank zu entwerfen und einzelne Module zu implementieren. Die Webanwendung soll den vollständigen Rechercheprozess, angefangen von der Vorverarbeitung der Daten bis hin zur Repräsentation der Ergebnisse unterstützen. Auch für bereits existierende Abbildungen muss die Möglichkeit bestehen diverse Feature (z.B. Farbe oder Textur) zu extrahierten und diese in einer Datenbank abzulegen. Der Nutzer soll die Möglichkeit bekommen die Ähnlichkeitssuche, die Suche nach Objekten und die textbasierte Suche einzeln oder in Kombination einzusetzen.
Das heißt das System muss in der Lage sein auch komplexe Nutzeranfragen zu bearbeiten, die aus mehreren Anfragetermen zusammengesetzt sind. Aufgrund dieser Anforderungen ist ein wesentlicher Bestandteil der Arbeit die Vorverarbeitung der Daten und die dazu gehörende Entwicklung von Programmmodulen zur Bildsegmentierung, Verschlagwortung, Featureextraktion und Bestimmung der Lagebeziehungen.
Da vollautomatische Objekterkennungssysteme, die z.B. mit dem Split and Merge Algorithmus arbeiten, nicht immer die gewünschten Ergebnisse liefern und das manuelle Nachzeichnen von Objektkanten ungenau und sehr zeitintensiv ist, soll ein semiautomatisches Segmentierungstool entwickelt werden, das den Benutzer bei dieser Aufgabe unterstützt. Ein weiterer wichtiger Aspekt ist die Entwicklung eines Recherchesystems mit den entsprechenden Schnittstellen zur Integration der Programmkomponenten. Am Ende des Rechercheprozesses sollen dem Nutzer die Abbildungen, die eine Ähnlichkeit von beispielsweise 90 Prozent aufweisen, in entsprechender Reihenfolge präsentiert werden.
Um in das Lost Art Projekt integriert werden zukönnen muss das zu entwickelnde System als Webanwendung z.B. mit Hilfe von Servlets, JSP, Applets, PHP oder CGI implementieren werden. Der Systemaufbau soll dabei mit Hilfe von Modulen erfolgen und somit flexibel erweiterbar sein. Weiterhin muss das existierende Datenbankschema an die neuen Anforderungen angepasst oder weiterentwickelt werden. Bei der Umsetzung von Datenbankoperationen ist zu berücksichtigen, dass die Datenbanksoftware Oracle 8i zum Einsatz kommt.
Im zweiten Kapitel dieser Studienarbeit werden bereits existierende Bild-Retrievalsysteme vorgestellt und ihre Suchkriterien verglichen, wobei besonders die Wahl der eingesetzten Features eine entscheidende Rolle spielt. Die bei der Implementierung der Webanwendung und Programmmodule eingesetzten Techniken der Bildsegmentierung und Ähnlichkeitssuche werden im Kapitel Grundlagen näher erläutert. Der Schwerpunkt wird dabei auf den im Vorverarbeitungsmodul eingesetzten Live Wire Algorithmus und die Ermittlung der Distanz zweier Abbildungen gelegt.
Das vierte Kapitel beschreibt die Entwicklung der Datenbank vom konzeptionellen bis hin zum logischen Entwurf, außerdem wird der Entwurf der einzelnen Programmteile, des Vorverarbeitungssystems und des Retrievalsystems dargestellt. Die Implementierungen des Segmentierungstools, des Retrievalsystems und der Datenbank werden im fünften Kapitel beschrieben. Dazu steht im Abschnitt 5.2 die Auswahl der eingesetzten Skript und Programmiersprachen im Mittelpunkt. Abschließend erfolgt eine Zusammenfassung der Arbeit mit einem kurzen Ausblick auf mögliche Veränderungen und Erweiterungen. Die in der Entwurfsphase entstandenen Modelle, Tabellen und Diagramme sind im Anhang zu finden.
Inhaltsverzeichnis:
| Abkürzungsverzeichnis | III | |
| Abbildungsverzeichnis | IV | |
| Tabellenverzeichnis | V | |
| 1. | Einleitung und Motivation | 1 |
| 1.1 | Zielstellung der Arbeit | 2 |
| 1.2 | Gliederung der Arbeit | 3 |
| 2. | Verwandte Arbeiten | 4 |
| 2.1 | CHARIOT - ETH Zürich | 4 |
| 2.2 | MARS - University of California, Irvine | 5 |
| 2.3 | Blobworld - University of California, Berkley | 5 |
| 2.4 | QBIC – IBM | 6 |
| 2.5 | Viper - University of Geneva | 6 |
| 2.6 | Image Rover - Boston University | 7 |
| 2.7 | Oracle Visual Information Retrieval Cartridge | 8 |
| 2.8 | Zusammenfassung | 8 |
| 3. | Grundlagen | 10 |
| 3.1 | Segmentierung von Abbildungen | 10 |
| 3.2 | Ähnlichkeitssuche | 11 |
| 4. | Entwurf eines Retrievalsystems für Lostart | 14 |
| 4.1 | Datenbankentwurf | 15 |
| 4.2 | Entwurf des Vorverarbeitungssystems | 17 |
| 4.3 | Entwurf des Retrievalsystems | 19 |
| 4.3.1 | Textbasierte Suche | 19 |
| 4.3.2 | Ähnlichkeitssuche | 19 |
| 4.3.3 | Iconisierte Suche | 20 |
| 5. | Implementierung | 21 |
| 5.1 | Implementierung der Datenbank | 21 |
| 5.2 | Auswahl der Programmiersprachen | 22 |
| 5.3 | Implementierung des Vorverarbeitungssystems | 24 |
| 5.4 | Implementierung des Retrievalsystems | 26 |
| 6. | Zusammenfassung und Ausblick | 30 |
| Literaturverzeichnis | 32 | |
| Anhang | ||
| A | ER-Modell | 36 |
| B | Beschreibung der Entities und Attribute | 37 |
| C | Aktivitätsdiagramm Modul Vorverarbeitung | 38 |
| D | Aktivitätsdiagramm Modul Retrieval und Ergebnisdarstellung | 39 |
| E | Klassendiagramm Vorverarbeitungssystem | 40 |
| F | Komponentendiagramm Retrieval und Ergebnisdarstellung | 41 |
Das zu entwickelnde Retrievalsystem soll bereits in der Lost Art Internet Datenbank existierende, sowie neue Abbildungen in den Rechercheprozess einbinden. Um dieses Ziel zu erreichen, ist es notwendig verschiedene in Kapitel 2 vorgestellte Methoden der inhaltsbasierten Suche einzusetzen. Wie auch in anderen Retrievalsystemen sollte hier die Extraktion und Speicherung von Basisfeature, wie Farbe und Textur eine entscheidende Rolle spielen. Ein weiterer wichtiger Punkt ist die Realisierung einer effizienten Objekterkennung, um die Ergebnisse weiter zu verbessern. Im QBIC-System wurde gezeigt, dass auch eine Suche über die räumlichen Lagebeziehungen von Objekten gute Resultate liefern kann. Außerdem können die vorhandenen textuellen Informationen mit in den Retrievalprozess integriert werden. Die Featureextraktion der Abbildungen soll automatisch erfolgen, dabei ist zu beachten, dass bei neuen Abbildungen dieselben Features extrahiert werden wie bei den bereits existierenden Bildern. Das System soll so aufgebaut sein, dass eine flexible Erweiterung der Featureextraktion und -speicherung möglich ist. Da das zu entwickelnde Retrievalsystem ähnlich dem Blobworld oder Viper Projekt die Suche über Objekte unterstützen soll, ist es notwendig ein spezielles Programmmodul zur Segmentierung zu entwickeln. Wie im Kapitel 2 vorgestellt, haben sich regionenbasierte Verfahren als sehr ungenau herausgestellt, deshalb wird eine kantenbasierte Methode eingesetzt. Zusätzlich kann eine Verschlagwortung der Objekte die Suche erleichtern. Um eine Vorverarbeitung der Abbildungen zu gewährleisten, muss das Segmentierungstool unabhängig vom Retrievalsystem arbeiten. Es soll in der Lage sein Abbildungen semiautomatisch zu segmentieren, die Lagebeziehungen und Schlagworte von Objekten zu ermitteln und diese Informationen zu speichern. Für das Retrievalsystem muss ein weiteres Programm entwickelt werden, das die Suche über Schlagwörter und Lagebeziehungen unterstützt. Das Retrievalsystem selbst sollte eine Suche über alle genannten Bildattribute gewährleisten und dem Nutzer die Ergebnisse repräsentieren. Abbildung 8 zeigt die Grobarchitektur dieses Entwurfs. [...]
Diese Feature werden dann zur Ermöglichung von NN-Anfragen in einer mehrdimensionalen Indexstruktur (z.B. R-Baum, R*-Baum, X-Baum, TV-Baum, etc.) gespeichert. Allerdings ist dabei zu beachten, dass bei der Wahl einer ungeeigneten Indexstruktur oder hoher Dimensionalität die Retrievalzeit stark im Verhältnis zur Anzahl der Dimensionen ansteigt. Es ist deshalb unter Umständen notwendig zum Beispiel mit Hilfe der Diskreten Fourier Transformation (DFT) die Dimensionalität der Featurevektoren zu reduzieren [YuMe98], um die Suche zu beschleunigen. Anschließend können über die Distanz (Abstandsmaß) mit Hilfe der NN-Suche die ähnlichsten Abbildungen ermittelt werden [Schm01]. Die Wahl der verwendeten Distanz- bzw. Ähnlichkeitsfunktion ist dabei abhängig von den verwendeten Features. Mögliche Funktionen sind z.B.: • • • Lm-Distanz, Mahalanobis-Distanz und Kosinusmaß. [...]
und bildet somit die Grundlage für das entwickelte Segmentierungstool. Kanten liefern wichtige Informationen über die Umrisse und die Form von Objekten in einem Bild. Allerdings gibt es bis heute keine Algorithmen, die vollautomatisch die korrekten Objektkanten in einem Bild ermitteln [Schm01]. Sich überdeckende Objekte sind aus diesem Grund schwierig zu segmentieren, besonders wenn sie sich bezüglich ihrer Feature wenig unterscheiden. Um dieses Problem zu lösen, wird als Hilfe ein Kantendetektor eingesetzt, welcher als Vorraussetzung ein Grauwertbild benötigt [Lüni99]. Im Segmentierungstool soll daher der Live-Wire Algorithmus (Intelligent Scissors) als Kantendetektor integriert werden, weil er sich bei der Bildverarbeitung im medizinischen Sektor bereits bewährt hat [Weis99]. Der Algorithmus wurde 1992 erstmals vorgestellt und gehört zur Klasse der Graphenalgorithmen, welche das Auffinden eines Objektrandes (Kante) als Suche eines optimalen Pfades in einem Graphen definieren. Da ein optimaler Pfad dem Rand eines Objektes folgen soll, müssen den Kanten des Graphen niedrige Kosten zugewiesen werden. Zur Kostenberechnung werden verschiedene Funktionen (Filter) herangezogen [Wepf97]. Die lokalen Kosten l der gerichteten Kante von p nach q werden dabei wie folgt berechnet [Weis99]: l ( p, q ) = w1 * f1 (q ) + ... + w2 * f n (q ) + w3 * f n +1 ( p, q ) Dabei sind folgende Eigenschaften der Kostenfunktion zu beachten: • • • fi .. sind Kostenfunktionen (Filter) z.B.: Laplace- Operator, Sobel- Operator oder Funktionen für die Gradientenrichtung wi .. sind Wichtungen der einzelnen Funktionen ∑ wi = 1 [...]
In den Warenkorb
74,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832477868
Arbeit zitieren:
Urban, Christian März 2003: Ähnlichkeitssuche in der "Lost Art Internet Database", Hamburg: Diplomica Verlag
Schlagworte:
Segmentierung, Softwareentwicklung, Java, Bildretrieval, Datenbank



