Bachelor + Master Publishing
810 Bachelorarbeiten, 531 Masterarbeiten, 10.101 Diplomarbeiten

Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™

Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Gerald Marunde
  • Abgabedatum: November 2002
  • Umfang: 177 Seiten
  • Dateigröße: 1,4 MB
  • Note: 1,7
  • Institution / Hochschule: Universität Augsburg Deutschland
  • ISBN (eBook): 978-3-8324-6658-9
  • ISBN (Paperback) :
    978-3-8324-6658-9 P
  • ISBN (CD) :978-3-8324-6658-9 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Marunde, Gerald November 2002: Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™, Hamburg: Diplomica Verlag
  • Schlagworte: Suchmaschinen, Portale, Marktplätze, e-Procurement, Search Engine

Diplomarbeit von Gerald Marunde

Einleitung:

Mit dem Auffinden bzw. dem Nichtauffinden von Produkt- und Informationsinhalten steht und fällt die Akzeptanz von Portalen und elektronischen Beschaffungsplattformen. Suchmaschinen, die diese Aufgabe übernehmen, werden daher üblicherweise von kommerziellen Anbietern bzw. Open Source fremdbezogen. Die Auswahl und Integration einer geeigneten Suchmaschine bildet für Portalplattformen somit einen zentralen Erfolgsfaktor. Entscheider stehen daher vor der schwierigen Wahl einer geeigneten Suchtechnologie, durch welche sowohl die individuellen Anforderungen des Portals als auch die Erwartungen der Benutzer erfüllt werden.

Gang der Untersuchung:

Im Rahmen dieser Diplomarbeit werden Methoden zur Suche in Portalplattformen für elektronische Marktplätze (Commerce und Content) vorgestellt. Dabei soll im Hinblick auf die Integration einer Suchmaschine die Frage beantwortet werden, welche Anforderungen sich aus den portaltypischen Gegebenheiten und den verschiedenen Suchszenarien an eine geeignete Suchtechnologie ergeben. Dabei will diese Arbeit Antworten auf folgende Fragen geben:

- Welche Methoden zur Suche in Portalen existieren?

- Worin liegt der Nutzen dieser Technologien?

- Wie lässt sich dieser Nutzen messen?

- Wie charakterisieren sich portalspezifische Gegebenheiten und welche Suchszenarien gibt es?

- Durch welche Technologien werden diese Suchszenarien optimal unterstützt?

Im Rahmen der Arbeit wird ein Kriterienkatalog zur Beurteilung der technischen Eigenschaften von Suchmaschinen erarbeitet. Dieser Kriterienkatalogs soll es ermöglichen, die Zahl potenzieller Technologielieferanten systematisch einzugrenzen. Dabei wird auch das allgemeine Suchverhalten von Benutzern und deren Erwartungen an die Suchfunktionalität berücksichtigt. Die Empfehlungen orientieren sich folglich danach, welche Suchtechnologien den Benutzer in seinem Verhalten optimal unterstützen, und somit von praktischer Relevanz sind.

Für die Suche im Content-Modul der Portalplattform up2gate.com werden anhand des Kriterienkatalogs konkrete Eigenschaften für eine Suchtechnologie empfohlen. Diese Empfehlungen können bei entsprechender Schlussfolgerung auf andere Portalplattformen übertragen werden. Diese Arbeit kann somit Entscheidern als Hilfestellung dienen, bei der Auswahl einer geeigneten Suchtechnologie die richtige Wahl zu treffen.

Inhaltsverzeichnis:

Inhaltsverzeichnis I
Abbildungsverzeichnis V
Abkürzungsverzeichnis VII
1. Einleitung 1
1.1 Ziel der Arbeit 3
1.2 Praxispartner UP2GATE 3
1.3 Gang der Arbeit 4
2. Elektronische Marktplätze 7
2.1 Einführung und Definition 7
2.2 Die Transaktionsprozesse auf einem Marktplatz 8
2.3 Ausrichtungen 9
2.3.1 Markt-, vertriebs- und einkaufsorientierte Ausrichtung 9
2.3.2 Vertikale versus horizontale Ausrichtung 10
2.3.3 Offene versus geschlossene Ausrichtung 11
2.3.4 Vermittlungsmechanismen 11
2.3.5 Funktionalitäten 12
2.4 Abgrenzung des hier behandelten Marktplatztypen 13
2.5 Beispielhafte Architektur 15
2.6 Zusammenfassung 16
Teil I Analyse von Methoden zur Suche 17
3. Data Retrieval 18
3.1 Definitionen im Data Retrieval 18
3.2 Strukturierte Daten 19
3.2.1 Strukturierte Daten in XML-Dokumenten 19
3.2.2 Strukturierte Daten in Datenbanken 20
3.3 Zusammenfassung 21
4. Information Retrieval 22
4.1 Definitionen im Information Retrieval 22
4.2 Unstrukturierte Daten 23
4.2.1 Unstrukturierte Daten in Dokumenten 23
4.2.2 Unstrukturierte Daten in Datenbanken 24
4.3 Semi-strukturierte Daten 24
4.3.1 Semi-strukturierte Daten in Dokumenten 24
4.3.2 Semi-strukturierte Daten in Datenbanken 26
4.4 Typen von Information Retrieval 26
4.5 Zusammenfassung 28
5. Grundlagen zu Suchmaschinen 29
5.1 Einführung in die Suche durch Suchmaschinen 29
5.2 Der Suchprozess aus Sicht des Benutzers 31
5.2.1 Das Prozessmodell für Suche 31
5.2.2 Typen von Benutzern 33
5.2.3 Charakteristika von Benutzern 34
5.2.4 Typen von Suche 35
5.3 Der Suchprozess aus technischer Sicht 38
5.3.1 Technische Komponenten 38
5.3.2 Die menschliche Sprache: Herausforderung an die Technik 39
5.3.3 Die Bewertungskriterien 41
5.4 Zusammenfassung 42
6. Crawling 43
6.1 Der Crawler 43
6.2 Bewertungskriterien für den Crawler 44
6.3 Zusammenfassung 47
7. Index-Server 48
7.1 Die Notwendigkeit für einen Index 48
7.1.1 Sequentielle Suche 48
7.1.2 Index-basierte Suche 49
7.2 Index-Typen 49
7.2.1 Inverted File Structure 50
7.2.2 Signature Files 51
7.2.3 Bewertungskriterien für die Indexstruktur 52
7.3 Text Operations 53
7.3.1 Bewertungskriterien für obligatorische Text-Operations 54
7.3.2 Bewertungskriterien für optionale Text-Operations 55
7.4 Zusammenfassung 59
8. Query Server 60
8.1 Die Benutzerschnittstelle 60
8.1.1 Eingabemöglichkeiten 60
8.1.2 Ausgabe der Suchergebnisse 62
8.1.3 Berücksichtigung des Berechtigungskonzepts 64
8.1.4 Das Benutzersuchverhalten 65
8.2 Fuzzy-Suche 68
8.2.1 Definition und Notwendigkeit für Fuzzy-Suche 68
8.2.2 Eigenschaft von Fuzzy-Suche 69
8.2.3 Konventionelle Methoden zur Fuzzy-Suche 69
8.2.4 Fortschrittliche Methoden zur Fuzzy-Suche 70
8.2.5 Bewertungsmöglichkeiten für Fuzzy-Suche 73
8.2.6 Bewertung der verschiedenen Fuzzy-Methoden 75
8.3 Retrieval-Modelle von Query Servern 76
8.3.1 Ziele und Leistungsindizes eines Query Server 76
8.3.2 Die verschiedenen Retrieval-Modelle 81
8.4 Off-the-Page Ranking-Kriterien 92
8.5 Bewertung von Query Servern 93
8.5.1 Die Testumgebung 93
8.5.2 Verfügbarkeit von a priori Bewertungen 95
8.5.3 Kritik an a priori Bewertungen 96
8.5.4 Implikationen für die Bewertung von Query Servern 98
8.6 Zusammenfassung 100
Teil II Die Integration von Suche in Portalplattformen 101
9. Analyse der Portalplattform up2gate.com 102
9.1 Profiportal.com 103
9.2 Die Portal-Benutzer 103
9.3 Das Commerce-Modul 104
9.3.1 Der elektronische Produktkatalog 105
9.3.2 Die Produktklassifikationsstruktur 108
9.3.3 Produktsuche im elektronischen Katalog 109
9.3.4 Daten im Commerce-Modul 113
9.4 Das Content-Modul 114
9.4.1 Interner Content 114
9.4.2 Externer Content 115
9.4.3 Textsuche im Content-Modul 115
9.4.4 Daten im Content-Modul 116
9.5 Das Berechtigungskonzept 116
9.6 Die Ausgangslage bei UP2GATE 118
10. Szenariospezifische Handlungsempfehlungen 119
10.1 Qualitative Bestimmung eines Retrieval-Modells 119
10.1.1 Wirkungs-Modell der drei Einflussgrößen 120
10.1.2 Generelle Ausprägungen der Einflussgrößen 121
10.2 Analyse der Suchszenarien 122
10.2.1 Hierarchische Suche 123
10.2.2 Schlagwortsuche 123
10.2.3 Parametrische Suche 128
10.2.4 Commerce-Volltextsuche 129
10.2.5 Content-Textsuche 133
10.3 Zusammenfassung 137
11. Anforderungsprofil der Content-Textsuche 139
11.1 Muss-, KO- und Kann-Kriterien 139
11.2 Empfehlungen für den Query Server 140
11.2.1 Retrieval-Modell 140
11.2.2 Benutzerschnittstelle 144
11.3 Empfehlungen für den Index-Server 147
11.3.1 Beschaffenheit des Index 147
11.3.2 Text-Operations 148
11.4 Empfehlungen für den Crawler 150
11.5 Berücksichtigung von IT-Standards 153
11.6 Empfehlung für den Auswahlprozess 154
12. Fazit 156
Literaturverzeichnis 157
Erklärung zur Abgabe der Diplomarbeit 171

Automatisiert erstellter Textauszug:

Bezüglich des Benutzerverhaltens von Web-Usern sind die Studien von [SHMM1999], [SpXu2000] und [JSBS1998] hervorzuheben, die überdies zu übereinstimmenden Ergebnissen kommen. Da es sich dabei um in der Literatur vielfach zitierte Studien handelt, wird aufgrund des hohen Grads an Übereinstimmung das folgend beschriebene Verhalten als repräsentativ angesehen: Suchanfragen enthalten demnach wenige Suchbegriffe. Die oben genannten Studien kommen zu dem Ergebnis, dass eine durchschnittliche Suchanfrage im Web 2,35 Suchbegriffe enthält. Laut [SHMM1999 S.7 u. JSBS1998] enthalten ca. 30% der Anfragen lediglich einen Suchbegriff, ca. 60% 1-2 Suchbegriffe und ca. 80% enthalten ein, zwei oder drei Suchbegriffe. Der Anteil von Natural Language Queries wird dabei basierend auf den Daten von [SHMM1999] auf ca. 10% geschätzt [eTes2000]. Boolesche Operatoren (AND, OR, NOT, +, -) finden geringe Anwendung. Laut [JSBS1998] lediglich in 8% der Queries. Dabei sind sie durch hohe Fehleingaben gekennzeichnet [SpXu2000, S.4]. Am meisten werden die einfachen „+“ und „-“ Operatoren verwendet, bei deren Verwendung jedoch ebenfalls hohe Fehlerraten auftreten. Als allgemein gesichert gilt daher, dass untrainierte Endanwender große Schwierigkeiten haben, Boolesche Operatoren korrekt anzuwenden [Höls2000, S.196]. Phrasenoperatoren (Suchbegriffe in Anführungszeichen „“) werden in ca. 6% der Fälle benutzt, dabei formal korrekt [SpXu2000]. Bei der Betrachtung einer Informationssuche als zeitlich begrenzte Such-Session mit einer gewissen Anzahl an Suchanfragen wurde festgestellt, dass einer Suchanfrage selten weitere Anfragen folgen [SHMM1999, S.10]. Die durchschnittliche Anzahl an QueryFormulierungen pro Informationssuche variiert in den hier zu Grunde gelegten Studien von 1,6 bis 2, so dass Benutzer tendenziell lediglich einen weiteren Versuch unternehmen, um durch Variation der ersten Anfrage bessere Ergebnisse zu bekommen. Zum Teil wird auf eine Reformulierung gänzlich verzichtet. Was die Trefferlisten der Ergebnisseite betrifft, so sichten 85,5% der Benutzer lediglich die erste Ergebnisseite [SHMM1999, S.17] - kaum ein Benutzer ruft Treffer über die zweite Ergebnisseite hinaus auf. Benutzer neigen ferner dazu, den persönlichen Wert einer Webseite anhand der Suchergebnisse einiger weniger durchgeführter Suchen zu beurteilen [Niel2001]. Besonders negative Beurteilungen verursachen dabei sogenannte No-Items-found Seiten, also Suchen die ohne jegliche Ergebnisse blieben. Solche Seiten werden vom Benutzer als Versagen des gesamten Suchsystems bewertet. [...]

Im Folgenden wird auf das in der Praxis festgestellte Benutzerverhalten bei der Interaktion mit Suchmaschinen eingegangen. Dabei soll untersucht werden, wie die Benutzer elektronischer Marktplätze voraussichtlich ihre konkreten Suchanfragen formulieren werden. Das Wissen über die Beschaffenheit der zu erwartenden Suchanfragen kann aus der Auswertung der Log-Files von Suchmaschinen gewonnen werden. Studien über das Benutzerverhalten werden von kommerziellen Suchtechnologieanbietern jedoch nicht veröffentlicht. Dafür sind zum Benutzerverhalten von Web-Usern ausführliche Studien veröffentlicht worden, bei denen festgestellt wurde, dass die durchgeführten Log-FileAnalysen primär das Verhalten wenig erfahrener Web-User zu erfassen scheinen [Höls2000, S.27]. Da die Benutzer elektronischer Marktplätze als Novice-User eingeschätzt werden, siehe Kapitel 5.2.2, erscheint es plausibel, die Suchgewohnheiten durchschnittlicher WebUsers auch auf elektronischen Marktplätzen zu unterstellen. [...]

entsprechenden Benutzerrechte zulassen. Diese Funktion übernimmt ein zwischen QueryServer und Web-Server geschalteter Security Manager [Alta2002]. Durch Prüfung der Benutzerrechte auf Index-Ebene kann der Suchbereich des Benutzers vorab auf festgelegte Indizes begrenzt werden. Benutzer bekommen so vom Portal-Administrator autorisierte Indizes zugeordnet, z.B. die Indizes der Extranets von Firmen A und B jedoch nicht von Firma C. Auf Index-Ebene findet so eine performante Grobfilterung statt. Eine zusätzliche Möglichkeit stellt die Überprüfung der Benutzerrechte auf Dokumentenebene zur Zeit der Suchanfrage dar. Voraussetzung dafür ist, dass jedem Dokument verschiedenen Berechtigungsgruppen zugewiesen werden. Dabei werden die Suchergebnisse mit den Berechtigungsgruppen des Benutzers verglichen und abhängig von den Benutzerrechten gefiltert. Auf eine Suchanfrage werden so nur die Dokumente angezeigt, für die der Benutzer über die entsprechende Berechtigung verfügt. Diese Filterung ist feiner, beansprucht jedoch mehr Rechenzeit, da für jeden Suchtreffer die Berechtigungen überprüft werden müssen. Eine anspruchsvoller Security Manager sollte daher sowohl die Prüfung der Benutzerrechte auf Index-Ebene als auch auf Dokumentenebene ermöglichen. [...]

Arbeit zitieren:
Marunde, Gerald November 2002: Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™, Hamburg: Diplomica Verlag

Schlagworte:
Suchmaschinen, Portale, Marktplätze, e-Procurement, Search Engine

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren