Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™
- Art: Diplomarbeit
- Autor: Gerald Marunde
- Abgabedatum: November 2002
- Umfang: 177 Seiten
- Dateigröße: 1,4 MB
- Note: 1,7
- Institution / Hochschule: Universität Augsburg Deutschland
- ISBN (eBook): 978-3-8324-6658-9
-
ISBN (Paperback) :
978-3-8324-6658-9 P - ISBN (CD) :978-3-8324-6658-9 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Marunde, Gerald November 2002: Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™, Hamburg: Diplomica Verlag
- Schlagworte: Suchmaschinen, Portale, Marktplätze, e-Procurement, Search Engine
In den Warenkorb
68,00 €
Diplomarbeit von Gerald Marunde
Einleitung:
Mit dem Auffinden bzw. dem Nichtauffinden von Produkt- und Informationsinhalten steht und fällt die Akzeptanz von Portalen und elektronischen Beschaffungsplattformen. Suchmaschinen, die diese Aufgabe übernehmen, werden daher üblicherweise von kommerziellen Anbietern bzw. Open Source fremdbezogen. Die Auswahl und Integration einer geeigneten Suchmaschine bildet für Portalplattformen somit einen zentralen Erfolgsfaktor. Entscheider stehen daher vor der schwierigen Wahl einer geeigneten Suchtechnologie, durch welche sowohl die individuellen Anforderungen des Portals als auch die Erwartungen der Benutzer erfüllt werden.
Gang der Untersuchung:
Im Rahmen dieser Diplomarbeit werden Methoden zur Suche in Portalplattformen für elektronische Marktplätze (Commerce und Content) vorgestellt. Dabei soll im Hinblick auf die Integration einer Suchmaschine die Frage beantwortet werden, welche Anforderungen sich aus den portaltypischen Gegebenheiten und den verschiedenen Suchszenarien an eine geeignete Suchtechnologie ergeben. Dabei will diese Arbeit Antworten auf folgende Fragen geben:
- Welche Methoden zur Suche in Portalen existieren?
- Worin liegt der Nutzen dieser Technologien?
- Wie lässt sich dieser Nutzen messen?
- Wie charakterisieren sich portalspezifische Gegebenheiten und welche Suchszenarien gibt es?
- Durch welche Technologien werden diese Suchszenarien optimal unterstützt?
Im Rahmen der Arbeit wird ein Kriterienkatalog zur Beurteilung der technischen Eigenschaften von Suchmaschinen erarbeitet. Dieser Kriterienkatalogs soll es ermöglichen, die Zahl potenzieller Technologielieferanten systematisch einzugrenzen. Dabei wird auch das allgemeine Suchverhalten von Benutzern und deren Erwartungen an die Suchfunktionalität berücksichtigt. Die Empfehlungen orientieren sich folglich danach, welche Suchtechnologien den Benutzer in seinem Verhalten optimal unterstützen, und somit von praktischer Relevanz sind.
Für die Suche im Content-Modul der Portalplattform up2gate.com werden anhand des Kriterienkatalogs konkrete Eigenschaften für eine Suchtechnologie empfohlen. Diese Empfehlungen können bei entsprechender Schlussfolgerung auf andere Portalplattformen übertragen werden. Diese Arbeit kann somit Entscheidern als Hilfestellung dienen, bei der Auswahl einer geeigneten Suchtechnologie die richtige Wahl zu treffen.
Inhaltsverzeichnis:
| Inhaltsverzeichnis | I | |
| Abbildungsverzeichnis | V | |
| Abkürzungsverzeichnis | VII | |
| 1. | Einleitung | 1 |
| 1.1 | Ziel der Arbeit | 3 |
| 1.2 | Praxispartner UP2GATE | 3 |
| 1.3 | Gang der Arbeit | 4 |
| 2. | Elektronische Marktplätze | 7 |
| 2.1 | Einführung und Definition | 7 |
| 2.2 | Die Transaktionsprozesse auf einem Marktplatz | 8 |
| 2.3 | Ausrichtungen | 9 |
| 2.3.1 | Markt-, vertriebs- und einkaufsorientierte Ausrichtung | 9 |
| 2.3.2 | Vertikale versus horizontale Ausrichtung | 10 |
| 2.3.3 | Offene versus geschlossene Ausrichtung | 11 |
| 2.3.4 | Vermittlungsmechanismen | 11 |
| 2.3.5 | Funktionalitäten | 12 |
| 2.4 | Abgrenzung des hier behandelten Marktplatztypen | 13 |
| 2.5 | Beispielhafte Architektur | 15 |
| 2.6 | Zusammenfassung | 16 |
| Teil I | Analyse von Methoden zur Suche | 17 |
| 3. | Data Retrieval | 18 |
| 3.1 | Definitionen im Data Retrieval | 18 |
| 3.2 | Strukturierte Daten | 19 |
| 3.2.1 | Strukturierte Daten in XML-Dokumenten | 19 |
| 3.2.2 | Strukturierte Daten in Datenbanken | 20 |
| 3.3 | Zusammenfassung | 21 |
| 4. | Information Retrieval | 22 |
| 4.1 | Definitionen im Information Retrieval | 22 |
| 4.2 | Unstrukturierte Daten | 23 |
| 4.2.1 | Unstrukturierte Daten in Dokumenten | 23 |
| 4.2.2 | Unstrukturierte Daten in Datenbanken | 24 |
| 4.3 | Semi-strukturierte Daten | 24 |
| 4.3.1 | Semi-strukturierte Daten in Dokumenten | 24 |
| 4.3.2 | Semi-strukturierte Daten in Datenbanken | 26 |
| 4.4 | Typen von Information Retrieval | 26 |
| 4.5 | Zusammenfassung | 28 |
| 5. | Grundlagen zu Suchmaschinen | 29 |
| 5.1 | Einführung in die Suche durch Suchmaschinen | 29 |
| 5.2 | Der Suchprozess aus Sicht des Benutzers | 31 |
| 5.2.1 | Das Prozessmodell für Suche | 31 |
| 5.2.2 | Typen von Benutzern | 33 |
| 5.2.3 | Charakteristika von Benutzern | 34 |
| 5.2.4 | Typen von Suche | 35 |
| 5.3 | Der Suchprozess aus technischer Sicht | 38 |
| 5.3.1 | Technische Komponenten | 38 |
| 5.3.2 | Die menschliche Sprache: Herausforderung an die Technik | 39 |
| 5.3.3 | Die Bewertungskriterien | 41 |
| 5.4 | Zusammenfassung | 42 |
| 6. | Crawling | 43 |
| 6.1 | Der Crawler | 43 |
| 6.2 | Bewertungskriterien für den Crawler | 44 |
| 6.3 | Zusammenfassung | 47 |
| 7. | Index-Server | 48 |
| 7.1 | Die Notwendigkeit für einen Index | 48 |
| 7.1.1 | Sequentielle Suche | 48 |
| 7.1.2 | Index-basierte Suche | 49 |
| 7.2 | Index-Typen | 49 |
| 7.2.1 | Inverted File Structure | 50 |
| 7.2.2 | Signature Files | 51 |
| 7.2.3 | Bewertungskriterien für die Indexstruktur | 52 |
| 7.3 | Text Operations | 53 |
| 7.3.1 | Bewertungskriterien für obligatorische Text-Operations | 54 |
| 7.3.2 | Bewertungskriterien für optionale Text-Operations | 55 |
| 7.4 | Zusammenfassung | 59 |
| 8. | Query Server | 60 |
| 8.1 | Die Benutzerschnittstelle | 60 |
| 8.1.1 | Eingabemöglichkeiten | 60 |
| 8.1.2 | Ausgabe der Suchergebnisse | 62 |
| 8.1.3 | Berücksichtigung des Berechtigungskonzepts | 64 |
| 8.1.4 | Das Benutzersuchverhalten | 65 |
| 8.2 | Fuzzy-Suche | 68 |
| 8.2.1 | Definition und Notwendigkeit für Fuzzy-Suche | 68 |
| 8.2.2 | Eigenschaft von Fuzzy-Suche | 69 |
| 8.2.3 | Konventionelle Methoden zur Fuzzy-Suche | 69 |
| 8.2.4 | Fortschrittliche Methoden zur Fuzzy-Suche | 70 |
| 8.2.5 | Bewertungsmöglichkeiten für Fuzzy-Suche | 73 |
| 8.2.6 | Bewertung der verschiedenen Fuzzy-Methoden | 75 |
| 8.3 | Retrieval-Modelle von Query Servern | 76 |
| 8.3.1 | Ziele und Leistungsindizes eines Query Server | 76 |
| 8.3.2 | Die verschiedenen Retrieval-Modelle | 81 |
| 8.4 | Off-the-Page Ranking-Kriterien | 92 |
| 8.5 | Bewertung von Query Servern | 93 |
| 8.5.1 | Die Testumgebung | 93 |
| 8.5.2 | Verfügbarkeit von a priori Bewertungen | 95 |
| 8.5.3 | Kritik an a priori Bewertungen | 96 |
| 8.5.4 | Implikationen für die Bewertung von Query Servern | 98 |
| 8.6 | Zusammenfassung | 100 |
| Teil II | Die Integration von Suche in Portalplattformen | 101 |
| 9. | Analyse der Portalplattform up2gate.com | 102 |
| 9.1 | Profiportal.com | 103 |
| 9.2 | Die Portal-Benutzer | 103 |
| 9.3 | Das Commerce-Modul | 104 |
| 9.3.1 | Der elektronische Produktkatalog | 105 |
| 9.3.2 | Die Produktklassifikationsstruktur | 108 |
| 9.3.3 | Produktsuche im elektronischen Katalog | 109 |
| 9.3.4 | Daten im Commerce-Modul | 113 |
| 9.4 | Das Content-Modul | 114 |
| 9.4.1 | Interner Content | 114 |
| 9.4.2 | Externer Content | 115 |
| 9.4.3 | Textsuche im Content-Modul | 115 |
| 9.4.4 | Daten im Content-Modul | 116 |
| 9.5 | Das Berechtigungskonzept | 116 |
| 9.6 | Die Ausgangslage bei UP2GATE | 118 |
| 10. | Szenariospezifische Handlungsempfehlungen | 119 |
| 10.1 | Qualitative Bestimmung eines Retrieval-Modells | 119 |
| 10.1.1 | Wirkungs-Modell der drei Einflussgrößen | 120 |
| 10.1.2 | Generelle Ausprägungen der Einflussgrößen | 121 |
| 10.2 | Analyse der Suchszenarien | 122 |
| 10.2.1 | Hierarchische Suche | 123 |
| 10.2.2 | Schlagwortsuche | 123 |
| 10.2.3 | Parametrische Suche | 128 |
| 10.2.4 | Commerce-Volltextsuche | 129 |
| 10.2.5 | Content-Textsuche | 133 |
| 10.3 | Zusammenfassung | 137 |
| 11. | Anforderungsprofil der Content-Textsuche | 139 |
| 11.1 | Muss-, KO- und Kann-Kriterien | 139 |
| 11.2 | Empfehlungen für den Query Server | 140 |
| 11.2.1 | Retrieval-Modell | 140 |
| 11.2.2 | Benutzerschnittstelle | 144 |
| 11.3 | Empfehlungen für den Index-Server | 147 |
| 11.3.1 | Beschaffenheit des Index | 147 |
| 11.3.2 | Text-Operations | 148 |
| 11.4 | Empfehlungen für den Crawler | 150 |
| 11.5 | Berücksichtigung von IT-Standards | 153 |
| 11.6 | Empfehlung für den Auswahlprozess | 154 |
| 12. | Fazit | 156 |
| Literaturverzeichnis | 157 | |
| Erklärung zur Abgabe der Diplomarbeit | 171 |
Bezüglich des Benutzerverhaltens von Web-Usern sind die Studien von [SHMM1999], [SpXu2000] und [JSBS1998] hervorzuheben, die überdies zu übereinstimmenden Ergebnissen kommen. Da es sich dabei um in der Literatur vielfach zitierte Studien handelt, wird aufgrund des hohen Grads an Übereinstimmung das folgend beschriebene Verhalten als repräsentativ angesehen: Suchanfragen enthalten demnach wenige Suchbegriffe. Die oben genannten Studien kommen zu dem Ergebnis, dass eine durchschnittliche Suchanfrage im Web 2,35 Suchbegriffe enthält. Laut [SHMM1999 S.7 u. JSBS1998] enthalten ca. 30% der Anfragen lediglich einen Suchbegriff, ca. 60% 1-2 Suchbegriffe und ca. 80% enthalten ein, zwei oder drei Suchbegriffe. Der Anteil von Natural Language Queries wird dabei basierend auf den Daten von [SHMM1999] auf ca. 10% geschätzt [eTes2000]. Boolesche Operatoren (AND, OR, NOT, +, -) finden geringe Anwendung. Laut [JSBS1998] lediglich in 8% der Queries. Dabei sind sie durch hohe Fehleingaben gekennzeichnet [SpXu2000, S.4]. Am meisten werden die einfachen „+“ und „-“ Operatoren verwendet, bei deren Verwendung jedoch ebenfalls hohe Fehlerraten auftreten. Als allgemein gesichert gilt daher, dass untrainierte Endanwender große Schwierigkeiten haben, Boolesche Operatoren korrekt anzuwenden [Höls2000, S.196]. Phrasenoperatoren (Suchbegriffe in Anführungszeichen „“) werden in ca. 6% der Fälle benutzt, dabei formal korrekt [SpXu2000]. Bei der Betrachtung einer Informationssuche als zeitlich begrenzte Such-Session mit einer gewissen Anzahl an Suchanfragen wurde festgestellt, dass einer Suchanfrage selten weitere Anfragen folgen [SHMM1999, S.10]. Die durchschnittliche Anzahl an QueryFormulierungen pro Informationssuche variiert in den hier zu Grunde gelegten Studien von 1,6 bis 2, so dass Benutzer tendenziell lediglich einen weiteren Versuch unternehmen, um durch Variation der ersten Anfrage bessere Ergebnisse zu bekommen. Zum Teil wird auf eine Reformulierung gänzlich verzichtet. Was die Trefferlisten der Ergebnisseite betrifft, so sichten 85,5% der Benutzer lediglich die erste Ergebnisseite [SHMM1999, S.17] - kaum ein Benutzer ruft Treffer über die zweite Ergebnisseite hinaus auf. Benutzer neigen ferner dazu, den persönlichen Wert einer Webseite anhand der Suchergebnisse einiger weniger durchgeführter Suchen zu beurteilen [Niel2001]. Besonders negative Beurteilungen verursachen dabei sogenannte No-Items-found Seiten, also Suchen die ohne jegliche Ergebnisse blieben. Solche Seiten werden vom Benutzer als Versagen des gesamten Suchsystems bewertet. [...]
Im Folgenden wird auf das in der Praxis festgestellte Benutzerverhalten bei der Interaktion mit Suchmaschinen eingegangen. Dabei soll untersucht werden, wie die Benutzer elektronischer Marktplätze voraussichtlich ihre konkreten Suchanfragen formulieren werden. Das Wissen über die Beschaffenheit der zu erwartenden Suchanfragen kann aus der Auswertung der Log-Files von Suchmaschinen gewonnen werden. Studien über das Benutzerverhalten werden von kommerziellen Suchtechnologieanbietern jedoch nicht veröffentlicht. Dafür sind zum Benutzerverhalten von Web-Usern ausführliche Studien veröffentlicht worden, bei denen festgestellt wurde, dass die durchgeführten Log-FileAnalysen primär das Verhalten wenig erfahrener Web-User zu erfassen scheinen [Höls2000, S.27]. Da die Benutzer elektronischer Marktplätze als Novice-User eingeschätzt werden, siehe Kapitel 5.2.2, erscheint es plausibel, die Suchgewohnheiten durchschnittlicher WebUsers auch auf elektronischen Marktplätzen zu unterstellen. [...]
entsprechenden Benutzerrechte zulassen. Diese Funktion übernimmt ein zwischen QueryServer und Web-Server geschalteter Security Manager [Alta2002]. Durch Prüfung der Benutzerrechte auf Index-Ebene kann der Suchbereich des Benutzers vorab auf festgelegte Indizes begrenzt werden. Benutzer bekommen so vom Portal-Administrator autorisierte Indizes zugeordnet, z.B. die Indizes der Extranets von Firmen A und B jedoch nicht von Firma C. Auf Index-Ebene findet so eine performante Grobfilterung statt. Eine zusätzliche Möglichkeit stellt die Überprüfung der Benutzerrechte auf Dokumentenebene zur Zeit der Suchanfrage dar. Voraussetzung dafür ist, dass jedem Dokument verschiedenen Berechtigungsgruppen zugewiesen werden. Dabei werden die Suchergebnisse mit den Berechtigungsgruppen des Benutzers verglichen und abhängig von den Benutzerrechten gefiltert. Auf eine Suchanfrage werden so nur die Dokumente angezeigt, für die der Benutzer über die entsprechende Berechtigung verfügt. Diese Filterung ist feiner, beansprucht jedoch mehr Rechenzeit, da für jeden Suchtreffer die Berechtigungen überprüft werden müssen. Eine anspruchsvoller Security Manager sollte daher sowohl die Prüfung der Benutzerrechte auf Index-Ebene als auch auf Dokumentenebene ermöglichen. [...]
In den Warenkorb
68,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832466589
Arbeit zitieren:
Marunde, Gerald November 2002: Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™, Hamburg: Diplomica Verlag
Schlagworte:
Suchmaschinen, Portale, Marktplätze, e-Procurement, Search Engine



