Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Polyrepräsentation, Relevanz-Approximation und aktives Lernen im Vektorraummodell des Information-Retrievals

Polyrepräsentation, Relevanz-Approximation und aktives Lernen im Vektorraummodell des Information-Retrievals
Über dieses Buch
  • Art: Dissertation / Doktorarbeit
  • Autor: Günter Bachelier
  • Abgabedatum: Juni 2001
  • Umfang: 553 Seiten
  • Dateigröße: 12,2 MB
  • Note: 1,0
  • Institution / Hochschule: Universität des Saarlandes Deutschland
  • ISBN (eBook): 978-3-8324-6563-6
  • ISBN (Paperback) :
    978-3-8324-6563-6 P
  • ISBN (CD) :978-3-8324-6563-6 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Bachelier, Günter Juni 2001: Polyrepräsentation, Relevanz-Approximation und aktives Lernen im Vektorraummodell des Information-Retrievals, Hamburg: Diplomica Verlag
  • Schlagworte: Informationssystem, Neuronales Netz, Maschinelles Lernen, Clustering, Self-Organizing Maps

Dissertation / Doktorarbeit von Günter Bachelier

Einleitung:

Information-Retrieval-Systeme (IRS) können als Spezialfall eines IS beschrieben werden, indem die einzelnen Komponenten des Tupels (A, W, Q, I, E) spezifiziert werden, was im Kontext des Standard-Retrieval-Prozesses in einem Vektorraummodell geschehen soll. Gegeben ist zu einem Zeitpunkt t eine Dokumentmenge Dt, die durch eine Dokument-Indexierungsfunktion AIR(D) auf eine Dokumentvektorenmenge DVMt abgebildet wurde. Die einzelnen Dokumentvektoren xi sind Element eines metrischen, nt-dimensionalen Dokumentvektorraumes DVR, mit nt als der Anzahl der Merkmale (Features), auf der die Indexierung basiert und die in der Menge Ft zusammengefasst werden. Der Dokumentvektorraum wird allgemein als Teilraum von Rn(t) beschrieben, z.B. durch [0, 1]n(t). Die Query-Indexierungsfunktion AIR(Q) wird vereinfachend definiert als Abbildung aus der Menge Q(Θ) der möglichen bzw. zugelassenen Queries über einem endlichen Alphabet Θ, in DVR. Es folgt die Anwendung der Retrieval-Funktion, die abhängig ist von der momentanen Dokumentvektorenmenge DVMt, dem Queryvektor qi t und dem metrischen Dokumentvektorraum DVR mit seinen definierenden Eigenschaften, wobei hier ausschließlich die Metrik dDVR betrachtet wird. Sei ΓDVR die Menge aller Metriken, die in einem Dokumentvektorraum DVR angewendet werden können, ohne dass hier auf die Definition der Metrik eingegangen werden soll (siehe Abschnitt 3.6.3)). Die Retrieval-Funktion kann somit spezifiziert werden als eine Abbildung der Potenzmenge PDVM(t) der Dokumentvektorenmenge DVMt, dem DVR und ΓDVR auf PDVM(t), indem das Tripel aus DVMt, dem Queryvektor qi t und eine Metrik dDVR auf die query-abhängige Ergebnis-Dokumentvektorenmenge DVMi t abgebildet wird. D.h. die Retrieval-Funktion besitzt die allgemeine Form ret(DVMt, qit, dDVR) bzw. ret(DVMt, qit, dDVR, ε), wenn eine einfache Best-Match-Retrievalstrategie betrachtet wird, bei der alle Dokumentvektoren aus DVMt selektiert werden, deren Abstand von qi t kleiner-gleich einer Distanzschwelle ε ∈ R+ ist. Der letzte Schritt besteht in der Erzeugung der Dokumentmenge Dit, die zu der Ergebnismenge DVMi t korrespondiert. Vereinfachend wurde auf die Beschreibung einer Ranking-Funktion verzichtet, die aus DVMi t eine geordnete Liste von Dokumentvektoren erzeugt.

Inhaltsverzeichnis:

1. Einleitung und Überblick 13
1.1 Information-Retrieval-Systeme als Spezialfall von Informationssystemen 13
1.2 Problemkomplexität des Information Retrievals 14
1.2.1 Hochdimensionale Zusammenhänge 15
1.2.2 Nicht-lineare und multimodale Zusammenhänge 15
1.2.3 Dynamische Zusammenhänge (nicht-stationäre Funktionen) 16
1.2.4 Unsicherheit (uncertainty) und Vagheit (fuzzyness) 18
1.2.5 Diversität der Agenten und ihre Ziele 19
1.2.6 Mehrziel-Anforderungen 20
1.3 Methodentransfer 21
1.4 Adaptive Informationssysteme 35
1.5 Einbettung externer Informationsbeschaffung in ein Modell der allgemeinen Intelligenz 37
1.6 Polyrepräsentation 43
1.6.1 Polyrepräsentation in IS und IRS 44
1.6.2 Inter- und Intraparadigmen-Polyrepräsentation 45
1.6.3 Gründe für das Vektorraummodell als Intraparadigmen-Polyrepräsentation 47
1.6.4 Gründe für Polyrepräsentation 48
1.6.4.1 Beschränkung endlicher Lernmengen 48
1.6.4.2 Fundamentale Beschränkung aller Repräsentationssprachen 49
1.6.4.3 Modellierung von Unsicherheit in Bezug zur Diversität der Agenten 51
1.7 Relevanz-Approximationsmodelle 52
1.8 Aktives Lernen 55
1.8.1 Passives und aktives Lernen 55
1.8.2 Geschlossene und offene Lernmenge 56
1.8.3 Direkte und indirekte Verfahren des aktiven Lernens 57
1.8.4 Effektivitäts- und Effizienz-Vergleich direkter und indirekter Verfahren 58
1.8.5 Relevanz- und Modell-Maximierungskriterium 58
1.8.6 Modell-Polyrepräsentation beim aktiven Lernen 60
1.9 Semantisches Netz der Beziehungen der verwendeten Ansätze 60
2. Methodische Grundlagen 62
2.1 Basis-Verfahren der stützpunktbasierten Approximation 62
2.1.1 Vektorraum und Metrik 62
2.1.2 Approximation, Interpolation, Regression 63
2.1.2.1 Symbolische und stützpunktorientierte Approximation 66
2.1.2.2 Instanz- und prototypbasierte stützpunktorientierte Approximation 66
2.1.2.3 Framework des überwachten und unüberwachten Lernens 67
2.1.3 Local-Weighted-Regression 68
2.1.4 Sensorische-SOM (S-SOM) 70
2.1.5 Growing-Neural-Gas (GNG-SOM) 72
2.1.6 Stimulus-Cluster-GNG-SOM (SC-GNG-SOM) 75
2.1.7 Batch-Lernen in einer SC-GNG-SOM 78
2.1.8 Aktivitätsausbreitung in GNG-Graphen 83
2.2 Basis-Verfahren des Resamplings 90
2.2.1 Stimulus-Bootstrap 90
2.2.2 Restwert-Bootstrap 91
2.2.3 Moving-Blocks-Bootstrap 91
2.3 Modellqualität 94
2.3.1 Unüberwachte SC-GNG-SOM-Qualität durch lokale Quantifizierungsfehler 94
2.3.2 Überwachte SC-GNG-SOM-Qualität durch lokale MSE-Werte 95
2.3.3 MSE-Integral und Bias-Varianz-Zerlegung 96
2.3.4 Modellbewertung durch Varianz- und Bias-Integrale 97
2.3.5 Output-, Bias- und Varianz-Approximationsmodelle 98
2.3.6 Suche nach Inputvektoren mit extremalen Outputwerten 101
2.3.7 Modellbewertung durch Momente höherer Ordnung 101
2.3.7.1 Output- und Fehler-Moment bei einem Modell 102
2.3.7.2 Output- und Fehler-Moment bei einer Modellmenge 103
2.3.7.3 Schätzung von Output- und Fehler-Momenten 104
2.3.8 Modellqualität durch Gewinnerlisten-Verfahren 107
2.4 Hierarchische Strukturierung bei Mehr-Ziel-Optimierungen 111
2.4.1 Paretokriterium und Paretomenge 112
2.4.2 Pareto-Hierarchien 114
2.4.2.1 Dominanz-Ranking 114
2.4.2.2 Sukzessive Deaktivierung von Paretomengen 115
2.4.2.3 Pareto-Wettkampf-Hierarchien 116
2.4.2.3.1 Wettkampfoperation 117
2.4.2.3.2 Wettkampf-Hierarchie 118
2.4.2.3.3 Pareto-Wettkampf-Hierarchie als Spezialisierung einer Wettkampf-Hierarchie 119
2.4.3 Abbruchkriterium bei Mehr-Ziel-Optimierung 120
2.5 Verwendete Modelle der Evolutions-Strategien 126
2.5.1 Ein-Ziel-Optimierung 126
2.5.2 Mehr-Ziel-ES 130
2.6 Intervall-Selektions-Operatoren 135
2.6.1 Rangfolge durch Ordnen nach einem ausgewählten Punkt im Intervall 136
2.6.2 Selektion durch Zugehörigkeitsfunktionen 138
2.6.3 Dominanzfunktion auf der Basis von Intervallen 139
3. Mono- und Polyrepräsentation im vektorraumbasierten Information-Retrieval 142
3.1 Information Retrieval Systeme 142
3.2 Dokument als Zeichensequenz 146
3.2.1 Dokument-Monorepräsentation 146
3.2.2 Dokument-Polyrepräsentation 147
3.3 Merkmale als Zeichensequenz 151
3.3.1 Monorepräsentation von Merkmalen 151
3.3.2 Polyrepräsentation von Merkmalen 152
3.4 Indexierung 153
3.4.1 Monorepräsentation der Indexierung 153
3.4.2 Polyrepräsentation der Indexierung 155
3.5 Merkmalsgewichtungsmodelle 158
3.5.1 Grundlegende Merkmalsgewichtungsmodelle 158
3.5.2 Mono- und Polyrepräsentation der Indexierung im Kontext der Merkmalsgewichtungsmodelle 161
3.6 Retrieval 163
3.6.1 Query als Zeichensequenz 165
3.6.1.1 Query-Monorepräsentation 165
3.6.1.2 Query-Polyrepräsentation 165
3.6.1.2.1 Polyrepräsentation durch multiple Queryformulierung eines Agenten 165
3.6.1.2.2 Polyrepräsentation durch kollaborative Queryformulierung einer Agentengruppe 166
3.6.1.2.3 Polyrepräsentation durch Moving-Blocks-Bootstrap 166
3.6.1.2.4 Polyrepräsentation durch Mutations-Operationen 168
3.6.1.2.5 Polyrepräsentation durch Markov-Prozesse 168
3.6.1.2.6 Polyrepräsentation durch Rekombinations-Operationen 169
3.6.1.2.7 Polyrepräsentation durch GNG-SOM-Merkmalsgraphen 172
3.6.2 Query-Indexierung und Queryvektor-Mono- und Polyrepräsentation 173
3.6.2.1 Queryvektor-Monorepräsentation 173
3.6.2.2 Queryvektor-Polyrepräsentation 173
3.6.2.2.1 Query-Polyrepräsentation und Indexierungsfunktions-Monorepräsentation 173
3.6.2.2.2 Query-Monorepräsentation und Indexierungsfunktions-Polyrepräsentation 174
3.6.2.2.3 Query-Monorepräsentation und stochastische Indexierungsfunktion 174
3.6.2.2.4 Query-Polyrepräsentation und Queryvektor-Reproduktions-Operationen 175
3.6.3 Retrievalstrategien bei einer Dokumentvektor-Monorepräsentation 176
3.6.3.1 Dokumentvektor-Monorepräsentation und Queryvektor- Monorepräsentation 179
3.6.3.2 Dokumentvektor-Monorepräsentation und Queryvektor-Polyrepräsentation 183
3.6.4 Retrievalstrategien bei einer Dokumentvektor-Polyrepräsentation 187
3.6.5 Retrievalstrategien bei einer Retrievalregion-Mono- und -Polyrepräsentation 189
3.6.6 Retrievalstrategien mit positiven und negativen Queries und Queryvektoren 192
3.6.6.1 Monorepräsentation von positiven und negativen Queryvektoren 192
3.6.6.2 Polyrepräsentation von positiven und negativen Queryvektoren 195
3.7 Clusterung in IRS 198
3.7.1 Allgemeine Objekt- und Objektvektoren-Clusterung 199
3.7.2 Dokumentvektoren-Clusterung 201
3.7.3 Merkmalsvektoren-Clusterung 203
3.7.4 Integrierte Dokumentvektoren und Merkmalsvektoren-Clusterung 204
3.7.5 Cluster-Retrieval-Strategien 206
3.8 Indexierung und Retrieval mit GNG-SOM-Modellen am Beispiel unabhängiger Merkmals- und Dokument-Graphen 211
3.8.1 Aufbau unabhängiger Graphen 213
3.8.2 Einfache Cluster-Retrieval-Strategien mit Dokumentvektoren-Graph 215
3.8.3 Cluster-Retrieval-Strategien mit positiven und negativen Queryvektoren 218
3.8.4 Triangulation positiver und negativer Queryvektoren 221
3.8.5 Retrieval-Strategien mit Query-Modifikation 225
3.8.6 Queryvektor-Polyrepräsentation in Merkmalsgraphen 227
3.9 Relevanz-Feedback in IRS 230
3.9.1 Relevanzbegriff und Relevanzproblematik 232
3.9.1.1 Ähnlichkeits-Relevanz 232
3.9.1.2 Problemlösungs-Relevanz 232
3.9.1.3 Modellierung des Problemlösungsprozesses durch einen Zustandsraum 235
3.9.1.4 Reformulierungs-Relevanz 236
3.9.1.5 Irrelevant vs. irreführend 237
3.9.2 Queryvektor-Relevanz-Feedback 238
3.9.2.1 Queryvektor-Feedback bei unklassifizierten Dokumentvektoren 238
3.9.2.2 SOM-Adaption beim Queryvektor-Feedback 243
3.9.2.3 Stochastische Adaptions-Operationen beim Queryvektor-Feedback 245
3.9.2.4 Post-Retrieval-Operationen beim Queryvektor-Feedback 247
3.9.2.5 Queryvektor-Splitting 249
3.9.2.6 Queryvektor-Polyrepräsentation beim Queryvektor-Feedback 251
3.9.2.7 Queryvektor-Feedback bei Dokumentvektoren-GNG-SOMs 255
3.9.2.8 Queryvektor-Feedback mit positiven und negativen Queryvektoren 258
3.9.2.9 Queryvektoren-Trajektorie 262
3.9.3 Dokumentvektor-Relevanz-Feedback 266
3.9.3.1 Dokumentvektor-Feedback bei unklassifizierten Dokumentvektoren 266
3.9.3.2 Dokumentvektor-Feedback durch SOM-Adaption 270
3.9.3.3 Dokumentvektor-Feedback bei SC-GNG-SOMs 274
3.9.4 Gewichtsvektor-Relevanz-Feedback 277
3.9.5 Retrievalregion-Relevanz-Feedback 280
3.9.6 Indexierungsfunktion-Relevanz-Feedback 288
3.9.6.1 Detaillierte Beschreibung der Indexierungsfunktion 289
3.9.6.2 Indexierungsfunktionssuche nach dem Queryvektor-Feedback 291
3.9.6.2.1 Fitnessfunktion 291
3.9.6.2.2 Strategien zur Effizienzverbesserung 293
3.9.6.3 Indexierungsfunktionssuche parallel zum Queryvektor-Feedback 294
3.9.6.3.1 Queryvektor-Feedback ohne Reindexierung 295
3.9.6.3.2 Queryvektor-Feedback mit Reindexierung 297
3.9.7 Reformulierungs-Relevanz-Feedback 298
3.9.7.1 Reformulierung der Query 299
3.9.7.1.1 Relevanzwerte aus Queries bzw. Queryvektoren 300
3.9.7.1.2 Direkte Frage nach Reformulierungs-Relevanzwerten 304
3.9.7.1.3 Relevanzwerte aus Queryvektoren und Bewertung 305
3.9.7.2 Reformulierung anderer Texttypen wie der Problembeschreibung 308
3.9.8 Gleichzeitige Modifikation mehrerer Repräsentationen am Beispiel von Queryvektor- und Dokumentvektor-Feedback 309
4. Relevanz-Approximation in Mono- und Polyrepräsentations-IRS 312
4.1 Approximationsmodelle mit reellen Relevanzwerten 312
4.1.1 Binäre und reelle Relevanzwerte 312
4.1.2 Ranking und Distanz-Relevanzfunktion 313
4.1.3 Relevanz-Klassifikations- und Approximationsmodelle 318
4.2 Feedback mit reellen Relevanzbewertungen bei unklassifizierten Dokumentvektoren 320
4.2.1 Queryvektor-Adaption bei reellen Relevanzbewertungen 320
4.2.1.1 Adaption bei Queryvektor-Monorepräsentation 321
4.2.1.2 Adaption bei Queryvektor-Polyrepräsentation 324
4.2.1.3 Adaption bei positiven und negativen Queryvektoren 325
4.2.2 Feedback mit Relevanz-Approximationsmodell ohne Veränderung des Queryvektors 325
4.2.3 Feedback mit Approximationsmodell und nachträglicher Adaption des Queryvektors 328
4.2.4 Effizienzsteigerung des Modells ohne Queryvektor-Veränderung 328
4.2.4.1 Effizienzsteigerung durch Distanz- bzw. Kernel-Matrix 328
4.2.4.2 Effizienzsteigerung durch Einschränkung der Grundmenge 329
4.2.4.2.1 Einschränkungen 29
4.2.4.2.2 Einschränkung durch GNG-SOM-Repräsentation 331
4.2.5 Clusterung der Gesamtergebnismenge durch GNG-SOM 334
4.2.6 Prototypbasiertes GNG-SOM-Approximationsmodell aus Gesamtergebnismenge 337
4.2.7 Combining-Strategie bei Ergebnismengenbildung 340
4.3 Feedback mit reellen Relevanzbewertungen bei Dokumentvektoren-GNG-SOMs 340
4.3.1 Dokumentvektoren-GNG-SOM mit instanzbasiertem Modell 341
4.3.2 Dokumentvektoren-GNG-SOM mit prototypbasiertem Modell 344
4.3.3 Dokumentvektoren-GNG-SOM mit Nachadaption 347
4.3.3.1 Nachadaption ohne Wachstumsoperationen 348
4.3.3.2 Nachadaption mit Wachstumsoperationen 349
4.4 Relevanz-Approximationsmodell-Polyrepräsentation 352
4.4.1 Polyrepräsentation bei instanzbasierten Approximationsmodellen 353
4.4.1.1 Approximationsmodell-Polyrepräsentation durch Queryvektor-Polyrepräsentation 353
4.4.1.2 Approximationsmodell-Polyrepräsentation durch Bootstrap-Verfahren 356
4.4.2 Polyrepräsentation bei prototypbasierten Approximationsmodellen 357
4.4.2.1 Polyrepräsentierte Prototyp-Modelle bei unklassifizierten Dokumentvektoren 358
4.4.2.1.1 Unabhängiger Aufbau von Prototyp-Modellen durch Stimulus-Bootstrap 359
4.4.2.1.2 Unabhängiger Aufbau von Prototyp-Modellen durch Neuronen-Bootstrap 361
4.4.2.1.3 Abhängiger Aufbau von Prototyp-Modellen durch Stimulus-Bootstrap 362
4.4.2.1.3.1 Beibehaltung von Bootstrap-GNG-SOMs 363
4.4.2.1.3.2 Iterations-spezifische Neuableitung von Bootstrap-GNG-SOMs 366
4.4.2.1.3.3 Bootstrap-GNG-SOMs durch Aktualisierung von Relevanzschätzungen 368
4.4.2.1.3.4 Relevanzschätzungs-Dichtefunktion 371
4.4.2.2 Polyrepräsentierte Prototyp-Modelle bei klassifizierten Dokumentvektoren 374
4.4.2.2.1 Adaption der Stützpunkte im Relevanzraum und Erhaltung im DVR 377
4.4.2.2.2 Adaption der Stützpunkte im DVR und im Relevanzraum 382
4.4.2.2.3 Adaption mit Wachstum der Stützpunkte im DVR und Relevanzraum 385
4.5 Nutzung von Ergebnissen vergangener Interaktionen 388
4.5.1 Selektionsverfahren für Interaktionsobjekte bei Mono- und Polyrepräsentation 390
4.5.2 Nutzung von Stimulusmengen vergangener Interaktionen 393
4.5.2.1 Ergebnismengen durch lokale Operationen in T 393
4.5.2.1.1 Monorepräsentation von Relevanzwerten 393
4.5.2.1.2 Polyrepräsentation von Relevanzwerten 395
4.5.2.2 Ergebnismengen durch Übernahme aus ausgewählten Interaktionssmengen 396
4.5.2.2.1 Monorepräsentation der Interaktionsmenge 397
4.5.2.2.2 Polyrepräsentation der Interaktionsmenge 398
4.5.3 Nutzung von nachadaptierten Queryvektoren vergangener Interaktionen 400
4.5.3.1 Monorepräsentation der Nutzung nachadaptierter Queryvektoren 401
4.5.3.2 Polyrepräsentation der Nutzung nachadaptierter Queryvektoren 402
4.5.4 Nutzung von Relevanz-Approximationsmodellen vergangener Interaktionen 403
4.5.4.1 Monorepräsentation der Approximationsmodell-Nutzung 404
4.5.4.2 Polyrepräsentation der Approximationsmodell-Nutzung 405
4.5.5 Nutzung von Suchregionen vergangener Interaktionen 407
4.6 Korrektur der Relevanzschätzungen um Fehlerschätzungen 410
4.6.1 Instanzbasierte Fehlermodelle 411
4.6.1.1 Monorepräsentation von instanzbasierten Fehlermodellen 411
4.6.1.2 Polyrepräsentation von instanzbasierten Fehlermodellen 413
4.6.2 Prototypbasierte Fehlermodelle 414
4.6.2.1 Monorepräsentation von prototypbasierten Fehlermodellen 414
4.6.2.2 Polyrepräsentation von prototypbasierten Fehlermodellen 416
4.7 Unterschiedliche Gewichtung von Relevanzmaximierung und Modellaufbau 418
5. Aktives Lernen in Mono- und Polyrepräsentations-IRS 423
5.1 Passives und aktives Lernen 424
5.1.1 Passives Lernen 425
5.1.2 Aktives Lernen bei einer geschlossenen Stimulusmenge 427
5.1.3 Aktives Lernen bei einem Stimulusstrom 431
5.1.4 Aktives Lernen bei einer offenen Stimulusmenge 435
5.2 Indirekte und direkte Verfahren beim Modell-Maximierungskriterium 439
5.2.1 Indirekte Verfahren 440
5.2.1.1 Selektionskriterien bei indirekten Verfahren 440
5.2.1.2 Allgemeine Selektion durch fehlende Übereinstimmung 441
5.2.1.3 Outputvarianz-Maximierung 442
5.2.1.4 Bias- und Varianz-Maximierung bei klassifizierten Dokumentvektoren 443
5.2.1.4.1 Unabhängige Listenbildung 448
5.2.1.4.2 Abhängige Listenbildung 450
5.2.2 Direkte Verfahren am Beispiel Optimal-Experiment Design 452
5.2.2.1 Bias-Quadrat-Integral-Minimierung 452
5.2.2.2 Output-Varianz-Integral-Minimierung 458
5.2.2.3 Kombinierte Bias-Quadrat- und Output-Varianz-Integral-Minimierung 460
5.2.3 Effizienzverbesserungen bei direkten Verfahren 464
5.2.3.1 Eigenschafts-Integrale mit weniger Stützpunkten durch Fehlerauswahl 464
5.2.3.2 Eigenschafts-Integrale mit weniger Stützpunkten durch Häufigkeitsverteilung467
5.2.3.3 Deterministische Integration im average case setting 469
5.2.3.4 Weniger Eigenschafts-Integrale durch Kandidatencluster und Approximation 470
5.2.3.5 Kombination von stetiger und diskreter Vorgehensweise 475
5.2.3.6 Neurone als Stützpunkte der Approximation und der Integration 476
5.2.4 Effektivitätsverbesserungen bei direkten Verfahren durch zentrale Momente 484
5.3 Integration von Relevanz- und Modell-Maximierungskriterium 486
5.3.1 Erzeugung einer gemeinsamen tertiären Ergebnisliste 486
5.3.1.1 Dokumentvektoren als Komponenten in beiden Listen 488
5.3.1.2 Dokumentvektormengen als Komponenten in beiden Listen 490
5.3.1.3 Dokumentvektoren als Komponenten der ersten und Dokumentvektormengen als Komponenten der zweiten Liste 491
5.3.2 Erzeugung zweier tertiären Ergebnislisten 493
5.3.3 Erzeugung dreier tertiären Ergebnislisten 494
5.4. Lösungsansatz des Kombinatorikproblems bei direkten Verfahren durch die Integration eines Output- und eines Modell-Maximierungskriteriums 495
5.4.1 Output-Maximierung 495
5.4.2 Vorstrukturierung der Kandidatenmenge 496
5.4.3 Bildung von Kandidatenteilmengen 496
5.4.4 Direktes aktives Lernen bei vorstrukturierten Kandidatenteilmengen 497
6. Zusammenfassung 501
Verzeichnis ausgewählter Symbole 510
Abbildungsverzeichnis 520
Literaturverzeichnis 524

Automatisiert erstellter Textauszug:

Der zweite Schritt im Rahmen des Retrievals nach der Query-Indexierung besteht darin, mit Hilfe des Queryvektors qit und der Dokument-Merkmals-Matrix DMMt bzw. der gesamten Dokumentvektorenmenge DVMt eine Teilmenge von Dokumentvektoren zu spezifizieren, deren zugehörige Dokumente dem Agenten als Ergebnis der Retrievaloperation betrachtet und dem Agenten präsentiert werden. Sei DVMit ≡ DVM(qit) ⊂ DVMt die Ergebnismenge der Dokumentvektoren, die durch ein Distanzmaß oder eine Metrik durch qit im Dokumentvektorraum DVR ermittelt wird. Die Ergebnismenge wird durch eine Retrieval-Funktion ret(.) ermittelt, die allgemein als eine Abbildung der Potenzmenge PDVM(t) der Dokumentvektoren aus DVMt auf sich selbst definiert wird: ret(.): PDVM(t) → PDVM(t): DVMt |→ DVMit ≡ DVM(qit). (304) [...]

Diese Darstellung berücksichtigt keine Mutations-Operation als Bestandteil der Reproduktion, sowie keine Selbstadaption eines n-dimensionalen Mutationsvektors. Eine Selbstadaption, die aus einer Selbstmutation, einer Rekombination und einem Selektionsprozess besteht, kann in diesem Kontext jedoch nicht durchgeführt werden, da zum einen der Selektionsprozess fehlt, und zum anderen eine sinnvolle Selbstadaption eines Strategievektors nur über einen längeren Zeitraum, d.h. eine größere Anzahl von Iterationen, durchführbar ist. Bei einem einzelnen Interaktionsakt zwischen Agent und IRS in Form der Formulierung einer oder mehrerer alternativer Queries ist diese Bedingung jedoch nicht erfüllt, was sich im Kontext eines Relevanzfeedbacks jedoch ändern kann, wenn der Agent bereit ist eine längere Sequenz von Feedback-Prozessen durchzuführen. Trotzdem kann eine Mutationsoperation im Rahmen der Erzeugung des Nachkommenvektors qiN(k)t eingefügt werden, wobei zunächst die Diversivität der Eltern in QEVMit ermittelt wird, indem die Queryvektor-Varianz ermittelt wird: varQEVM(i,t) = 1/µE * Σj (qiEt - qiE(j)t )2, mit qiEt = 1/µE * Σj qiE(j)t. (302) [...]

Aus dieser Elternmenge wird eine Zwischenpopulation von Nachkommen erzeugt, die zusammen mit den Eltern als Queryvektor-Polyrepräsentation verwendet werden sollen. Es sei darauf hingewiesen, dass in diesem Kontext noch kein Selektionskriterium formuliert ist, mit dem Elemente aus der Zwischenpopulation selektiert werden können, sodass es sich um kein vollständiges evolutionäres Verfahren handelt, obwohl die Komponenten Population und Reproduktion vorliegen. Vorgestellt wird eine einfache zwei-geschlechtliche Rekombination, bei der zwei Elemente qiE(1)t und qiE(2)t aus QEVMit mit Zurücklegen gezogen werden, gefolgt von der Rekombinations-Operation, sodass ein Nachkommenvektor qiN(k)t erzeugt wird, ohne dass hier das spezielle Rekombinationsverfahren weiter spezifiziert werden soll: qiN(k)t = rec(qiE(1)t, qiE(2)t). (300) [...]

Arbeit zitieren:
Bachelier, Günter Juni 2001: Polyrepräsentation, Relevanz-Approximation und aktives Lernen im Vektorraummodell des Information-Retrievals, Hamburg: Diplomica Verlag

Schlagworte:
Informationssystem, Neuronales Netz, Maschinelles Lernen, Clustering, Self-Organizing Maps

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren