Die Implementierung eines automatischen Indexierungsverfahrens am Beispiel der deutschen Zentralbibliothek für Wirtschaftswissenschaften
- Art: MA-Thesis / Master
- Autor: Thomas Groß
- Abgabedatum: Mai 2010
- Umfang: 93 Seiten
- Dateigröße: 648,3 KB
- Note: 1,7
- Institution / Hochschule: Humboldt-Universität zu Berlin Deutschland
- Bibliografie: ca. 100
- ISBN (eBook): 978-3-8428-0503-3
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Groß, Thomas Mai 2010: Die Implementierung eines automatischen Indexierungsverfahrens am Beispiel der deutschen Zentralbibliothek für Wirtschaftswissenschaften, Hamburg: Diplomica Verlag
- Schlagworte: Belegungsbilanz, Indexierungskonsistenz, Bibliothek, Sacherschließung, Deutschland
48,00 €
PDF-eBook Download: 48,00 €
MA-Thesis / Master von Thomas Groß
Einleitung:
‘Where is the information we have lost in data?’ (Stefan Gradmann).
Die immer stärker wahrnehmbare Transformation von einer fordistisch geprägten Gesellschaftsordnung hin zu einer postindustriellen Informations- bzw. Wissensgesellschaft, verursacht durch einen immer rasanteren technologischen Fortschritt, stellt den Produktionsfaktor Information, welcher originär ein öffentliches Gut darstellt, in den Mittelpunkt sozioökonomischer Entwicklungsprozesse. Informationen sind eine entscheidende Basis zur Wissensgenerierung, weil sie dessen Konstituierung erst ermöglichen. Doch selbst der generelle Zugriff auf Informationen sichert weder einen strukturierten Zugang zu dieser noch das Verstehen derselben. Die Ursachen hierfür liegen in der anwachsenden digitalen Datenflut begründet, in der die Informationen zunehmend für immer zu verschwinden scheinen, quasi ‘ertrinken’. Niemand ist nach heutigem Sachstand in der Lage, alle digitalen Daten bzw. Informationen gedanklich zu erfassen, zu verstehen und zueinander in Beziehung zu setzen. Eine strukturierte und normierte Erschließung digitaler Dokumente ist deshalb ein entscheidender Aspekt der Zugänglichkeit und Handhabbarkeit von Informationen. Dieser auch in der Zukunft sicherlich noch zunehmende Problemdruck erfordert immer dringlicher eine qualitative Informationsstrukturierung.
Eine zentrale Rolle in diesem Informationsfindungsprozess kann dem aktuell im Entstehen befindlichen Semantic Web zugesprochen werden. Aufbauend auf ontologiebasierten Metadaten, werden semantische Relationen zwischen den verschiedenen WWW-Inhalten und den darin enthaltenen Informationen hergestellt, um eine bessere Wiederauffindbarkeit durch entsprechende Suchmaschinen (Information Retrieval) zu gewährleisten. Dies setzt vor allem ein kontrolliertes Vokabular voraus. Mit dem Standard-Thesaurus-Wirtschaft (STW) der Deutschen Zentralbibliothek für Wirtschaftswissenschaften – Leibniz Informationszentrum Wirtschaft (ZBW) steht zur Inhaltserschließung von wirtschaftswissenschaftlichen Webinhalten ein entsprechendes Begriffssystem zur Verfügung. Seit April 2009 ist der STW auch als Semantic-Web-Anwendung – ‘STW-Online’ – im Netz zu finden und kann dort von jedermann heruntergeladen und zur Erschließung wirtschaftswissenschaftlicher Informationen genutzt werden. Durch diese semantische Einbindung eines domänenspezifischen, kontrollierten Vokabulars wird die wirtschaftswissenschaftliche Sacherschließung in einen ‘webbasierten Informationsraum’ integriert. Automatische Indexierungsverfahren eröffnen hier der traditionellen bibliothekarischen Sacherschließung in der ZBW neue Anwendungsmöglichkeiten. Aufbauend auf den Erfahrungen und Ergebnissen im Rahmen der automatischen Indexierung von Onlinedokumenten, ist es denkbar, dass über eine entsprechende Deskriptorenzuweisung mittelfristig auch digitale Inhalte aus anderen, ZBW-fremden Datenbanken unter einer einheitlichen Suchoberfläche miteinander semantisch verbunden werden. Heterogene Webinhalte werden somit einer homogenen, strukturierten Suchmöglichkeit zugeführt (Information Retrieval).
Mit Bezug auf die DIN 31 623-1 werden unter der Indexierung, die auch als Verschlagwortung oder Sacherschließung bezeichnet wird, alle Methoden und Verfahren subsumiert, die genormte Metadaten (Schlagwörter, Notationen) einem Dokument zuweisen, um dessen inhaltliche Erschließung und Wiederauffindbarkeit zu gewährleisten. Dieser Sacherschließungsprozess verläuft immer zweistufig: Zunächst geht es in einem ersten Schritt um das Verstehen des Textes (Inhaltsanalyse), anschließend wird der erkannte Inhalt durch Zuweisung sprachlicher Elemente aus einem normierten Konzeptraum (Thesaurus, Klassifikation) entsprechend abgebildet.
Die Indexierung kann in zwei Verfahren unterschieden werden: einerseits in die manuelle (oder intellektuelle) Indexierung, die als klassische Variante der Sacherschließung heutzutage noch in vielen Bibliotheken Anwendung findet. Auf der anderen Seite findet sich die automatische (oder maschinelle) Indexierung. Bei dieser Variante der Sacherschließung erfolgt die Inhaltsanalyse in einem automatischen Verfahren. Das Resultat sind entweder den Inhalt repräsentierende, reine Stichwörter – dies wird als Extrationsverfahren bezeichnet – oder entsprechende Schlagwörter, die aus einem kontrollierten Vokabular, z. B. Thesaurus oder Klassifikation, entnommen werden – darunter werden Additionsverfahren subsumiert. Automatische Extraktionsverfahren weisen generell eine höhere Indexierungskonsistenz auf, während Additionsverfahren ein umfassendes ‘Verständnis’ der Indexierungssoftware für das jeweilige Fachgebiete erfordern. Wie im weiteren Verlauf dieser Arbeit noch ausführlich dargestellt, findet in der ZBW bei der Indexierung von digitalen Dokumenten ein Additionsverfahren Anwendung.
Automatische Indexierungsverfahren, die seit den 1990iger Jahren im deutschsprachigen Raum verstärkt konzipiert und mit unterschiedlichem Erfolg in der Praxis eingesetzt worden sind (u. a. MILOS I und II, AUTINDEX, KASCADE, OSIRIS), haben sich in den letzten Jahren entsprechend weiterentwickelt und werden heutzutage als sinnvolle, unter dem Gesichtspunkt des zukünftig zu erwartenden digitalen Publikationsaufkommens zudem als einzig gangbare Alternative zur manuellen Inhaltserschließung angesehen.
In den Jahren 2005-2009 wurden in der ZWB jedes Jahr im Mittel rund 13.300 ausschließlich als Onlineausgabe vorliegende Arbeitspapiere katalogisiert. Zusätzlich existieren zahlreiche Parallelausgaben, gerade im Periodikabereich (Zeitschriften, Working Paper, Jahrbücher), die einer maschinellen Indexierung zugeführt werden können. Weiterhin ist der Trend zu reinen Onlineausgaben aus den Erfahrungen der täglichen Bibliotheksarbeit heraus ungebrochen. Die zu verzeichnende, stetige und überproportionale Zunahme an (ausschließlich) elektronisch vorhandenen Dokumenten, bei gleichzeitig stagnierenden bzw. knapper werdenden personellen Ressourcen, erschwert eine flächendeckende, vor allem aber zeitnahe und qualitativ hinreichende Sacherschließung der eingehenden Literatur. Damit einher erodiert die für die Zukunft immer wichtiger werdende inhaltliche Strukturierung von Information(en), weil es weder für den Einzelnen noch eine Gruppe, sei es innerhalb der ZBW oder im Bibliotheksverbund (hier: GBV), möglich ist, diese Vielzahl an Informationen gedanklich zu erfassen und entsprechend zu strukturieren. Zudem ist die manuelle Sacherschließung nicht skalierbar, denn mit steigenden Eingabemengen (= zunehmender Bestand an Onlinedokumenten) steigt proportional auch der personelle Ressourcenbedarf an Indexierern, wenn der Qualitätsstandard beim Indexieren nicht gesenkt werden soll.
Die Anwendung automatisierter Verfahren ergibt sich nicht nur aus der gerade beschriebenen quantitativen Notwendigkeit, die Unumgänglichkeit resultiert zudem aus der Anwendungsdiskrepanz des STW. Die Erschließung von digitalen und analogen Dokumenten auf Basis eines kontrollierten Vokabulars und unter Anwendung von Sacherschließungsregeln wird momentan ausschließlich manuell von entsprechend ausgebildeten FachreferentInnen nach Lektüre der eingehenden Literatur vorgenommen. Aufgrund der Tatsache, dass Indexierung ein genuin subjektiver Prozess ist, der von zahlreichen persönlichen Faktoren abhängig ist (u. a. Qualifikation, Tagesform, Medium), ergeben sich zwischen der Anwendungstheorie (Sacherschließungsregeln) des STW und der Indexierungspraxis selbstverständlich Heterogenitäten. Zum einen zwischen den einzelnen Indexaten eines Sacherschließers und zum anderen auch auf der Metaebene in Bezug auf die Sacherschließung des Bestandes allgemein. Hier kann eine maschinelle Indexierung helfen, die bestehenden Unterschiede zu nivellieren, und zu einer homogeneren Erschließung des Bestandes beitragen.
In dieser Masterarbeit wird die Implementierung eines automatischen Indexierungsverfahrens am Beispiel der ZBW dargestellt. Zentraler Aspekt der folgenden Kapitel und deren Ausführungen ist die qualitative Bewertung bzw. Evaluierung der maschinellen Sacherschließungsergebnisse. Es geht zentral darum, die automatisch generierten Ergebnisse mit Hilfe eines kontrollierten Vokabulars in ein ontologiebasiertes Begriffssystem, hier den STW, einzuordnen. Dieses soll helfen, digitale Dokumente nicht nur sprachoberflächlich – im Sinne einer Kataloganreicherung mit Hilfe ermittelter Keywords – zu beschreiben, sondern auf die Bedeutungsebene von Inhalten abzuzielen. Es werden demnach mit den zugewiesenen Deskriptoren qualitative Metadaten geschaffen, die den digitalen Inhalten der jeweiligen Dokumente einen informatorischen Mehrwert zuweisen (= Additionsverfahren). Diese Fokussierung auf die Bedeutungsebene führt dazu, dass das vorhandene Information-Retrieval (OPAC) nicht nur eine Datenanreicherung erfährt, sondern dass darüber hinaus auch die informationsstrukturierenden Vorteile eines Thesaurus ausgenutzt werden. Erst die Verbindung von Inhalts- und Bedeutungsebene der digitalen Dokumente durch eine automatische Indexierung unter Zugrundelegung des STW ermöglicht eine Einbindung dieser ins Semantic Web. Durch den Einsatz maschineller Verfahren kann die ZBW auch in Zukunft sicherstellen, dass die stetig zunehmende Anzahl digitaler Dokumente einer zeitnahen, flächendeckenden, qualitativ hochwertigen und konsistenten inhaltlichen Erschließung zugeführt werden.
Mit der verstärkten Erprobung maschineller Sacherschließungsverfahren Mitte der 1990iger Jahre wuchs auch die Zahl der darauf aufbauenden Untersuchungen und Veröffentlichungen. Zahlreiche Fallstudien aus dem Bibliotheks- und Informationssektor verdeutlichen die Aktualität dieser Thematik. In den vorliegenden Arbeiten sind qualitative Aspekte von maschineller Indexierung immer, in unterschiedlicher Art und Weise, Analysegegenstand gewesen, sei es im Rahmen eines Vor- und Nachteilvergleiches oder um die Möglichkeiten und Grenzen dieser Verfahren deutlicher herauszuarbeiten.
Diese Masterarbeit ist gleichfalls als Fallstudie angelegt, deren zentrales Merkmal eine umfassende Beschreibung eines spezifischen Gegenstandes darstellt. Hierbei werden die Teile eines Gegenstands durch die starke personalisierte Fokussierung auf denselbigen umfassend dargestellt und zueinander in Beziehung gesetzt. Es gilt demnach, im Rahmen dieser Arbeit, das Typische am Einsatz eines automatischen Sacherschließungsverfahrens am Beispiel der ZBW als weltweit größter Spezialbibliothek für wirtschaftswissenschaftliche Literatur herauszuarbeiten. Der Schwerpunkt liegt hierbei auf der Evaluierung des automatischen Indexierungsverfahrens unter qualitativen Gesichtspunkten.
Inhaltsverzeichnis:
| Abbildungsverzeichnis | II | |
| Tabellenverzeichnis | III | |
| Abkürzungsverzeichnis | IV | |
| 1. | Einleitung | 1 |
| 2 | Forschungsstand | 10 |
| 2.1 | Überblicks- und theoretische Arbeiten | 10 |
| 2.2 | Evaluierungsverfahren I: Retrievaltests | 13 |
| 2.3 | Evaluierungsverfahren II: Indexierungskonsistenz | 15 |
| 2.3.1 | Manuelle Sacherschließung | 16 |
| 2.3.2 | Manuelle vs. automatische Sacherschließung | 20 |
| 2.4 | Evaluierungsverfahren III: Sonstige | 22 |
| 2.5 | Evaluierung des MindServer | 23 |
| 3. | Methode, Daten, Messverfahren | 25 |
| 3.1 | Der MindServer als statistisches Verfahren | 25 |
| 3.2 | Datenlage und Stichprobenumfang | 29 |
| 3.3 | Zum Messverfahren: Die Evaluierung der Indexierungsqualität | 30 |
| 4. | Ergebnisse | 36 |
| 4.1 | Indexierungskonsistenz | 36 |
| 4.2 | Indexierungstiefe | 40 |
| 4.2.1 | Indexierungsbreite | 40 |
| 4.2.2 | Indexierungsspezifität | 44 |
| 4.3 | Indexierungseffektivität | 46 |
| 4.4 | Belegungsbilanz | 49 |
| 4.5 | Referentenauswertung | 52 |
| 5. | Fazit | 57 |
| Literaturverzeichnis | 63 | |
| Anhang | 69 |
Textprobe:
Kapitel 3.1, Der MindServer als statistisches Verfahren:
Automatische Indexierungsverfahren können in vier Kategorien eingeteilt werden. Statistische Verfahren (1. Kategorie) bestimmen die Häufigkeit von Wörtern bzw. Termen in einem Text und weisen den signifikanten, weil in der ermittelten Häufigkeitsliste oben stehenden Wörtern eine sinntragende Bedeutung für den Dokumenteninhalt zu. Die informationslinguistischen (bzw. computerlinguistischen) Verfahren (2. Kategorie) fokussieren demgegenüber auf die Sprach- und Schriftsystemerkennung von Texten. Diese Verfahren gehen deshalb folgendermaßen vor, um die sprachliche Ebene des Dokumentes zu analysieren Entfernung nicht sinntragender Wörter, Rückführung der Flexionsform eines Wortes auf seine Grund- oder Stammform, Erkennung zusammengehöriger Wortterme und Pronomina sowie Kompositazerlegung. Informationslinguistische Verfahren können wiederum unterteilt werden in regelbasierte und wörterbuchbezogene Ansätze, die sich aber auch miteinander kombinieren lassen. Pattern-Matching- bzw. Mustererkennungsverfahren (3. Kategorie) bestimmen auf Basis vorher trainierter Muster die in Dokumenten entsprechend relevanten/sinntragenden Wortgruppen. Begriffsorientierte (oder additive) Verfahren (4. Kategorie) abstrahieren vom Dokumenteninhalt auf die Bedeutung des Textes und weisen diesem dann eine oder mehrere Kategorien (Deskriptoren oder Notationen) aus einem kontrollierten Vokabular zu. Letzteres Verfahren beinhaltet auch ordnungstheoretische Aspekte, gilt es doch, die Vorlage in ein ontologisches Begriffssystem – hierzu zählen domänenspezifische Konzepträume – einzuordnen. Zudem weist Luckhardt darauf hin, dass ein Additionsverfahren, wie es in dieser Arbeit zur Anwendung kommt, generell zu einer geringeren Indexierungskonsistenz führt als eingesetzte Extraktionsverfahren.
Die in der ZBW zur automatischen Indexierung eingesetzte MindServer-Software bedient sich der PLSA (Probabilistic Latent Semantic Analysis). Dahinter verbirgt sich eine Maschinenlerntechnik, mit deren Hilfe in einer vorhandenen Dokumentensammlung relevante Konzepte oder Themen automatisch identifiziert und entsprechend strukturiert werden. Die Analyse der sinntragenden Teile eines Dokumentes erfolgt hierbei über ein konsequent statistisches Verfahren, das ‘im Gegensatz zu linguistischen Ansätzen ein Kategorieverständnis über das gemeinsame Auftreten von Worten erlangt. Im Kategorisierungsfall werden dem System Kategorien/Taxonomien vorgegeben, die zur Verschlagwortung herangezogen werden sollen. Für jede der Kategorien werden dann Trainingsdokumente, die bereits kategorisiert sind, in das Softwaresystem eingespeist. Über diese vorkategorisierten Trainingsdokumente ist das System in der Lage, eine Konfiguration für jede Kategorie zu extrahieren, die es dem System ermöglicht, Dokumente unter Angabe der Konfidenz in die Kategorien einzusortieren’.
Der PLSA-Algorithmus benötigt für diese eben beschriebene Kategorisierung generell keinen Input in Form von Lexika, Klassifikationen, Thesauri oder Ontologien. Die Software stellt ein lernendes System dar, welches Informationsstrukturen aus einer Gesamtdokumentenanzahl abstrahiert und Lernmuster generiert. Dies geschieht mit Hilfe eines statistischen Verfahrens und mündet in einer quantitativen und zugleich qualitativen Beschreibung aller Dokumente. Die semantische Verknüpfung von Worttermen oder Inhaltsaspekten erfolgt über die statistische Ermittlung von Häufigkeiten. Diese Vorgehensweise ermöglicht eine sprach- und fachspezifisch unabhängige Analyse der vorliegenden Texte. Zudem ermöglicht dieser Ansatz, latent im Dokument enthaltene Inhalte durch den Abgleich mit der Gesamtdokumentenzahl zu erkennen, die ein manueller Indexierer durch seinen eingeschränkten Blickwinkel normalerweise nicht erkennen kann.
Die generelle Lernfähigkeit der eingesetzten Indexierungssoftware wird durch deren Einsatz im Rahmen eines semi-automatischen Verfahrens noch erhöht. Mit Hilfe dieses Verfahrens können durch die FachreferentInnen Indexierungsfehler ausgebessert und Wortkombinationen, eine Schwachstelle vieler maschineller Verfahren, dem System als Regeldefinition vorgegeben werden, um die Kontexterkennung zu verbessern. Dadurch werden nicht nur statistisch häufige Muster erkannt, sondern darüber hinaus durch die Trainingsdokumente auch Gesetzmäßigkeiten konstruiert, die bei der Erschließung von neuen Dokumenten (‘unseen documents’) Berücksichtigung finden.
Die in der ZBW momentan vorgenommene Implementierung einer semi-automatischen Indexierung läuft folgendermaßen ab. Zuerst wird ein Trainingsset benötigt, auf dessen Basis die Indexierungssoftware die Vergabe der einzelnen Kategorien/Schlagwörter auf Grundlage des manuellen Indexierungsverhaltens trainieren kann. In der Regel braucht das System eine ausreichende Anzahl an Dokumenten pro Kategorie (mindestens 50 Titel), um diese eindeutig zuzuordnen. Hierbei extrahiert das System nicht nur einzelne, häufig vorkommende Stichworte, sondern Wortmuster, die wiederum für die Entscheidung bezüglich einer Kategoriezuordnung genutzt werden. Dieser Lernvorgang wird mit Hilfe des sog. Taxonomie-Browsers durchgeführt. Auf dieser Erfahrungsbasis können jetzt neue Dokumente dem System im Rahmen des alltäglichen Geschäftsprozesses zur Verschlagwortung zur Verfügung gestellt werden. Neue Dokumente stellen damit das jeweilige Testset dar, welches unter Zuhilfenahme des Annotationstoolskategorisiert wird. Diese Kategorien bzw. Deskriptoren können nun vom menschlichen Indexierer angenommen, geändert oder abgelehnt werden. Das dann vollendet erschlossene Testdokument wird im Anschluss an diesen Arbeitsvorgang publiziert, d. h. durch den Fachreferenten als fertig bearbeiteter Titel angesehen. Gleichzeitig dient dieses Testdokument wiederum als Verbreiterung der Lernbasis innerhalb des Trainingssets. Damit wird erreicht, dass nicht nur die Oberbegriffe innerhalb einer vorgegebenen Thesaurusstruktur ausreichend trainiert werden, sondern auch die entsprechenden Unterbegriffe. Neben dem Taxonomie-Browser und dem Annotationstool steht das Administrationstool zur Verwaltung der eingespielten und wieder auszuwerfenden Daten zur Verfügung.
Während die eingesetzte Indexierungssoftware MindServer auf der Basis von PLSA bei der Kategorisierung von Dokumenten grundsätzlich ohne manuellen Input, d. h. irgendeine Form von vorgegebenen Kategorien, auskommt, weil es auf Basis der vorliegenden Dokumenteninhalte lernt, erfolgt im Rahmen ihres Einsatzes an der ZBW nunmehr eine qualitative, weil semantische Erweiterung des ursprünglich rein statistischen Ansatzes. Die Ergebnisse der statistischen Textanalyse werden anschließend mit entsprechenden Thesaurusbegriffen abgebildet. Dadurch erfolgt eine Zuordnung in einen domänenspezifischen Konzeptraum, in diesem Falle die Volks- und Betriebswirtschaftslehre. Durch diese Verbindung erfährt das ursprünglich rein statistische Verfahren eine Erweiterung hin zu einem begriffsorientierten Verfahren. Diese Art automatischer Sacherschließung ermöglicht eine ‘sprachunabhängige, auf Bedeutung abhebende Analyse’, weil sie inhalts- und nicht stichwortbezogen funktioniert. Aus diesen Gründen kann das Verfahren, das dieser Arbeit zugrunde liegt, gleichfalls in den Bereich der Additionsverfahren subsumiert werden, denn es erfolgt keine reine Wortextraktion aus einem Text, sondern diese Extraktion wird mit einem informatorischen Mehrwert versehen.
Gerade in Bezug auf die Informationsstrukturierung im Semantic-Web-Kontext, die vor allem auf die Bedeutungsebene von Informationen und dessen Kontextualisierungsfunktion bei der Wissensgenerierung abzielt, wird sich im weiteren Verlauf dieser Arbeit zeigen, ob das anzuwendende und zu evaluierende Verfahren geeignet ist, dies zu gewährleisten. Grundsätzlich kommen begriffsorientierte Ansätze dem Verhalten eines menschlichen Indexierers näher als statistische oder informationslinguistische Verfahren. Die Imitation eines manuellen Arbeitsprozesses wird aber auch mit diesem Verfahren nicht vollständig gelingen, denn es wird zunächst mit statistischen Methoden und damit ‘letztlich wiederum über die Sprachoberfläche auf Bedeutungen geschlossen’. Trotzdem kann über die Messung der Indexierungskonsistenz dieser Abbildungsvorgang, bei dem Inhalte über zugewiesene Deskriptoren beschrieben werden, gemessen und entsprechend bewertet werden.
48,00 €
PDF-eBook Download: 48,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783842805033
Arbeit zitieren:
Groß, Thomas Mai 2010: Die Implementierung eines automatischen Indexierungsverfahrens am Beispiel der deutschen Zentralbibliothek für Wirtschaftswissenschaften, Hamburg: Diplomica Verlag
Schlagworte:
Belegungsbilanz, Indexierungskonsistenz, Bibliothek, Sacherschließung, Deutschland



