Entwurf und Implementierung eines Publikationsarchives
- Art: MA-Thesis / Master
- Autor: Mark Brodski
- Abgabedatum: September 2005
- Umfang: 76 Seiten
- Dateigröße: 2,6 MB
- Note: 1,3
- Institution / Hochschule: FernUniversität in Hagen Deutschland
- ISBN (eBook): 978-3-8324-9113-0
-
ISBN (Paperback) :
978-3-8324-9113-0 P - ISBN (CD) :978-3-8324-9113-0 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Brodski, Mark September 2005: Entwurf und Implementierung eines Publikationsarchives, Hamburg: Diplomica Verlag
- Schlagworte: digitales Archiv, Metadaten, Retrieval, Suchergebnis, Speicherung
In den Warenkorb
68,00 €
MA-Thesis / Master von Mark Brodski
Einleitung:
Der Austausch zwischen Wissenschaftlern, insbesondere auf internationaler Ebene, ist für die erfolgreiche Etablierung neuer Forschungsergebnisse unerlässlich. Eine Veröffentlichung dient nicht nur der Dokumentation von Ergebnissen oder dem Nachweis der Priorität, sie ermöglicht erst deren breite fachliche Diskussion. Zu den wichtigsten Publikationsformen gehören Buch- und Zeitschriftenartikel sowie Konferenzbeiträge.
Die von Wissenschaftlern publizierten Ergebnisse ihrer eigenen Arbeit bauen auf den Werken Dritter auf oder zitieren diese als Information- oder Meinungsquellen. Um die fachlichen Errungenschaften des Verfassers zu bewerten oder seine Schlussfolgerungen nachzuvollziehen, ist für den Leser oft der Rückgriff auf die Originalwerke notwendig, die sich seinerseits auf Arbeiten anderer Wissenschaftler beziehen. Der Umfang auf diese Weise entstehender Sammlungen von Veröffentlichungen wächst mit einer geometrischen Progression, so dass man leicht den Überblick darüber verlieren kann. Durch die Verwendung von webbasierten Werkzeugen kann die Verwaltung und Nutzung dieser Publikationsarchive erleichtert werden.
Ziel der Arbeit ist die Entwicklung eines Internet-basierten Publikationsarchives, das die Speicherung sowie Verwaltung von wissenschaftlichen Werken in digitaler Form unterstützt und Bibliotheksfunktionen, vor allem Such- und Veröffentlichungsfunktionen, zur Verfügung stellt.
Gang der Untersuchung:
Nach dieser Anleitung, in der die Motivation zu dieser Arbeit sowie die allgemeine Funktionalität digitaler Publikationsarchive behandelt wird, werden Metadaten als datentechnische Grundlage derartiger Archive präsentiert, einige ihrer wichtigsten Formate vorgestellt und deren Eigenschaften miteinander verglichen.
Im dritten Kapitel werden unterschiedliche fachliche und technische Möglichkeiten der Realisierung eines digitalen Publikationsarchives diskutiert: Formate und langfristige digitale Archivierung von Publikationen, Erschließung durch Metadaten sowie vielfältige Retrieval-Varianten. Im Kap. 4 werden bereits existierende Software-Lösungen im Bereich der Archivierung von wissenschaftlichen Publikationen vorgestellt.
Kapitel 5 enthält die Anforderungen an das im Rahmen dieser Arbeit zu entwickelnde Softwareprodukt. Im sich anschließenden Kapitel wird das Datenmodell der Anwendung konzipiert und im Kapitel 7 die Technologie für ihre Realisierung ausgewählt sowie die wichtigsten Anwendungsfälle beschrieben.
Kapitel 8 enthält die technische Dokumentation der realisierten Anwendung: die Installationsanleitung, das Programmier- und das Anwender-Handbuch, Kapitel 9 - den Bericht über den praktischen Einsatz der Software und den Test der Umsetzung gegenüber den Anforderungen.
Anschließend werden die möglichen zukünftigen Weiterentwicklungen vorgeschlagen und die Ergebnisse der Arbeit zusammengefasst.
Zusammenfassung:
Für den Austausch von Forschungsergebnissen zwischen Wissenschaftlern ist deren Veröffentlichung unerlässlich. Dank der modernen Technologie erfolgt sie seit wenigen Jahren zunehmend in Form von elektronischen Dokumenten, die in digitalen Archiven aufbewahrt und verwaltet werden. Von diesen Archiven wird die Unterstützung der Funktionalität erwartet, die auch von Präsenzbibliotheken und anderen Dokumentationseinrichtungen zur Verfügung gestellt wird, um die aufbewahrten Informationen zur weiteren Verwendung nutzbar zu machen.
In erster Linie müssen dafür die Metadaten des Dokumentenbestandes registriert, verwaltet und für die Recherche bereitgestellt werden. Für die Verwaltung von Metadaten stehen mehrere standardisierte Formate zur Auswahl.
Es gibt unterschiedliche konzeptuelle Auffassungen über die Realisierung digitaler Archive und ihrer Eigenschaften wie Retrieval-Möglichkeiten, unterstützte Dateiformate oder benutzte Technologien. Das Spektrum reicht von einfachen Lösungen wie der Metadaten-Speicherung in Textdateien oder der Einzelfeld-Recherche bis hin zu relationalen und XML-Datenbanken sowie der Metasuche über mehrere Publikationsarchive.
Einige dieser Ansätze sind in Softwarelösungen realisiert, auf denen mehrere bereits existierende Publikationsarchive basieren. Das sind zum Teil umfangreiche Anwendungen, die von Gruppen von Entwicklern konzipiert, implementiert und jahrelang vervollkommnet werden. Wissenschaftliche Publikationsarchive einiger deutschen Hochschulen sind z. B. seit mehr als zehn Jahren im Einsatz.
Aufgrund der recherchierten Informationen über Metadaten-Formate, Varianten der Funktionen-Realisierung sowie existierende Softwarelösungen wird ein Anforderungskatalog für ein Internet-basiertes Publikationsarchiv zusammengestellt.
Die Anwendung PubArc, die Archivierung von wissenschaftlichen Werken in digitaler Form unterstützt und Bibliotheksfunktionen zur Verfügung stellt, wird im Rahmen dieser Arbeit konzipiert, entworfen und implementiert. Eine passende Metadaten-Konfiguration sowie die zu verwendende Technologie wurden ausgewählt, die möglichen Anwender-Fälle ausgearbeitet. Die implementierte Software-Lösung wird umfassend dokumentiert.
PubArc wurde auf einem öffentlich zugänglichen Web-Server installiert, seine Funktionalität online und im Vergleich zu den gestellten Anforderungen getestet.
Inhaltsverzeichnis:
| 1. | Einführung | 6 |
| 1.1 | Grundlagen und Ziele dieser Arbeit | 6 |
| 1.2 | Digitale Publikationsarchive und ihre Funktionalität | 6 |
| 1.2.1 | Archivierung | 7 |
| 1.2.2 | Erschließung | 7 |
| 1.2.3 | Information Retrieval | 8 |
| 1.2.4 | Bereitstellung | 9 |
| 1.3 | Aufbau der Arbeit | 10 |
| 2. | Metadaten für die Beschreibung von Informationsressourcen | 10 |
| 2.1 | BibTeX | 11 |
| 2.2 | Dublin Core | 12 |
| 2.3 | DOI | 14 |
| 2.4 | ONIX | 17 |
| 2.5 | Export- und Austausch-Formate | 18 |
| 3. | Archivierung und Retrieval in Publikationsarchiven | 19 |
| 3.1 | Metadaten-Speicherung und -Recherche | 19 |
| 3.1.1 | Suchgebiete und Vergleichsmethoden | 19 |
| 3.1.2 | Relevanz und Sortierung von Suchergebnissen | 20 |
| 3.1.3 | Metadaten im Plaintext | 22 |
| 3.1.4 | Meta-Angaben in HTML | 22 |
| 3.1.5 | XML-Dateien | 23 |
| 3.1.6 | Relationale Datenbanken | 23 |
| 3.1.7 | XML-Datenbanken | 24 |
| 3.2 | Archivieren von Publikationen | 25 |
| 3.2.1 | Publikationen-Dateiformate | 25 |
| 3.2.2 | Speicherbedarf | 26 |
| 3.2.3 | Speicherverwaltung | 27 |
| 3.2.4 | Volltext-Suche in Publikationen | 28 |
| 4. | Bestehende Softwarelösungen für öffentliche Publikationsarchive | 29 |
| 4.1 | Archive für wissenschaftliche Publikationen | 30 |
| 4.2 | Software für Publikationsarchive | 30 |
| 4.2.1 | MONARCH | 31 |
| 4.2.2 | OPUS | 32 |
| 4.2.3 | MILESS / MyCoRe | 33 |
| 4.2.4 | ePubWU | 35 |
| 4.3 | Unterschiede und Gemeinsamkeiten | 36 |
| 5. | Anforderungskatalog | 36 |
| 5.1 | Funktionale Anforderungen | 37 |
| 5.1.1 | Archivierung | 37 |
| 5.1.2 | Erschließung | 37 |
| 5.1.3 | Information Retrieval | 37 |
| 5.1.4 | Bereitstellung | 37 |
| 5.1.5 | Benutzerführung | 37 |
| 5.2 | Fachliche Anforderungen | 37 |
| 5.2.1 | Metadaten | 37 |
| 5.2.2 | Layout | 38 |
| 5.2.3 | Evaluierung und Dokumentation | 38 |
| 5.3 | Technische Anforderungen | 38 |
| 5.3.1 | Portabilität | 38 |
| 5.3.2 | Konfigurierbarkeit | 38 |
| 5.3.3 | Erweiterbarkeit | 38 |
| 6. | Konzeption eines digitalen Publikationsarchives | 38 |
| 6.1 | Metadaten | 38 |
| 6.1.1 | Felder | 39 |
| 6.1.2 | Gruppierung der Felder | 40 |
| 6.1.3 | Reihenfolge von Feldern und Gruppen | 40 |
| 6.1.4 | Kategorien der Ressourcen | 41 |
| 6.1.5 | Metadaten-Konfiguration des digitalen Publikationsarchivs | 41 |
| 6.2 | Datenmodell | 42 |
| 7. | Fachentwurf von PubArc | 44 |
| 7.1 | Technologiewahl | 44 |
| 7.1.1 | Softwarearchitektur | 44 |
| 7.1.2 | Anwendung- und Geschäftslogik | 45 |
| 7.2 | Metadaten und Publikationsdateien | 46 |
| 7.2.1 | Metadaten | 46 |
| 7.2.2 | Publikationsdateien | 48 |
| 7.3 | Use Cases | 48 |
| 7.4 | Relevanz der Suchergebnisse | 49 |
| 7.4.1 | Direktsuche | 50 |
| 7.4.2 | Volltext-Suche | 50 |
| 7.4.3 | Erweiterte Suche | 51 |
| 7.5 | Externe Schnittstellen | 51 |
| 7.6 | Administration | 51 |
| 8. | Implementierung von PubArc | 51 |
| 8.1 | Installationsanleitung | 51 |
| 8.1.1 | Voraussetzungen | 51 |
| 8.1.2 | Hilfspakete | 52 |
| 8.1.3 | Pfade anpassen | 52 |
| 8.1.4 | Dateien kopieren | 52 |
| 8.2 | Programmierhandbuch | 53 |
| 8.2.1 | Entwicklungsumgebung | 53 |
| 8.2.2 | Java-Pakete und –Klassen | 53 |
| 8.2.3 | Konfiguration der Metadaten | 56 |
| 8.2.4 | Formulare und Corporate Design | 59 |
| 8.2.5 | Andere Sourcen des Projekts | 59 |
| 8.2.6 | Datenhaltung | 60 |
| 8.2.7 | Suchalgorithmus | 61 |
| 8.2.8 | Exportformate | 61 |
| 8.3 | Anwender-Handbuch | 61 |
| 8.3.1 | Publikationen im Archiv suchen | 61 |
| 8.3.2 | Metadaten und Publikationen exportieren | 63 |
| 8.3.3 | Sich als privilegiert authentifizieren | 64 |
| 8.3.4 | Publikation archivieren | 66 |
| 8.3.5 | Publikation aktualisieren oder löschen | 67 |
| 9. | Evaluation | 68 |
| 9.1 | Praktischer Einsatz | 68 |
| 9.2 | Test der Umsetzung gegenüber den Anforderungen | 69 |
| 9.2.1 | Umsetzung funktionaler Anforderungen | 69 |
| 9.2.2 | Umsetzung fachlicher Anforderungen | 69 |
| 9.2.3 | Umsetzung technischer Anforderungen | 70 |
| 10. | Zusammenfassung und Ausblick | 70 |
| 10.1 | Nächste Entwicklungsschritte | 70 |
| 10.2 | Zusammenfassung | 71 |
| Literaturverzeichnis | 73 | |
| Erklärung | 76 |
4.2.2 OPUS Der erste Schritt zu einem landes- oder bundesweiten Publikationsverbund mit der Erfassung und Organisation elektronischer Volltexte wurde an der Universität Stuttgart 1998 gemacht. OPUS (Online Publikationsverbund der Universität Stuttgart) sowie alle zugrunde liegenden Softwarekomponenten sind für Hochschulen frei. Anfang 2003 wurde das System an 19 Universitäten, zwei Fachhochschulen und zwei Bibliotheks-Verbünden produktiv eingesetzt ([Scholze 2004], [Lehmann 1998]). Zurzeit können Publikationsbestände von 52 Universitäten, Fachhochschulen und anderen Institutionen gemeinsam recherchiert werden. Dokumente Dokumente werden im Format PDF angeliefert, archiviert und präsentiert. Zusätzlich wird aus dem PDF-Dokument eine ASCII-Datei erzeugt, um eine Volltextsuche zu ermöglichen. Der File-Upload wird mit einem PHP-Skript realisiert (Abb. 4.3). Metadaten Die Metadaten nach Dublin Core mit Zusatzfeldern (Abstract, Klassifikationen) werden in einer relationalen Datenbank (OPUS-Datenbank) gespeichert. [...]
4.2.1 MONARCH Das Multimedia Online Archiv Chemnitz (MONARCH) ist seit mehr als zehn Jahren an der TU Chemnitz im Einsatz ([Lehmann 1998], [Ziegler 2005]): Dokumente Folgende Anlieferungsformate sind zugelassen: HTML, PDF, Postscript, ASCII, MS Word, RTF, ZIP und DVI. In diesen Formaten wird das Dokument auch archiviert und den Anwendern präsentiert. Eine Konvertierung findet nicht statt. Das Hochladen der Dokumente wird mittels Perl implementiert (Abb. 4.2). Metadaten Die Metadaten wurden in MONARCH zuerst im Format SOIF (Summary Object Interchange Format), seit 1997 in Dublin Core und seit 2002 in Dublin Core qualified gehalten. 2004 wurden die Metadaten auf das Format Dublin Core XML umgestellt. Die Metadaten werden teilweise vom System selbst generiert. Zum Ziel des Exports der Metadaten werden auch Schnittstellen für die Konvertierung in andere Formate implementiert: für die Übermittlung an die NCSTRL (Networked Computer Science Technical Report Library), an die Deutsche Bibliothek (im Format XMetaDiss) und an den Südwestdeutschen Bibliotheksverbund. Für die Konvertierung der Metadaten wird XSLT verwendet. Archivieren und Erschließen Nachdem der Autor das Dokument in einem der vorgegebenen Formate erstellt hat, stellt er dieses gemeinsam mit beschreibenden Metadaten über ein mehrseitiges elektronisches Formular zur Archivierung bereit (Abb. 4.2). Generierbare Metadaten werden nicht abgefragt, die Eingabe nicht-generierbarer Metadaten wird online verifiziert (Syntaxprüfung, Konsistenzprüfung). Es werden differenzierte Archivierungs-Formularinhalte entsprechend Dokumenttyp angezeigt (variierende Feldsätze je nach Kategorie). Die Archivierungskomponente des Systems prüft asynchron die Existenz bereitgestellter Dokumente und übernimmt diese, dabei werden das Dokument und die Metadaten gespeichert, eine permanente URL des Dokuments festgelegt und die Recherchedatenbasis aktualisiert. Information Retrieval Man kann über den gesamten Index (Metadaten, Volltext) recherchieren (intern mit Hilfe der Suchmaschine Swish-E und extern mit Google). Bei Suchbegriffen sind Regulärausdrücke, Auswahl der Elemente des Metadatensets, logische Verknüpfungen (AND/OR) und Abweichungen vom Suchbegriff (approximate matching) möglich. Die Suchergebnisse können chronologisch, alphabetisch nach Autoren oder vorher nach Relevanz und dann nach einem dieser beiden Merkmale sortiert werden. [...]
3.2.4 Volltext-Suche in Publikationen Außer Suche in den Metadaten unterstützen einige Archive auch Suche in Publikationen selbst. Dabei ist natürlich nur die Volltext-Suche in textbasierten Formaten möglich, Videound andere Multimedia-Inhalte werden nicht berücksichtigt. Interne Suche Die Suche wird mit Hilfe einer internen Suchmaschine realisiert. Das ist ein SoftwareProgramm, das direkt auf dem Archivierungs-Server oder im lokalen Netzwerk installiert wird. Existierende Archivierungs-Systeme verwenden Lösungen sowohl aus dem OpenSource-Bereich (Jakarta Lucene, swish-E, Glimpse, htDig) als auch kommerzielle wie NSE (Network Search Engine) von IBM. Das Ausgabe-Layout der Suchergebnisse sowie verwendete Such- und VergleichAlgorithmen können an die eigenen Bedürfnisse angepasst werden; andererseits fallen zusätzliche Kosten für Administration und Wartung der installierten Software an. Externe Suche Man kann aber auch ohne eigene Suchmaschine auskommen, ohne dabei auf eine vollwertige Volltext-Suchfunktion verzichten zu müssen. So bietet z. B. Google (http://www.google.com/) einen Service namens SiteSearch, der es den Nutzern ermöglicht, innerhalb der Seiten einer Website zu suchen. SiteSearch nutzt den Suchindex von Google, um die relevantesten Ergebnisse innerhalb einer Domain zu finden, und unterstützt dabei verschiedenste Dateiformate, genau wie die Internet-Suche von Google: Außer HTML-Seiten werden PDF, Word (DOC), PostScript, Excel (XLS), PowerPoint (PPT), RTF sowie weitere Formate durchsucht. Dateien in den genannten Formaten erscheinen in den üblichen Suchergebnissen und werden dort entsprechend gekennzeichnet. Die spezialisierte Suchmaschine für wissenschaftliche Publikationen Google Scholar (http://scholar.google.com) bietet u. a. auch die Recherche nach Metadaten (Autor, Zeitschrift, Erscheinungsdatum), befindet sich aber noch im Beta-Stadium, eine Begrenzung der Suchergebnisse auf eine Domain wird bisher leider nicht angeboten ([Mayr and Walter, 2005]). Der Einbau einer Maske auf der eigenen Homepage ist einfach, leider bringt eine externe Lösung nicht nur Vorteile: - man kann nur Seiten durchsuchen, die von der Internet-Suchmaschine bereits indexiert sind; - auf die Aktualisierungsintervalle kann kein Einfluss genommen werden ([Scholze 2004]). So taucht eine neu archivierte Publikation in den Suchergebnissen erst Tage oder sogar Wochen später; - die Möglichkeiten, das Seitenlayout der Suchergebnisse dem Corporate Design eigener Homepage anzupassen, sind äußerst bescheiden; - die Suchmaschine kann auf der Seite außer gewünschten Suchergebnissen auch eigene Werbung platzieren, was auf Anwender einen unprofessionellen Eindruck macht. Die beiden letzten Punkte können ausgeglichen werden, indem man die Ergebnisse der externen Suche mit einem eigenen Script abfängt und in eine gewünschte Form (ohne Werbung und im eigenen Corporate Design) transformiert (s. Abb. 3.4). [...]
In den Warenkorb
68,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832491130
Arbeit zitieren:
Brodski, Mark September 2005: Entwurf und Implementierung eines Publikationsarchives, Hamburg: Diplomica Verlag
Schlagworte:
digitales Archiv, Metadaten, Retrieval, Suchergebnis, Speicherung



