Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Entwurf und Implementierung eines Publikationsarchives

Entwurf und Implementierung eines Publikationsarchives
Über dieses Buch
  • Art: MA-Thesis / Master
  • Autor: Mark Brodski
  • Abgabedatum: September 2005
  • Umfang: 76 Seiten
  • Dateigröße: 2,6 MB
  • Note: 1,3
  • Institution / Hochschule: FernUniversität in Hagen Deutschland
  • ISBN (eBook): 978-3-8324-9113-0
  • ISBN (Paperback) :
    978-3-8324-9113-0 P
  • ISBN (CD) :978-3-8324-9113-0 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Brodski, Mark September 2005: Entwurf und Implementierung eines Publikationsarchives, Hamburg: Diplomica Verlag
  • Schlagworte: digitales Archiv, Metadaten, Retrieval, Suchergebnis, Speicherung

MA-Thesis / Master von Mark Brodski

Einleitung:

Der Austausch zwischen Wissenschaftlern, insbesondere auf internationaler Ebene, ist für die erfolgreiche Etablierung neuer Forschungsergebnisse unerlässlich. Eine Veröffentlichung dient nicht nur der Dokumentation von Ergebnissen oder dem Nachweis der Priorität, sie ermöglicht erst deren breite fachliche Diskussion. Zu den wichtigsten Publikationsformen gehören Buch- und Zeitschriftenartikel sowie Konferenzbeiträge.

Die von Wissenschaftlern publizierten Ergebnisse ihrer eigenen Arbeit bauen auf den Werken Dritter auf oder zitieren diese als Information- oder Meinungsquellen. Um die fachlichen Errungenschaften des Verfassers zu bewerten oder seine Schlussfolgerungen nachzuvollziehen, ist für den Leser oft der Rückgriff auf die Originalwerke notwendig, die sich seinerseits auf Arbeiten anderer Wissenschaftler beziehen. Der Umfang auf diese Weise entstehender Sammlungen von Veröffentlichungen wächst mit einer geometrischen Progression, so dass man leicht den Überblick darüber verlieren kann. Durch die Verwendung von webbasierten Werkzeugen kann die Verwaltung und Nutzung dieser Publikationsarchive erleichtert werden.

Ziel der Arbeit ist die Entwicklung eines Internet-basierten Publikationsarchives, das die Speicherung sowie Verwaltung von wissenschaftlichen Werken in digitaler Form unterstützt und Bibliotheksfunktionen, vor allem Such- und Veröffentlichungsfunktionen, zur Verfügung stellt.

Gang der Untersuchung:

Nach dieser Anleitung, in der die Motivation zu dieser Arbeit sowie die allgemeine Funktionalität digitaler Publikationsarchive behandelt wird, werden Metadaten als datentechnische Grundlage derartiger Archive präsentiert, einige ihrer wichtigsten Formate vorgestellt und deren Eigenschaften miteinander verglichen.

Im dritten Kapitel werden unterschiedliche fachliche und technische Möglichkeiten der Realisierung eines digitalen Publikationsarchives diskutiert: Formate und langfristige digitale Archivierung von Publikationen, Erschließung durch Metadaten sowie vielfältige Retrieval-Varianten. Im Kap. 4 werden bereits existierende Software-Lösungen im Bereich der Archivierung von wissenschaftlichen Publikationen vorgestellt.

Kapitel 5 enthält die Anforderungen an das im Rahmen dieser Arbeit zu entwickelnde Softwareprodukt. Im sich anschließenden Kapitel wird das Datenmodell der Anwendung konzipiert und im Kapitel 7 die Technologie für ihre Realisierung ausgewählt sowie die wichtigsten Anwendungsfälle beschrieben.

Kapitel 8 enthält die technische Dokumentation der realisierten Anwendung: die Installationsanleitung, das Programmier- und das Anwender-Handbuch, Kapitel 9 - den Bericht über den praktischen Einsatz der Software und den Test der Umsetzung gegenüber den Anforderungen.

Anschließend werden die möglichen zukünftigen Weiterentwicklungen vorgeschlagen und die Ergebnisse der Arbeit zusammengefasst.

Zusammenfassung:

Für den Austausch von Forschungsergebnissen zwischen Wissenschaftlern ist deren Veröffentlichung unerlässlich. Dank der modernen Technologie erfolgt sie seit wenigen Jahren zunehmend in Form von elektronischen Dokumenten, die in digitalen Archiven aufbewahrt und verwaltet werden. Von diesen Archiven wird die Unterstützung der Funktionalität erwartet, die auch von Präsenzbibliotheken und anderen Dokumentationseinrichtungen zur Verfügung gestellt wird, um die aufbewahrten Informationen zur weiteren Verwendung nutzbar zu machen.

In erster Linie müssen dafür die Metadaten des Dokumentenbestandes registriert, verwaltet und für die Recherche bereitgestellt werden. Für die Verwaltung von Metadaten stehen mehrere standardisierte Formate zur Auswahl.

Es gibt unterschiedliche konzeptuelle Auffassungen über die Realisierung digitaler Archive und ihrer Eigenschaften wie Retrieval-Möglichkeiten, unterstützte Dateiformate oder benutzte Technologien. Das Spektrum reicht von einfachen Lösungen wie der Metadaten-Speicherung in Textdateien oder der Einzelfeld-Recherche bis hin zu relationalen und XML-Datenbanken sowie der Metasuche über mehrere Publikationsarchive.

Einige dieser Ansätze sind in Softwarelösungen realisiert, auf denen mehrere bereits existierende Publikationsarchive basieren. Das sind zum Teil umfangreiche Anwendungen, die von Gruppen von Entwicklern konzipiert, implementiert und jahrelang vervollkommnet werden. Wissenschaftliche Publikationsarchive einiger deutschen Hochschulen sind z. B. seit mehr als zehn Jahren im Einsatz.

Aufgrund der recherchierten Informationen über Metadaten-Formate, Varianten der Funktionen-Realisierung sowie existierende Softwarelösungen wird ein Anforderungskatalog für ein Internet-basiertes Publikationsarchiv zusammengestellt.

Die Anwendung PubArc, die Archivierung von wissenschaftlichen Werken in digitaler Form unterstützt und Bibliotheksfunktionen zur Verfügung stellt, wird im Rahmen dieser Arbeit konzipiert, entworfen und implementiert. Eine passende Metadaten-Konfiguration sowie die zu verwendende Technologie wurden ausgewählt, die möglichen Anwender-Fälle ausgearbeitet. Die implementierte Software-Lösung wird umfassend dokumentiert.

PubArc wurde auf einem öffentlich zugänglichen Web-Server installiert, seine Funktionalität online und im Vergleich zu den gestellten Anforderungen getestet.

Inhaltsverzeichnis:

1. Einführung 6
1.1 Grundlagen und Ziele dieser Arbeit 6
1.2 Digitale Publikationsarchive und ihre Funktionalität 6
1.2.1 Archivierung 7
1.2.2 Erschließung 7
1.2.3 Information Retrieval 8
1.2.4 Bereitstellung 9
1.3 Aufbau der Arbeit 10
2. Metadaten für die Beschreibung von Informationsressourcen 10
2.1 BibTeX 11
2.2 Dublin Core 12
2.3 DOI 14
2.4 ONIX 17
2.5 Export- und Austausch-Formate 18
3. Archivierung und Retrieval in Publikationsarchiven 19
3.1 Metadaten-Speicherung und -Recherche 19
3.1.1 Suchgebiete und Vergleichsmethoden 19
3.1.2 Relevanz und Sortierung von Suchergebnissen 20
3.1.3 Metadaten im Plaintext 22
3.1.4 Meta-Angaben in HTML 22
3.1.5 XML-Dateien 23
3.1.6 Relationale Datenbanken 23
3.1.7 XML-Datenbanken 24
3.2 Archivieren von Publikationen 25
3.2.1 Publikationen-Dateiformate 25
3.2.2 Speicherbedarf 26
3.2.3 Speicherverwaltung 27
3.2.4 Volltext-Suche in Publikationen 28
4. Bestehende Softwarelösungen für öffentliche Publikationsarchive 29
4.1 Archive für wissenschaftliche Publikationen 30
4.2 Software für Publikationsarchive 30
4.2.1 MONARCH 31
4.2.2 OPUS 32
4.2.3 MILESS / MyCoRe 33
4.2.4 ePubWU 35
4.3 Unterschiede und Gemeinsamkeiten 36
5. Anforderungskatalog 36
5.1 Funktionale Anforderungen 37
5.1.1 Archivierung 37
5.1.2 Erschließung 37
5.1.3 Information Retrieval 37
5.1.4 Bereitstellung 37
5.1.5 Benutzerführung 37
5.2 Fachliche Anforderungen 37
5.2.1 Metadaten 37
5.2.2 Layout 38
5.2.3 Evaluierung und Dokumentation 38
5.3 Technische Anforderungen 38
5.3.1 Portabilität 38
5.3.2 Konfigurierbarkeit 38
5.3.3 Erweiterbarkeit 38
6. Konzeption eines digitalen Publikationsarchives 38
6.1 Metadaten 38
6.1.1 Felder 39
6.1.2 Gruppierung der Felder 40
6.1.3 Reihenfolge von Feldern und Gruppen 40
6.1.4 Kategorien der Ressourcen 41
6.1.5 Metadaten-Konfiguration des digitalen Publikationsarchivs 41
6.2 Datenmodell 42
7. Fachentwurf von PubArc 44
7.1 Technologiewahl 44
7.1.1 Softwarearchitektur 44
7.1.2 Anwendung- und Geschäftslogik 45
7.2 Metadaten und Publikationsdateien 46
7.2.1 Metadaten 46
7.2.2 Publikationsdateien 48
7.3 Use Cases 48
7.4 Relevanz der Suchergebnisse 49
7.4.1 Direktsuche 50
7.4.2 Volltext-Suche 50
7.4.3 Erweiterte Suche 51
7.5 Externe Schnittstellen 51
7.6 Administration 51
8. Implementierung von PubArc 51
8.1 Installationsanleitung 51
8.1.1 Voraussetzungen 51
8.1.2 Hilfspakete 52
8.1.3 Pfade anpassen 52
8.1.4 Dateien kopieren 52
8.2 Programmierhandbuch 53
8.2.1 Entwicklungsumgebung 53
8.2.2 Java-Pakete und –Klassen 53
8.2.3 Konfiguration der Metadaten 56
8.2.4 Formulare und Corporate Design 59
8.2.5 Andere Sourcen des Projekts 59
8.2.6 Datenhaltung 60
8.2.7 Suchalgorithmus 61
8.2.8 Exportformate 61
8.3 Anwender-Handbuch 61
8.3.1 Publikationen im Archiv suchen 61
8.3.2 Metadaten und Publikationen exportieren 63
8.3.3 Sich als privilegiert authentifizieren 64
8.3.4 Publikation archivieren 66
8.3.5 Publikation aktualisieren oder löschen 67
9. Evaluation 68
9.1 Praktischer Einsatz 68
9.2 Test der Umsetzung gegenüber den Anforderungen 69
9.2.1 Umsetzung funktionaler Anforderungen 69
9.2.2 Umsetzung fachlicher Anforderungen 69
9.2.3 Umsetzung technischer Anforderungen 70
10. Zusammenfassung und Ausblick 70
10.1 Nächste Entwicklungsschritte 70
10.2 Zusammenfassung 71
Literaturverzeichnis 73
Erklärung 76

Automatisiert erstellter Textauszug:

4.2.2 OPUS Der erste Schritt zu einem landes- oder bundesweiten Publikationsverbund mit der Erfassung und Organisation elektronischer Volltexte wurde an der Universität Stuttgart 1998 gemacht. OPUS (Online Publikationsverbund der Universität Stuttgart) sowie alle zugrunde liegenden Softwarekomponenten sind für Hochschulen frei. Anfang 2003 wurde das System an 19 Universitäten, zwei Fachhochschulen und zwei Bibliotheks-Verbünden produktiv eingesetzt ([Scholze 2004], [Lehmann 1998]). Zurzeit können Publikationsbestände von 52 Universitäten, Fachhochschulen und anderen Institutionen gemeinsam recherchiert werden. Dokumente Dokumente werden im Format PDF angeliefert, archiviert und präsentiert. Zusätzlich wird aus dem PDF-Dokument eine ASCII-Datei erzeugt, um eine Volltextsuche zu ermöglichen. Der File-Upload wird mit einem PHP-Skript realisiert (Abb. 4.3). Metadaten Die Metadaten nach Dublin Core mit Zusatzfeldern (Abstract, Klassifikationen) werden in einer relationalen Datenbank (OPUS-Datenbank) gespeichert. [...]

4.2.1 MONARCH Das Multimedia Online Archiv Chemnitz (MONARCH) ist seit mehr als zehn Jahren an der TU Chemnitz im Einsatz ([Lehmann 1998], [Ziegler 2005]): Dokumente Folgende Anlieferungsformate sind zugelassen: HTML, PDF, Postscript, ASCII, MS Word, RTF, ZIP und DVI. In diesen Formaten wird das Dokument auch archiviert und den Anwendern präsentiert. Eine Konvertierung findet nicht statt. Das Hochladen der Dokumente wird mittels Perl implementiert (Abb. 4.2). Metadaten Die Metadaten wurden in MONARCH zuerst im Format SOIF (Summary Object Interchange Format), seit 1997 in Dublin Core und seit 2002 in Dublin Core qualified gehalten. 2004 wurden die Metadaten auf das Format Dublin Core XML umgestellt. Die Metadaten werden teilweise vom System selbst generiert. Zum Ziel des Exports der Metadaten werden auch Schnittstellen für die Konvertierung in andere Formate implementiert: für die Übermittlung an die NCSTRL (Networked Computer Science Technical Report Library), an die Deutsche Bibliothek (im Format XMetaDiss) und an den Südwestdeutschen Bibliotheksverbund. Für die Konvertierung der Metadaten wird XSLT verwendet. Archivieren und Erschließen Nachdem der Autor das Dokument in einem der vorgegebenen Formate erstellt hat, stellt er dieses gemeinsam mit beschreibenden Metadaten über ein mehrseitiges elektronisches Formular zur Archivierung bereit (Abb. 4.2). Generierbare Metadaten werden nicht abgefragt, die Eingabe nicht-generierbarer Metadaten wird online verifiziert (Syntaxprüfung, Konsistenzprüfung). Es werden differenzierte Archivierungs-Formularinhalte entsprechend Dokumenttyp angezeigt (variierende Feldsätze je nach Kategorie). Die Archivierungskomponente des Systems prüft asynchron die Existenz bereitgestellter Dokumente und übernimmt diese, dabei werden das Dokument und die Metadaten gespeichert, eine permanente URL des Dokuments festgelegt und die Recherchedatenbasis aktualisiert. Information Retrieval Man kann über den gesamten Index (Metadaten, Volltext) recherchieren (intern mit Hilfe der Suchmaschine Swish-E und extern mit Google). Bei Suchbegriffen sind Regulärausdrücke, Auswahl der Elemente des Metadatensets, logische Verknüpfungen (AND/OR) und Abweichungen vom Suchbegriff (approximate matching) möglich. Die Suchergebnisse können chronologisch, alphabetisch nach Autoren oder vorher nach Relevanz und dann nach einem dieser beiden Merkmale sortiert werden. [...]

3.2.4 Volltext-Suche in Publikationen Außer Suche in den Metadaten unterstützen einige Archive auch Suche in Publikationen selbst. Dabei ist natürlich nur die Volltext-Suche in textbasierten Formaten möglich, Videound andere Multimedia-Inhalte werden nicht berücksichtigt. Interne Suche Die Suche wird mit Hilfe einer internen Suchmaschine realisiert. Das ist ein SoftwareProgramm, das direkt auf dem Archivierungs-Server oder im lokalen Netzwerk installiert wird. Existierende Archivierungs-Systeme verwenden Lösungen sowohl aus dem OpenSource-Bereich (Jakarta Lucene, swish-E, Glimpse, htDig) als auch kommerzielle wie NSE (Network Search Engine) von IBM. Das Ausgabe-Layout der Suchergebnisse sowie verwendete Such- und VergleichAlgorithmen können an die eigenen Bedürfnisse angepasst werden; andererseits fallen zusätzliche Kosten für Administration und Wartung der installierten Software an. Externe Suche Man kann aber auch ohne eigene Suchmaschine auskommen, ohne dabei auf eine vollwertige Volltext-Suchfunktion verzichten zu müssen. So bietet z. B. Google (http://www.google.com/) einen Service namens SiteSearch, der es den Nutzern ermöglicht, innerhalb der Seiten einer Website zu suchen. SiteSearch nutzt den Suchindex von Google, um die relevantesten Ergebnisse innerhalb einer Domain zu finden, und unterstützt dabei verschiedenste Dateiformate, genau wie die Internet-Suche von Google: Außer HTML-Seiten werden PDF, Word (DOC), PostScript, Excel (XLS), PowerPoint (PPT), RTF sowie weitere Formate durchsucht. Dateien in den genannten Formaten erscheinen in den üblichen Suchergebnissen und werden dort entsprechend gekennzeichnet. Die spezialisierte Suchmaschine für wissenschaftliche Publikationen Google Scholar (http://scholar.google.com) bietet u. a. auch die Recherche nach Metadaten (Autor, Zeitschrift, Erscheinungsdatum), befindet sich aber noch im Beta-Stadium, eine Begrenzung der Suchergebnisse auf eine Domain wird bisher leider nicht angeboten ([Mayr and Walter, 2005]). Der Einbau einer Maske auf der eigenen Homepage ist einfach, leider bringt eine externe Lösung nicht nur Vorteile: - man kann nur Seiten durchsuchen, die von der Internet-Suchmaschine bereits indexiert sind; - auf die Aktualisierungsintervalle kann kein Einfluss genommen werden ([Scholze 2004]). So taucht eine neu archivierte Publikation in den Suchergebnissen erst Tage oder sogar Wochen später; - die Möglichkeiten, das Seitenlayout der Suchergebnisse dem Corporate Design eigener Homepage anzupassen, sind äußerst bescheiden; - die Suchmaschine kann auf der Seite außer gewünschten Suchergebnissen auch eigene Werbung platzieren, was auf Anwender einen unprofessionellen Eindruck macht. Die beiden letzten Punkte können ausgeglichen werden, indem man die Ergebnisse der externen Suche mit einem eigenen Script abfängt und in eine gewünschte Form (ohne Werbung und im eigenen Corporate Design) transformiert (s. Abb. 3.4). [...]

Arbeit zitieren:
Brodski, Mark September 2005: Entwurf und Implementierung eines Publikationsarchives, Hamburg: Diplomica Verlag

Schlagworte:
digitales Archiv, Metadaten, Retrieval, Suchergebnis, Speicherung

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren