Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Entwurf und Realisierung von Lexikon-Einträgen für Funktionsverbgefüge der deutschen Sprache

Entwurf und Realisierung von Lexikon-Einträgen für Funktionsverbgefüge der deutschen Sprache
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Astrid Bruker
  • Abgabedatum: April 2008
  • Umfang: 227 Seiten
  • Dateigröße: 644,0 KB
  • Note: 1,5
  • Institution / Hochschule: FernUniversität in Hagen Deutschland
  • Bibliografie: ca. 42
  • ISBN (eBook): 978-3-8428-1976-4
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Bruker, Astrid April 2008: Entwurf und Realisierung von Lexikon-Einträgen für Funktionsverbgefüge der deutschen Sprache, Hamburg: Diplomica Verlag
  • Schlagworte: Funktionsverbgefüge, Computerlinguistik, Germanistik, Automatische Sprachverarbeitung, Linguistik

Diplomarbeit von Astrid Bruker

Einleitung:

Die vorliegende Arbeit entstand vor dem Hintergrund, dass das vom Fachbereich IICS (Intelligente Informations- und Kommunikationssysteme) der FernUnversität in Hagen entwickelte Domänen-unabhängige Computerlexikon für die deutsche Sprache, HaGenLex, um die sogenannten Funktionsverbgefüge erweitert werden soll. Das Ziel war hierbei, dass der WOCADI-Parser des Fachbereichs IICS künftig auch Funktionsverben und Funktionsverbgefüge (abgekürzt: FVG ) korrekt verarbeiten kann.

Dadurch soll erreicht werden, dass das System unterscheiden kann zwischen ‚einen Antrag stellen’ und ‚etwas auf den Tisch stellen’, d.h. dass der Parser das Funktionsverbgefüge ‚einen Antrag stellen’ als ein solches erkennt und mit seinem Synonym ‚beantragen’ gleichsetzt. Also muss vom Parser erkannt werden, dass in diesem Fall das Verb ‚stellen’ eine andere Bedeutung hat als in ‚etwas auf den Tisch stellen’, nämlich nicht die ‚normale’ Bedeutung. Auf die semantische Abschwächung des Verbs in Funktionsverbgefügen werde ich an anderer Stelle noch ausführlich eingehen, da sie das wichtigste Merkmal dieser sprachlichen Konstruktion ist.

Eine wichtige Rolle spielt die richtige Analyse und Behandlung der Funktionsverbgefüge für die korrekte Verarbeitung von Anfragen in sogenannten semantischen Frage-Antwort-Systemen (FAS, engl. QA systems). Dies ist zum Beispiel der Fall bei den vom Fachbereich IICS der FernUniversität Hagen entwickelten Frage-Antwort-Systemen ‚InSicht’ und ‚InSicht-W3’ sowie in dem Mensch-Maschine-Interface ‚NLI-Z39.50’ des Fachbereichs IICS zur natürlichsprachlichen Informationssuche und Literaturrecherche im Internet.

Von großer Bedeutung ist die adäquate Analyse und Behandlung derartiger sprachlicher Konstruktionen auch bei der Maschinellen Übersetzung, für ihre korrekte Übertragung von der jeweiligen Quellsprache in die Zielsprache.

Nicht zuletzt deshalb hat wohl in den letzten Jahren das Interesse an den Funktionsverbgefügen sowohl in der Informatik und Computerlinguistik als auch in der traditionellen Linguistik eine enorme Zunahme erfahren.

Die Verwendung und Neubildung von Funktionsverbgefügen nimmt in der modernen deutschen Umgangs- und Schriftsprache offenbar ständig zu, worauf auch in der linguistischen und germanistischen Literatur hingewiesen wird. So heißt es etwa in der ‚Kontrastiven Lesegrammatik Deutsch-Thai’ von Noraseth Kaewwipat:

‚Der Nominalstil kann als eine der wesentlichen Entwicklungstendenzen des modernen Deutsch bezeichnet werden. (...) Durch die Akademisierung bzw. Verwissenschaftlichung der Sprache des öffentlichen Lebens vor allem seit der Mitte des 19. Jahrhunderts in Massenpresse und Verwaltungs- und Politiksprache wird die Nominalisierung als Mittel zur Komprimierung des Satzbaus so auffällig und gemeinsprachlich, dass man vom Nominalstil sprechen kann.

Unter dem Nominalstil wird eine Ausdrucksweise, in der die nominalen Satzglieder nicht nur erheblich zahlreicher, sondern auch die hauptsächlichen Träger der Satzaussage sind, verstanden. Laut LEWANDOWSKI (1994) ist der Nominalstil eine syntaktische Strategie in der Gegenwartssprache (...) mit Vorherrschen nominaler Elemente im Satzbau gegenüber dem normalen Erwartungswert. (...) Durch die Einwände von etlichen Stillehren, Sprachkritikern und Sprachwissenschaftlern ist der Eindruck entstanden, dass der Nominalstil ein Hauptmerkmal des Verfalls deutscher Sprache sei. VON POLENZ (1988) beschreibt die skeptische Haltung dem Nominalstil gegenüber wie folgt: Mindestens seit der Mitte des 19. Jahrhunderts haben Deutschlehrer und Sprachkritiker vor dem deutschen Substantivstil gewarnt und haben ihn vergeblich bekämpft, meist mit nur pauschalen Begründungen: Zu viele Substantive seien ’unschönes’, ’papierenes’ Deutsch, ’Amtsdeutsch’ usw. (...) E. ENGEL (1922) schimpfte über die ’langgeschwätzten Denkwörter’ auf -ung, -heit und -keit, vor allem aber die ’Ungerei’. Ähnlich kritisch äußert sich L. REINERS, der von den ’Zeitwörter auffressenden’ Abstrakta auf -ung spricht (REINERS 1943, 140) und die substantivierten Infinitive, ’diese als Hauptwörter verkleideten Verben’, als schwerfällig kennzeichnet (1951, 76) – alles unter der alarmierenden Überschrift: ‚Das Zeitwort stirbt!’’ Wie in diesem beispielhaften Zitat wird heute vielfach und ausdrücklich betont, dass der Nominalstil und somit auch die Funktionsverbgefüge charakteristisch für die deutsche Gegenwartssprache sind und dass es keinerlei Grund mehr gibt, diese – wie noch vor wenigen Jahrzehnten üblich – als ‚schlechter Stil’, ‚Nominalstil’, ‚Umschreibungssucht’, ‚Substantivitis’, ‚Dingwortseuche’, ‚Hauptwörterkrankheit’, ‚Verbaphobie’, ‚Sprachbeulen’, ‚Verbalhypertrophien’, ‚Zeitwortattrappen’, ‚Funktionärsdeutsch’, ‚aus eins mach drei’ und dergleichen zu kritisieren oder gar zu verspotten.

Allerdings heißt es auch heute noch in den aktuellen Empfehlungen der Wochenzeitschrift ‚DIE ZEIT’ für angehende Journalisten (‚DER WEG ZUM JOURNALISTISCHEN SCHREIBEN’):

‚Vermeiden Sie Funktionsverbgefüge! Ersetzen Sie sie durch Vollverben! Also nicht ‚Bekenntnis ablegen’, sondern ‚bekennen’, nicht ‚Verzicht leisten’, sondern ‚verzichten’, nicht ‚in Erwägung ziehen’, sondern 'erwägen'.’ Ähnliche Empfehlungen und Warnungen finden sich auch in zahlreichen Anleitungen für die Anfertigung wissenschaftlicher Arbeiten, für die Erstellung technischer Dokumentationen, für die Abfassung von Behördentexten, Prüfungstexten, Internetseiten, Übersetzungsvorlagen und dergleichen.

Daraus wird ersichtlich, dass bestimmte Vorurteile der oben erwähnten vorwissenschaftlichen Sprachkritik gegenüber dem Nominalstil und den Funktionsverbgefügen bis heute noch Bestand haben. Dabei handelt es sich hier – trotz aller abwertenden und kritischen Meinungsäußerungen – um eine Realität in der deutschen Gegenwartssprache, deren pauschale Ablehnung in keiner Weise gerechtfertigt erscheint. Allenfalls könnte vor einer übertriebenen Anwendung der Funktionsverbgefüge und des Nominalstils gewarnt werden.

Weitgehend jedoch wird heutzutage anerkannt, dass Funktionsverbgefüge ihre eigene Bedeutung und Funktion haben, die sie von den entsprechenden einfachen Verben (auch ‚basic verbs’, ‚base verbs’ oder ‚Basisverben’ genannt) unterscheidet und die den verbalen Vorgang in seiner besonderen Art und Weise charakterisiert:

die Aktionsart. Dieser Aspekt der Funktionsverbgefüge wird an anderer Stelle noch näher ausgeführt werden.

Dass dies jedoch nicht die einzige Funktion der Funktionsverbgefüge ist, wird unter anderem von Angelika Storrer in ihrer Studie ‚Funktionen von Nominalisierungsverbgefügen im Text’ dargestellt und anhand von korpusbasierten Untersuchungen belegt.

Manche Autoren zeigen sich mit Recht verwundert, angesichts der Häufigkeit von Funktionsverbgefügen in der geschriebenen und gesprochenen Sprache und damit ihrer Bedeutung für die Sprachverarbeitung (Natural Language Processing), dass dieses Phänomen bislang von der Computerlinguistik so wenig beachtet und erforscht wurde.

In der Tat ist es sehr erstaunlich, dass zwar seit über vierzig Jahren eine intensive Erforschung der Funktionsverbgefüge in etlichen Sprachen stattfindet und eine umfangreiche Literatur darüber entstanden ist, dass jedoch die Computerlinguistik und die Computerlexikographie erst in jüngster Zeit ein stärkeres Interesse an diesem Thema zeigt.

Bisher allerdings sieht es eher so aus, als würde dabei die Problematik viel zu stark vereinfacht und die Komplexität der Funktionsverbgefüge bei weitem unterschätzt.

Dies liegt möglicherweise an fehlenden empirischen Studien auf der Basis ausreichend großer Korpora. Soweit solche Studien bislang überhaupt existieren, beschränken sie sich meist auf die Untersuchung einiger weniger häufig gebrauchter Funktionsverben und Funktionsverbgefüge, wie etwa ‚kommen’und ‚bringen’ im Deutschen sowie ‚to take’, ‚to give’ und ‚to make’ im Englischen.

So wird zum Beispiel erst in jüngster Zeit verstärkt die Frage aufgegriffen und untersucht, ob es sich bei den Funktionsverbgefügen im Deutschen lediglich um Doubletten der entsprechenden einfachen Verben, der sogenannten Basisverben, handelt. In diesem Fall müssten allerdings die Funktionsverbgefüge und die zugehörigen Basisverben beliebig gegeneinander austauschbar sein. Die Ergebnisse erster empirischer Studien anhand von Korpusanalysen sprechen eher dagegen. Diese Untersuchungsergebnisse werden im Hauptteil dieser Arbeit noch eingehend erörtert werden.

Gegenstand und Ziel dieser Arbeit ist somit ein wichtiger und typischer Bestandteil der deutschen Gegenwartssprache sowie dessen computerlexikographische Verarbeitung.

Inhaltsverzeichnis:

Inhaltsverzeichnis iv
1. Einleitung 1
1.1 Motivation 1
1.2 Funktionsverbgefüge im heutigen Deutsch 2
1.3 Aufbau der Arbeit 5
2. Begriffe und Grundkonzepte 7
2.1 Linguistische Grundbegriffe und Definitionen 7
2.2 Funktionsverbgefüge: Begriffe und Definitionen 10
2.2.1 Erste Vorüberlegungen 10
2.2.2 Definitionen in der linguistischen Literatur 19
2.2.3 Eigene Definition 28
2.3 Syntaktische und textuelle Funktionen der Funktionsverbgefüge 29
2.3.1 Aktionsarten, Kausativität 29
2.3.2 Ersatz für Passivkonstruktionen 31
2.3.3 Schließung lexikalischer Lücken 33
2.3.4 Modifizierbarkeit 35
2.3.5 Textuelle Funktionen 36
2.4 Spezielle Anwendungsbereiche der Funktionsverbgefüge 38
2.4.1 Verwaltungs- und Behördensprache 38
2.4.2 Fachsprachliche und wissenschaftliche Texte 39
3. Gewinnung des Datenmaterials 42
3.1 Häufigkeitsanalyse 42
3.1.1 Frequenzlisten in der Literatur 42
3.1.2 Eigene Frequenzanalyse 44
3.1.3 Überlegungen zur Empirie der Funktionsverbgefüge 46
3.2 Erstellung einer FVG-Beispielmenge 48
3.2.1 Allgemeine Vorüberlegungen 48
3.2.2 Generierung einer Menge von Funktionsverben 48
3.2.3 Kriterien für die Aufnahme in die Funktionsverbenliste 50
3.2.4 Generierung einer Menge von Funktionsverbgefügen 54
3.3 Einteilung der Funktionsverbgefüge in Äquivalenzklassen 55
4. Das Computerlexikon HaGenLex 57
4.1 Semantische Modellierung lexikalischer Konzepte 57
4.2 Valenzrahmen, kognitive Rollen, Kasusrahmen 58
4.3 Entailments 58
4.4 Indexierungssystem 59
4.5 Interne Repräsentation von HaGenLex und IBL-Formalismus 59
4.6 Der WOCADI-Parser 59
5. Aufbereitung des Datenmaterials 61
5.1 Aufbereitung einer FVG-Menge im komprimierten Format 61
5.2 Aufbereitung einer FVG-Auswahl als Entailments 62
5.2.1 Unterscheidung der möglichen Fälle 62
5.2.2 Beispiel für die Entailment-Repräsentation 64
5.2.3 Konvertierung in ein Parser-geeignetes Format 65
5.3 Repräsentation von Funktionsverbgefügen in HaGenLex 65
5.4 Automatische Transformation von FVGs im komprimierten Format 68
5.4.1 Syntaktische Informationen in den Komplementen 68
5.4.2 Syntaktische Informationen innerhalb der FVGs 69
5.4.3 Implementierung der automatischen Transformation 71
5.4.4 Beschreibung des Programmablaufs 71
6. Verarbeitung des Datenmaterials 75
6.1 Probleme bei der Verarbeitung der Daten 75
6.1.1 Das Problem des Nullartikels 75
6.1.2 Das Problem der Komposita 76
6.1.3 Das Problem der Doubletten 76
6.1.4 Das Problem der lexikalischen Lücke 78
6.1.5 Das Problem des inadäquaten Basisverbs 79
6.1.6 Das Problem des mehrdeutigen Funktionsverbgefüges 81
7. Funktionsverbgefüge in anderen Sprachen 83
7.1 Beispiele für Funktionsverben und Funktionsverbgefüge 84
7.1.1 Funktionsverbgefüge im Lateinischen 84
7.1.2 Funktionsverbgefüge im Englischen 85
7.1.3 Funktionsverbgefüge im Französischen 86
7.1.4 Funktionsverbgefüge im Italienischen 87
7.1.5 Funktionsverbgefüge im Russischen 88
7.1.6 Funktionsverbgefüge im Finnischen 89
7.1.7 Funktionsverbgefüge im Chinesischen 90
7.1.8 Funktionsverbgefüge im Thailändischen 91
7.1.9 Funktionsverbgefüge im Japanischen 92
7.1.10 Funktionsverbgefüge im Arabischen 92
8. Maschinelle Übersetzung von Funktionsverbgefügen 94
8.1 Probleme bei der syntaktischen Auswertung 94
8.2 Probleme bei der semantischen Auswertung 95
8.3 Probleme beim Transfer Quellsprache – Zielsprache 96
9. Zusammenfassung und Ausblick 99
A Funktionsverbgefüge (CVC) im TIGER-Korpus 105
B Liste der Funktionsverbgefüge und ihrer Paraphrasen 123
C Funktionsverbgefüge mit dem Funktionsverb ‚machen’ 181
D Als Entailments aufbereitete Funktionsverbgefüge 193
E Funktionsverbenliste 207
F Die häufigsten deutschen Funktionsverben 209
G Bewegungs- und Zustandsverben als Funktionsverben 215
H Literatur 217

Textprobe:

Kapitel 4, Das Computerlexikon HaGenLex:

Das domänenunabhängige, semantikbasierte Computerlexikon HaGenLex für den deutschen Sprachraum wird seit 1996 am Lehrgebiet für Intelligente Informations- und Kommunikationssysteme (IICS) der FernUniversität in Hagen entwickelt.

HaGenLex (Hagen German Lexicon) ist eine lexikalische Datenbank für die deutsche Sprache, die zurzeit circa 25000 Einträge umfasst. Diese wurden vorwiegend auf der Basis von Frequenzlisten und Wörterbüchern von Hand erstellt und mit detaillierten morphosyntaktischen und semantischen Informationen versehen.

Ein komprimierter Überblick über HaGenLex wird auf der Projekt-Webseite geboten. Für zusätzliche Informationen findet sich eine detaillierte Beschreibung der zugrundeliegenden Konzepte in [Har03].

4.1, Semantische Modellierung lexikalischer Konzepte:

Die Lexikoneinträge in HaGenLex enthalten sowohl morphosyntaktische als auch semantische Informationen. Die semantische Modellierung in HaGenLex basiert auf dem sogenannten MultiNet Paradigma, einem Formalismus zur Wissensrepräsentation und zur Darstellung der Semantik natürlicher Sprache mittels mehrschichtiger, erweiterter semantischer Netze.

MultiNet umfaßt eine Hierarchie von 45 ontologischen Sorten (object, action, location, property, usw.) und mehr als 100 semantische Relationen und Funktionen. Außerdem werden 16 binäre semantische Merkmale verwendet.

Jedes lexikalische Konzept ist hinsichtlich seiner ontologischen Sorten und seiner semantischen Merkmale klassifiziert, welche zusammen die sogenannte semantische Sorte der Konzepts bestimmen. Die semantische Valenz von Einträgen bzw. Konzepten wird mit Hilfe von bestimmten MultiNet-Relationen, der sogenannten kognitiven Rollen (AGT, OBJ, INSTR, RSLT usw.), beschrieben.

4.2, Valenzrahmen, kognitive Rollen, Kasusrahmen:

Die Gesamtheit der den semantischen Valenzrahmen eines Lexems bestimmenden MultiNet-Relationen bzw. kognitiven Rollen wird als semantischer Kasusrahmen bezeichnet. Neben diesem semantischen Kasusrahmen, der die kognitiven Rollen sowie weitere semantische Selektionsrestriktionen umfasst, werden die syntaktischen Bedingungen eines Lexems im syntaktischen Kasusrahmen beschrieben.

In HaGenLex ist jeder Lexikoneintrag für ein Verb mit mindestens einem Beispielsatz versehen. Dieser enthält das Verb in der dritten Person und sämtliche obligatorischen und fakultativen Komplemente. Diese Komplemente (bzw. Argumente) des Verbs erscheinen im Beispielsatz genau in der vom syntaktischen Kasusrahmen vorgegebenen Reihenfolge.

4.3, Entailments:

Von HaGenLex werden zwei Formate für Bedeutungspostulate unterstützt:

1.) ein semi-formales, reglementiertes Format, das im Wesentlichen noch Teil der natürlichen Sprache ist, abgesehen davon, dass die Argumente des Verbs durch schematisierte Pronomina, sprich Variablen x1, x2, x3, x4, x5 usw. ersetzt wurden.

2.) ein rein formales logisches Format, das für logische Inferenzen geeignet ist. In der vorliegenden Arbeit wird nur das semi-formale Format, also die sogenannten reglementierten Entailments (engl. regimented entailments), verwendet.

Jeder in einem Entailment vorkommenden Variablen geht der bestimmte Artikel im Maskulinum Singular voraus, wodurch die Entailments besser lesbar werden und auch besser zu parsen sind. Die Artikelformen des Maskulinums Singular wurden deshalb gewählt, weil sie im Deutschen hinsichtlich des Kasus eindeutig sind, im Gegensatz zu den Artikelformen des Femininums und des Neutrums.

Ein großer Vorteil in der Verwendung reglementierter Entailments im Rahmen von HaGenLex liegt darin, dass diese durch ihre Nähe zur natürlichen Sprache einerseits sogar für Nicht-Linguisten leicht verständlich sind, andererseits aber formal genug für die Weiterverarbeitung durch den Parser und für die automatische Erzeugung formaler Bedeutungspostulate in der logischen Form.

4.4, Indexierungssystem:

Zur eindeutigen Bestimmung der zu einem Grundwort gehörenden Lexeme wird in HaGenLex ein doppeltes Indexierungssystem verwendet:

. . .

Beispiel:

face.1.1 Vorderteil des Kopfes.

face.1.2 Oberfläche (‘face of the earth’).

face.2.1 einem Ereignis (mutig) entgegensehen.

face.2.2 Karten mit Bild nach oben legen.

4.5, Interne Repräsentation von HaGenLex und IBL-Formalismus:

Der internen Repräsentation von HaGenLex-Einträgen liegt ein getypter Merkmal-Wert-Formalismus zugrunde, der die Darstellung von Listen und Disjunktionen sowie auch die Angabe von Mengen atomarer Typen unterstützt.

4.6, Der WOCADI-Parser:

Der im Lehrgebiet IICS der FernUniversität in Hagen entwickelte WOCADI-Parser (WOrd ClAss based DIsambiguating) stellt neben verschiedenen anderen Applikationen und Funktionen wie etwa der Lexikon-Werkbank LIA zum Erstellen und Pflegen der Lexikoneinträge in HaGenLex ein Werkzeug bereit zur Validierung und Qualitätssicherung von Lexikoneinträgen. Eine Demonstration dieser Applikation findet sich auf der Projekt-Webseite.

Zur Validierung analysiert WOCADI einerseits die Menge der Beispielsätze, die zu einem Lexikoneintrag existieren, und liefert als Ergebnis einen Fehlerreport, mit dessen Hilfe der Lexikograph bestehende Fehler erkennen und beheben kann.

Andererseits besteht auch die Möglichkeit einer empirischen Validierung, wobei Textkorpora anhand der Lexikoneinträge in HaGenLex durch WOCADI analysiert werden. Eine signifikante Abweichung der tatsächlichen Häufigkeit eines Lexems von der zu erwartenden Häufigkeit kann dann für den Lexikograph ein Hinweis auf einen fehlerhaften Eintrag sein.

Arbeit zitieren:
Bruker, Astrid April 2008: Entwurf und Realisierung von Lexikon-Einträgen für Funktionsverbgefüge der deutschen Sprache, Hamburg: Diplomica Verlag

Schlagworte:
Funktionsverbgefüge, Computerlinguistik, Germanistik, Automatische Sprachverarbeitung, Linguistik

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren