Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche

Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche
Über dieses Buch
  • Art: Studienarbeit
  • Autor: Syxtus Gaal
  • Abgabedatum: April 2008
  • Umfang: 43 Seiten
  • Dateigröße: 2,2 MB
  • Note: 1,0
  • Institution / Hochschule: Universität Stuttgart Deutschland
  • Bibliografie: ca. 18
  • ISBN (eBook): 978-3-8428-2111-8
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Gaal, Syxtus April 2008: Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche, Hamburg: Diplomica Verlag
  • Schlagworte: Lëtzebuergesch, Luxemburg, Computerlinguistik, Spracherkennung, Syxtus Gaal

Studienarbeit von Syxtus Gaal

Einleitung:

Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssysteme ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabemedium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen - Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprachdialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser erreichbaren Service zu bieten.

Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Entwicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora genannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen repräsentieren, können robuste und flexible Spracherkennungssysteme entwickelt werden. Sie sind immer weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.

Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäßig. Obwohl die Forschung die Technologie vorantrieb, waren die Sprachkorpora für nur wenige, große Sprachen verfügbar. Dies hat sich mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind. Die Suche im Katalog des Linguistic Data Consortium zeigt eine Sammlung unterschiedlicher Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäßig - für Deutsch und Französisch sind in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch keins.

Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts aufgenommen. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.

Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nacharbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für die Aufnahme um das mehrfache übersteigt. Nach Gillis kann das Verhältnis von Annotationszeit zur Aufnahmezeit von 35:1 bis zu 60:1 betragen. Demnach kann die Bearbeitung von einer Minute eines Audiosignals bis zu einer Stunde dauern.

Die Aufgabe ist es, einen Aligner zu entwickeln, der die Zeit und Kosten für die Entwicklung eines Sprachkorpuses des Luxemburgischen drastisch reduzieren soll. Der Aligner ist ein Werkzeug, das eine Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen Sprachlaute, die Phoneme, auf der Zeitachse zu 'alignieren'. Das Alignieren ist ein Prozess, in dem die vorgegebene phonetische Transkription mit Zeitstempeln für den Anfang und das Ende eines jeden Phonems versehen wird. Der Aligner akzeptiert als Eingabe eine Sprachaufnahme, die dazugehörige orthographische Transkription sowie ein Aussprachelexikon mit dem verwendeten Wortschatz. Als Ausgabe liefert er eine Datei, die eine mit Zeitstempeln versehene phonetische Transkription der Äußerung enthält. Diese Transkription kann danach manuell geprüft, und, falls die Alignierung fehlerfrei verlaufen ist, als eine Komponente eines Spracherkennungs- oder Synthesesystems genutzt werden.

Die Aufgabe stellt somit eine Variante des ‚Henne-Ei-Problems’ dar. Um einen Aligner für das Luxemburgische zu entwickeln, sind phonetisch annotierte und alignierte Sprachdaten erforderlich. Andererseits wird für die Erstellung solcher Sprachdaten ein Aligner benötigt. Das manuelle Alignieren der Trainigsdaten ist möglich, jedoch im Zeitrahmen dieser Arbeit nicht realisierbar.

Um ein Aligner zu entwickeln, der die Aufnahmen unterschiedlicher Sprecher analysieren kann, sind Trainigsdaten aus unterschiedlicher Sprechergruppen notwendig. Hierfür wird das Gilles-Korpus sowie aus dem 6000-Mots-Korpus eingesetzt. Da es sich hierbei um reine Sprachaufnahmen handelt, werden diese zuerst manuell phonetisch annotiert. Die Annotierung erfolgt gleichzeitig im deutschen und luxemburgischen Lautsystem. Danach folgt eine automatische Alignierung mit dem deutschen Aligner, der von Stefan Rapp am Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart entwickelt wurde. Die deutschen Phonemmodelle werden um die für das Luxemburgische typischen Sprachphänomene (siehe Abschnitt 2.7) ergänzt und in den Aligner integriert. Der deutsche und der luxemburgische Aligner werden auf einem Testdatensatz evaluiert und die Testergebnisse automatisch ausgewertet.

Ziel dieser Arbeit ist es einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lëtzebuergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Alignierung mindestens so präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen ist.

Inhaltsverzeichnis:

1. Einleitung 5
1.1 Motivation 5
1.2 Aufgabenstellung 5
2. Lëtzebuergesch 6
2.1 Geschichte Luxemburgs 6
2.2 Luxemburgisch 7
2.3 Dialekte 8
2.4 Koiné 8
2.5 Phonetik der luxemburgischen Koiné 8
2.6 Phonetik des Deutschen 9
2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen 11
3. Phonetische Alignierung als Erkennungsproblem 12
3.1 Toolgestütze Spracherkennung mit dem Aligner 12
3.2 Funktionsweise 12
3.3 Phoneminventar und Aussprachelexikon 13
3.4 Abbildung der lëtzebuergeschen Phoneme auf deutsche Sprachlaute 14
4. Aufbereitung der Sprachdaten 14
4.1 Vorhandene Sprachdaten 14
4.2 Aufteilung der Datensätze 16
4.3 Vorbereitung der Daten - Gilles-Korpus 16
4.3.1 Orthographische Transkription 17
4.3.2 Erstellung eines Aussprachelexikons 18
4.3.3 Generierung der phonetischen Transkriptionen 19
4.3.4 Korpusstruktur 21
4.4 Vorbereitung der Daten - das 6000-Wierder-Korpus 22
4.4.1 Bereinigung des Datensatzes 22
4.4.2 Aufteilung für Test und Training 23
4.5 Zusammenfassung 23
5. Implementierung 23
5.1 Alignieren der phonetischen Annotation mithilfe des deutschen Aligners 24
5.2 Alignierte phonetische Annotation - Ersetzung der deutschen Phonemmarkierungen mit den lëtzebuergeschen 24
5.3 Erstellung der Hidden-Markov-Modelle für lëtzebuergesche Phoneme 24
5.4 Integration der neuen Modelle in den Aligner 26
5.5 Anpassung der Vorverarbeitungskomponenten des Aligners 26
5.6 Zusammenfassung 27
6. Evaluierung 27
6.1 Vergleich der Aligner 27
6.2 Programm zur automatischen Evaluierung der Ergebnisse 27
6.3 Korrektur und zweiter Vergleich 28
6.4 Manuelle und automatische Alignierung 29
6.5 Ergebnisse 29
7. Zusammenfassung und zukünftige Forschung 30
7.1 Erweiterung der Funktionalität des Aligners 31
7.2 Entwicklung eines lëtzebuergschen Aligners 32
7.3 Entwicklung eines Sprachkorpus für Lëtzebuergesch 32
A Gilles-Korpus: Fragebuch Lëtzebuergesch 36
B Die Perl-Funktionssammlung ConversionLibrary.pm 38

Textprobe:

Kapitel 2.2, Luxemburgisch:

Nach Gilles ist das Lëtzebuergesche (Luxemburgische) aus dem westmosel-fränkischen entstanden. Es kommt aus der westfränkischer Bucht hervor - einer Region, die durch die fränkischen Expansionsbewegungen bis ins Pariser Becken gekennzeichneten wurde. Eine umfassende Analyse zu dem Thema ist u.a. bei Bruch zu finden.

Heutzutage stehen Deutsch, Französisch und Lëtzebuergesch in einem triglossischen Verhältnis zueinander. Lëtzebuergesch ist dabei die Muttersprache; sie wird als erste gelernt und am häufigsten verwendet. Die Verwendung beschränkt sich nicht auf die Gespräche im Alltag, sondern ist in den Medien und in der Politik präsent. Die beiden weiteren Sprachen werden erst in der Schule gelernt und werden als Fremdsprachen wahrgenommen.

In der schriftlichen Domäne kommen alle drei Sprachen vor. Das Lëtzebuergesche wird hauptsächlich im privaten und halböffentlichen Kontext verwendet. In den anderen Bereichen kommen alle drei Sprachen vor, wobei der lëtzebuergesche Anteil in der Literatur konstant steigt. Die Tageszeitungen sind zwei- oder dreisprachig. Die Texte des öffentlichen Bereichs werden entweder auf Deutsch oder Französisch verfasst. Für Gesetzestexte wird aus historischen Gründen Französisch verwendet.

Nach Gilles ist Luxemburg, was den mündlichen Sprachgebrauch angeht, strikt einsprachig. Ein domänengebundener Wechsel in das Deutsche oder das Französische findet nicht statt. Diese Tatsache tritt unabhängig von Bevölkerungsschicht und Altersstufe der Sprecher zu. Das Code Switching, das integraler Bestandteil der mehrsprachigen Gesellschaft in der Schweiz und in Belgien ist, findet in Luxemburg nicht statt.

Die Sprache wurde in die Norm 639 der International Organization for Standardization aufgenommen, die zwei- bzw. dreistellige Sprachenkürzel für den Einsatz in der Datenverarbeitung definiert. Die offizielle ISO-639-1-Abkürzung für Lëtzebuergsch ist lb. In dem Standard ISO-639-2 wurde diese Bezeichnung auf ltz erweitert. In dieser Arbeit wird jedoch die Locale-Bezeichnung lb-LU (Luxemburgisch, gesprochen in Luxemburg) verwendet, da sich diese Notation in kommerziellen Spracherkennern durchgesetzt hat.

2.3, Dialekte:

Das Moselfränkische wird in Luxemburg, Teilen von Deutschland sowie kleinen Gebieten in Belgien und Frankreich gesprochen. Es ist jedoch nicht homogen und kann in mehrere Varietäten kategorisiert werden. Gilles listet neun Varietäten auf, die in 16 Regionen zu finden sind, drei davon in Luxemburg.

Eine grobe Aufteilung der Luxemburger Dialekte befindet sich bei Gilles. Demnach kann das Luxemburgische entlang der geographischen Regionen in vier Dialektgruppen unterteilt werden:

Zentrum (Luxemburg-Stadt und Alzettetal); Süden (rund um Esch-sur-Alzette); Norden (Ösling); Osten (das Gebiet zwischen Grewenmacher und Vianden entlang der östlichen Staatsgrenze).

2.4, Koiné:

Der Begriff 'Koiné' stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Sprache zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist. Die Koinéisierung ist das Verschmelzen von Dialekten zu einer überregionalen Sprachvarietät. Das klassische Griechisch ist vermutlich durch das Auftreten dieses Prozesses entstanden.

Dieser Begriff wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet. Es gibt unterschiedliche Meinungen, wie die luxemburgische Koiné entstanden ist. Man nimmt an, dass sie entweder als eine diatopische Verallgemeinerung, oder als Produkt der Koinéisierung zu betrachten ist. Für eine ausführliche Diskussion wird auf Gilles verwiesen.

Es herrscht jedoch relative Einigkeit darüber, dass die Koiné am häufigsten im Zentrum und im Süden des Landes gesprochen wird und sich eher von da aus auf die restlichen Länderteile ausgebreitet hat. Da sie als die allgemeine und universal verständliche Form des Luxemburgischen gilt, wird sich diese Arbeit auf der Phonetik dieser Dialektvarietät fokussieren.

Arbeit zitieren:
Gaal, Syxtus April 2008: Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche, Hamburg: Diplomica Verlag

Schlagworte:
Lëtzebuergesch, Luxemburg, Computerlinguistik, Spracherkennung, Syxtus Gaal

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren