Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Testkorpus für automatische Transkriptionssysteme

Testkorpus für automatische Transkriptionssysteme
Über dieses Buch
  • Art: Magisterarbeit
  • Autor: Ramon Schalleck
  • Abgabedatum: September 2004
  • Umfang: 121 Seiten
  • Dateigröße: 4,0 MB
  • Note: 1,7
  • Institution / Hochschule: Ludwig-Maximilians-Universität München Deutschland
  • ISBN (eBook): 978-3-8324-8679-2
  • ISBN (Paperback) :
    978-3-8324-8679-2 P
  • ISBN (CD) :978-3-8324-8679-2 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Schalleck, Ramon September 2004: Testkorpus für automatische Transkriptionssysteme, Hamburg: Diplomica Verlag
  • Schlagworte: Musikerkennung, Testkorpus, Signalverarbeitung, Barbershop, Information and Language Processing

Magisterarbeit von Ramon Schalleck

Einleitung:

In dieser Magisterarbeit wird ein Testkorpus für polyphone automatische Transkriptionssysteme (ATS) erstellt. Ein Testkorpus ist eine Sammlung von digitalisierten Objekten und ihren symbolischen Repräsentationen. Ein Objekt kann zum Beispiel ein Bild oder eine Tonaufnahme sein. Digitalisierte Tonaufnahmen werden Recording genannt. Recordings haben häufig das WAVE- oder MP3-Format.

Die symbolischen Repräsentationen sind Beschreibungen der Recordings im MIDIFormat1. Das Testkorpus in dieser Arbeit besteht aus zehn polyphonen Recordings im WAVE-Format und zehn symbolischen Repräsentationen der Recordings im MIDIFormat. Der Musikstil der zehn Recordings im Testkorpus ist Barbershop. Barbershop ist unbegleiteter polyphoner Gesang (Hic91). Notation ist die schriftliche Fixierung von Musik. Der Begriff „Transkription“ wird in dieser Arbeit definiert als die Notation einer Recording. Das Transkriptionsergebnis wird Annotation genannt. ATS transkribieren Recordings automatisch. Die automatisch erstellte Annotation heißt automatische Annotation2.

ATS können dazu verwendet werden, um die Original-Partitur aus einem Musikstück wieder herzustellen oder um in einer Datenbank nach einer Partitur zu suchen. Eine Einführung in das Thema Musikerkennung bzw. automatische Transkription mit den Hinweisen auf die Anwendungsmöglichkeiten und Ziele der ATS ist in Kapitel 3 zu finden. In dieser Arbeit werden ATS dazu verwendet, um automatische Annotationen aus den Recordings zu generieren. Die ATS bieten Parameter, die eine Anpassung der ATS an den Musikstil erlauben. Die Parameter Polyphonie, Ambitus, minimale Tondauer und Instrumentierung werden für die Erstellung der automatischen Annotationen an den Barbershopmusikstil angepasst. Zum Beispiel wird die Anzahl der zu erkennenden Stimmen auf vier gesetzt und die Instrumentierung an den unbegleiteten Gesang angepasst. Die fünf ATS AKoff (AKo00), Amazing Midi (Ara03), IntelliScore (Inn03), SONIC (Mar03) und WIDI (Kur04), die in dieser Arbeit untersucht werden, erzeugen aus den zehn Recordings im WAVE-Format automatische Annotationen im MIDI-Format.

Das Testkorpus besteht aus Recordings und Annotationen. Die Recordings werden vom Testkorpus zu den ATS übermittelt. Aus den Recordings wird in den ATS eine automatische Annotation generiert. Das Evaluationsmodul empfängt die Annotation vom Testkorpus und die automatische Annotationen vom ATS. Im Evaluationsmodul wird die Ähnlichkeit zwischen der automatischen Annotation und der Annotation aus dem Testkorpus verglichen. Das Ziel dieser Arbeit ist eine Aussage darüber, welches der fünf zeitgenössischen ATS die polyphone Barbershopmusik im Testkorpus am besten transkribieren kann. Diese Aussage über die Qualität der ATS bezieht sich auf die Ähnlichkeit der automatischen Annotationen zu den Annotationen. Ähnlichkeitsalgorithmen, die sich auf die Musik beziehen, arbeiten mit dem Abstand von Tonhöhen in Melodien (Mai98), der Minimierung der Fläche zwischen zwei Tonhöhenkonturen (FNM00), dem Abstand von Tönen (LGRC00), der Übereinstimmung von Tönen (DH02, Seite 4), der Ähnlichkeit zwischen Tonartprofilen (al02, Seite 4) und den Tonansatzzeiten (MO01), werden in Kapitel 4 beschrieben. In dieser Arbeit werden drei Algorithmen entwickelt. Ein Algorithmus geht aus den erwähnten Algorithmen hervor. Die anderen zwei Algorithmen sind selbstständig entwickelt.

Die drei Algorithmen hhw, ed und ma vergleichen die automatische Annotation mit der Annotation in Bezug auf die Harmonik, den Tonabstand und die Maskierung. Die Harmonik leitet sich aus den Akkorden ab. Um die Ähnlichkeit zwischen Akkorden zu bestimmen, wird das harmonische Hierarchiegewicht verwendet, das aus (Kru90, Seite 170) übernommen wurde. Das harmonische Hierarchiegewicht bestimmt, wie gut die Tongeschlechter auf verschiedenen Grundtönen zueinander passen. Aus dem harmonischen Hierarchiegewicht wird abgeleitet, wie gut Akkorde unterschiedlichen Geschlechts und mit unterschiedlichem Grundton zueinander passen. Das Geschlecht eines Akkords kann Dur oder Moll sein (Mic00a, Seite 86). Akkorde gibt es auf unterschiedlichen Grundtönen. Ein C-Dur Akkord hat den Grundton C und das Geschlecht Dur. Durch den hhw-Algorithmus wird bestimmt, wie gut zum Beispiel ein C-Dur Akkord zu einem G-Dur Akkord passt. Die Qualität der ATS in Bezug auf die Harmonik bestimmt, wie gut die Akkorde in der automatischen Annotation zu den Akkorden in der Annotation passen.

Mit dem Tonabstand ist der Abstand der Töne der automatischen Annotation zu den Tönen in der Annotation gemeint. Der Abstand wird gemessen indem die Anzahl der Operationen gezählt wird, die nötig sind, um ein Objekt in ein anderes umzuformen. Es gibt die drei Operationen „Einfügen“ (Insert), „Löschen“ (Delete) und „Verändern“ (Modification). Die Qualität der ATS hängt von der Anzahl der benötigten Operationen ab, um die Töne in der automatischen Annotation in die Töne in der Annotation umzuformen. Der Abstand der Töne wird durch den ed-Algorithmus gemessen Die Maskierung wird durch die Lautstärke der Töne in der automatischen Annotation bestimmt. Dabei wird gemessen, wie laut die falschen Töne in der automatischen Annotation im Vergleich zu den richtigen Tönen in der automatischen Annotation sind.

Je höher die Lautstärke der falschen Töne ist, desto mehr werden die richtigen Töne maskiert. Die Ermittlung der Maskierung von Tönen durch den ma-Algorithmus in Kapitel 4 basiert auf den Erläuterungen in Sundbergs Buch „The Science of Musical Sounds“. Die Qualität der ATS in Bezug auf die Maskierung wird bestimmt durch den Grad der Lautstärke der richtigen Töne im Verhältnis zu der Lautstärke der falschen Töne. Für die Bestimmung der Maskierung wird der ma-Algorithmus verwendet.

Inhaltsverzeichnis:

1. Einleitung 1
2. Testkorpus 5
2.1 Recording 5
2.1.1 Musikauswahl 5
2.1.2 Barbershop 6
2.1.3 Informationen über die Recordings 25
2.1.4 Musikalische Merkmale in den Recordings 27
2.2 Annotation 29
2.2.1 Originalpartitur 29
2.2.2 Zwischenannotation 32
2.2.3 MIDI 41
2.3 Copyright 45
2.4 Zusammenfassung Testkorpus 45
3. Automatische Annotation 47
3.1 Automatische Transkription 48
3.2 Parameter der ATS 52
3.2.1 AKoff Music Composer 54
3.2.2 Amazing MIDI 54
3.2.3 IntelliScore 55
3.2.4 SONIC 56
3.2.5 WIDI 56
3.3 Zusammenfassung ATS 56
4. Ähnlichkeitsalgorithmen 59
4.1 Repräsentation 60
4.2 Melodische Ähnlichkeit 62
4.3 Polyphone Ähnlichkeit 64
4.3.1 Harmonisches Hierarchiegewicht 66
4.3.2 Edit Distance 73
4.3.3 Maskierung 74
4.4 Zusammenfassung Algorithmen 75
5. Auswertung 76
5.1 Auswertung der ATS 78
5.2 Zusammenfassung 87
6. Fazit 89
A. Partituren 91
A.1 IRISH BLESSING 91
A.2 I’M FOREVER BLOWING BUBBLES 91
A.3 I’M ALL ALONE 91
A.4 YOU’RE A GRAND OLD FLAG 91
A.5 I LOVE YOU TRULY 91
A.6 IN THE GOOD OLD SUMMERTIME 91
A.7 THANK YOU DEAR LORD, FOR MUSIC 91
A.8 SILVER THREADS 91
A.9 PRETTY BABY 91
A.10 ONE MORE SONG 91
A.11 WHISPERING 91
A.12 AULD LANG SIGN 91
B. Matlab Skripten 92
B.1 Batch 92
B.2 Polysimil 94
B.3 Signallist 98
B.4 Edit Distance 99
B.5 Tonarterkennung 100
B.6 Harmonisches Hierarchiegewicht 101
B.7 Maskierung 103
Abbildungsverzeichnis 105
Literaturverzeichnis 108

Automatisiert erstellter Textauszug:

set_tempo,0,272727,, set_tempo,768,333333,, set_tempo,384,923076,, set_tempo,384,882352,, Zum Beispiel beträgt das Tempo von Beginn des Stücks bis zum zweiten set_tempoEvent 272727 µs/b. Das zweite set_tempo-Event ändert das Tempo ab Tick 768 in 333333 µs/b. Von Beginn des Stücks bis Tick 768 sind 1090908 µs vergangen. Die folgenden 384 Ticks laufen mit einem Tempo von 333333 µs /b ab. Das dritte set_tempoEvent wird also nach 666666 µs erreicht. Das Tempo ändert sich auf 923076 µs /b nach dem dritten set_tempo-Event und so wird das vierte set_tempo-Event nach weiteren 1846152 µs erreicht. Die Summe der deltatimes der set_tempo-Events beträgt 1536 Ticks. Der Ton im Tenor endet nach 3024 Ticks. Die restlichen 1488 Ticks vergehen mit einem Tempo von 882352 µs /b und dauern folglich 6838228 µs . Die Tondauer im Tenor ist also 10,441 Sekunden. Dies ist auch die Gesamtdauer der Annotation der Recording 4 (siehe Abbildung 2.41). [...]

Abbildung 2.46: Tonhöhen in MIDI Die Tonlänge der Noten in der Zwischenannotation wird durch die Deltatimes in den note_on-Events und durch die set_tempo-Events repräsentiert. Die Deltatime bezeichnet die Verzögerung zwischen dem aktuellen und dem vorherigen Event. Die Deltatime wird in Ticks gemessen. Zum Beispiel liegen zwischen dem ersten und zweiten note_on-Event im Tenor 3024 Ticks: track_name,0,Tenor,, note_on,0,0,68,110 lyric,0,flag. ,, note_on,3024,0,68,0 Wie viele Sekunden ein Tick hat bestimmt die Auflösung des SMF in T icks und das b set_tempo-Event. NoteworthyComposer erzeugt SMF mit einer Auflösung von 192 Ticks/b. T empo( µ ) µ b T ickdauer( )= T ick Auf lsung( T icks ) b Bei einem Tempo von 272727 µs ist 1 Tick = 1420,453125 µs. Zur Bestimmung der Tondauer des Tons im Tenor müssen die set_tempo-Events betrachtet werden, die zwischen den note_on-Events des Tons liegen: [...]

set_tempo-Events werden konvertiert, so dass sie nur ein set_tempo-Event beinhalten. Die Noten und Pausen werden gestreckt bzw. gestaucht, so dass eine Viertelnote bei Verdoppelung des Tempos zu einer Achtel wird. Für die Konvertierung von SMF mit multiplen set_tempo-Events wurde die Software GNMIDI (Nag97) verwendet. track_name Das MIDI-Event track_name beinhaltet den Namen des Tracks. Der erste Track hat den Namen „YOU’RE A GRAND OLD FLAG“. Alle folgenden MIDI-Events bis zum nächsten track_name-Event gehören zu diesem Track. Die Metadaten wie Entstehungsjahr, Name des Texters, Name des Komponisten und Name des Arrangeurs stehen in meta-events wie text_event und copyright_text_event. Die SMF im Testkorpus sind vom Typ 1, d.h. sie können mehrere Tracks haben. Im ersten Track stehen der Titel und die set_tempo-Events sowie die Metadaten. In den restlichen Tracks stehen die Noten der Einzelstimmen. key_signature Die Tonart wird im key_signature-Event gespeichert. In Abbildung 2.44 steht die -4 im key_signature-Event für die Tonart mit 4 bs. Der folgende Wert gibt das Geschlecht an. 0 bedeutet Dur25 . Das key_signature-Event bezieht sich auf alle Channels. time_signature Das time_signature-Event beinhaltet die Werte für das Metrum. note_on Die Töne der Zwischenannotation werden in MIDI mit note_on- und note_offEvents kodiert. Im note_on-Event sind die Werte für Lautstärke, Tonhöhe, ChannelNummer und deltatime gespeichert. Der Track mit dem Namen „Tenor“ hat zwei note_on-Events. Der letzte Wert der note_on-Events ist die Lautstärke26 . Die maximale Lautstärke ist 127 und die minimale Lautstärke ist 0. Das erste note_on-Event hat eine Lautstärke von 110 (siehe Abbildung 2.44). Das zweite note_on-Event hat die Lautstärke 0. Ein Ton hat immer zwei Events. Ein Event für den Beginn des Tons und ein Event für das Ende des Tons. Der vierte Wert des note_on-Events ist die Tonhöhe. Der Wert im ersten note_onEvent ist 68, was der Tonhöhe eines g 1/ab1 bzw. g 5/a 5 entspricht (siehe Tabelle 2.46). MIDI benutzt eine base-12 Skala (siehe Abbildung 2.45 aus (SF98)[Seite 16]). Mit dem note_on-Event können alle Tonhöhen der Zwischenpartitur repräsentiert werden. Die Information für die Notennamen geht dabei verloren und kann nur durch in Verbindung mit dem key_signature-Event wieder hergestellt werden. Der dritte Wert im note_on-Event repräsentiert die Nummer des Channels. Der Ton der Tenorstimme steht zum Beispiel im Channel 0 und die Töne der Leadstimme stehen in Channel 1 (siehe Abbildung 2.44). Die Trennung der Stimmen in der Zwischenannotation bleibt in der Annotation im MIDI-Format erhalten. [...]

Arbeit zitieren:
Schalleck, Ramon September 2004: Testkorpus für automatische Transkriptionssysteme, Hamburg: Diplomica Verlag

Schlagworte:
Musikerkennung, Testkorpus, Signalverarbeitung, Barbershop, Information and Language Processing

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren