Testkorpus für automatische Transkriptionssysteme
- Art: Magisterarbeit
- Autor: Ramon Schalleck
- Abgabedatum: September 2004
- Umfang: 121 Seiten
- Dateigröße: 4,0 MB
- Note: 1,7
- Institution / Hochschule: Ludwig-Maximilians-Universität München Deutschland
- ISBN (eBook): 978-3-8324-8679-2
-
ISBN (Paperback) :
978-3-8324-8679-2 P - ISBN (CD) :978-3-8324-8679-2 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Schalleck, Ramon September 2004: Testkorpus für automatische Transkriptionssysteme, Hamburg: Diplomica Verlag
- Schlagworte: Musikerkennung, Testkorpus, Signalverarbeitung, Barbershop, Information and Language Processing
In den Warenkorb
74,00 €
Magisterarbeit von Ramon Schalleck
Einleitung:
In dieser Magisterarbeit wird ein Testkorpus für polyphone automatische Transkriptionssysteme (ATS) erstellt. Ein Testkorpus ist eine Sammlung von digitalisierten Objekten und ihren symbolischen Repräsentationen. Ein Objekt kann zum Beispiel ein Bild oder eine Tonaufnahme sein. Digitalisierte Tonaufnahmen werden Recording genannt. Recordings haben häufig das WAVE- oder MP3-Format.
Die symbolischen Repräsentationen sind Beschreibungen der Recordings im MIDIFormat1. Das Testkorpus in dieser Arbeit besteht aus zehn polyphonen Recordings im WAVE-Format und zehn symbolischen Repräsentationen der Recordings im MIDIFormat. Der Musikstil der zehn Recordings im Testkorpus ist Barbershop. Barbershop ist unbegleiteter polyphoner Gesang (Hic91). Notation ist die schriftliche Fixierung von Musik. Der Begriff „Transkription“ wird in dieser Arbeit definiert als die Notation einer Recording. Das Transkriptionsergebnis wird Annotation genannt. ATS transkribieren Recordings automatisch. Die automatisch erstellte Annotation heißt automatische Annotation2.
ATS können dazu verwendet werden, um die Original-Partitur aus einem Musikstück wieder herzustellen oder um in einer Datenbank nach einer Partitur zu suchen. Eine Einführung in das Thema Musikerkennung bzw. automatische Transkription mit den Hinweisen auf die Anwendungsmöglichkeiten und Ziele der ATS ist in Kapitel 3 zu finden. In dieser Arbeit werden ATS dazu verwendet, um automatische Annotationen aus den Recordings zu generieren. Die ATS bieten Parameter, die eine Anpassung der ATS an den Musikstil erlauben. Die Parameter Polyphonie, Ambitus, minimale Tondauer und Instrumentierung werden für die Erstellung der automatischen Annotationen an den Barbershopmusikstil angepasst. Zum Beispiel wird die Anzahl der zu erkennenden Stimmen auf vier gesetzt und die Instrumentierung an den unbegleiteten Gesang angepasst. Die fünf ATS AKoff (AKo00), Amazing Midi (Ara03), IntelliScore (Inn03), SONIC (Mar03) und WIDI (Kur04), die in dieser Arbeit untersucht werden, erzeugen aus den zehn Recordings im WAVE-Format automatische Annotationen im MIDI-Format.
Das Testkorpus besteht aus Recordings und Annotationen. Die Recordings werden vom Testkorpus zu den ATS übermittelt. Aus den Recordings wird in den ATS eine automatische Annotation generiert. Das Evaluationsmodul empfängt die Annotation vom Testkorpus und die automatische Annotationen vom ATS. Im Evaluationsmodul wird die Ähnlichkeit zwischen der automatischen Annotation und der Annotation aus dem Testkorpus verglichen. Das Ziel dieser Arbeit ist eine Aussage darüber, welches der fünf zeitgenössischen ATS die polyphone Barbershopmusik im Testkorpus am besten transkribieren kann. Diese Aussage über die Qualität der ATS bezieht sich auf die Ähnlichkeit der automatischen Annotationen zu den Annotationen. Ähnlichkeitsalgorithmen, die sich auf die Musik beziehen, arbeiten mit dem Abstand von Tonhöhen in Melodien (Mai98), der Minimierung der Fläche zwischen zwei Tonhöhenkonturen (FNM00), dem Abstand von Tönen (LGRC00), der Übereinstimmung von Tönen (DH02, Seite 4), der Ähnlichkeit zwischen Tonartprofilen (al02, Seite 4) und den Tonansatzzeiten (MO01), werden in Kapitel 4 beschrieben. In dieser Arbeit werden drei Algorithmen entwickelt. Ein Algorithmus geht aus den erwähnten Algorithmen hervor. Die anderen zwei Algorithmen sind selbstständig entwickelt.
Die drei Algorithmen hhw, ed und ma vergleichen die automatische Annotation mit der Annotation in Bezug auf die Harmonik, den Tonabstand und die Maskierung. Die Harmonik leitet sich aus den Akkorden ab. Um die Ähnlichkeit zwischen Akkorden zu bestimmen, wird das harmonische Hierarchiegewicht verwendet, das aus (Kru90, Seite 170) übernommen wurde. Das harmonische Hierarchiegewicht bestimmt, wie gut die Tongeschlechter auf verschiedenen Grundtönen zueinander passen. Aus dem harmonischen Hierarchiegewicht wird abgeleitet, wie gut Akkorde unterschiedlichen Geschlechts und mit unterschiedlichem Grundton zueinander passen. Das Geschlecht eines Akkords kann Dur oder Moll sein (Mic00a, Seite 86). Akkorde gibt es auf unterschiedlichen Grundtönen. Ein C-Dur Akkord hat den Grundton C und das Geschlecht Dur. Durch den hhw-Algorithmus wird bestimmt, wie gut zum Beispiel ein C-Dur Akkord zu einem G-Dur Akkord passt. Die Qualität der ATS in Bezug auf die Harmonik bestimmt, wie gut die Akkorde in der automatischen Annotation zu den Akkorden in der Annotation passen.
Mit dem Tonabstand ist der Abstand der Töne der automatischen Annotation zu den Tönen in der Annotation gemeint. Der Abstand wird gemessen indem die Anzahl der Operationen gezählt wird, die nötig sind, um ein Objekt in ein anderes umzuformen. Es gibt die drei Operationen „Einfügen“ (Insert), „Löschen“ (Delete) und „Verändern“ (Modification). Die Qualität der ATS hängt von der Anzahl der benötigten Operationen ab, um die Töne in der automatischen Annotation in die Töne in der Annotation umzuformen. Der Abstand der Töne wird durch den ed-Algorithmus gemessen Die Maskierung wird durch die Lautstärke der Töne in der automatischen Annotation bestimmt. Dabei wird gemessen, wie laut die falschen Töne in der automatischen Annotation im Vergleich zu den richtigen Tönen in der automatischen Annotation sind.
Je höher die Lautstärke der falschen Töne ist, desto mehr werden die richtigen Töne maskiert. Die Ermittlung der Maskierung von Tönen durch den ma-Algorithmus in Kapitel 4 basiert auf den Erläuterungen in Sundbergs Buch „The Science of Musical Sounds“. Die Qualität der ATS in Bezug auf die Maskierung wird bestimmt durch den Grad der Lautstärke der richtigen Töne im Verhältnis zu der Lautstärke der falschen Töne. Für die Bestimmung der Maskierung wird der ma-Algorithmus verwendet.
Inhaltsverzeichnis:
| 1. | Einleitung | 1 |
| 2. | Testkorpus | 5 |
| 2.1 | Recording | 5 |
| 2.1.1 | Musikauswahl | 5 |
| 2.1.2 | Barbershop | 6 |
| 2.1.3 | Informationen über die Recordings | 25 |
| 2.1.4 | Musikalische Merkmale in den Recordings | 27 |
| 2.2 | Annotation | 29 |
| 2.2.1 | Originalpartitur | 29 |
| 2.2.2 | Zwischenannotation | 32 |
| 2.2.3 | MIDI | 41 |
| 2.3 | Copyright | 45 |
| 2.4 | Zusammenfassung Testkorpus | 45 |
| 3. | Automatische Annotation | 47 |
| 3.1 | Automatische Transkription | 48 |
| 3.2 | Parameter der ATS | 52 |
| 3.2.1 | AKoff Music Composer | 54 |
| 3.2.2 | Amazing MIDI | 54 |
| 3.2.3 | IntelliScore | 55 |
| 3.2.4 | SONIC | 56 |
| 3.2.5 | WIDI | 56 |
| 3.3 | Zusammenfassung ATS | 56 |
| 4. | Ähnlichkeitsalgorithmen | 59 |
| 4.1 | Repräsentation | 60 |
| 4.2 | Melodische Ähnlichkeit | 62 |
| 4.3 | Polyphone Ähnlichkeit | 64 |
| 4.3.1 | Harmonisches Hierarchiegewicht | 66 |
| 4.3.2 | Edit Distance | 73 |
| 4.3.3 | Maskierung | 74 |
| 4.4 | Zusammenfassung Algorithmen | 75 |
| 5. | Auswertung | 76 |
| 5.1 | Auswertung der ATS | 78 |
| 5.2 | Zusammenfassung | 87 |
| 6. | Fazit | 89 |
| A. | Partituren | 91 |
| A.1 | IRISH BLESSING | 91 |
| A.2 | I’M FOREVER BLOWING BUBBLES | 91 |
| A.3 | I’M ALL ALONE | 91 |
| A.4 | YOU’RE A GRAND OLD FLAG | 91 |
| A.5 | I LOVE YOU TRULY | 91 |
| A.6 | IN THE GOOD OLD SUMMERTIME | 91 |
| A.7 | THANK YOU DEAR LORD, FOR MUSIC | 91 |
| A.8 | SILVER THREADS | 91 |
| A.9 | PRETTY BABY | 91 |
| A.10 | ONE MORE SONG | 91 |
| A.11 | WHISPERING | 91 |
| A.12 | AULD LANG SIGN | 91 |
| B. | Matlab Skripten | 92 |
| B.1 | Batch | 92 |
| B.2 | Polysimil | 94 |
| B.3 | Signallist | 98 |
| B.4 | Edit Distance | 99 |
| B.5 | Tonarterkennung | 100 |
| B.6 | Harmonisches Hierarchiegewicht | 101 |
| B.7 | Maskierung | 103 |
| Abbildungsverzeichnis | 105 | |
| Literaturverzeichnis | 108 |
set_tempo,0,272727,, set_tempo,768,333333,, set_tempo,384,923076,, set_tempo,384,882352,, Zum Beispiel beträgt das Tempo von Beginn des Stücks bis zum zweiten set_tempoEvent 272727 µs/b. Das zweite set_tempo-Event ändert das Tempo ab Tick 768 in 333333 µs/b. Von Beginn des Stücks bis Tick 768 sind 1090908 µs vergangen. Die folgenden 384 Ticks laufen mit einem Tempo von 333333 µs /b ab. Das dritte set_tempoEvent wird also nach 666666 µs erreicht. Das Tempo ändert sich auf 923076 µs /b nach dem dritten set_tempo-Event und so wird das vierte set_tempo-Event nach weiteren 1846152 µs erreicht. Die Summe der deltatimes der set_tempo-Events beträgt 1536 Ticks. Der Ton im Tenor endet nach 3024 Ticks. Die restlichen 1488 Ticks vergehen mit einem Tempo von 882352 µs /b und dauern folglich 6838228 µs . Die Tondauer im Tenor ist also 10,441 Sekunden. Dies ist auch die Gesamtdauer der Annotation der Recording 4 (siehe Abbildung 2.41). [...]
Abbildung 2.46: Tonhöhen in MIDI Die Tonlänge der Noten in der Zwischenannotation wird durch die Deltatimes in den note_on-Events und durch die set_tempo-Events repräsentiert. Die Deltatime bezeichnet die Verzögerung zwischen dem aktuellen und dem vorherigen Event. Die Deltatime wird in Ticks gemessen. Zum Beispiel liegen zwischen dem ersten und zweiten note_on-Event im Tenor 3024 Ticks: track_name,0,Tenor,, note_on,0,0,68,110 lyric,0,flag. ,, note_on,3024,0,68,0 Wie viele Sekunden ein Tick hat bestimmt die Auflösung des SMF in T icks und das b set_tempo-Event. NoteworthyComposer erzeugt SMF mit einer Auflösung von 192 Ticks/b. T empo( µ ) µ b T ickdauer( )= T ick Auf lsung( T icks ) b Bei einem Tempo von 272727 µs ist 1 Tick = 1420,453125 µs. Zur Bestimmung der Tondauer des Tons im Tenor müssen die set_tempo-Events betrachtet werden, die zwischen den note_on-Events des Tons liegen: [...]
set_tempo-Events werden konvertiert, so dass sie nur ein set_tempo-Event beinhalten. Die Noten und Pausen werden gestreckt bzw. gestaucht, so dass eine Viertelnote bei Verdoppelung des Tempos zu einer Achtel wird. Für die Konvertierung von SMF mit multiplen set_tempo-Events wurde die Software GNMIDI (Nag97) verwendet. track_name Das MIDI-Event track_name beinhaltet den Namen des Tracks. Der erste Track hat den Namen „YOU’RE A GRAND OLD FLAG“. Alle folgenden MIDI-Events bis zum nächsten track_name-Event gehören zu diesem Track. Die Metadaten wie Entstehungsjahr, Name des Texters, Name des Komponisten und Name des Arrangeurs stehen in meta-events wie text_event und copyright_text_event. Die SMF im Testkorpus sind vom Typ 1, d.h. sie können mehrere Tracks haben. Im ersten Track stehen der Titel und die set_tempo-Events sowie die Metadaten. In den restlichen Tracks stehen die Noten der Einzelstimmen. key_signature Die Tonart wird im key_signature-Event gespeichert. In Abbildung 2.44 steht die -4 im key_signature-Event für die Tonart mit 4 bs. Der folgende Wert gibt das Geschlecht an. 0 bedeutet Dur25 . Das key_signature-Event bezieht sich auf alle Channels. time_signature Das time_signature-Event beinhaltet die Werte für das Metrum. note_on Die Töne der Zwischenannotation werden in MIDI mit note_on- und note_offEvents kodiert. Im note_on-Event sind die Werte für Lautstärke, Tonhöhe, ChannelNummer und deltatime gespeichert. Der Track mit dem Namen „Tenor“ hat zwei note_on-Events. Der letzte Wert der note_on-Events ist die Lautstärke26 . Die maximale Lautstärke ist 127 und die minimale Lautstärke ist 0. Das erste note_on-Event hat eine Lautstärke von 110 (siehe Abbildung 2.44). Das zweite note_on-Event hat die Lautstärke 0. Ein Ton hat immer zwei Events. Ein Event für den Beginn des Tons und ein Event für das Ende des Tons. Der vierte Wert des note_on-Events ist die Tonhöhe. Der Wert im ersten note_onEvent ist 68, was der Tonhöhe eines g 1/ab1 bzw. g 5/a 5 entspricht (siehe Tabelle 2.46). MIDI benutzt eine base-12 Skala (siehe Abbildung 2.45 aus (SF98)[Seite 16]). Mit dem note_on-Event können alle Tonhöhen der Zwischenpartitur repräsentiert werden. Die Information für die Notennamen geht dabei verloren und kann nur durch in Verbindung mit dem key_signature-Event wieder hergestellt werden. Der dritte Wert im note_on-Event repräsentiert die Nummer des Channels. Der Ton der Tenorstimme steht zum Beispiel im Channel 0 und die Töne der Leadstimme stehen in Channel 1 (siehe Abbildung 2.44). Die Trennung der Stimmen in der Zwischenannotation bleibt in der Annotation im MIDI-Format erhalten. [...]
In den Warenkorb
74,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832486792
Arbeit zitieren:
Schalleck, Ramon September 2004: Testkorpus für automatische Transkriptionssysteme, Hamburg: Diplomica Verlag
Schlagworte:
Musikerkennung, Testkorpus, Signalverarbeitung, Barbershop, Information and Language Processing



