Dr. Harald G. Grohganz

Diplom-Mathematiker | Data Science Consultant

Stimmgabel

Einführung: Music Information Retrieval (MIR)

Das junge Forschungsgebiet des MIR vereinigt ein weites Feld von Problemstellungen, Anwendungsgebieten und technischen Herangehensweisen. Die möglichen Themengebiete umfassen unter anderem: Identifikation und Klassifikation (etwa nach Stilrichtungen oder Stimmungen), Erkennung von Cover-Songs, Extraktion musikalischer Informationen aus Audioaufnahmen sowie Konzeption und Umsetzung von Benutzerschnittstellen, etwa zum Navigieren in großen Musikdatenbanken.

Eine spezielle Problemstellung im MIR ist die strukturelle Segmentierung, bei der ein Musikstück nach semantischen Gesichtspunkten in zeitliche Abschnitte unterteilt wird, deren Benennung die Gemeinsamkeiten und Gegensätze einzelner Passagen verdeutlichen soll.

In meiner Dissertation habe ich mich schwerpunktmäßig mit der strukturellen Analyse von Musikaufnahmen durch Ansätze beschäftigt, bei denen der Blick auf das gesamte Stück im Vordergrund steht. Hierunter fällt etwa die Segmentierung eines Musikstückes nach Wiederholungen und Homogenitätsbereichen, d. h. Passagen, bei denen ein oder mehrere musikalische Aspekte wie Tonart, Rhythmik oder Klangfarbe unverändert bleiben. Ein anderer dieser global wirkenden Ansätze behandelt die Bestimmung der zeitlichen Positionen von Schlagzeiten und Takten.

Der Fokus meiner Arbeit liegt einerseits auf methodischen und algorithmischen Beiträgen wie die Umwandlung von Wiederholungen in Homogenitätsbereiche, andererseits auf neuartigen Visualisierungen etwa des harmonischen Aufbaus eines Musikstückes sowie interaktiven Benutzerschnittstellen.

Strukturen von Edward Elgar: Pomp and Circumstance March No. 4

Verständliche Papers zur Vorstellung neuer Algorithmen schreiben

Viele Anleitungen zum Schreiben guter wissenschaftlicher Artikel (»paper«) finden sich im Internet – und noch mehr schlechte Paper. Im Folgenden stelle ich meine Interpretation der Vorgehensweise unserer Arbeitsgruppe kurz dar, die sich bei Papern aus den interdisziplinären Bereich zwischen Signalverarbeitung, Information Retrieval, Machine Learning und Musikwissenschaft bewährt hat. Der Aufbau unserer Paper folgt dabei dem naturwissenschaftlichen Standard: Einleitung, Methodik, Experimente, Auswertung mit Diskussion sowie Zusammenfassung.

Wissenschaftlicher Artikel

Grundsätzlich sind alle verwendeten Fachbegriffe möglichst zeitnah zu erklären. Daher achten wir darauf, zu Beginn möglichst wenig, dafür aber sinntragende Begriffe zu verwenden, die dann direkt erklärt und weiter spezifiziert werden können.

Im Laufe der weiteren Beschreibung der einzelnen Teile des Papers gehen wir davon aus, dass ein neuer algorithmischen Ansatz zur Lösung einer (mehr oder weniger) spezifischen Frage- oder Problemstellung vorgestellt wird. Bei anderen thematischen Schwerpunkten können einzelne Punkte relevanter oder weniger relevant sein, sodass auch die Struktur dementsprechend angepasst werden sollte.

Die Überschrift enthält bereits die wichtigste Aussage des Artikels. Die vorkommenden Begriffe werden direkt im Abstract erläutert.

Das Abstract greift die Begriffe der Überschrift auf, erläutert diese kurz und führt das (übergeordnete) Fachvokabular ein. Dieses Vokabular bildet (gemeinsam mit dem Vokabular 2. Stufe in der folgenden Einleitung) das Fundament des Papers, es wird sowohl in Abbildungen als auch in den folgenden Kapiteln immer wieder verwendet und gibt dem Leser Orientierung. Es beginnt mit einem einleitenden Satz, und der Überleitung zur konkreten Problemstellung. Dann wird die Idee des Lösungsansatzes vorgestellt, die wesentlichen Ergebnisse genannt und am Ende ein kurzer Ausblick auf mögliche Anwendungen gegeben.

Die Einleitung ist eine ausführlichere Version des Abstracts. Sie liefert weitere Details zur Problemstellung (aber noch nicht technisch!), erläutert bereits einige Begriffe des globalen Vokabulars und führt partiell bereits die nächstniedrigere Stufe des Fachvokabulars ein. Der Lösungsansatz wird etwas verfeiert dargestellt und eine Grobgliederung vorgenommen. Eine Teaser-Abbildung auf der ersten Seite zeigt möglichst allgemein die Problemstellung und eine mit dem vorgestellten Ansatz entwickelte Lösung. Weiterhin wird kurz die Literatur zusammengefasst, wobei sowohl auf ähnliche Problemstellungen wie auch auf alternative Möglichkeiten zur Lösung dieses und anderer Probleme hingewiesen wird. Insbesondere kann direkt eine Einordnung der Literatur durch Klassifikation der Ansätze und Problemstellungen vorgenommen werden. Auch eine knappe Darstellung der Entwicklung von komplexeren Lösungsansätzen über mehrere Quellen hinweg bietet sich hier an. Bei größeren Papern ist es auch üblich, diese Literaturarbeit in ein separates Kapitel »State of the Art« auszulagern. Nun folgt eine knappe Zusammenfassung der restlichen Kapitel des Artikels mit Verweis auf die Abschnittsnummern.

Das Kapitel über die vorgestellte Methodik beginnt mit einer Pipeline-Abbildung, eine Visualisierung von Abstract und Einleitung. Das Fachvokabular 1. und 2. Stufe wird in ein Diagramm gebracht oder durch Beispiele veranschaulicht, wobei darauf zu achten ist, dass exakt die vorher verwendeten Begriffe wieder aufgegriffen werden. Ein Diagramm kann auch schon methodische/technische Aspekte beinhalten, wenn sich dies anbietet. Im weiteren Verlauf kann man sich nun an dieser Abbildung »entlang hangeln« und die einzelnen Schritte auf einem technisch tiefergehenden Niveau behandeln, ohne dass der Leser die Übersicht verliert. Dies wird durch entsprechende Verweise auf die Abbildung oder durch ergänzende Abbildungen unterstützt. Insbesondere bietet es sich an, das Verfahren anhand eines nahezu perfekten Beispiels durch Visualisierung der wesentlichen Zwischenschritte zu erklären.

Ein Kapitel über Experimente bietet die Möglichkeit, die Vorteile und Einschränkungen des Verfahrens vorzustellen.
In einem Teil zur Qualitativen Analyse werden etwa zwei bis drei weitere Beispiele vorgestellt, welche die Stärken des Verfahrens zeigen. Hierzu zählen insbesondere Abweichungen vom modellierten Idealfall, die durch das vorgestellte Verfahren gut abgefangen werden. Nun folgen weitere Beispiele zum Aufzeigen der Grenzen des Verfahrens, die ungewollte Phänomene zeigen, zusammen mit einer Begründung, welche Modellannahmen bei diesen Daten verletzt wurden. Der zielgerichtete Einsatz von Abbildungen kann die Verständlichkeit massiv erhöhen.
Ein weiterer Teil zur Quantitativen Analyse stellt eine automatische Evaluationsprozedur und (nach Möglichkeit standardisierte) Datensätze vor. Das vorgestellte Verfahren wird unter kontrollierten Parametern auf die Datensätze angewendet und die Ergebnisse mittels der automatischen Evaluation ausgewertet. Auf die Ergebnisse aus ähnlichen Evaluationen für analoge Problemstellungen in der Literatur wird hier ebenfalls eingegangen, meist in tabellarischer Form. Zusätzliche Erläuterungen für etwaige Stärken und Schwächen sollten knapp bleiben.

In der abschließenden Zusammenfassung werden die vorgestellten Ergebnisse kurz zusammengefasst. Die wissenschaftliche Neuerung wird explizit benannt und der durch die Experimente bestätigte Anwendungsfall angegeben. Mögliche Stoßrichtungen für weitere wissenschaftliche Untersuchungen können in jeweils maximal einem Satz skizziert werden.

sechsachtel - Online-Material & Experimentierplattform

Strukturanalysen zur Winterreise

Schuberts Liederzyklus »Winterreise« wurde als Fallstudie manuell analysiert, um eine Verbindung von maschinellen Ansätzen zur strukturellen Segmentierung mit den Erkenntnissen der Musiktheorie aufzuzeigen. Die erstellten Annotationen sowie eine Übersicht der technischen Analysen sind unter winterreise.sechsachtel.de frei zugänglich und sollen zu weitergehenden Forschungen im Bereich einer musikalisch fundierten Segmentierung ermutigen.

Bei der automatischen Musikstrukturanalyse handelt es sich um ein oftmals nur vage definiertes Problem, welches zusätzlich durch Fehlen einer objektiven Auswertungsmöglichkeit erschwert wird. Vielfach ist Vorwissen sowohl über die Eigenarten der betreffenden Musikstücke als auch der zum Vergleich herangezogenen Referenzannotationen für ein brauchbares Ergebnis erforderlich.

Daher habe ich im Rahmen meiner Forschungsarbeiten gemeinsam mit einer Musikwissenschaftlerin für jedes Stück der Winterreise mehrere Annotationen nach verschiedenen musikalischen Aspekten angefertigt. Jede dieser manuell erstellten Segmentierungen wurde durch einen Begleittext motiviert und erläutert. Innerhalb der Dissertation wurde ein Stück detailliert analysiert, bei dem diese Motivation zur Interpretation der Ergebnisse und zum Entwurf einer kombinierten Strukturanalyse unerlässlich ist. Dabei wurde deutlich, dass lokale Kriterien zur Beschreibung der Relevanz verschiedener musikalischer Aspekte oder Prinzipien entwickelt werden müssen. Als eine erste Hilfestellung für derartige Analysen dient eine interaktive Benutzerschnittstelle zur synchronen Verbindung der graphischen Repräsentation technischer Merkmale mit der zugrundeliegenden Musik.

Harmonische, timbrespezifische und rhythmische Strukturen (v.l.n.r) von 01. Gute Nacht

Rhythmusoptimierung in MIDI-Dateien

Ein weiterer Schwerpunkt meiner Dissertation ist die nachträglichen Korrektur des Ergebnisses von Methoden zur automatischen Rhythmus-Transkription. Hierbei wird zuerst das Schlagraster von MIDI-Dateien erkannt und eine musikalische Zeitachse generiert, auf welche die MIDI-Ereignisse anschließend transformiert werden. Der zugrundeliegende Algorithmus wurde in Java implementiert und steht unter midi.sechsachtel.de zu Evaluationszwecken zur Verfügung.

Das MIDI-Format wurde ursprünglich für den Austausch von Kontrollsequenzen zwischen verschiedenen elektronischen Instrumenten entwickelt. Im Laufe der Zeit hat sich MIDI als Quasi-Standard für die Darstellung und Speicherung von partiturbezogenen Informationen etabliert. Die einer MIDI-Datei zugrundeliegenden Zeitinformationen können sowohl in musikalisch-symbolischer (wie bei einem Notenblatt) als auch in physikalisch-absoluter Form in Sekunden (um eine spezifische Interpretation abzubilden) vorliegen. Allerdings haben bei etlichen MIDI-Dateien die Zeitinformationen nur eine physikalische Bedeutung, wenn bei mangelndem kontextuellen Bezug die symbolischen Werte nur auf Standardwerte gesetzt sind, die in keiner Beziehung zum tatsächlichen musikalischen Inhalt stehen.

Meine Forschungsarbeiten umfassten auch die Entwicklung einer Methode zur Bestimmung des musikalischen Schlagrasters einer solchen MIDI-Datei mit rein physikalischen Zeitinformationen. Ein Hauptbeitrag ist dabei die globale Schätzung der Taktart, die wir zur Korrektur von lokalen Fehlern des vorher abgeschätzten Schlagrasters verwenden. Die Bestimmung eines solchen Rasters dient dabei als Vorbereitung auf eine MIDI-Quantisierung, bei der die MIDI-Noten an die Taktschläge angeglichen werden. In diesem Sinne kann die vorgestellte Methode direkt in Kombination mit bereits existenter MIDI-Quantisierungssoftware verwendet werden, um physikalische MIDI-Dateien in semantisch angereicherte symbolische MIDI-Dateien umzuwandeln.

Der Notentext oben zeigt die deutlichen Qualitätsunterschiede beim Quantisieren einer MIDI-Aufnahme (links) und einer optimierten MIDI-Partitur (rechts).

3D-Visualisierungen

Neben den Forschungsbeiträgen dient die Website mir.sechsachtel.de auch zur Erprobung neuartiger Visualisierungen aus dem Musikinformatik-Bereich. Hierbei liegt der Schwerpunkt zunächst auf tonalen musikalischen Merkmalen.

Aktuell werden die Möglichkeiten der Web Audio API in Verbindung mit der WebGL-Bibliothek three.js erprobt.

Eulersches Tonnetz als hexagonale Parkettierung
Quintenzirkel beim Wechsel von C-Dur nach c-Moll
3D-Visualisierung eines Stereosignal-Spektrogramms