advanced2 [Computergestützte Musikanalyse]

Dies ist eine alte Version des Dokuments!

In diesem Modul sollen die Ansätze zur Analyse von Aufnahmen, wie sie im Modul Basics Audio weitergeführt und vertieft werden. Im Mittelpunkt stehen Möglichkeiten einer automatisierten Bestimmung von

klanglichen Eigenheiten
dem tonalen Gehalt bzw. Akkorden
Onsets, Grundschlag (Beat) und Tempo

von Aufnahmen mit Hilfe von Algorithmen der Musikinformatik (Music Information Retrieval). Diese Verfahren werden in drei Tutorials anhand von Musikbeispielen vorgestellt. Die Verfahren sind in den sog. Vamp Plugins integriert, welche mit dem Sonic Visualiser ausgeführt werden können; die Ergebnisse lassen sich ebenfalls im Sonic Visualiser grafisch darstellen. In den folgenden Abschnitten werden die Verfahren kurz erläutert.
Zusätzlich wird in Möglichkeiten der Korpusanalyse, also der Untersuchung und des Vergleichs von mehreren Stücken, mit dem Sonic Annotator eingeführt. Zunächst jedoch einige Information zu den Hintegründen.

Vor dem Hintergrund der Digitalisierung von Musikaufnahmen seit den 1980er Jahren, der Entwicklung von komprimierten Datenformaten wie MP3 in den 1990er Jahren und der hierdurch erleichterten massenhaften Verbreitung von Musidateien im Internet entstand um die Jahrtausendwende ein neuer Bereich der Musikinformatik, die sog. Music Information retrieval (MIR). In der Music Information Retrieval werden Algorithmen, Programme und Tools für die automatische Suche nach bestimmten Informationen über Musik in den weltweit wachsenden Musikdatenbänken entwickelt. MIR-Forschung ist in der Regel anwendungsorientiert (Orientierung an use cases) und wird neben Forschungseinrichtungen auch von Software-Entwicklern und Musikinformatikern in kommerziellen Unternehmen (Apple, Google, Spotify etc.) vorangetrieben.

Im Jahre 2000 wurde die International Society for Music Information Retrieval gegründet (ISMIR) und in Pymouth, USA, die erste ISMIR-Konferenz veranstaltet. Seither gibt es jährliche Konferenzen mit Online-Proceedings. Seit 2005 gibt es bei den ISMIR-Konferenzen zudem Wettbewerbe mit speziellen Aufgaben für neu zu entwickelnde Algorithmen (Music Information Retrieval Evaluation eXchange (MIREX), u.a. für Transkriptions-Algorithmen. Heute gibt es weltweit eine Reihe von MIR-Forschungszentren, u.a. (vgl. Projekte).

Innerhalb der MIR unterscheidet man grob zwei Zugänge:

Algorithmen, die auf Metadaten beruhen: also auf Angaben zum Musikstück, manuelle Annotationen, z.B. Tags aus Social-Networks, aber auch Kaufverhalten von Musik-Dateien. Auf dieser Grundlage wurden z.B. recht erfolgreiche Musikempfehlungssysteme entwickelt.
inhalts-basierte Verfahren, die sog. content-based MIR, bei denen die Musik selbst analysiert wird, sei es in Form von Noten (sog. symbolische Daten), meistens jedoch in Form von digitalen Audio-Dateien.

In der content-based MIR werden mit Hilfe von Algorithmen bestimmte Merkmale, sog. Features, aus dem Audio-File extrahiert. Dabei wird zwischen zwischen Low Level Features und High Level Features unterschieden.
Low Level Features können direkt aus der Audio-Datei extrahiert werden, z.B. Werte zur Intensität oder der spektralen Energieverteilung oder die Häufigkeit der Nulldurchgänge der Schwingungskurve.

Input sind die 44.100 Zahlenwerte pro Sekunde eines digitalisierten Audio-Signals
eine zeitliche Fensterfunktion fasst Zahlenwerte für die Extraktion oder Analyse zusammen.
die meisten Verfahren basieren zudem auf einer Fouriertransformation (FFT), also auf einer Spektralanalyse.
weitere Transformationen beziehen sich auf das Klangspektrum, das u.a. in MFCCs oder Tonhöhenklassen, sog. chroma, eingeteilt wird, oder sie richten sich auf die Identifikation von Tonanfängen (onset detection), woraus Beat, Tempo und Metrum abgeleitet werden.

Die Low Level Features dienen oftmals als Ausgangspunkt einer für die Errechnung von High Level Features transformiert, die in stärkerem Maße der menschlichen Wahrnehmung entsprechen; es handelt sich um Eigenschaften wie Tonhöhe, Akkorde, Metrum, Klangfarbe etc. Allerdings besteht oft große Problem, die Lücke zwischen den recht abstrakten Low Level Features, also einer eher messtechnisch orientierten Beschreibung, und den High Level Features, also der Musikwahrnehmung, zu schließen.

In den drei fortgeschrittenen Tutorials des Moduls Audio Advanced sollen die im Tutorial: Spektraldarstellung mit dem Sonic Visualiser und Tutorial: Spektraldarstellung von Gesangsaufnahmen gewonnenen Einsichten ergänzt und weitergeführt werden. Dabei geht es um automatisierte Analyse- und Visualisierungsmöglichkeiten von Klang, Harmonik und Rhythmus, die mit Hilfe sog. Vamp Plugins aus den spektralen Daten der Audio-Datei errechnet werden.

Die drei Tutorials befinden sich auf eigenen Unterseiten:

Installation der Vamp Plugins

Die Vamp Plugins sind ein Audio Processing Plugin System, in dem MIR-Forscher*innen Plugin-Erweiterung für den Sonic Visualiser entwickeln und zur freien Verfügung stellen. Die einzelnen Plugins extrahieren jeweils unterschiedliche Information aus den Audiodateien und visualisieren diese in eine neue Visualisierungsschicht (Layer) im Sonic Visualiser.

Eine Liste der bislang entwickelten Vamp Plugins enthält kurze Beschreibungen und Links zu den entsprechenden Dokumentations- und Download-Seiten. Nach dem Download müssen die Plugin-Dateien in einen Ordner namens „Vamp Plugins“ gelegt werden, der sich in demselben Ordner befindet wie der Sonic Visualiser-Programmordner, z.B. in C\:Programme oder C\:Program files.
Anschließend sind die Plugins über den Menupunkt Transform im Sonic Visualiser abrufbar und lassen sich auf die geöffnete Audiodatei anwenden.

Für die Tutorials werden folgende Plugin-Pakete benötigt: