advanced2 [Computergestützte Musikanalyse]

Dies ist eine alte Version des Dokuments!

In diesem Modul sollen die Ansätze zur Analyse von Aufnahmen, wie sie im Modul Basics Audio weitergeführt und vertieft werden. Im Mittelpunkt stehen Möglichkeiten einer automatisierten Bestimmung

von klanglichen Eigenheiten
des tonalen Gehalts bzw. von Akkorden
von Onsets, Grundschlag (Beat) und Tempo

in Aufnahmen mit Hilfe von Algorithmen der Musikinformatik (Music Information Retrieval) und den sog. Vamp Plugins, die mit dem Sonic Visualiser ausgeführt werden können; die Ergebnisse lassen sich ebenfalls im Sonic Visualiser grafisch darstellen. Diese Verfahren werden in drei Tutorials anhand von Musikbeispielen vorgestellt.
Zusätzlich wird in Möglichkeiten der Korpusanalyse, also der Untersuchung und des Vergleichs von mehreren Stücken, mit dem Sonic Annotator eingeführt. Zunächst jedoch einige generelle Informationen zur Music Information Retrieval.

Vor dem Hintergrund der Digitalisierung von Musikaufnahmen seit den 1980er Jahren, der Entwicklung von komprimierten Datenformaten wie MP3 in den 1990er Jahren und der hierdurch erleichterten massenhaften Verbreitung von Musidateien im Internet entstand um die Jahrtausendwende ein neuer Bereich der Musikinformatik, die sog. Music Information retrieval (MIR). In der Music Information Retrieval werden Algorithmen, Programme und Tools für die automatische Suche nach bestimmten Informationen über Musik in den weltweit wachsenden Musikdatenbänken entwickelt. MIR-Forschung ist in der Regel anwendungsorientiert (Orientierung an use cases) und wird neben Forschungseinrichtungen auch von Software-Entwicklern und Musikinformatikern in kommerziellen Unternehmen (Apple, Google, Spotify etc.) vorangetrieben.

Im Jahre 2000 wurde die International Society for Music Information Retrieval gegründet (ISMIR) und in Pymouth, USA, die erste ISMIR-Konferenz veranstaltet. Seither gibt es jährliche Konferenzen mit Online-Proceedings. Seit 2005 gibt es bei den ISMIR-Konferenzen zudem Wettbewerbe mit speziellen Aufgaben für neu zu entwickelnde Algorithmen (Music Information Retrieval Evaluation eXchange (MIREX), u.a. für Transkriptions-Algorithmen. Heute gibt es weltweit eine Reihe von MIR-Forschungszentren, u.a. (vgl. Projekte).

Innerhalb der MIR unterscheidet man grob zwei Zugänge:

Algorithmen, die auf Metadaten beruhen: also auf Angaben zum Musikstück, manuelle Annotationen, z.B. Tags aus Social-Networks, aber auch Kaufverhalten von Musik-Dateien. Auf dieser Grundlage wurden z.B. recht erfolgreiche Musikempfehlungssysteme entwickelt.
inhalts-basierte Verfahren, die sog. content-based MIR, bei denen die Musik selbst analysiert wird, sei es in Form von Noten (sog. symbolische Daten), meistens jedoch in Form von digitalen Audio-Dateien.

In der content-based MIR werden mit Hilfe von Algorithmen bestimmte Merkmale, sog. Features, aus dem Audio-File extrahiert. Dabei wird zwischen zwischen Low Level Features und High Level Features unterschieden.
Low Level Features können direkt aus der Audio-Datei extrahiert werden, z.B. Werte zur Intensität oder der spektralen Energieverteilung oder die Häufigkeit der Nulldurchgänge der Schwingungskurve.

Input sind die 44.100 Zahlenwerte pro Sekunde eines digitalisierten Audio-Signals
eine zeitliche Fensterfunktion fasst Zahlenwerte für die Extraktion oder Analyse zusammen.
die meisten Verfahren basieren zudem auf einer Fouriertransformation (FFT), also auf einer Spektralanalyse.
weitere Transformationen beziehen sich auf das Klangspektrum, das u.a. in MFCCs oder Tonhöhenklassen, sog. chroma, eingeteilt wird, oder sie richten sich auf die Identifikation von Tonanfängen (onset detection), woraus Beat, Tempo und Metrum abgeleitet werden.

Die Low Level Features dienen oftmals als Ausgangspunkt einer für die Errechnung von High Level Features transformiert, die in stärkerem Maße der menschlichen Wahrnehmung entsprechen; es handelt sich um Eigenschaften wie Tonhöhe, Akkorde, Metrum, Klangfarbe etc. Allerdings ist es manchmal problematisch, die Lücke zwischen den recht abstrakten Low Level Features, also einer eher messtechnisch orientierten Beschreibung, und den High Level Features, also der Musikwahrnehmung, zu schließen.

In den drei fortgeschrittenen Tutorials des Moduls Audio Advanced sollen die im Tutorial: Spektraldarstellung mit dem Sonic Visualiser und Tutorial: Spektraldarstellung von Gesangsaufnahmen gewonnenen Einsichten ergänzt und weitergeführt werden. Dabei geht es um automatisierte Analyse- und Visualisierungsmöglichkeiten von Klang, Harmonik und Rhythmus, die mit Hilfe sog. Vamp Plugins aus den spektralen Daten der Audio-Datei errechnet und im Sonic Visualiser dargestellt werden können.

Die drei Tutorials befinden sich auf eigenen Unterseiten:

Installation und Funktionsweise der Vamp Plugins

Die Vamp Plugins sind ein Audio Processing Plugin System, in dem MIR-Forscher*innen Plugin-Erweiterung für den Sonic Visualiser entwickeln und zur freien Verfügung stellen. Die einzelnen Plugins extrahieren jeweils unterschiedliche Information aus den Audiodateien und visualisieren diese in eine neue Visualisierungsschicht (Layer) im Sonic Visualiser.

Eine Liste der bislang entwickelten Vamp Plugins enthält kurze Beschreibungen und Links zu den entsprechenden Dokumentations- und Download-Seiten. Nach dem Download müssen die Plugin-Dateien in Ordner namens „Vamp Plugins“ gelegt werden, der von Ihnen erstellt werden muss und sich in demselben Ordner befinden sollte wie der Sonic Visualiser-Programmordner, z.B. in C\:Programme oder C\:Program files.

Für die Tutorials werden folgende Plugin-Pakete benötigt:

Queen Mary Plugin Set
Vamp Aubio Plugins
NNLS Chroma und Chordino (alternativ: hier)

Nach dem Neustart des Sonic Visualiser sind die Plugins dort über den Menupunkt Transform abrufbar und lassen sich auf die geöffnete Audiodatei anwenden. Die einzelnen Vamp Plugins sind nach Kategorien, Namen und Entwickler ('Maker') gegliedert; die jeweils zuletzt geöffneten Plugins werden als Recent Transforms aufgelistet.
Bei den meisten Vamp Plugins öffnet sich zunächst ein Fenster, in dem weitere Feineinstellungen vorgenommen werden können. Diese Feineinstellungen werden in den jeweiligen Tutorials erläutert. Nach der Ausführung werden die Ergebnisse als neues Layer angezeigt, bei dem sich auf der Karteikarte (rechts oben) die Visualisierungseinstellungen anpassen und verändern lassen. Das Layer kann über den Show-Button (rechts unten) aus- und angeschaltet und mit Strg-D gelöscht werden.