tutorium_spektral [Computergestützte Musikanalyse]

In diesem Tutorial wird gezeigt, wie Informationen zum Klangcharakter, zum Tonhöhenverlauf und zum Rhythmus einer Musikaufnahme mithilfe der Spektraldarstellung im Sonic Visualiser gewonnen oder illustriert werden können.

Der Sonic Visualiser ist ein einfach zu bedienendes Software-Tool für die Visualisierung verschiedener Aspekte einer Audiodatei. Das Grundkonzept besteht darin, verschiedene Visualisierungsschichten (Layers oder Panes) übereinander legen.
Der Sonic Visualiser wurde am Centre for Digital Music, Queen Mary University of London, für die Betriebssystseme Windows, Mac und Linux entwickelt. Die Software lässt sich kostenfrei herunterladen und einfach installieren, vgl. Download. Eine ausführliche englischsprachige Einführung finden Sie hier.

Laden: Eine Audiodatei wird über das Menu, mit Crtl-O oder mit „drag and drop“ geladen.

 Laden Sie bitte die Datei Audio01 auf Ihre lokale Festplatte (rechte Maustaste, Ziel speichern unter). 
 Öffnen Sie die Datei im Sonic Visualiser.

Audio01
Es handelt sich um einen Ausschnitt aus dem Track „Bucephalus Bouncing Ball“ von Aphex Twin, einem Psyeudonym des irisch-britischen Electronica-Künstlers Richard David James.

Das Abspielen der Datei erfolgt mit der Leertaste oder den Buttons des Transport-Menus (oben).
Ganz unten befindet sich zudem ein schmaler Gesamtüberblick über die Audio-Datei, in den Sie hineinklicken können. Mit dem horizontalen Zoom-Rädchen rechts darüber können Sie die Größe des im Hauptfenster gezeigten Ausschnitts verkleinern oder vergrößern (alternativ mit den beiden Cursortasten down und up; die Cursortasten mit den Pfeilen nach links und rechts verschieben das Fenster nach links bzw. rechts).

 Zoomen Sie sich mit der Cursortaste (up) soweit in die Wellenform hinein, bis Sie die einzelnen Sample-Punkte sehen.

Mit dem Knopf rechts unten lässt sich die Abspielgeschwindigkeit (Playback speed) verändern; durch Klicken auf den Knopf können Sie in einem Fenster die gewünschte Geschwindigkeit präzise einstellen (in Prozent der Originalgeschwindigkeit).

Nach dem Laden sind drei Layers (Visualisierungsschichten) zu sehen, vgl. die Karteikarten oben rechts:

scroll layer: Klicken Sie bitte auf die erste der Karteikarten (links) und wählen Sie scroll, damit der sichtbare Ausschnitt beim Abspielen einer Datei mitläuft.
Das time instants layer enthält die Zeitpunkte der Audio-Datei.
amplitude layer: Hier ist die Wellenform zu sehen. Bei der entsprechenden Karteikarte können über scale verschiedene Skalierungen gewählt werden: linear, dB (logarithmisch) und meter (zwischen linear und logarithmisch, bietet oft die beste Skalierung). Außerdem kann die Ansicht normalisiert, d.h. auf die Bandbreite der möglichen Darstellung ausgeweitet werden.

Es gibt zahlreiche weitere Typen von Layers bzw. Panes: time values, notes, regions, text, images, spectrum und spectrogram.

Aktiv ist jeweils das oberste Layer bzw. das angeklickte Pane. Jedes Layer/Pane taucht rechts oben als Karteikarte auf und besitzt dort ein spezifisches Menu. Wenn man mit der Mouse über die aktive Schicht fährt, werden ggf. Informationen sichtbar.
Mit dem Lämpchen (Show, rechts unten) kann die Darstellung des obersten Layer zudem an- und ausgeschaltet werden.
Einige der layer/pane haben zusätzliche Information, die in einer Tabelle angezeigt werden, wenn man die Taste E drückt. Diese Daten können als csv-Datei exportiert werden. (menu: File, Export Annotation Layer). Das Layer/Pane selbst kann als Bilddatei exportiert werden (menu: File, Export Image File). Gelöscht wird das aktuelle Layer/Pane durch: Ctrl-D / Ctrl-Shift-D.

 Spielen Sie nun die Audio-Datei ab. Welche Klangeffekte fallen Ihnen auf?

Als erste Annäherung an die Spektraldarstellung wollen wir uns zunächst das Spektrum, also eine Momentaufnahme der Spektralverteilung der Aufnahme, ansehen: Ein Spektrum-Layer des Audio-Files erzeugen Sie mit dem Tastenbefehl Shift+U oder mit dem Menubefehl Layer - Add Spectrum - Audio01: All Channels Mixed.

Wählen Sie nun bei der aktiven Karteikarte (rechts oben) unterschiedliche Einstellungen für die Größe des Analysefensters (Window: angegeben in Samples; z.B. entspricht 4096 Samples einer Fenstelänger von 4096 : 44100 = 0,093 - also 93 Millisekunden; 8192 Samples entsprechen 186 ms usw.).

 Wie verändert sich die Genauigkeit des Spektrums bei verschiedenen Fenstergrößen? 
 Beachten Sie insbesondere den tiefen Frequenzbereich.
 Verschieben Sie nun das Transportfenster (unter der Wellenform) mit dem Cursor nach rechts bzw. links. 
 Wie verändert sich das dargestellte Spektrum?

Fazit: Je größer das Analysefenster gewählt wird, umso genauer ist die Frequenzauflösung im Spektrum - auch im tiefen Frequenzbereich. Allerdings wird durch größere Fenster natürlich die Auflösung im zeitlichen Bereich geringer. Dies gilt es bei der Wahl der richtigen Fenstergröße bei Spektraldarstellungen von Musikaufnahmen zu berücksichtigen.

Ein Spektrogramm-Layer des Audio-Files erzeugen Sie mit dem Tastenbefehl Shift+G oder mit dem Menubefehl Layer - Add Spectrogram - Audio01: All Channels Mixed. Alternativ können Sie unterhalb der Wellenform in einem neuen Pane ein Spektrogramm anlegen (Menubefehl Pane- Add Spectrogram - Audio01: All Channels Mixed).

 Was können Sie auf dem Spektrogramm erkennen?
 Zoomen Sie sich in die Abbildung hinein (cursor down) 
 Spielen Sie das Audio-File ab. Wie passen auditiver und visueller Eindruck zusammen?

Wichtig ist nun, die Einstellungen des Spektrogramms (aktive Karteikarte rechts oben) so zu bearbeiten, dass es ein möglichst scharfes Bild der enthaltenen Informationen erzeugt. Gehen Sie dabei folgendermaßen vor:

Wählen Sie ein Colour-Schema, das Ihnen zusagt. Im Tutorial wird das schlichte Black-on-White-Schema bevorzugt.
Wählen Sie sodann den Darstellungsbereich des Spektrogramms, indem Sie auf den Range-Balken neben dem vertikalen Zoom-Rädchen klicken und den oberen bzw. unteren Grenzwert einstellen (Enter new range): Der menschliche Hörbereich beginnt bei ca. 20 Hz; im Spektrogramm ist über 16 kHz bei vielen Audio-Dateien nichts mehr zu erkennen. Wählen Sie also eine Ausschnitt zwischen 20Hz und 16000Hz; oft genügt ein weit kleinerer Bereich (<10 kHz oder <5000 Hz), um die relevanten Eigenheiten zu illustrieren.
Window: Durch die Wahl der Länge des Analysefensters wird das Bild scharf gestellt (vgl. dazu Modul Basics II: Audio). Die Fensterlänge wird als Anzahl der Samples angegeben. Wählen Sie unterschiedliche Längen und beobachten Sie, wie sich die Darstellung verändert. Scharfe Einstellungen erhalten Sie normalerweise mit 2048 oder 4096 Samples.
Bei Window Overlap stellen Sie ein, ob und wie sich die Analysefenster überlappen sollen. Eine hohe Übelappung erhöht die Schärfe der Darstellung, benötigt aber mehr Rechenleistung.
Scale: Anschließend können Sie den Schwarz-Weiß- bzw. Farb-Kontrast optimieren. Wählen Sie die Einstellung dBV^2 (liegt zwischen dBV und Meter) und regulieren Sie den Helligkeitsgrad durch Drehen am Rädchen rechts davon.
Bins: Hier können Sie zwischen weiteren Darstellungenformen wählen. Wählen Sie die Voreinstallung All Bins und Linear.

 Was können Sie nun auf dem Spektrogramm erkennen? 
 Nutzen Sie bitte auch die Möglichkeit des Zooms (horizontales Rädchen leicht nach rechts drehen). 
 Spielen Sie das Audio-File noch einmal ab. Wie passen auditiver und visueller Eindruck zusammen?

Drei nützliche Hinweise zum Sonic Visualiser:

Wenn Sie eine visuell überzeugende Einstellung für Ihre Spektraldarstellung gefunden haben, können Sie diese Einstellung als Voreinstellung (Template) für zukünftige Spektrogramme abspeichern oder zum Standard für alle künftigen Spektraldarstellungen im Sonic Visualiser machen: File - Export Session As Template. Aufgerufen werden die Templates über: File - Apply Session Template.
Sie können Ihr Spektrogramm als Bilddatei (png oder svg) exportieren: File - Export Image File / Export SVG file. Dabei können Sie zwischen dem gerade sichtbaren Ausschnitt und dem Spektrogramm der kompletten Audio-Datei wählen.
Beim Schließen des Sonic Visualisers werden Sie zudem gefragt, ob Sie die Session abspeichern wollen. Eine Session beinhaltet alle Layers und Panes in ihrer Verknüpfung mit dem Audio und kann beim erneuten Start der Software wieder aufgerufen werden.

Rhythmus

Im Spektrogramm werden alle geräuschhaften und perkussiven Klänge, z.B. des Schlagzeug, als vertikale Balken dargestellt.

 Wie lässt sich der Beginn des Tracks in rhythmischer Hinsicht charakterisieren?
 Was passiert ab 0:28?

Tonhöhe

Töne mit wahrnehmbarer Tonhöhe werden im Spektrogramm als parallele horizontale Linien dargestellt, wobei die tiefste Linie in der Regel dem Grundton entspricht und die höheren Linien den Obertönen entsprechen.

 Suchen Sie im Spektrogramm nach Tönen! Wo finden sich horizontale Linien? 
 Wie hören sich die entsprechenden Passagen an?

Tipp: Wenn Sie mit dem Cursor (Hand-Symbol) über das Spektrogramm fahren, werden rechts oben Angaben zum betreffenden Analysefenster eingeblendet, z.B. die Tonhöhe bzw. der Tonhöhenbereich (mit Abweichungen in Cent). Auf diese Weise können Sie überprüfen, ob es sich bei den horizontalen Linien tatsächlich um Vielfache einer Grundfrequenz handelt.

Klangfarbe

Die Wahrnehmung der Klangfarbe hängt eng mit der Verteilung und Veränderung von spektraler Energie über den Frequenzbereich hinweg zusammen und schlägt sich im Spektrogramm in einer unterschiedlich starken Grau- und Schwarzfärbung in den entsprechenden Frequenzbereichen nieder. Dies betrifft sowohl die Obertöne eines Tones (horizontale Linien) als auch Geräusche (graue Wolken).

 Hören Sie sich die kurze Passage 0:40-42 an. 
 Hier verändert sich der Klang eines perkussiven Sounds sehr schnell. 
 Was lässt sich aus dem Spektrogramm über den Klangcharakter erfahren?
 Betrachten Sie nun die Passage 1:01-05. 
 Was lässt sich aus der visuellen Darstellung auf den klanglichen Charakter der Passage schließen?

Wir werden im Tutorial Spektraldarstellung von Gesangsaufnahmen die Möglichkeiten der Visualisierung von melodischer Gestaltung, Rhythmus und Klangfarbe anhand einer Gesangsaufnahme vertiefen.

 Wählen Sie eine Musikaufnahme, die Sie spannend finden. 
 Laden Sie die entsprechende Audio-Datei im Sonic Visualiser.
 Erzeugen Sie ein Spektrogramm der Datei. Variieren Sie dabei die Größe des Analysefensters. 
 Untersuchen Sie ausgewählte Passagen der Aufnahme hinsichtlich der rhythmischen, melodischen und klanglichen Gestaltung. 
 Exportieren Sie die Spektraldarstellungen aussagekräftiger Passagen des Stückes. 
 Beschreiben Sie, was auf den Bildern zu sehen ist.

Einen interessanten Ansatz zur Analyse der klanglichen Aspekte von Popmusik-Produktionen mithilfe von Spektrogrammen formuliert Simon Zagorski-Thomas. Seine These ist, dass in vielen Pop-Aufnahmen die Eigenheiten einer Performance von Musiker*innen und Sänger*innen mit verschiedenen studiotechnischen Mitteln (z.B. Equalizer, Hall, Panorama, Delay) überzeichnet bzw. künstlich gestaltet werden - Zagorski-Thomas spricht von Sonic Cartoons. Andererseits werden gerade in elektronischer Musik viele ungewohnte und 'unnatürliche' bzw. synthetisch erzeugte oder bearbeitete Klänge so eingesetzt, dass sie Ähnlichkeiten mit der natürlichen Klangumwelt oder sogar herkömmlichen Musikinstrumenten (z.B. der Klanganordnung eines Drumsets) besitzen.

Simon Zagorski-Thomas: „The Sprectromorphology of Recorded Popular Music. The Shaping of Sonic Cartoons through Record Production“, in: The Relentless Pursuit of Tone. Timbre in Popular Music, hrsg. von Robert Fink, Melinda Latour und Zachary Wallmark, New York 2018, S. 345-366.

tutorial_audio_basics_spectral_musterloesungen.pdf