basics2

Dies ist eine alte Version des Dokuments!


Das Modul Basics Audio widmet sich Möglichkeiten der Visualisierung von Musikaufnahmen mit Hilfe von Spektrogrammen. Wie fertige ich ein aussagekräftiges Spektrogramm an? Welche Informationen kann ich aus dieser Visualisierung zur klanglichen, melodischen und rhythmischen Gestaltung der Aufnahme ziehen? Das Tutorial Spektraldarstellungen bietet hierzu eine praktische Einführung anhand eines Klangbeispiels und der freien Software Sonic Visualiser. Hieran knüpft das zweite Tutorial: Spektraldarstellung von Gesangsaufnahmen an.

Spektraldarstellungen sind zwar nicht in der Lage, individuelle Hörerfahrungen zu erklären. Sie können diese Erfahrungen jedoch illustrieren und somit ihre Vermittlung erleichtern. Es handelt sich um einen Zugang über die akustischen Eigenschaften von Klang, die messtechnisch erhoben werden. Dieser Zugang kann einen kulturell orientierten Analyse- und Interpretationszugang zur Musik ergänzen, in dem er reichhaltige Informationen zur konkreten klanglichen Gestaltung von Musik zur Verfügung stellt.

In der folgenden Einführung werden einige grundlegende Informationen zu digitalen Audiodateien und Spektraldarstellungen gegeben.

Bei der Digitalisierung (Analog-Digital-Wandlung) wird die Auslenkung eines Signals in regelmäßige Zeitintervallen (Abtastperioden) gemessen. Die Zahl der Abtastungen (sog. Samples) pro Sekunde wird Abtastrate (sampling rate) oder Abtastfrequenz fs genannt. Die Frequenz fs/2 (Nyquist-Frequenz) ist die obere Grenze des darstellbaren Frequenzbereichs; höhere Frequenzen „fallen durchs Raster“ der Abtastfrequenz.

Die gängige Abtastfrequenz für Audiodateien beträgt 44.100 Samples pro Sekunde - als 44.100 Zahlenwerte in der Sekunde. Die Zeitreihen dieser Zahlenwerte sind die Grundlage der Digitalen Signalverarbeitung von Audiodaten, also aller Algorithmen, die aus den Audiodaten bestimmte Informationen herausrechnen (vgl. hierzu das Modul Advanced Audio). Dabei ist zunächst unerheblich, in welchem Audioformat die Audiodaten vorliegen; am gebräuchslichsten ist das unkompromierte wav-Format und das komprimierte mp3-Format.

Verschieden Audioeditoren (z.B. Audacity und Audio-Software bieten Möglichkeiten, die Audiodaten zu laden, zu visualisieren und zu bearbeiten.

Grundlegend ist dabei Wellenformdarstellung (s. Abbildung links), die den Wert der einzelnen Samples im Zeitverlauf darstellt. Wenn Sie sich in eine Wellenform weit hineinzoomen, werden die einzelnen Samples sichtbar (s. Abbildung rechts). Beide Abbildungen wurden mit der Software Sonic Visualiser angefertigt.

Durch ein komplexes Rechenverfahren, die sog. Fourier-Transformation (DFT = discrete Fourier transform, STFT = discrete short-time Fourier transform, FFT = fast Fourier transform) können die einzelnen Frequenzanteile eines Audiosignals berechnet und als Spektrum dargestellt werden. Ein Spektrum ist eine Momentaufnahme der des Klanges bezogen auf ein zumeist sehr kurzes Analysefenster.

[Beispiel aus Sonic Visualiser]

Je nach Größe dieses Analysefensters wird unterschiedlich genaues Spektrum errechnet - vor allem bei sich zeitlich sehr schnell ändernden Audiosignalen wie z.B. Musikaufnahme. Veränderungen des Klanges bzw. Frequenzspektrums in der Zeit werden dagegen nur in einem sog. Spektrogramm sichtbar.

Bei einem Spektrogramm werden unzählige Fouriertransformationen für aufeinander folgende Audio-Ausschnitte (Analysefenster) durchgeführt und diese Spektren „aneinandergeklebt“. In einer Spektraldarstellung (Spektrogramm) wird

  • der zeitliche Verlauf eines Klanges (horizontale Achse) mit
  • dessen Frequenzverteilung (vertikale Achse) sowie
  • der relativen Stärke der einzelnen Frequenzen (Grau- oder Farbstufen)

in Verbindung gesetzt. Hier das Beispiel eine Spektrogramms, das wir im Tutorial: Spektraldarstellung mit dem Sonic Visualiser verwenden werden.

Grundregeln für die Interpretation von Spektrogrammen:

  1. Parallele horizontale Linien repräsentieren Klänge mit fester Tonhöhe, wobei die tiefste Linie für den Grundton, die höheren Töne für die verschiedenen Obertöne repräsentieren. Je mehr und je höhere Obertöne ein Klang besitzt, umso heller klingt er.
  2. Vertikale Linien stehen für geräuschartige, perkussive Klänge, z.B. Schlagzeug-Sounds, da sich das Klangspektrum von Geräuschen bzw. geräuschartigen Impulsen über den gesamten Frequenzbereich erstreckt.
  3. graue Wolken im Spektrogramm stehen für Rauschen, z.B. Zischlaute im Gesang oder einem ausklingenden Beckenschlag.

Wie Sie selbst ein Spektrogramm im Sonic Visualiser anfertigen können und was alles aus einem Spektrogramm herausgelesen werden kann, erfahren Sie im Tutorial: Spektraldarstellung mit dem Sonic Visualiser

Wenn Sie mehr über Spektraldarstellungen und deren akustischen Grundlagen erfahren wollen, konsultieren Sie bitte eine der folgenden Einführungen:

Stephen McAdams, Philippe Depalle und Eric Clarke: „Analyzing Musical Sound“, in: Empirical Musicology. Aims, Methods, Prospects, hrsg. von Eric Clarke und Nicholas Cook, Oxford 2004, S. 157-196.

Donald E. Hall: Musikalische Akustik. Ein Handbuch, Mainz 1997.

Meinard Müller: Fundamental Music Processing. Audio, Analysis, Algorithms, Applications, New York 2015.
Darin: Chapter 2: Fourier Analysis of Signals, online verfügbar in den FMP Notebooks (mit Jupyter-Notebooks zum Nachprogrammieren!)

  • basics2.1622449823.txt.gz
  • Zuletzt geändert: 2021/05/31 08:30
  • von martin