tutorium_sound

Neben der Visualisierung durch Spektrogramme gibt es weitere Möglichkeiten, den Sound einer Aufnahme zu untersuchen. Dabei geht es in der Regel um Eigeneheiten des Gesamt-Sounds einer Aufnahme. In jenen Passagen einer Aufnahme, in denen sich die verschiedenen Stimmen und Instrumente gegenseitig nicht zu sehr überlagern, lassen sich jedoch durchaus auch Klangeigenheiten bestimmter (Instrumental-)stimmen oder einzelner Klangereignisse visualisieren.
Es handelt sich dabei um sog. Low Level Features - also Kenngrößen, die relativ nah an der akustischen Messung und relativ weit entfernt von der Hörempfindung (z.B. einer bestimmten Klangfarbenwahrnehmung) angesiedelt sind. Sie sind daher in der Regel nicht sehr anschaulich. Es lohnt sich dennoch, verschiedene Abschnitte einer Aufnahme oder verschiedene Aufnahmen hinsichtlich dieser Messgrößen miteinander zu vergleichen. Auf diese Weise kann man ein Gefühl dafür bekommen, auf welche klanglichen Aspekte sie sich beziehen.

Der spektrale Zentroid ist ein Maß für den Mittelpunkt oder Schwerpunkt (engl. centroid) eines Frequenzspektrums. Er entspricht einer wichtigen Dimension der Klangfarbenempfindung. Je höher der spektrale Zentroid liegt, desto heller und strahlender (engl.: bright) ist der entsprechende Klang.

 Starten Sie den Sonic Visualiser.
 Laden Sie Audio01.mp3 und starten Sie das Vamp Plugin durch den Menubefehl: 
 'Transform' - 'Analysis by maker' - 'Paul Brossier' - 'Aubio Spectral Descriptor'

Es öffnet sich ein Fenster, in dem Sie unter verschiedenen Deskriptortypen wählen können. Außerdem können Sie unter Advanced die Größe der Analysefenster (Audio frames per block) und deren Überlappung (Windows increment) einstellen.

 Wählen Sie unter 'Spectral Descriptor Type' die Einstellung 'Spectral Centroid'
 Drücken Sie auf OK. 

Ein neues Time Value Layer öffnet sich. Wählen Sie unter Plot Type die Option Discrete Curve, um eine gut erkennbare Linie zu erhalten.
(Achtung: Liegt kein Signal vor - also bei Stille innerhalb oder am Schluss einer Aufnahme - steigt der spektrale Schwerpunkt automatisch auf einen relativ hohen Mittelwert an.)

 Was können Sie erkennen? 
 Wie verändert sich der Spectral Centroid bei den unterschiedlichen Sounds der Aufnahme?

Spectral Flux (wörtl.: spektraler Fluss) ist ein Maß dafür, wie schnell und stark sich das Spektrum eines Signals von Analysefenster zu Analysefenster ändert. Bei niedrigen Werten handelt es sich um einförmige, regelmäßige Klänge (z.B. mit liegenden Tonhöhen und gleichbleibender Klangfarbe). Bei hohen Werten ändert sich die Klangfarbe sehr schnell - oder das Signal enthält Klänge mit sehr hohem, chaotischen Geräuschanteil, also z.B. perkussive Klänge ohne wahrnehmbare Tonhöhenkomponente.

 Wählen Sie unter 'Spectral Descriptor Type' die Einstellung 'Spectral Flux'
 Drücken Sie auf OK. 

Ein neues Time Value Layer öffnet sich. Wählen Sie unter Plot Type die Option Discrete Curve, um eine gut erkennbare Linie zu erhalten.

Vergleichen Sie nun die Kurven von Spectral Centroid und Spectral Flux. Wo stimmen Sie überein? Wo zeigen sich größere Unterschiede? (Beachten Sie insbesondere die Passagen ab 0:53 und ab 1:01 mit ihren ganz speziellen Sounds.)

Es gibt verschiedene Versuche, Spektraldarstellungen stärker an die menschliche Hörempfindung anzupassen. Eine Möglichkeit besteht darin, die Frequenzen (vertikale Achse) nicht linear, sondern logarithmisch (Log) einzustellen, da unsere Hörempfindung sich an 2er-Logarithmen orientiert, d.h. die jeweils doppelte Frequenz wird als doppelt so hoch (= Oktavabstand) empfunden, die vierfache Frequenz als dreimal so hoch, die achtfache als viermal so hoch.

Bei Constant-Q-Spektrogrammen bleibt das Verhältnis der zentralen Frequenz und der Frequenzauflösung für alle ermittelten und dargestellten Frequenzbänder konstant. Auf diese Weise kann eingestellt werden, dass z.B. jedes dargestellte Frequenzband einer chromatischen Note entspricht. Dadurch wird die tonale Interpretation eines Spektrogramms stark erleichtert.
Außerdem können auf komfortable Weise die minimale und maximale Tonhöhen des Darstellungsbereich eingestellt werden.

 Starten Sie den Sonic Visualiser.
 Laden Sie die Audio-Datei von Ray Charles "Comeback Baby" (Audio01.mp3).
 Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Constant Q Spectrogram'. 

Im Menufenster lässt sich der dargestellte Tonbereich in MIDI-Tonhöhen einstellen; das mittlere c' = C4 hat den MIDI-Wert 60, c'' = 72 usw.
Unter Bins per Octave lässt sich einstellen, ob die Oktave in 12 gleiche Schritte eingeteilt wird. Bei einem Wert von 48 wird dagegen jeder Halbtonschritt in vier gleiche Schritte unterteilt.
Testen Sie außerdem verschiedene Möglichkeiten der Skalierung (auf der Layer-Karte).

Mit dem Plugins Constant Q Spectrogram (MIDI pitch range) bzw. Constant Q Spectrogram (Hz range) werden zusätzlich zu den Tonhöhen auch die MIDI-Tonhöhen bzw. der Hz-Bereich angezeigt.

Mel Frequency Cepstral Coefficients (MFCC), (dt. Mel-Frequenz-Cepstrum-Koeffizienten) wurden zur automatischen Spracherkennung entwickelt, können aber auch auf die klanglichen Eigenschaften der Musik übertragen werden. Sie werden insbesondere für die Identifikation von Musikstücken eingesetzt.

MFCCs führen zu einer kompakten Darstellung der Spektraleigenschaften eines Audio-Signals, wobei nicht die Tonhöhen, sondern die klanglich-spektralen Eigenschaften ermittelt werden. Bezogen auf Spracherkennung: Ein periodisches Anregungssignal (Stimmlippen) wird durch einen linearen Filter (Vokaltrakt: Mund, Zunge, Nasenhöhlen) klanglich-spektral geformt. Für die Spracherkennung durch MFCCs ist in erster Linie der Filter (also die Form des Vokaltraktes) von Bedeutung und nicht, in welcher Tonlage etwas gesagt oder gesungen wird.

Das „Mel“ im Namen beschreibt die wahrgenommene Tonhöhe (Mel-Skala). Dabei werden letztendlich Koeffizienten für verschiedene Frequenzbänder (pro Analysefenster) gebildet; die Zahl der MFCCs kann eingestellt werden.

 Laden Sie bitte die Datei Audio02.mp3 ("Comeback Baby" von Ray Charles).
 Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Mel Frequency Cepstral Coefficients'

Audio02.mp3

Im Menufenster können sie die Zahl der Koeffizienten einstellen. Üblich sind 20 Koeffizienten, es kann aber auch eine feiner Auflösung eingestellt werden.

Mit den Vamp Plugins lassen sich weitere Messgrößen bestimmen, die mit dem Sound und dem klanglichen Eindruck eines Audio-Signals in Zusammenhang stehen. Hier die wichgsten Messgrößen in alphabetischer Reihenfolge:

  • Harmonic Ratio: Proportionaler Anteil von harmonischen Komponenten in einem Signal.
  • Signal to Noise Ratio (SNR): Verhältnis von Signal zum (Hintergrunds-)Rauschen.
  • Spectral Crest: Verhältnis vom Maximalwert einer Spektralverteilung zum arithmetischen Mittel; Indikator für den Grad der Tonalität eines Signals.
  • Spectral Entropy: Maß der Geordnetheit, Einheitlichkeit und Redundanz eines Signals. Weißes Rauschen besitzt eine geringe Uniformität und daher einen hohen Entropiewert.
  • Spectral Flatness: Weiteres Maß für die Einheitlichkeit (vgl. Spectral Entropy).
  • Spectral Roll-Off-Point: Der Roll-Off-Point ist jene Frequenz, unter der 85% der Energie eines Signals liegen.
  • Spectral Skewness: Maß für die Symmetrie eines Spektrums um den Mittelwert (Median); ein hoher Wert impliziert eine Neigung (skewness) zu hohen Frequenzanteilen, ein niedriger Wert eine Neigung zu tiefen Frequenzanteilen.
  • Spectral Slope: Ein Maß für den Energieabfall im hohen Frequenzbereich; bietet Hinweise auf die Farbe von Rauschen oder die Dominanz (hoher) Teiltöne im Spektrum.
  • Spectral Spread: Maß für den Grad der Streuung eines Spektrums um den spektralen Zentroiden; dient der Unterscheidung zwischen periodischen Signalen und Rauschen.
  • Zero Crossing Rate: Rate der Nulldurchgänge pro Zeit; eine hohe Rate weist auf ein geräuschhaftes Signal bzw. Rauschen hin.

Das Vamp Plugin Aubio Spectral Descriptor bietet viele spektrale Deskriptoren zur Auswahl an. Testen Sie diese an Audio02.mp3 und an ausgewählten eigenen Musikbeispielen.

  • tutorium_sound.txt
  • Zuletzt geändert: 2022/02/22 10:37
  • von martin