tutorium_sound

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
tutorium_sound [2021/06/15 05:30]
martin [Mel Frequency Cepstral Coefficients (MFCC)]
tutorium_sound [2022/02/22 10:37] (aktuell)
martin [Weitere Messgrößen]
Zeile 2: Zeile 2:
  
 Neben der Visualisierung durch Spektrogramme gibt es weitere Möglichkeiten, den Sound einer Aufnahme zu untersuchen. Dabei geht es in der Regel um Eigeneheiten des Gesamt-Sounds einer Aufnahme. In jenen Passagen einer Aufnahme, in denen sich die verschiedenen Stimmen und Instrumente gegenseitig nicht zu sehr überlagern, lassen sich jedoch durchaus auch Klangeigenheiten bestimmter (Instrumental-)stimmen oder einzelner Klangereignisse visualisieren. \\ Neben der Visualisierung durch Spektrogramme gibt es weitere Möglichkeiten, den Sound einer Aufnahme zu untersuchen. Dabei geht es in der Regel um Eigeneheiten des Gesamt-Sounds einer Aufnahme. In jenen Passagen einer Aufnahme, in denen sich die verschiedenen Stimmen und Instrumente gegenseitig nicht zu sehr überlagern, lassen sich jedoch durchaus auch Klangeigenheiten bestimmter (Instrumental-)stimmen oder einzelner Klangereignisse visualisieren. \\
-Es handelt sich dabei um sog. //Low Level Features// - also Kenngrößen, die relativ nah an der akustischen Messung und relativ weit entfernt von der Hörempfindung (z.B. einer bestimmten Klangfarbe) angesiedelt sind. Sie sind daher nicht sehr anschaulich. Es lohnt sich dennoch, verschiedene Abschnitte einer Aufnahme oder verschiedene Aufnahmen hinsichtlich dieser Messgrößen miteinander zu vergleichen. Auf diese Weise kann man ein Gefühl dafür bekommen, auf welche klanglichen Aspekte sie sich beziehen. +Es handelt sich dabei um sog. //Low Level Features// - also Kenngrößen, die relativ nah an der akustischen Messung und relativ weit entfernt von der Hörempfindung (z.B. einer bestimmten Klangfarbenwahrnehmung) angesiedelt sind. Sie sind daher in der Regel nicht sehr anschaulich. Es lohnt sich dennoch, verschiedene Abschnitte einer Aufnahme oder verschiedene Aufnahmen hinsichtlich dieser Messgrößen miteinander zu vergleichen. Auf diese Weise kann man ein Gefühl dafür bekommen, auf welche klanglichen Aspekte sie sich beziehen. 
  
 ====Spectral Centroid==== ====Spectral Centroid====
-Der spektrale Zentroid ist ein Maß für den Mittelpunkt oder Schwerpunkt (engl. centroid) eines Frequenzspektrums. Er bildet eine Dimension der Klangfarbenempfindung. Je höher der spektrale Zentroid liegt, desto heller und strahlender (engl.: bright) ist der entsprechende Klang.  +Der spektrale Zentroid ist ein Maß für den Mittelpunkt oder Schwerpunkt (engl. centroid) eines Frequenzspektrums. Er entspricht einer wichtigen Dimension der Klangfarbenempfindung. Je höher der spektrale Zentroid liegt, desto heller und strahlender (engl.: bright) ist der entsprechende Klang.  
  
    Starten Sie den Sonic Visualiser.    Starten Sie den Sonic Visualiser.
Zeile 11: Zeile 11:
    'Transform' - 'Analysis by maker' - 'Paul Brossier' - 'Aubio Spectral Descriptor'    'Transform' - 'Analysis by maker' - 'Paul Brossier' - 'Aubio Spectral Descriptor'
  
-{{:spectral_centroid.png?150 |}}+{{:spectral_centroid.png?200 |}}<WRAP clear></WRAP> 
 Es öffnet sich ein Fenster, in dem Sie unter verschiedenen Deskriptortypen wählen können. Außerdem können Sie unter //Advanced// die Größe der Analysefenster (//Audio frames per block//) und deren Überlappung (//Windows increment//) einstellen.  Es öffnet sich ein Fenster, in dem Sie unter verschiedenen Deskriptortypen wählen können. Außerdem können Sie unter //Advanced// die Größe der Analysefenster (//Audio frames per block//) und deren Überlappung (//Windows increment//) einstellen. 
  
Zeile 20: Zeile 20:
 (Achtung: Liegt kein Signal vor - also bei Stille innerhalb oder am Schluss einer Aufnahme - steigt der spektrale Schwerpunkt automatisch auf einen relativ hohen Mittelwert an.) (Achtung: Liegt kein Signal vor - also bei Stille innerhalb oder am Schluss einer Aufnahme - steigt der spektrale Schwerpunkt automatisch auf einen relativ hohen Mittelwert an.)
  
-Was können Sie erkennen? Wie verändert sich der //Spectral Centroid// bei den unterschiedlichen Sounds der Aufnahme?+   Was können Sie erkennen?  
 +   Wie verändert sich der Spectral Centroid bei den unterschiedlichen Sounds der Aufnahme?
  
 ====Spectral Flux==== ====Spectral Flux====
Zeile 35: Zeile 36:
 ====Constant Q-Spectrogram====  ====Constant Q-Spectrogram==== 
  
-Es gibt verschiedene Versuche, Spektraldarstellungen stärker an die menschliche Hörempfindung anzupassen. Eine Möglichkeit besteht darin, die Frequenzen (vertikale Achse) nicht //linear//, sondern logarithmisch (//Log//) einzustellen, da unsere Hörempfindung sich an Verhältnissen von 2er-Logarithmen orientiert, d.h. die jeweils doppelte Frequenz (= Oktavabstand) wird als doppelt so hoch empfunden+Es gibt verschiedene Versuche, Spektraldarstellungen stärker an die menschliche Hörempfindung anzupassen. Eine Möglichkeit besteht darin, die Frequenzen (vertikale Achse) nicht //linear//, sondern logarithmisch (//Log//) einzustellen, da unsere Hörempfindung sich an 2er-Logarithmen orientiert, d.h. die jeweils doppelte Frequenz wird als doppelt so hoch (= Oktavabstand) empfunden, die vierfache Frequenz als dreimal so hoch, die achtfache als viermal so hoch. 
  
 Bei Constant-Q-Spektrogrammen bleibt das Verhältnis der zentralen Frequenz und der Frequenzauflösung für alle ermittelten und dargestellten Frequenzbänder konstant. Auf diese Weise kann eingestellt werden, dass z.B. jedes dargestellte Frequenzband einer chromatischen Note entspricht. Dadurch wird die tonale Interpretation eines Spektrogramms stark erleichtert.  \\  Bei Constant-Q-Spektrogrammen bleibt das Verhältnis der zentralen Frequenz und der Frequenzauflösung für alle ermittelten und dargestellten Frequenzbänder konstant. Auf diese Weise kann eingestellt werden, dass z.B. jedes dargestellte Frequenzband einer chromatischen Note entspricht. Dadurch wird die tonale Interpretation eines Spektrogramms stark erleichtert.  \\ 
Zeile 41: Zeile 42:
  
    Starten Sie den Sonic Visualiser.    Starten Sie den Sonic Visualiser.
-   Laden Sie die Audio-Datei von Ray Charles "Comeback Baby".+   Laden Sie die Audio-Datei von Ray Charles "Comeback Baby" (Audio01.mp3).
    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Constant Q Spectrogram'    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Constant Q Spectrogram'
  
Zeile 54: Zeile 55:
 Mel Frequency Cepstral Coefficients (MFCC), (dt. Mel-Frequenz-Cepstrum-Koeffizienten) wurden zur automatischen Spracherkennung entwickelt, können aber auch auf die klanglichen Eigenschaften der Musik übertragen werden. Sie werden insbesondere für die Identifikation von Musikstücken eingesetzt.  Mel Frequency Cepstral Coefficients (MFCC), (dt. Mel-Frequenz-Cepstrum-Koeffizienten) wurden zur automatischen Spracherkennung entwickelt, können aber auch auf die klanglichen Eigenschaften der Musik übertragen werden. Sie werden insbesondere für die Identifikation von Musikstücken eingesetzt. 
  
-MFCCs führen zu einer kompakten Darstellung der Spektraleigenschaften eines Audio-Signals, wobei nicht die Tonhöhen, sondern die klanglich-spektralen Eigenschaften ermittelt werden. Bezogen auf Spracherkennung: Ein periodisches Anregungssignal (Stimmlippen) wird durch einen linearen Filter (Vokaltrakt: Mund, Zunge, Nasenhöhlen) klanglich-spektral geformt. Für die Spracherkennung durch MFCCs ist in erster Linie der Filter von Bedeutung und nicht, in welcher Tonlage etwas gesagt oder gesungen wird.  +MFCCs führen zu einer kompakten Darstellung der Spektraleigenschaften eines Audio-Signals, wobei nicht die Tonhöhen, sondern die klanglich-spektralen Eigenschaften ermittelt werden. Bezogen auf Spracherkennung: Ein periodisches Anregungssignal (Stimmlippen) wird durch einen linearen Filter (Vokaltrakt: Mund, Zunge, Nasenhöhlen) klanglich-spektral geformt. Für die Spracherkennung durch MFCCs ist in erster Linie der Filter (also die Form des Vokaltraktes) von Bedeutung und nicht, in welcher Tonlage etwas gesagt oder gesungen wird.  
  
 Das "Mel" im Namen beschreibt die wahrgenommene Tonhöhe (//Mel-Skala//). Dabei werden letztendlich Koeffizienten für verschiedene Frequenzbänder (pro Analysefenster) gebildet; die Zahl der MFCCs kann eingestellt werden.\\ Das "Mel" im Namen beschreibt die wahrgenommene Tonhöhe (//Mel-Skala//). Dabei werden letztendlich Koeffizienten für verschiedene Frequenzbänder (pro Analysefenster) gebildet; die Zahl der MFCCs kann eingestellt werden.\\
  
-   Laden Sie bitte die Audio-Datei von Ray Charles "Comeback Baby".+   Laden Sie bitte die Datei Audio02.mp3 ("Comeback Baby" von Ray Charles).
    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Mel Frequency Cepstral Coefficients'    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Mel Frequency Cepstral Coefficients'
 +
 +[[https://analyse.hfm-weimar.de/lib/exe/fetch.php?media=come_back_baby.mp3|Audio02.mp3]]  
  
 Im Menufenster können sie die Zahl der Koeffizienten einstellen. Üblich sind 20 Koeffizienten, es kann aber auch eine feiner Auflösung eingestellt werden.  Im Menufenster können sie die Zahl der Koeffizienten einstellen. Üblich sind 20 Koeffizienten, es kann aber auch eine feiner Auflösung eingestellt werden. 
  
 +====Weitere Messgrößen====
 +
 +Mit den Vamp Plugins lassen sich weitere Messgrößen bestimmen, die mit dem Sound und dem klanglichen Eindruck eines Audio-Signals in Zusammenhang stehen. Hier die wichgsten Messgrößen in alphabetischer Reihenfolge: 
 +
 +  * **Harmonic Ratio**: Proportionaler Anteil von harmonischen Komponenten in einem Signal. 
 +  * 
 +  * **Signal to Noise Ratio (SNR)**: Verhältnis von Signal zum (Hintergrunds-)Rauschen.
 +  * 
 +  * **Spectral Crest**: Verhältnis vom Maximalwert einer Spektralverteilung zum arithmetischen Mittel; Indikator für den Grad der Tonalität eines Signals. 
 +  * 
 +  * **Spectral Entropy**: Maß der Geordnetheit, Einheitlichkeit und Redundanz eines Signals. Weißes Rauschen besitzt eine geringe Uniformität und daher einen hohen Entropiewert. 
 +  * 
 +  * **Spectral Flatness**: Weiteres Maß für die Einheitlichkeit (vgl. Spectral Entropy). 
 +  * 
 +  * **Spectral Roll-Off-Point**: Der //Roll-Off-Point// ist jene Frequenz, unter der 85% der Energie eines Signals liegen. 
 +  * 
 +  * **Spectral Skewness**: Maß für die Symmetrie eines Spektrums um den Mittelwert (Median); ein hoher Wert impliziert eine Neigung (//skewness//) zu hohen Frequenzanteilen, ein niedriger Wert eine Neigung zu tiefen Frequenzanteilen. 
 +  * 
 +  * **Spectral Slope**: Ein Maß für den Energieabfall im hohen Frequenzbereich; bietet Hinweise auf die Farbe von Rauschen oder die Dominanz (hoher) Teiltöne im Spektrum.  
 +  * 
 +  * **Spectral Spread**: Maß für den Grad der Streuung eines Spektrums um den [[tutorium_sound#spectral_centroid|spektralen Zentroiden]]; dient der Unterscheidung zwischen periodischen Signalen und Rauschen. 
 +  * 
 +  * **Zero Crossing Rate**: Rate der Nulldurchgänge pro Zeit; eine hohe Rate weist auf ein geräuschhaftes Signal bzw. Rauschen hin.   
  
  
 ====Vertiefung==== ====Vertiefung====
  
-Das Vamp Plugin //Aubio Spectral Descriptor// bietet weitere spektrale Deskriptoren zur Auswahl an. Testen Sie diese an Audio.mp3 und an ausgewählten eigenen Musikbeispielen.  +Das Vamp Plugin //Aubio Spectral Descriptor// bietet viele spektrale Deskriptoren zur Auswahl an. Testen Sie diese an //Audio02.mp3// und an ausgewählten eigenen Musikbeispielen.  
  
  • tutorium_sound.1623735033.txt.gz
  • Zuletzt geändert: 2021/06/15 05:30
  • von martin