tutorium_sound

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
Nächste Überarbeitung Beide Seiten der Revision
tutorium_sound [2021/09/08 10:33]
martin [Spectral Centroid]
tutorium_sound [2022/02/18 08:26]
martin
Zeile 11: Zeile 11:
    'Transform' - 'Analysis by maker' - 'Paul Brossier' - 'Aubio Spectral Descriptor'    'Transform' - 'Analysis by maker' - 'Paul Brossier' - 'Aubio Spectral Descriptor'
  
-{{:spectral_centroid.png?150 |}}+{{:spectral_centroid.png?200 |}}<WRAP clear></WRAP> 
 Es öffnet sich ein Fenster, in dem Sie unter verschiedenen Deskriptortypen wählen können. Außerdem können Sie unter //Advanced// die Größe der Analysefenster (//Audio frames per block//) und deren Überlappung (//Windows increment//) einstellen.  Es öffnet sich ein Fenster, in dem Sie unter verschiedenen Deskriptortypen wählen können. Außerdem können Sie unter //Advanced// die Größe der Analysefenster (//Audio frames per block//) und deren Überlappung (//Windows increment//) einstellen. 
  
Zeile 20: Zeile 20:
 (Achtung: Liegt kein Signal vor - also bei Stille innerhalb oder am Schluss einer Aufnahme - steigt der spektrale Schwerpunkt automatisch auf einen relativ hohen Mittelwert an.) (Achtung: Liegt kein Signal vor - also bei Stille innerhalb oder am Schluss einer Aufnahme - steigt der spektrale Schwerpunkt automatisch auf einen relativ hohen Mittelwert an.)
  
-   Was können Sie erkennen? Wie verändert sich der //Spectral Centroid// bei den unterschiedlichen Sounds der Aufnahme?+   Was können Sie erkennen?  
 +   Wie verändert sich der Spectral Centroid bei den unterschiedlichen Sounds der Aufnahme?
  
 ====Spectral Flux==== ====Spectral Flux====
Zeile 35: Zeile 36:
 ====Constant Q-Spectrogram====  ====Constant Q-Spectrogram==== 
  
-Es gibt verschiedene Versuche, Spektraldarstellungen stärker an die menschliche Hörempfindung anzupassen. Eine Möglichkeit besteht darin, die Frequenzen (vertikale Achse) nicht //linear//, sondern logarithmisch (//Log//) einzustellen, da unsere Hörempfindung sich an Verhältnissen von 2er-Logarithmen orientiert, d.h. die jeweils doppelte Frequenz (= Oktavabstand) wird als doppelt so hoch empfunden+Es gibt verschiedene Versuche, Spektraldarstellungen stärker an die menschliche Hörempfindung anzupassen. Eine Möglichkeit besteht darin, die Frequenzen (vertikale Achse) nicht //linear//, sondern logarithmisch (//Log//) einzustellen, da unsere Hörempfindung sich an 2er-Logarithmen orientiert, d.h. die jeweils doppelte Frequenz wird als doppelt so hoch (= Oktavabstand) empfunden, die vierfache Frequenz als dreimal so hoch, die achtfache als viermal so hoch. 
  
 Bei Constant-Q-Spektrogrammen bleibt das Verhältnis der zentralen Frequenz und der Frequenzauflösung für alle ermittelten und dargestellten Frequenzbänder konstant. Auf diese Weise kann eingestellt werden, dass z.B. jedes dargestellte Frequenzband einer chromatischen Note entspricht. Dadurch wird die tonale Interpretation eines Spektrogramms stark erleichtert.  \\  Bei Constant-Q-Spektrogrammen bleibt das Verhältnis der zentralen Frequenz und der Frequenzauflösung für alle ermittelten und dargestellten Frequenzbänder konstant. Auf diese Weise kann eingestellt werden, dass z.B. jedes dargestellte Frequenzband einer chromatischen Note entspricht. Dadurch wird die tonale Interpretation eines Spektrogramms stark erleichtert.  \\ 
Zeile 41: Zeile 42:
  
    Starten Sie den Sonic Visualiser.    Starten Sie den Sonic Visualiser.
-   Laden Sie die Audio-Datei von Ray Charles "Comeback Baby".+   Laden Sie die Audio-Datei von Ray Charles "Comeback Baby" (Audio01.mp3).
    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Constant Q Spectrogram'    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Constant Q Spectrogram'
  
Zeile 54: Zeile 55:
 Mel Frequency Cepstral Coefficients (MFCC), (dt. Mel-Frequenz-Cepstrum-Koeffizienten) wurden zur automatischen Spracherkennung entwickelt, können aber auch auf die klanglichen Eigenschaften der Musik übertragen werden. Sie werden insbesondere für die Identifikation von Musikstücken eingesetzt.  Mel Frequency Cepstral Coefficients (MFCC), (dt. Mel-Frequenz-Cepstrum-Koeffizienten) wurden zur automatischen Spracherkennung entwickelt, können aber auch auf die klanglichen Eigenschaften der Musik übertragen werden. Sie werden insbesondere für die Identifikation von Musikstücken eingesetzt. 
  
-MFCCs führen zu einer kompakten Darstellung der Spektraleigenschaften eines Audio-Signals, wobei nicht die Tonhöhen, sondern die klanglich-spektralen Eigenschaften ermittelt werden. Bezogen auf Spracherkennung: Ein periodisches Anregungssignal (Stimmlippen) wird durch einen linearen Filter (Vokaltrakt: Mund, Zunge, Nasenhöhlen) klanglich-spektral geformt. Für die Spracherkennung durch MFCCs ist in erster Linie der Filter von Bedeutung und nicht, in welcher Tonlage etwas gesagt oder gesungen wird.  +MFCCs führen zu einer kompakten Darstellung der Spektraleigenschaften eines Audio-Signals, wobei nicht die Tonhöhen, sondern die klanglich-spektralen Eigenschaften ermittelt werden. Bezogen auf Spracherkennung: Ein periodisches Anregungssignal (Stimmlippen) wird durch einen linearen Filter (Vokaltrakt: Mund, Zunge, Nasenhöhlen) klanglich-spektral geformt. Für die Spracherkennung durch MFCCs ist in erster Linie der Filter (also die Form des Vokaltraktes) von Bedeutung und nicht, in welcher Tonlage etwas gesagt oder gesungen wird.  
  
 Das "Mel" im Namen beschreibt die wahrgenommene Tonhöhe (//Mel-Skala//). Dabei werden letztendlich Koeffizienten für verschiedene Frequenzbänder (pro Analysefenster) gebildet; die Zahl der MFCCs kann eingestellt werden.\\ Das "Mel" im Namen beschreibt die wahrgenommene Tonhöhe (//Mel-Skala//). Dabei werden letztendlich Koeffizienten für verschiedene Frequenzbänder (pro Analysefenster) gebildet; die Zahl der MFCCs kann eingestellt werden.\\
  
-   Laden Sie bitte die Audio-Datei von Ray Charles "Comeback Baby".+   Laden Sie bitte die Datei Audio02.mp3 ("Comeback Baby" von Ray Charles).
    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Mel Frequency Cepstral Coefficients'    Wählen Sie im Menupunkt 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Mel Frequency Cepstral Coefficients'
 +
 +[[https://analyse.hfm-weimar.de/lib/exe/fetch.php?media=come_back_baby.mp3|Audio02.mp3]]  
  
 Im Menufenster können sie die Zahl der Koeffizienten einstellen. Üblich sind 20 Koeffizienten, es kann aber auch eine feiner Auflösung eingestellt werden.  Im Menufenster können sie die Zahl der Koeffizienten einstellen. Üblich sind 20 Koeffizienten, es kann aber auch eine feiner Auflösung eingestellt werden. 
  
 +====Weitere Messgrößen====
 +
 +Mit den Vamp Plugins lassen sich weitere Messgrößen bestimmen, die mit dem Sound und dem klanglichen Eindruck einer Aufnahme in Zusammenhang stehen. Hier die wichgsten Messgrößen in alphabetischer Reihenfolge: 
 +
 +**Harmonic Ratio**: Proportionaler Anteil von harmonischen Komponenten. 
 +
 +**Signal to Noise Ratio (SNR)**: Verhältnis von Signal zum (Hintergrunds-)Rauschen
 +
 +Spectral Crest
 +
 +Spectral Entropy
 +
 +Spectral Flatness
 +
 +Spectral Curtosis
 +
 +Spectral Roll-Off-Point
 +
 +Spectral Skewness
 +
 +Spectral Slope 
 +
 +Spectral Spread 
 +
 +Zero Crossing Rate
  
  
 ====Vertiefung==== ====Vertiefung====
  
-Das Vamp Plugin //Aubio Spectral Descriptor// bietet weitere spektrale Deskriptoren zur Auswahl an. Testen Sie diese an Audio.mp3 und an ausgewählten eigenen Musikbeispielen.  +Das Vamp Plugin //Aubio Spectral Descriptor// bietet weitere spektrale Deskriptoren zur Auswahl an. Testen Sie diese an //Audio02.mp3// und an ausgewählten eigenen Musikbeispielen.  
  
  • tutorium_sound.txt
  • Zuletzt geändert: 2022/02/22 10:37
  • von martin