basics2

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
basics2 [2021/07/06 07:50]
martin
basics2 [2022/04/21 13:46] (aktuell)
martin
Zeile 5: Zeile 5:
   * [[tutorium_singing|Tutorial Spektraldarstellung von Gesangsaufnahmen]]   * [[tutorium_singing|Tutorial Spektraldarstellung von Gesangsaufnahmen]]
          
-Spektraldarstellungen sind zwar nicht in der Lage, individuelle Hörerfahrungen zu rekonstruieren oder zu erklären. Sie können diese Erfahrungen jedoch illustrieren und somit ihre Vermittlung erleichtern. Es handelt sich um einen Zugang über die akustischen Eigenschaften von Klang, die messtechnisch erhoben werden. Dieser Zugang kann einen kulturell orientierten Analyse- und Interpretationszugang zur Musik ergänzen, in dem er reichhaltige Informationen zur konkreten klanglichen Gestaltung von Musik zur Verfügung stellt. +Spektraldarstellungen sind zwar nicht in der Lage, individuelle Hörerfahrungen zu rekonstruieren oder zu erklären. Sie können diese Erfahrungen jedoch illustrieren und somit ihre sprachliche Vermittlung unterstützen. Es handelt sich um einen Zugang über die akustischen Eigenschaften von Klang, die messtechnisch erhoben werden. Dieser Zugang kann einen kulturell orientierten Analyse- und Interpretationszugang zur Musik ergänzen, indem er reichhaltige Informationen zur konkreten klanglichen Gestaltung von Musik zur Verfügung stellt. Außerdem können Spektraldarstellungen als  [[tutorium_transcription|Transkriptionshilfe]] verwendet werden.
  
 In der folgenden Einführung werden einige grundlegende Informationen zu digitalen Audiodateien und Spektraldarstellungen gegeben.  In der folgenden Einführung werden einige grundlegende Informationen zu digitalen Audiodateien und Spektraldarstellungen gegeben. 
  
 ==== Grundlagen: Digitalisierung von Musikaufnahmen ==== ==== Grundlagen: Digitalisierung von Musikaufnahmen ====
-Bei der Digitalisierung (Analog-Digital-Wandlung) wird die Auslenkung eines Signals in regelmäßige Zeitintervallen (Abtastperioden) gemessen. Die Zahl der Abtastungen (sog. **//Samples//**) pro Sekunde wird Abtastrate (//sampling rate//) oder Abtastfrequenz fs genannt. Die Frequenz fs/2 (Nyquist-Frequenz) ist die obere Grenze des darstellbaren Frequenzbereichs; höhere Frequenzen „fallen durchs Raster“ der Abtastfrequenz.+Bei der Digitalisierung (Analog-Digital-Wandlung) von Musikaufnahmen wird die Auslenkung des akustischen Signals in regelmäßige Zeitintervallen (Abtastperioden) gemessen. Die Zahl der Abtastungen (sog. **Samples**) pro Sekunde wird Abtastrate (//sampling rate//) oder Abtastfrequenz fs genannt. Die Frequenz fs/2 (Nyquist-Frequenz) ist die obere Grenze des darstellbaren Frequenzbereichs; höhere Frequenzen „fallen durchs Raster“ der Abtastfrequenz.
  
-Die gängige Abtastfrequenz für Audiodateien beträgt 44.100 Samples pro Sekunde - als 44.100 Zahlenwerte in der Sekunde. (Die Wahl dieser Frequenz hing mit der Filmtechnik zusammen; glücklicherweise ist sie jedoch größer als das Doppelte der oberen menschlichen Hörgrenze von ca. 20 kHz). Die Zeitreihen dieser Zahlenwerte sind die Grundlage der //Digitalen Signalverarbeitung// von Audiodaten, also aller Algorithmen, die aus den Audiodaten bestimmte Informationen herausrechnen (vgl. hierzu das [[advanced2|Modul Advanced Audio]]). Dabei ist zunächst unerheblich, in welchem Audioformat die Audiodaten vorliegen; am gebräuchslichsten ist das unkompromierte wav-Format und das komprimierte mp3-Format. +Die gängige Abtastfrequenz für Audiodateien beträgt 44.100 Samples pro Sekunde - als 44.100 Zahlenwerte in der Sekunde. (Die Wahl dieser Abtastfrequenz hing mit der Filmtechnik zusammen; glücklicherweise ist sie jedoch größer als das Doppelte der oberen menschlichen Hörgrenze von ca. 20.000 Hz). Die Zeitreihen dieser Zahlenwerte sind die Grundlage der //Digitalen Signalverarbeitung// von Audiodaten, also aller Algorithmen, die aus den Audiodaten bestimmte Informationen herausrechnen (vgl. hierzu das [[advanced2|Modul Advanced Audio]]). Dabei ist zunächst unerheblich, in welchem Audioformat die Audiodaten vorliegen; am gebräuchslichsten sind das unkompromierte wav-Format und das komprimierte mp3-Format. 
  
-Verschieden Audioeditoren (z.B. [[https://www.audacityteam.org/|Audacity]]) und Audio-Software bieten Möglichkeiten, die Audiodaten zu laden, zu visualisieren und zu bearbeiten. +Verschieden Audioeditoren (z.B. [[https://www.audacityteam.org/|Audacity]]) und weitere Audio-Software bieten Möglichkeiten, die Audiodaten zu laden, zu visualisieren und zu bearbeiten. 
  
 ==== Wellenform und Spektrum ==== ==== Wellenform und Spektrum ====
  
-Grundlegend ist dabei die **Wellenformdarstellung** (s. Abbildung links), die den Wert der einzelnen Samples im Zeitverlauf darstellt. Wenn Sie sich in eine Wellenform weit genug hineinzoomen, werden die einzelnen Samples sichtbar (s. Abbildung rechts). Beide Abbildungen wurden mit der //Software Sonic Visualiser// angefertigt. +Grundlegend ist dabei die **Wellenformdarstellung** (s. Abbildung links), in der die Werte der einzelnen Samples im Zeitverlauf dargestellt werden. Wenn Sie sich in eine Wellenform weit genug hineinzoomen, werden die einzelnen Samples sichtbar (s. Abbildung rechts). Beide Abbildungen wurden mit der //Software Sonic Visualiser// angefertigt. 
  
-{{:audio01_screenshot01.png?340|}} {{ :samples.png?400|}}+{{:audio01_screenshot01.png?340|}} {{ :samples.png?350|}}
  
-Durch ein komplexes Rechenverfahren, die sog. Fourier-Transformation (DFT = discrete Fourier transform, STFT = discrete short-time Fourier transform, FFT = fast Fourier transform) können die einzelnen Frequenzanteile eines Audiosignals berechnet und als **Spektrum** dargestellt werden. Ein Spektrum ist eine Momentaufnahme des Klanges bezogen auf ein zumeist sehr kurzes Analysefenster. So ist das Analysefenster in der folgenden Abbildungen nur 4096 Samples lang, also umgerechnet 93 Millisekunden lang (4096 : 44100 //Hz// = 0,093 //s//; //Hertz// ist der Kehrwert von //Sekunde//; denn Frequenz/Häufigkeit meint die Anzahl pro Sekunde). +Durch ein komplexes Rechenverfahren, die sog. Fourier-Transformation (DFT = discrete Fourier transform, STFT = discrete short-time Fourier transform, FFT = fast Fourier transform) kann die Stärke oder Energie der einzelnen Frequenzanteile eines Audiosignals berechnet und als **Spektrum** dargestellt werden. Ein Spektrum ist eine Momentaufnahme des Klanges bezogen auf ein zumeist sehr kurzes Analysefenster. So ist das Analysefenster in der folgenden Abbildungen nur 4096 Samples, also umgerechnet 93 Millisekunden lang (4096 : 44100 //Hz// = 0,093 //s//; //Hertz// ist der Kehrwert von //Sekunde//; denn Frequenz/Häufigkeit meint die Anzahl pro Sekunde). 
  
 {{ :audio01_screenshot04.png?400 |[Beispiel aus Sonic Visualiser]}} {{ :audio01_screenshot04.png?400 |[Beispiel aus Sonic Visualiser]}}
  
-Je nach Größe des Analysefensters wird unterschiedlich genaues Spektrum errechnet, was bei stationären Klängen (die sich über die Zeit nicht oder kaum verändern) sinnvoll sein kann. Veränderungen des Klanges bzw. Frequenzspektrums in der Zeit, wie sie ja bei Musikaufnahmen normal sind, werden dagegen nur in einem sog. **Spektrogramm** sichtbar. +Je nach Größe des Analysefensters wird ein unterschiedlich genaues Spektrum errechnet, was bei stationären Klängen (die sich über die Zeit nicht oder kaum verändern) sinnvoll sein kann. Veränderungen des Klanges bzw. Frequenzspektrums in der Zeit, wie sie ja bei Musikaufnahmen normal sind, werden dagegen nur in einem sog. **Spektrogramm** sichtbar. 
  
 ==== Spektrogramm ==== ==== Spektrogramm ====
-Bei einem Spektrogramm werden unzählige Fouriertransformationen für aufeinander folgende Audio-Ausschnitte (Analysefenster) durchgeführt und diese Spektren "aneinandergeklebt". In einer Spektraldarstellung (Spektrogramm) wird +In einem Spektrogramm wird 
    * der zeitliche Verlauf eines Klanges (horizontale Achse) mit     * der zeitliche Verlauf eines Klanges (horizontale Achse) mit 
    * dessen Frequenzverteilung (vertikale Achse) sowie     * dessen Frequenzverteilung (vertikale Achse) sowie 
    * der relativen Stärke der einzelnen Frequenzen (Grau- oder Farbstufen)     * der relativen Stärke der einzelnen Frequenzen (Grau- oder Farbstufen) 
-in Verbindung gesetzt. Hier das Beispiel eine Spektrogramms, das wir im [[tutorium_spektral|Tutorial: Spektraldarstellung mit dem Sonic Visualiser]] verwenden werden.+in Verbindung gesetzt. Dabei werden unzählige Fouriertransformationen für aufeinander folgende Audio-Ausschnitte (Analysefenster) durchgeführt und diese Spektren "aneinandergeklebt". Hier das Spektrogramms einer Aufnahmedie wir im [[tutorium_spektral|Tutorial: Spektraldarstellung mit dem Sonic Visualiser]] verwenden.
  
 {{ :audio01_screenshot03.png?350 |}} {{ :audio01_screenshot03.png?350 |}}
Zeile 39: Zeile 39:
 Grundregeln für die **Interpretation von Spektrogrammen**:  Grundregeln für die **Interpretation von Spektrogrammen**: 
   - Parallele horizontale Linien repräsentieren Klänge mit fester Tonhöhe, wobei die tiefste Linie für den Grundton, die höheren Töne für die verschiedenen Obertöne stehen. Je mehr und je höhere Obertöne ein Klang besitzt, umso heller klingt er.    - Parallele horizontale Linien repräsentieren Klänge mit fester Tonhöhe, wobei die tiefste Linie für den Grundton, die höheren Töne für die verschiedenen Obertöne stehen. Je mehr und je höhere Obertöne ein Klang besitzt, umso heller klingt er. 
-  - Vertikale Linien stehen für geräuschartige, perkussive Klänge, z.B. Schlagzeug-Sounds, da sich das Klangspektrum von Geräuschen bzw. geräuschartigen Impulsen über den gesamten Frequenzbereich erstreckt. +  - Vertikale Linien stehen für geräuschartige, perkussive Klänge, z.B. Schlagzeug-Sounds, da sich das Klangspektrum von Geräuschen bzw. geräuschartigen Impulsen in der Regel über einen sehr breiten Frequenzbereich erstreckt. 
   - Graue Wolken im Spektrogramm stehen für Rauschen, z.B. Zischlaute im Gesang oder einem ausklingenden Beckenschlag.    - Graue Wolken im Spektrogramm stehen für Rauschen, z.B. Zischlaute im Gesang oder einem ausklingenden Beckenschlag. 
  
-Bei der Interpretation von Spektrogrammen müssen immer auch die Eigenheiten der menschlichen **Klangwahrnehmung** berücksichtigt werden. Denn nicht alles, was man auf einem Spektrogramm sieht, hat ein Korrelat in der auditiven Wahrnehmung. Wichtig sind die folgenden regeln der Fusion von Klangereignissen und der Integration von Klangsströmen: +Bei der Interpretation von Spektrogrammen müssen immer auch die Eigenheiten der menschlichen **Klangwahrnehmung** berücksichtigt werden. Denn nicht alles, was man auf einem Spektrogramm sieht, hat ein Korrelat in der auditiven Wahrnehmung. Wichtig sind dabei die folgenden Regeln der Fusion von Klangereignissen und der Integration von Klangsströmen in der Wahrnehmung
   * Frequenzkomponenten, die (annähernd) zum selben Zeitpunkt beginnen und in einem ganzzahligen Verhältnis zueinander stehen, werden nicht als unterschiedliche Klangereignisse wahrgenommen, sondern zu einem einzigen Klangereignis verschmolzen (//event fusion//). Wir sehen also im Spektrogramm //mehrere// Linien, hören aber nur //einen// Klang.    * Frequenzkomponenten, die (annähernd) zum selben Zeitpunkt beginnen und in einem ganzzahligen Verhältnis zueinander stehen, werden nicht als unterschiedliche Klangereignisse wahrgenommen, sondern zu einem einzigen Klangereignis verschmolzen (//event fusion//). Wir sehen also im Spektrogramm //mehrere// Linien, hören aber nur //einen// Klang. 
   * Klangereignisse, die ähnliche Klangeigenschaften haben (z.B. eine ähnliche Obertonstruktur) und in Bezug auf die Tonhöhe und/oder die zeitliche Folge nahe beeinander liegen, werden ein und derselben Klangquelle und damit einem Klangstrom (musikalisch: einer Stimme, einem Instrument) zugeordnet (//auditory stream integration//, Gestaltprinzipien der Ähnlichkeit und Nähe).   * Klangereignisse, die ähnliche Klangeigenschaften haben (z.B. eine ähnliche Obertonstruktur) und in Bezug auf die Tonhöhe und/oder die zeitliche Folge nahe beeinander liegen, werden ein und derselben Klangquelle und damit einem Klangstrom (musikalisch: einer Stimme, einem Instrument) zugeordnet (//auditory stream integration//, Gestaltprinzipien der Ähnlichkeit und Nähe).
  
-Wie Sie selbst ein Spektrogramm im //Sonic Visualiser// anfertigen können und was alles aus einem Spektrogramm herausgelesen werden kann, erfahren Sie im [[tutorium_spektral|Tutorial: Spektraldarstellung mit dem Sonic Visualiser]]. Dabei geht es einerseits darum, eine angemessene Visualisierung zu finden für das, was Sie hören. Andererseits können Sie mitunter in der Visualisierung eines Spektrogramms Details erkennen, die Ihnen die Ohren für Neues und bislang nicht Wahrgenommenes zu eröffnen vermögen. +Wie Sie selbst ein Spektrogramm im //Sonic Visualiser// anfertigen können und was alles aus einem Spektrogramm herausgelesen werden kann, erfahren Sie im [[tutorium_spektral|Tutorial: Spektraldarstellung mit dem Sonic Visualiser]]. Dabei geht es einerseits darum, eine angemessene Visualisierung zu finden für das, was Sie hören. Andererseits können Sie mitunter in der Visualisierung eines Spektrogramms aber auch Details erkennen, die Ihnen die Ohren für Neues und bislang nicht Wahrgenommenes zu eröffnen vermögen. 
  
 ==== Vertiefungen ==== ==== Vertiefungen ====
Zeile 55: Zeile 55:
 Donald E. Hall: //Musikalische Akustik. Ein Handbuch//, Mainz 1997. Donald E. Hall: //Musikalische Akustik. Ein Handbuch//, Mainz 1997.
  
-Meinard Müller: //Fundamental Music Processing. Audio, Analysis, Algorithms, Applications//, New York 2015.\\ Darin: [[https://www.audiolabs-erlangen.de/resources/MIR/FMP/C2/C2.html|Chapter 2: Fourier Analysis of Signals]], online verfügbar in den //[[https://www.audiolabs-erlangen.de/FMP|FMP Notebooks]]// (mit Jupyter-Notebooks zum Nachprogrammieren!)+Meinard Müller: //Fundamental Music Processing. Audio, Analysis, Algorithms, Applications//, New York 2015. Darin: [[https://www.audiolabs-erlangen.de/resources/MIR/FMP/C2/C2.html|Chapter 2: Fourier Analysis of Signals]], online verfügbar in den //[[https://www.audiolabs-erlangen.de/FMP|FMP Notebooks]]// (mit Jupyter-Notebooks zum Nachprogrammieren!) 
 + 
 +Interessante Forschungsergebnisse und Hörbeispiel zur auditiven Wahrnehmung und der sog. Auditory Scene Analysis finden sich auf der Website von [[https://webpages.mcgill.ca/staff/Group2/abregm1/web/|Albert S. Bregman]].
  
  
    
  
  • basics2.1625557819.txt.gz
  • Zuletzt geändert: 2021/07/06 07:50
  • von martin