es:tutorium_sound [Computergestützte Musikanalyse]

Además de la visualización a través de los espectrogramas, hay otras formas de examinar el sonido de una grabación. Por lo general suelen referirse a las caracteristicas del sonido global en una grabación, sin embargo, en aquellos pasajes de una grabación en los que las distintas voces e instrumentos no se solapan demasiado, es posible visualizar las características sonoras de determinadas voces (instrumentales) o eventos sonoros individuales.
Se trata de las llamadas características de bajo nivel (Low Level Features ), es decir, características que están relativamente cerca de la medición acústica y relativamente lejos de la percepción auditiva (por ejemplo, una determinada percepción del timbre). Por lo tanto, suelen ser poco descriptivos. No obstante, merece la pena comparar diferentes secciones de una grabación o diferentes grabaciones con respecto a estos medidores. De este modo, se puede tener una idea general respectiva de los aspectos sonoros.

El centroide espectral o Spectral Centroid es una medida que se desarrolla en el centro de un espectro de frecuencias. Corresponde a una dimensión importante de la percepción del timbre. Cuanto más alto sea el centroide espectral, más brillante y radiante será el sonido correspondiente.

 Inicie el visualizador sónico.
 Cargue el Audio01.mp3 e inicie el Vamp plugin a través del comando de menú: 
 'Transform' - 'Analysis by maker' - 'Paul Brossier' - 'Aubio Spectral Descriptor'

Se abrirá una ventana en la que podrá elegir entre diferentes tipos de descriptores. Además, en el módulo Avanzado se puede establecer el tamaño de las ventanas de análisis (Fotogramas de audio por bloque) y su solapamiento (Incremento de ventanas).

 En 'Spectral Descriptor Type', seleccione la opción 'Spectral Centroid'
 Pulse OK.

Se abre una nueva capa de valor de tiempo o time value layer. En Plot Type seleccione Discrete Curve para obtener una línea bien reconocible.
(Atención: si no hay señal, es decir, si hay silencio dentro o al final de una grabación, el centroide espectral se eleva automáticamente a un valor medio relativamente alto).

 ¿Qué puede ver? 
 ¿Cómo cambia el centroide espectral con los diferentes sonidos de la grabación?

El flujo espectral o spectral flux es una medida de la intensidad y rapidez con la que cambia el espectro de potencia de una señal en una ventana de analisis a otra. Los valores bajos son sonidos monótonos y regulares (por ejemplo, con tonos planos y un timbre constante). En valores altos, el timbre cambia muy rápidamente, o la señal contiene sonidos con un componente de ruido muy alto y caótico, por ejemplo, sonidos de percusión sin un componente de tono perceptible.

 En 'Spectral Descriptor Type', seleccione la opción 'Spectral Flux'
 Pulse OK.

Se abre una nueva Time Value Layer. En Plot Type seleccione Discrete Curve para obtener una línea bien discernible.

Compara ahora las curvas de Spectral Centroid y Spectral Flux ¿Dónde coinciden? ¿Dónde hay mayores diferencias? (Preste especial atención a los pasajes a partir de 0:53 y de 1:01 con sus sonidos tan especiales).

Hay varios intentos de adaptar las representaciones espectrales a la percepción auditiva humana. Una posibilidad es ajustar las frecuencias (eje vertical) logarítmicamente (Log), ya que nuestra percepción auditiva se orienta hacia logaritmos de a 2, es decir, el doble de la frecuencia se percibe como el doble de alta (= distancia de octava), el cuarto de la frecuencia tres veces más alta, el octavo de frecuencia cuatro veces más alta.

Con el Constant Q-Spectrogram, la relación entre la frecuencia central y la resolución de frecuencia, como su nombre lo dice, permanecen constantes para todas las bandas de frecuencia determinadas y visualizadas. De este modo, se puede establecer por ejemplo, que cada banda de frecuencia representada corresponda a una nota cromática. Esto facilita enormemente la interpretación tonal de un espectrograma.
Además, se pueden ajustar cómodamente los pasos mínimos y máximos del rango de visualización.

 Inicie el visualizador sónico.
 Cargue el archivo de audio de Ray Charles "Comeback Baby" (Audio01.mp3).
 En el menú puede dirigirse a: 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Constant Q Spectrogram'.

En la ventana de menús, el rango de tonos mostrado puede establecerse en tonos MIDI; el c' medio = C4 tiene el valor MIDI 60, c'' = 72, etc.
En Bins per Octave se puede establecer si la octava se divide en 12 pasos iguales. En cambio, con un valor de 48, cada paso de semitono se divide en cuatro pasos iguales.
También puede probar diferentes posibilidades de escala (en el mapa de Layers).

Con los plug-ins Constant Q Spectrogram (MIDI pitch range) o Constant Q Spectrogram (Hz range), se muestran los tonos MIDI o el rango de Hz además de los tonos.

Mel Frequency Cepstral Coefficients (MFCC) se desarrollaron para el reconocimiento automático del habla, pero también pueden aplicarse a las propiedades tonales de la música. Se utilizan en particular para la identificación de piezas musicales.

Los MFCC permiten una representación compacta de las propiedades espectrales de una señal de audio, en la que no se determinan los tonos, sino las propiedades tonales-espectrales. En relación con el reconocimiento del habla: una señal de excitación periódica (pliegues vocales) es moldeada sonoramente por un filtro lineal (tracto vocal: boca, lengua, cavidades nasales). Para el reconocimiento del habla mediante MFCC, lo importante es principalmente el filtro (es decir, la forma del tracto vocal) y no el tono con el que se dice o canta.

El „Mel“ del nombre describe el tono percibido (Mel-Skala). Al final, se forman coeficientes para diferentes bandas de frecuencias (por ventana de análisis); el número de MFCCs puede ser fijado.

 Por favor, cargue el archivo Audio02.mp3 ("Comeback Baby" de Ray Charles).
 Seleccione en el menu 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Mel Frequency Cepstral Coefficients'

Audio02.mp3

En la ventana del menú se puede ajustar el número de coeficientes. El número habitual de coeficientes es 20, pero también se puede establecer una resolución más fina.

Con los plug-ins Vamp, puede determinar otros parámetros relacionados con el sonido y la sensación tonal de una señal de audio. Aquí están los parámetros más importantes en orden alfabético:

Harmonic Ratio: Parte proporcional de los componentes armónicos de una señal.

Signal to Noise Ratio (SNR)): Relación entre la señal y el ruido (de fondo).

Spectral Crest: Relación entre el valor máximo de una distribución espectral y la media aritmética; indicador del grado de tonalidad de una señal.

Spectral Entropy: Medida de la uniformidad y redundancia de una señal. El ruido blanco tiene un bajo grado de uniformidad y, por tanto, un alto valor de entropía.

Spectral Flatness: Otra medida de uniformidad (véase la entropía espectral).

Spectral Roll-Off-Point: El punto de desconexión es la frecuencia por debajo de la cual se encuentra el 85% de la energía de una señal.

Spectral Skewness: Medida de la simetría de un espectro en torno a la media (mediana); un valor alto implica una tendencia (skewness) hacia componentes de alta frecuencia, un valor bajo una tendencia hacia componentes de baja frecuencia.

Spectral Slope: Medida de la decadencia de la energía en la gama de altas frecuencias; proporciona pistas sobre el color del ruido o el predominio de los parciales (altos) en el espectro.

Spectral Spread: Medida del grado de dispersión de un espectro alrededor del spectral centroid; se utiliza para distinguir entre señales periódicas y ruido.

Zero Crossing Rate: Tasa de cruces de cero por tiempo; una tasa alta indica una señal ruidosa o ruido.

El plugin Vamp Aubio Spectral Descriptor ofrece más descriptores espectrales para elegir. Pruébalos en el Audio02.mp3 y en ejemplos musicales seleccionados por usted.

Tutorial Vamp Plugins Parte 1: Sonido y timbre

Spectral Centroid

Spectral flux

Constant Q-Spectrogram

Mel Frequency Cepstral Coefficients (MFCC)

Otros indicadores

Profundización

Computergestützte Musikanalyse