Inhaltsverzeichnis

Tutorial Vamp Plugins Parte 1: Sonido y timbre

Además de la visualización a través de los espectrogramas, hay otras formas de examinar el sonido de una grabación. Por lo general suelen referirse a las caracteristicas del sonido global en una grabación, sin embargo, en aquellos pasajes de una grabación en los que las distintas voces e instrumentos no se solapan demasiado, es posible visualizar las características sonoras de determinadas voces (instrumentales) o eventos sonoros individuales.
Se trata de las llamadas características de bajo nivel (Low Level Features ), es decir, características que están relativamente cerca de la medición acústica y relativamente lejos de la percepción auditiva (por ejemplo, una determinada percepción del timbre). Por lo tanto, suelen ser poco descriptivos. No obstante, merece la pena comparar diferentes secciones de una grabación o diferentes grabaciones con respecto a estos medidores. De este modo, se puede tener una idea general respectiva de los aspectos sonoros.

Spectral Centroid

El centroide espectral o Spectral Centroid es una medida que se desarrolla en el centro de un espectro de frecuencias. Corresponde a una dimensión importante de la percepción del timbre. Cuanto más alto sea el centroide espectral, más brillante y radiante será el sonido correspondiente.

 Inicie el visualizador sónico.
 Cargue el Audio01.mp3 e inicie el Vamp plugin a través del comando de menú: 
 'Transform' - 'Analysis by maker' - 'Paul Brossier' - 'Aubio Spectral Descriptor'

Se abrirá una ventana en la que podrá elegir entre diferentes tipos de descriptores. Además, en el módulo Avanzado se puede establecer el tamaño de las ventanas de análisis (Fotogramas de audio por bloque) y su solapamiento (Incremento de ventanas).

 En 'Spectral Descriptor Type', seleccione la opción 'Spectral Centroid'
 Pulse OK. 

Se abre una nueva capa de valor de tiempo o time value layer. En Plot Type seleccione Discrete Curve para obtener una línea bien reconocible.
(Atención: si no hay señal, es decir, si hay silencio dentro o al final de una grabación, el centroide espectral se eleva automáticamente a un valor medio relativamente alto).

 ¿Qué puede ver? 
 ¿Cómo cambia el centroide espectral con los diferentes sonidos de la grabación?

Spectral flux

El flujo espectral o spectral flux es una medida de la intensidad y rapidez con la que cambia el espectro de potencia de una señal en una ventana de analisis a otra. Los valores bajos son sonidos monótonos y regulares (por ejemplo, con tonos planos y un timbre constante). En valores altos, el timbre cambia muy rápidamente, o la señal contiene sonidos con un componente de ruido muy alto y caótico, por ejemplo, sonidos de percusión sin un componente de tono perceptible.

 En 'Spectral Descriptor Type', seleccione la opción 'Spectral Flux'
 Pulse OK. 

Se abre una nueva Time Value Layer. En Plot Type seleccione Discrete Curve para obtener una línea bien discernible.

Compara ahora las curvas de Spectral Centroid y Spectral Flux ¿Dónde coinciden? ¿Dónde hay mayores diferencias? (Preste especial atención a los pasajes a partir de 0:53 y de 1:01 con sus sonidos tan especiales).

Constant Q-Spectrogram

Hay varios intentos de adaptar las representaciones espectrales a la percepción auditiva humana. Una posibilidad es ajustar las frecuencias (eje vertical) logarítmicamente (Log), ya que nuestra percepción auditiva se orienta hacia logaritmos de a 2, es decir, el doble de la frecuencia se percibe como el doble de alta (= distancia de octava), el cuarto de la frecuencia tres veces más alta, el octavo de frecuencia cuatro veces más alta.

Con el Constant Q-Spectrogram, la relación entre la frecuencia central y la resolución de frecuencia, como su nombre lo dice, permanecen constantes para todas las bandas de frecuencia determinadas y visualizadas. De este modo, se puede establecer por ejemplo, que cada banda de frecuencia representada corresponda a una nota cromática. Esto facilita enormemente la interpretación tonal de un espectrograma.
Además, se pueden ajustar cómodamente los pasos mínimos y máximos del rango de visualización.

 Inicie el visualizador sónico.
 Cargue el archivo de audio de Ray Charles "Comeback Baby" (Audio01.mp3).
 En el menú puede dirigirse a: 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Constant Q Spectrogram'. 

En la ventana de menús, el rango de tonos mostrado puede establecerse en tonos MIDI; el c' medio = C4 tiene el valor MIDI 60, c'' = 72, etc.
En Bins per Octave se puede establecer si la octava se divide en 12 pasos iguales. En cambio, con un valor de 48, cada paso de semitono se divide en cuatro pasos iguales.
También puede probar diferentes posibilidades de escala (en el mapa de Layers).

Con los plug-ins Constant Q Spectrogram (MIDI pitch range) o Constant Q Spectrogram (Hz range), se muestran los tonos MIDI o el rango de Hz además de los tonos.

Mel Frequency Cepstral Coefficients (MFCC)

Mel Frequency Cepstral Coefficients (MFCC) se desarrollaron para el reconocimiento automático del habla, pero también pueden aplicarse a las propiedades tonales de la música. Se utilizan en particular para la identificación de piezas musicales.

Los MFCC permiten una representación compacta de las propiedades espectrales de una señal de audio, en la que no se determinan los tonos, sino las propiedades tonales-espectrales. En relación con el reconocimiento del habla: una señal de excitación periódica (pliegues vocales) es moldeada sonoramente por un filtro lineal (tracto vocal: boca, lengua, cavidades nasales). Para el reconocimiento del habla mediante MFCC, lo importante es principalmente el filtro (es decir, la forma del tracto vocal) y no el tono con el que se dice o canta.

El „Mel“ del nombre describe el tono percibido (Mel-Skala). Al final, se forman coeficientes para diferentes bandas de frecuencias (por ventana de análisis); el número de MFCCs puede ser fijado.

 Por favor, cargue el archivo Audio02.mp3 ("Comeback Baby" de Ray Charles).
 Seleccione en el menu 'Transform' - 'Analysis by maker' - 'Queen Mary, University of London' - 'Mel Frequency Cepstral Coefficients'

Audio02.mp3

En la ventana del menú se puede ajustar el número de coeficientes. El número habitual de coeficientes es 20, pero también se puede establecer una resolución más fina.

Otros indicadores

Con los plug-ins Vamp, puede determinar otros parámetros relacionados con el sonido y la sensación tonal de una señal de audio. Aquí están los parámetros más importantes en orden alfabético:

Profundización

El plugin Vamp Aubio Spectral Descriptor ofrece más descriptores espectrales para elegir. Pruébalos en el Audio02.mp3 y en ejemplos musicales seleccionados por usted.