es:basics2 [Computergestützte Musikanalyse]

El módulo Basics Audio está dedicado a las posibilidades de visualización de las grabaciones musicales con ayuda de los espectrogramas. ¿Cómo puedo crear un espectrograma significativo? ¿Qué información puedo extraer de esta visualización sobre el diseño tonal, melódico y rítmico de la grabación? El Tutorial Representaciones espectrales ofrece una introducción práctica utilizando un ejemplo sonoro y el software gratuito Sonic Visualiser. El segundo Tutorial Representación espectral de las grabaciones vocales es la continuación de éste.

Las representaciones espectrales no pueden reconstruir ni explicar las experiencias auditivas individuales. Sin embargo, pueden ilustrar estas experiencias y apoyar así su comunicación lingüística. Es una aproximación a través de las propiedades acústicas del sonido, que se recogen metrológicamente. Este enfoque puede complementar un enfoque culturalmente orientado al análisis y la interpretación de la música, ya que proporciona una rica información sobre el diseño sonoro concreto de la música.

La siguiente introducción proporciona información básica sobre los archivos de audio digital y las representaciones espectrales.

En la digitalización (conversión analógica-digital) de las grabaciones musicales, la excursión de la señal acústica se mide en intervalos de tiempo regulares (períodos de muestreo). El número de muestras (llamadas Samples) por segundo se denomina tasa de muestreo (sampling rate) o frecuencia de muestreo fs. La frecuencia fs/2 (frecuencia de Nyquist) es el límite superior de la gama de frecuencias representables; las frecuencias más altas „se escapan“ de la frecuencia de muestreo.

La frecuencia de muestreo habitual para los archivos de audio es de 44.100 muestras por segundo, es decir, 44.100 valores numéricos por segundo. (La elección de esta frecuencia de muestreo estaba relacionada con la tecnología de las películas; sin embargo, afortunadamente, es mayor que el doble del límite superior de audición humana, de unos 20.000 Hz). Las series temporales de estos valores numéricos son la base del procesamiento de la señal digital de los datos de audio, es decir, de todos los algoritmos que extraen cierta información de los datos de audio (véase el módulo Advanced Audio). En un principio, es irrelevante el formato de audio en el que estén disponibles los datos de audio; los más comunes son el formato wav no comprometido y el formato mp3 comprimido.

Varios editores de audio (por ejemplo, Audacity) y otros programas de audio ofrecen la posibilidad de cargar, visualizar y editar los datos de audio.

La pantalla de forma de onda (véase la ilustración de la izquierda), en la que se muestran los valores de las muestras individuales a lo largo del tiempo, es básica. Si se amplía una forma de onda lo suficiente, las muestras individuales se hacen visibles (véase la ilustración de la derecha). Ambas ilustraciones se han realizado con el programa Sonic Visualiser.

Mediante un complejo método de cálculo, la llamada transformada de Fourier (DFT = transformada discreta de Fourier, STFT = transformada discreta de Fourier en tiempo corto, FFT = transformada rápida de Fourier), se puede calcular la fuerza o energía de los componentes individuales de frecuencia de una señal de audio y mostrarla como un espectro. Un espectro es una instantánea del sonido en relación con una ventana de análisis generalmente muy corta. Por ejemplo, la ventana de análisis de la siguiente ilustración sólo tiene 4096 muestras, es decir, 93 milisegundos de duración (4096 : 44100 Hz = 0,093 s; Hertz es el recíproco de Segundo; porque frecuencia/frecuencia significa el número por segundo).

Según el tamaño de la ventana de análisis, se calcula un espectro de precisión variable, que puede ser útil para los sonidos estacionarios (que no cambian o apenas cambian con el tiempo). Los cambios en el sonido o el espectro de frecuencias a lo largo del tiempo, como es normal en las grabaciones musicales, sólo son visibles en el llamado espectrograma.

En un espectrograma

el curso temporal de un sonido (eje horizontal) con
su distribución de frecuencia (eje vertical) y
la fuerza relativa de las frecuencias individuales (niveles de gris o de color).

se ponen en relación entre sí. En el proceso, se realizan innumerables transformaciones de Fourier para las sucesivas secciones de audio (ventanas de análisis) y se „pegan“ estos espectros. Aquí está el espectrograma de una grabación que utilizamos en el Tutorial: Representaciones espectrales con Sonic Visualiser.

Reglas básicas para la interpretación de los espectrogramas:

Las líneas horizontales paralelas representan sonidos con un tono fijo, con la línea más baja representando la fundamental y las notas más altas representando los distintos armónicos. Cuantos más armónicos y más altos tenga un sonido, más brillante será.
Las líneas verticales corresponden a los sonidos percusivos, como los de la batería, ya que el espectro sonoro de los ruidos o impulsos percusivos suele abarcar una gama de frecuencias muy amplia.
Las nubes grises en el espectrograma representan el ruido, por ejemplo, las sibilantes en el canto o un golpe de platillo que se desvanece.

Al interpretar los espectrogramas, siempre hay que tener en cuenta las peculiaridades de la percepción humana del sonido. Porque no todo lo que se ve en un espectrograma tiene un correlato en la percepción auditiva. Las siguientes reglas de fusión de eventos sonoros y de integración de flujos sonoros en la percepción son importantes:

Los componentes de frecuencia que comienzan (aproximadamente) al mismo tiempo y están en una relación entera entre sí no se perciben como eventos sonoros diferentes, sino que se fusionan en un único evento sonoro (event fusion). Por lo tanto, vemos varias líneas en el espectrograma, pero escuchamos sólo un sonido.
Los eventos sonoros que tienen propiedades sonoras similares (por ejemplo, una estructura de sobretono similar) y que están próximos entre sí en términos de tono y/o secuencia temporal se asignan a una misma fuente sonora y, por tanto, a un flujo sonoro (musicalmente: una voz, un instrumento) (Auditory stream iintegration, la similitud en los principios de la forma y su proximidad).

Cómo puedes crear un espectrograma tú mismo en Sonic Visualiser y qué se puede leer de un espectrograma, lo aprenderás en el Tutorial: Representación espectral con Sonic Visualiser. Por un lado, se trata de encontrar una visualización adecuada para lo que se escucha. Por otro lado, a veces se pueden reconocer detalles en la visualización de un espectrograma que pueden abrir los oídos a cosas nuevas y no percibidas anteriormente.

Si quiere saber más sobre las representaciones espectrales y sus fundamentos acústicos, consulte una de las siguientes introducciones:

En ingles:

Stephen McAdams, Philippe Depalle und Eric Clarke: „Analyzing Musical Sound“, in: Empirical Musicology. Aims, Methods, Prospects, hrsg. von Eric Clarke und Nicholas Cook, Oxford 2004, S. 157-196.

En Aleman:

Donald E. Hall: Musikalische Akustik. Ein Handbuch, Mainz 1997. Meinard Müller: Fundamental Music Processing. Audio, Analysis, Algorithms, Applications, New York 2015. Darin: Chapter 2: Fourier Analysis of Signals, disponible online en FMP Notebooks (con Jupyter-Notebooks para la reprogramacion!)

En la página web de Albert S. Bregman se pueden encontrar interesantes resultados de investigación y ejemplos de audio sobre la percepción auditiva y el llamado Análisis Auditivo de Escenas.

Módulo Básico Audio

Conceptos básicos: digitalización de grabaciones musicales

Forma de onda y espectro

Espectrograma

Profundización

Computergestützte Musikanalyse