Audiovisual

¿Cómo ubicamos los sonidos en el espacio? Binauralidad y Teoría Dúplex

11/11/2017 por mariocrespo | Actualizado el 13/11/2017 | 12 min de lectura

En este artículo...

Introducción
Funcionamiento del oído
Localización

Esta guía nace de mi trabajo de fin de estudios, reescrito en un formato más breve y ligero para compartirlo con los hispasónicos.

Introducción

[Índice]

La mayoría de personas habituales de Hispasonic trabajamos o disfrutamos haciendo uso de nuestra capacidad auditiva, pero, ¿realmente sabemos cómo funciona? Y en particular, ¿sabemos cómo se forma la sensación de locacalización espacial? Conocerlo será útil para sacar mejor provecho de los sistemas y plugins que permiten localizar o incluso mover la posición de un objeto sonoro en el espacio virtual de nuestras mezclas y producciones.

Es cierto que vivimos en un mundo en el que el grueso de la información sensitiva nos llega a través del canal visual. Pero el órgano auditivo complementa a la vista añadiendo la información necesaria para mantener el equilibrio (sistema vestibular), la presión y la capacidad de localización espacio-temporal de fuentes sonoras.

Será este tema el que se desarrollará en profundidad a lo largo del presente escrito. Por lo tanto, voy a tratar de explicar cómo somos capaces de escuchar en tres dimensiones, teniendo en cuenta para ello los diferentes factores influyentes en la localización de fuentes sonoras.

Funcionamiento del oído

[Índice]

Antes de poder inmiscuirnos en la cuestión de cómo somos capaces de escuchar en tres dimensiones, debemos hacer un repaso de cómo el ser humano es capaz de percibir estímulos auditivos. Nuestros 'sensores' auditivos están formados por tres partes fundamentales. El oído externo, que recoge los frentes de ondas presentes en el aire y los dirige hacia el oído medio encargado de actuar como un transductor acústico-mecánico para propagar en óptimas condiciones la energía hacia el oído interno, que actúa como un transductor mecánico-eléctrico capaz de codificar la señal en impulsos eléctricos para hacer llegar la información al cerebro a través de los nervios.

Oído

Oído Externo

[Índice]

El oído externo está compuesto por dos elementos principales: el pabellón auricular (también llamado pinna) y el conducto auditivo. El pabellón auricular recoge los frentes de onda de una manera muy eficiente gracias a sus pliegues y a su forma helicoidal. Es un elemento clave a la hora de poder localizar una fuente sonora en el espacio, como tendremos ocasión de ver a lo largo de la serie.

Desde el pabellón auricular, el sonido es dirigido al canal auditivo externo. Este conducto, de 25 a 30 mm de longitud y 7 mm de diámetro tiene una resonancia en torno a los 3 KHz mejorando así la inteligibilidad de algunas frecuencias importantes del habla humana.

Oído Medio

[Índice]

Después de pasar por el canal auditivo, el sonido incide contra el tímpano, que separa el oído externo del oído medio. El tímpano es una membrana que vibra gracias a las ondas sonoras, esas vibraciones se transmiten a una cadena formada por tres huesecillos (también llamados osículos auditivos): martillo, yunque y estribo. Estos huesecillos actúan como un compresor de audio, contrayéndose y amortiguando las vibraciones excesivamente grandes para protegernos así de fuertes impactos sonoros. La vibración de la cadena de huesecillos es transmitida hasta la ventana oval, puerta del oído interno.

Además de la cadena de huesecillos, en el oído medio se encuentra la trompa de Eustaquio que permite mantener un equilibrio de presión a ambos lados del tímpano.

Oído Interno

[Índice]

El oído interno está compuesto por la ventana oval y la cóclea (o caracol, atendiendo a la forma que presenta externamente), formada ésta por una serie de membranas entre las que destaca la basilar. A su vez, esta membrana basilar está constituida por el órgano de Corti.

La presión ejercida por el engranaje de los tres huesecillos sobre la ventana oval se transmite hasta el interior de la cóclea, iniciando así el movimiento del líquido linfático que la llena. Este movimiento transmite las vibraciones a la membrana basilar activando el órgano de Corti, verdadero transductor mecánico-eléctrico del oído interno.

Este órgano está compuesto de unas 25000 células pilosas, formando una especie de 'alfombra' sobre la membrana basilar. Esos 25000 'pelos' son excitados gracias a la vibración del líquido linfático. La membrana basilar es más ligera y rígida cerca de la ventana oval y más pesada y elástica según nos alejamos de esta. Esta estructura permite que la frecuencia de resonancia dentro del órgano de Corti sea variable, siendo mayor próxima a la ventana oval y menor cuanto más nos alejamos. Gracias a esta propiedad las células pilosas que están más cerca de la cóclea responderán a las frecuencias más agudas y las más alejadas a las frecuencias más graves, permitiendo un análisis o descomposición de tipo espectral.

Al ser estimuladas, cada una de las células pilosas genera impulsos eléctricos que se conducen por el nervio auditivo, llegando así al cerebro donde se interpretarán gracias al sistema auditivo central. En función de la intensidad de la señal en cada gama de frecuencias, más o menos células pilosas se activan y desactivan en sincronía con los ciclos de la señal, y esas activaciones que individualmente son sí/no (y por tanto binarias, sí) forman un agregado capaz de codificar el nivel (muchos/pocos pelos activados) y la frecuencia (velocidad con la que se activan/desactivan) de las componentes de los sonidos detectadas en las distintas regiones del órgano de Corti. Todo un mecanismo complejo y preciso, capaz de realizar la magia de la audición sobre el extenso recorrido de 10 octavas que forma la parte audible por los humanos dentro de los estímulos sonoros.

Tras esta breve explicación ya conocemos el funcionamiento del sistema auditivo, pero aún seguimos sin saber cómo somos capaces de percibir las fuentes sonoras en 3 dimensiones. Vamos a tratar de aclarar esta cuestión en los siguientes puntos.

Localización

[Índice]

Antes de comenzar con la localización es importante conocer un par de términos como son la audición monoaural y binaural. La audición monoaural se refiere al uso de un solo oído mientras que la binaural se define como la capacidad de un sujeto de percibir estímulos sonoros por ambos oídos. Estos dos tipos de audición son fundamentales para distinguir la localización o procedencia de un sonido, como también lo son otros procesos cognitivos.

Ahora estamos preparados para entender los mecanismos que nos permiten posicionar las fuentes sonoras. Nos centraremos hoy en algunos mecanismos principales para la localización, que completaremos con otros posteriormente.

Las diferencias interaurales

[Índice]

Vamos a empezar describiendo un pilar básico del tema a tratar: las diferencias interaurales. Estas diferencias funcionan como mecanismos de localización binaurales, puesto que se comparan las señales llegadas a los dos oídos para reconstruir la localización del emisor. Es necesario saber que estas diferencias sólo permiten la localización de fuentes sonoras en el plano azimutal o plano horizontal, en otras palabras; este mecanismo no nos permite distinguir la elevación de las fuentes.

La Teoría Dúplex fue la primera en sugerir que las principales causas de la localización del sonido son las diferencias interaurales de tiempo (Interaural Time Differences o ITD) y las diferencias interaurales de nivel (Interaural Level Differences o ILD, también llamadas IID).

Diferencia de tiempo interaural (ITD)

La ITD mide la diferencia de tiempo de llegada de un sonido ante nuestros dos oídos. Esta diferencia de tiempo, es usada por nuestro cerebro para calcular la procedencia de la fuente emisora.

ITD

Esta parte de la Teoría Dúplex se basa en las diferencias de fase creadas por la llegada de un mismo sonido a dos receptores distintos en dos momentos diferentes. Las ITD varían desde 0 segundos para fuentes sonoras con un azimut de 0° hasta cerca de 0.69 milisegundos para fuentes sonoras con un ángulo de 90°.

Sin embargo, esta idea empieza a ser un problema cuando las longitudes de onda (λ) empiezan a ser más pequeñas que el diámetro de la cabeza. Si son más grandes, los dos oídos están recibiendo señal dentro del mismo ciclo. Sin embargo si son más pequeñas cada uno de los dos oídos estará oyendo en esas frecuencias fragmentos asociados a ciclos diferentes introduciendo incertidumbre en la interpretación de la medida. Esta distancia es de unos 22,9 centímetros en los humanos, por lo que a λ = 0,229 metros estaría el límite, cuya frecuencia podemos calcular gracias a la relación:

λ=v/f

Donde v (344 ms) es la velocidad del sonido en el aire a 21 ºC.

Obteniendo como frecuencia (f) 1500 Hz.

ITD 'dentro' del ciclo, y 'fuera' del ciclo

Estos problemas ya se encuentran incluso antes, cuando la longitud de onda es el doble del diámetro de la cabeza (correspondiente a unos 800 Hz), pero la localización sólo con ese indicador de ITD se torna realmente difícil a partir de los mencionados 1500 Hz.

La base de este problema es debida a que el cerebro no tiene manera de saber qué frente de ondas ha llegado primero al oído. Estos frentes de ondas pueden incluso llegar a los dos oídos con un mismo valor de fase, como se puede observar en la ilustración de arriba, por lo que la única manera fiable de distinguir diferencias en ese caso es a través de los valores de amplitud, y es por ello que nuestro oído atiende a ese otro indicador para frecuencias más altas.

Diferencias interaurales de nivel (ILD)

Para poder localizar sonidos por encima de estos 1500 Hz, usamos las diferencias interaurales de nivel (ILD). Su funcionamiento se basa en la comparación de energía que llega a los diferentes oídos. La diferencia no es sólo por la caída de nivel debida al mayor recorrido, sino principalmente por el factor denominado head shadow effect (efecto sombra).

Efecto sombra

El efecto sombra es tanto más pronunciado cuanto mayor sea la frecuencia, y desde luego importante a partir de los 1500 Hz mencionados. Para ondas de gran longitud, el obstáculo que ofrece la cabeza es irrelevante, casi diríamos que transparente. Para las ondas de longitud comparable o inferior a la propia cabeza, el efecto es ya significativo e irrenunciable. Su funcionamiento se explica acudiendo a dos leyes fundamentales de la acústica:

-La ley de Masa Acústica indica que, a mayor masa de una barrera acústica, mayor reducción ofrece a la transmisión del sonido. Esta reducción será de aproximadamente 6 dB por octava para el obstáculo 'cabeza'.

-La difracción del sonido es la capacidad de un sonido para rodear un obstáculo, donde se cumple la propiedad de a menor frecuencia, mayor difracción y viceversa. De esta explicación se desprende que a altas frecuencias el sonido no podrá sortear el obstáculo, produciendo reflexiones, refracciones y absorciones. En la ilustración superior derecha podemos observar que, a altas frecuencias, la cabeza genera un efecto sombra atenuando la energía que llega al oído más alejado de la fuente.

Este efecto está estrechamente relacionado con el azimut (posición en el plano horizontal), siendo un factor muy importante en la atenuación con respecto a la frecuencia, como podemos apreciar en la siguiente gráfica.

Azimut-frecuencia

Podemos concluir entonces que, a partir de 1500 Hz las ILD se vuelven fundamentales para la localización del sonido. Sin embargo, para menores frecuencias no son realmente útiles, y sobre todo se hará uso de las ITD.

Efecto de precedencia

[Índice]

El efecto de precedencia también conocido como efecto Haas o ley del primer frente de ondas, es un efecto binaural psicoacústico con gran peso a la hora de la localización espacial. Cuando un sonido es seguido por otro (un eco o rebote, por ejemplo) si están separados por un intervalo de tiempo suficientemente corto, se percibirá el primer sonido como fuente, desechando completamente el segundo. Es una manifestación 'espacial' de los fenómenos de enmascaramiento que aparecen también en otros aspectos de la audición. El segundo sonido queda 'absorbido' como si viniera fundido al primero, sin capacidad de discernir que se trataba de dos.

El tiempo necesario para percibir el efecto variará dependiendo de la envolvente del sonido, teniendo su máxima expresión entre 0,6 y 10 milisegundos. Para sonidos con altos transitorios el efecto desaparece entre 15 y 20 milisegundos, pudiéndose identificar las dos fuentes a partir de un retraso superior. Para sonidos con transitorios menos pronunciados el retraso necesario puede llegar a ser de entre 50 o 70 milisegundos.

Supongamos que disponemos de una señal sonora idéntica reproducida por dos monitores configurados en estéreo. Iremos retrasando esta señal en uno de los dos monitores y analizaremos sus efectos. Nosotros nos situaremos en el sweet spot:

-Para retardos nulos (0 milisegundos), se generará una imagen fantasma (phantom image) centrada, y nuestro cerebro situará la fuente a mitad entre los monitores.

-Para retardos de hasta 0,6 milisegundos, oiremos una sola fuente, que se desplazará a lo largo del eje de los monitores, como indica la ITD.

-A partir de 0,7 milisegundos y hasta 10 milisegundos se seguirá escuchando una sola fuente, esta vez situada en el monitor con la señal no retrasada, pero cada vez más difusa y espaciada. La segunda señal da una sensación de 'espacio', de escucha en un entorno no anecoico, pero sin llegar a afectar a la posición percibida de la fuente.

- A partir de 10 milisegundos y hasta 35 milisegundos es posible que la fuente pueda volver hacia el centro, como si la segunda copia 'tirara' de la sensación de posición hacia ella.

-A partir de 40 milisegundos el oyente podrá empezar a distinguir las dos fuentes de manera independiente.

En la siguiente ilustración se muestra la alteración de la percepción de una fuente sonora a través del retraso en milisegundos.

Efecto de precedencia (Haas)

Es necesario tener en cuenta que, como ya se ha dicho, todos estos valores de tiempo dependen de la envolvente del sonido (su caracter claramente impulsivo o no).

Cono de confusión

[Índice]

Aunque bien es cierto que las ITD e ILD nos permiten diferenciar con suma precisión la localización de un objeto en el plano azimutal (aún no hemos hablado de la sensación de elevación), poseen ciertas limitaciones.

En la ilustración que aparece a continuación se puede observar que las fuentes (A y B) y (C y D) tienen las mismas ITD e ILD, ya que llegan al mismo tiempo y con la misma intensidad, haciendo imposible al receptor la localización precisa de dichas fuentes. Esto es denominado cono de confusión, debido a su forma cónica.

Cono de confusión

Si has llegado hasta aquí te preguntarás: ¿cómo somos capaces de solucionar los problemas derivados del cono de confusión?, ¿somos capaces de localizar la altura/elevación de las fuentes de los sonidos? Pues bien, en la próxima entrega conoceremos las respuestas a estas preguntas.

Binauralidad