¿Vale una imagen más que mil palabras? La excepcionalidad del audio
Una imagen vale más que mil palabras... Siempre me ha sonado mal esa afirmación, aunque muchos la ven bien. Nuestros 20 kHz de ancho de banda parecen una miseria frente a las necesidades de la imagen, vídeo, radiocomunicaciones... Pero no lo son. Hoy defendemos su honorabilidad y peculiaridad con argumentos técnicos. Más allá del aire de litigio del título, se trata de una excusa para reflexionar sobre el alcance y las dificultades asociadas a la señal audio y su enorme extensión a lo largo de 10 octavas, algo nada común.
Que no te avasallen los colegas del vídeo
[Índice]Los recursos que hay que poner en marcha para la parte sonora de una producción audiovisual son a menudo menos costosos que lo que se requiere para el vídeo. Y a veces por ello parecemos ir los del audio con una cierta sensación de inferioridad, propia o inducida. Tildadme de tendencioso, claramente lo soy en este caso, pero el audio tiene complejidades propias que no existen en otros dominios. No hace falta ir a la cuestión de que la imagen sin audio no conmueve lo mismo. Nos basta una argumentación técnica y cuantitativa que aflora la necesidad de considerar el audio como algo aparte de casi cualquier otro tipo de señal.
Sin duda, también cuantitativamente, la cantidad de gigas que demanda la imagen en movimiento (ya sea GB para almacenamiento, Gbps para transmitir, GHz para procesar, etc.) es mucho mayor que lo que exige nuestro aparentemente más modesto audio. Pero una cosa es el tamaño y otra es la complejidad, y los liliputienses no son seres menos complejos que los gigantes. En nuestro caso las dificultades del audio son 'gigantescas' y superan, al menos en algunos aspectos, a las de la imagen.
También las radiocomunicaciones presumen de ir más alto que nadie. Usamos la UHF y no la antigua VHF para televisión, los teléfonos móviles han ido subiendo de frecuencia desde sus cientos de MHz iniciales, hacia los 900 MHz de GSM, o los ya GHz en las generaciones posteriores, las WiFi además de los 2,4 GHz buscan nuevos huecos en 5 GHz y más allá... Pero de nuevo el que vayan más 'veloces' no evita que las peculiaridades de nuestro audio existan y ofrezcan aspectos singulares que no asoman en esos otros casos y que dan una especial dificultad.
La variedad de escala en audio
[Índice]¿Por qué tenemos monitores multivía y multicono? Por la incapacidad de un único cono para representar convenientemente esos apenas 20 kHz. Es casi como lo de las gafas para cerca y para lejos. Las necesidades que tengo que cubrir (generar señal de buena calidad en esos 20 kHz) exigen varios elementos, no pueden resolverse con uno solo.
Y en audio eso pasa tanto si estamos hablando de condiciones, equipos y tratamientos acústicos, como si son ya en la representación electrónica o por medio de sistemas digitales/software. Tiene que ver con el 'tamaño' de las señales audio, y la enorme dispersión de escala que llega a tener. De 20 Hz a 20 kHz, pensando en saltos de octava, hay un recorrido de nada menos que 10 octavas
20 / 40 / 80 / 160 / 320 / 640 / 1280 / 2560 / 5120 / 10240 / 20480
Lo que importa no es la excursión total y esos 'miserables' 20 kHz sino las diferencias que acarrea en la señal el moverse entre unas y otras posiciones dentro de ese recorrido. Pensad en la velocidad de propagación del sonido en el aire (no en el vacío, porque en el vacío no hay sonido), que anda aprox. sobre los 340 m/s, y en cuánto ocupa cada ciclo de nuestra señal en ese aire (la 'longitud de onda'):
- Un segundo después de que hayamos comenzado a generar un tono de 20 Hz ya se ha propagado por un espacio de 340 m, y como hemos producido 20 ciclos de señal, cada ciclo ocupa 340/20 = 17 metros, un tamaño realmente nada desdeñable, que supera al largo de un autobús.
- El La central, a 440 Hz, da lugar a una señal en el aire que ocupa con cada ciclo 340/440, que es poco más de 77 cm., menos que una persona adulta media.
- Las componentes del audio en el entorno de los 4000 Hz no llegan ni siquiera a un decímetro.
- Y los 15000 Hz, sin ir al extremo de los 20 kHz que pocos realmente perciben, hablan de un desarrollo en el aire de poco más de 2 cm.
Pedimos a nuestros sistemas audio todo un reto: que sean capaces de atender esa variedad manteniendo una calidad digna en todo el recorrido. Nuestro oído lo resuelve gracias a la complejidad de la cóclea, que es en la práctica un sistema con un recorrido continuo de secciones 'sintonizadas' a cada una de las diferentes regiones de frecuencia. Las dimensiones variables de la cóclea, con una boca ancha que se va reduciendo en su recorrido hacia el final y los propias células ciliadas que la cubren a modo de 'pelillos', forman una infinidad de elementos cada uno de ellos atento a una determinada gama de frecuencias. Una forma masivamente paralela de captar y analizar el sonido. No podría ser de otra forma.
El 'ridículo' ancho de banda de la imagen y las radiocomunicaciones
[Índice]Frente a eso pensad por un momento en el ancho de banda que implica el espectro visible, o el que ocupan tantísimas formas de radiocomunicación. Y no me refiero a su ancho absoluto, sino a su ancho relativo. No superan la octava.
En el caso de la radiación electromagnética visible, ocupa desde unos 390 a unos 780 millones de millones de Hz. Abismal en cifras absolutas, pero en cuanto a relación de sus extremos, una única octava. No vamos a ser nosotros los que, devolviendo la pelota, digamos que es una 'miserable' octava. Pero está claro que las longitudes de onda mayores son sólo el doble de las más pequeñas. Haciendo una analogía, no necesitamos 'zoom' ni utilizar varias lentes para captar todas esas señales con un mismo detalle.
Aún más claro con las radiocomunicaciones. En prácticamente todos los esquemas de radiocomunicación la frecuencia portadora es enormemente mayor que el ancho de banda de la señal que se transporta. Incluso con esquemas de comunicación que 'expanden' el ancho de la señal inicial (como puedan ser la FM en analógico, o las técnicas 'spread spectrum' en digital tal como sucede en wifi, en TDT y en DAB) siempre el ancho de banda es muchísimo menor que la frecuencia portadora. Por ejemplo en wifi la portadora puede estar en 2,4 GHz pero el ancho de banda por cada canal ocupado es de sólo unas decenas de MHz. En términos musicales, se trata de anchos de banda que ni siquiera rozan el semitono. Hasta un vibrato musical tiene más recorrido.
El carácter 'estrecho' (en cuanto a relación ancho de banda / frecuencia central) de este tipo de señales hace que se hayan podido desarrollar muchas técnicas que son eficaces en estos dominios, pero que, lamentablemente, no son nada sencillas de trasladar al audio. Siempre dicen de sí que son 'banda ancha', pero lo son sólo en términos absolutos, y hay muchas dificultades en el salto relativo enorme entre los extremos de la banda audio.
Las dificultades acústicas
[Índice]Sin irnos a micros de excelencia, sino a los más mortales... ¿Notáis que los de condensador tipo electret, casi siempre pequeños, carecen de una extensión en graves adecuada? ¿Porqué ocupan tanto los conos para graves? Las respuestas a estas preguntas hablan de la necesidad de una cierta relación que han de guardar los elementos acústicos en cuanto a sus dimensiones con las señales que han de tratar.
Todos sabemos que un absorbente de agudos es fácil de obtener, pero uno de graves es mucho más complejo y exige mayor tamaño y masa para ser eficaz. Para tratar cada segmento dentro de las frecuencias audio necesitamos soluciones distintas porque las propias señales y sus condiciones son enormemente diferentes entre sí, no son tan homogéneas como sí sucede en otros tipos de señal.
Nuestros sistemas acústicos necesitan muchas veces ser múltiples, no simples. Como lo que decíamos de los monitores y altavoces multivía.
Pero más que esas dificultades que todos tenemos por consustanciales en el dominio acústico, quiero destacar que también se dan en el tratamiento electrónico/digital.
Las dificultades electrónicas
[Índice]A veces tendemos a pensar que la electrónica y la informática no tienen límites y todo lo pueden. Pero la física existe para todos. Los sistemas de tratamiento de audio tienen que atender ese mismo problema de la dispersión de tamaños de la señal.
Diseñar un oscilador estable para radiocomunicaciones tiene las dificultades propias de generar una señal en tan altísimas frecuencias. Puede requerir materiales y técnicas de fabricación específicos. Diseñar un oscilador para audio tiene la ventaja de que se mueve en un terreno de bajas frecuencias (los 20 primeros kilohercios) y no exige ir a tecnologías avanzadísimas en cuanto a materiales, etc. Pero tiene la complejidad de que además de estables queremos que sea 'sintonizable' en un recorrido de nada menos que 10 octavas... Un reto diferente, pero no menor. Y quien dice diseñar un oscilador dice diseñar un filtro o cualquier otra cosa.
Fijaos que en una señal que se extienda por menos de una octava no existe el concepto de armónicos, que ese esencial a nuestras señales audio. Eso ya por sí sólo supone una clara diferencia.
Pensad en cuando analizamos señal. Mientras que para nosotros un La 220 y un La 440 son dos cosas distintas, en sistemas de banda estrecha que no alcanzan la octava no exite nada más que un 'La'. El violeta es violeta. No hay 'violeta' de la octava central y de la octava 5. No es tontería: cualquier sistema de análisis automático de tono (ya sea para corregirlo en plan Autotune, o para transcribir las notas a partitura) enfrenta momentos duros cuando la señal ofrece dudas entre dos posibles octavas. Pensad en un violín con una altísima concentración sobre el segundo armónico al producir determinada nota: para los sistemas resulta difícil no caer en la tentación de pensar que es la nota 'doble'.
Cualquier intento de tratamiento espectral o granular lo pasa también mucho mejor si las señales están confinadas en un ancho de banda corto. Lo de cubrir varias octavas complica las cosas. Por ejemplo, un 'harmonizer' básico para voz (señal no polifónica) puede basarse en extraer trozos pequeños de la señal (para que así haya una presencia de su forma de onda y por tanto de su timbre) y reproducirlos repetidamente espaciándolos de acuerdo al periodo que necesitemos para generar el nuevo tono deseado. La mejor forma de hacer este tipo de tratamientos es usar técnicas en las que el trozo extraído corresponde a un ciclo de la señal. Pero eso implica saber localizar el tamaño del ciclo, y si la señal puede discurrir por varias octavas acertar con el tamaño adecuado es mucho más complejo.
Con la polifonía los problemas son aún mayores: cada nota son muchas rayas espectrales dentro de la banda audio y tenemos un montón de notas simultáneas... Solapamientos por todas partes y conflictos para resolver adecuadamente quién es quién dentro de ese barullo.
Por poner otro ejemplo, desde otro ámbito, si una señal estrecha se distorsiona, los productos de la distorsión típicamente van a estar fuera de la banda útil (al menos los armónicos principales, no los productos de intermodulación que aparecerán por doquier tanto dentro como fuera de la banda) y se pueden retirar por filtrado. Es otra diferencia importante, porque la distorsión de las señales audio introduce un montón de componentes principales de distorsión en la propia banda audio, solapadas por tanto con las propias componentes armónicas de la señal original, no disjuntas. Hay técnicas para esquivar la distorsión que no podemos aplicar en audio porque están desarrolladas para señales espectralmente confinadas, no desparramadas por 10 octavas.
El tratamiento inteligente, especialmente difícil en audio
[Índice]Podríamos seguir enunciando situaciones que hacen patente las dificultades propias de un recorrido tan amplio como las 10 octavas que cubre el audio, y que muy pocas otras señales habituales llegan a manifestar. Otro campo en el que se incrementan las dificultades es el de los tratamientos 'inteligentes'.
Casi siempre que pretendemos realizar algún tratamiento que reaccione a partir de 'conocer' la propia señal, surge la necesidad de fragmentarla de forma útil. Por ejemplo para conocer el espectro tengo que tomar sucesivas porciones de la señal y obtener para cada una su espectro. Eso permitirá conocer detalles de la señal que puedan ser útiles para su tratamiento. Pero ¿qué tamaño usar, cuando los propios objetos que forman la señal son de escalas tan variadas?
Hay infinidad de teoría y productos comerciales para tratamiento adaptativo, capaz de corregir por sí sólo su comportamiento para optimizar su acción. Pero estos sistemas son mucho más escasos y menos sobresalientes en el caso audio, en buena medida porque la enorme variedad de señales que permiten las 10 octavas hace difícil clasificar lo bueno y lo malo, lo pertinente y lo extraño. P.ej. un compresor y sus ajustes de tiempos de ataque y liberación necesitan adecuarse a cada tipo de señal, no es el audio una señal tan ‘uniforme’ en sus estadísticas como para permitir que exista un ajuste de esos tiempos de validez universal. Es un ejemplo de cómo sigue siendo nuestra inteligencia y sensibilidad como usuarios la que debe definir los ajustes, porque no hay una única definición del objetivo. Por el contrario un ajuste automático de ganancia en un enlace de radiocomunicaciones es algo relativamente trivial o al menos más objetivable.
Remate
[Índice]Como habéis visto, no he pretendido hoy hacer ninguna profundización científica, sino sólo armarnos de autoconfianza para que en esas discusiones pueriles que a veces suceden, sepamos devolver al camino del encuentro entre iguales a quienes se quieran hacer destacar por una cuestión de 'tamaño'. Vale: las señales de imagen, vídeo y radiocomunicaciones son, en términos absolutos, más 'grandes', pero los amigos del audio somos mucho más juguetones y variados al usar nuestro ‘pequeño’ espacio de 20 kHz. Frente a un estiramiento al doble como mucho en la longitud de onda de la luz visible, en audio nuestras ondas pueden variar de tamaño por un factor de 1000 (10 octavas = 2 a la potencia 10 = 1024). Larga vida pues a nuestros 20 kHz, y nosotros con la cabeza bien alta ante cualquiera que no indague más allá del puro bulto.
No se trata de ver quién es más chulo y trabaja con señales más difíciles. Cada una tiene sus escollos. Y no sería justo, ya que hoy nos hemos centrado en esta cuestión del ancho de banda relativo en el que el audio es ganador absoluto, no recordar por ejemplo que en imagen dicen algunos estudios que distinguimos millones de colores mientras que alguien entrenado en audio con suerte detectará algo más de una decena de miles de frecuencias, con lo que la percepción visual sería enormemente más precisa. ¿Será esa otra exageración de los amigos de la imagen? No lo sé, y en todo caso entra en el terreno de la percepción, mientras que el ancho de banda relativo es algo objetivo. Pero no vamos a alargar la batalla que queríamos desterrar, y para la que sólo queríamos dar argumentos de defensa, no desenterrar el hacha de guerra. Eso sí, nadie me quita la sensación de que mi percepción personal distingue mejor las frecuencias que los colores. Seré torpe con mi vista, ¡qué se le va a hacer!.