¿Merece la pena grabar a altas frecuencias de muestreo?
Introducción
[Índice]La disyuntiva sobre si grabar utilizando una frecuencia de muestreo más elevada aporta mejoras en la calidad del audio es una de las cuestiones más recurrentes dentro de nuestro foro a lo largo del tiempo. Trataremos de profundizar en el asunto hasta donde buenamente podamos y os invitamos a que complementéis el presente artículo mediante vuestros comentarios.
Debemos considerar que una frecuencia de muestreo correcta viene determinada por dos variables:
- La resolución que se pretenda alcanzar durante el procesado.
- El rango frecuencial de la señal que se va a analizar, grabar o procesar.
Por ejemplo, en aplicaciones EEG o ECG (electroencefalograma o electrocardiograma) se suelen utilizar frecuencias de muestreo (en adelante, FM) mucho más reducidas, debido a las bajas frecuencias de los impulsos cerebrales y cardiacos, pero en telecomunicaciones podemos llegar a las decenas de MHz. Esto es debido principalmente a la necesidad de cumplir con el teorema de H. Nyquist de 1928 y confirmado por E. Shannon en 1949, que determina que la reconstrucción exacta de una señal continua en banda base a partir de sus muestras, es matemáticamente posible si la señal está limitada en banda y la tasa de muestreo es superior al doble de su ancho de banda.
En nuestro caso, el ancho de banda que ocupan las señales que nos interesan llega hasta el límite de los 20KHz aproximadamente, dado que es el límite consensuado que se atribuye al oído humano. Entonces, ¿para qué vamos a aumentar el ancho de banda de nuestras grabaciones utilizando una FM más alta, si la diferencia solo va a ser apreciada por animales como los perros?
Acabando con la mitología de los perros
[Índice]Uno de los argumentos de quienes se despreocupan sobre las bondades de FMs superiores a la hora de abordar una nueva producción musical es precisamente el hecho de que los seres humanos no percibimos más allá de los 20KHz, de modo que por el anteriormente mencionado teorema de Nyquist, los 44K1Hz de un CD Audio son suficientes. Este razonamiento “demostraría” que no percibiremos diferencia alguna en la calidad sonora al aumentar la FM.
No pretendiendo ir en contra de esta alegación, en el presente artículo buscamos centrarnos en la incidencia que tiene un aumento de la FM en el rango de frecuencias audibles, que va de 20Hz a 20KHz, y no en la importancia que implica conservar información por encima de esa banda. Especialmente si, como veremos a continuación, la FM que se utilice tiene consecuencias en frecuencias tan audibles como 1KHz, 2KHz, 3KHz... y es que incrementar la FM no solo significa obtener una señal con más muestras por segundo sino que también significa forzar a los procesadores de nuestro secuenciador a trabajar con una mayor tasa de muestras por fracción de tiempo.
El procesado de audio
[Índice]Durante ciertos procesos del audio, como pueda ser el control dinámico (mediante compresores, expansores, limitadores, etc) o el procesado tímbrico (aprovechando dosis controladas de distorsión), aparece una distorsión llamada “distorsión de alias” causada por una pobre relación entre la FM y la frecuencia de la señal de audio que se está utilizando, y es precisamente aquí donde debemos buscar las diferencias en la calidad de nuestro audio en función de qué FM hayamos elegido.
Supongamos que deseamos distorsionar una señal de audio, algo habitual con guitarras, órganos, bajos eléctricos... Cuanto más alta sea la nota que estemos dando con nuestro instrumento más cerca quedará ese sonido, frecuencialmente hablando, de la FM, y por consiguiente más distorsión por alias aparecerá. Muchos de vosotros ya habréis notado que, por ejemplo, las simulaciones de amplificadores de guitarra no logran un sonido tan conseguido en agudos como en graves, y que cuanta más distorsión se aplique, más patente queda este problema. Si seguís leyendo el artículo entenderéis el porqué.
Para demostrar lo comentado, vamos a generar una senoide, que es la señal más básica que existe, y vamos a distorsionarla con el plug-in Distortion de Logic Pro X utilizando una frecuencia de muestreo de 44.1KHz con la intención de generar un segundo armónico, esto es, una réplica de esa senoide, pero una octava más arriba. Si la señal generada era 1KHz, ahora al distorsionarla, tenemos una nueva senoide de menor amplitud en 2KHz.
El proceso ha sido un éxito porque la relación entre la frecuencia de la señal y la FM ha permitido que el armónico generado “entrara” en la banda funcional, cosa que seguirá siendo así mientras no sobrepasemos los 11025Hz. En este caso, nos acercamos a esa frontera con una nueva señal de 10KHz.
Es cuando sobrepasamos el límite de los 11025Hz cuando aparece el problema del alias. El armónico generado “rebota” contra el límite de 22050Hz impuesto por el teorema de Nyquist y comienza a acercarse a nuestra senoide original bajando su frecuencia y alejándose de la relación armonizada de 2 a 1, pudiendo incluso llegar a frecuencias inferiores a la señal original.
Durante el procesado de compresión dinámica volvemos a tener un escenario muy parecido; veamos qué ocurre cuando aplicamos el limitador Elephant a una señal de 100Hz y éste genera una estructura armónica más larga y compleja.
Pero este escenario cambia radicalmente cuando subimos de frecuencia. Debido a la estructura alargada de armónicos generada por el limitador, no hace falta que la señal original supere la zona de los medios. Con tan solo 1K5Hz, este es el resultado que tenemos:
Pero en este caso nuestro limitador tiene la capacidad de operar aplicando un sobre-muestreo, esto es, es capaz de interpolar nuevas muestras entre las muestras originales de la señal simulando un sistema que trabaja a una mayor FM; por ejemplo, el doble (88K2Hz). En este modo de funcionamiento el resultado mejora ostensiblemente, dado que ahora hay más armónicos que quedan en el lugar que les corresponde y no “rebotan” contra el máximo de ancho de banda.
El problema es que solamente unos pocos plug-ins poseen la capacidad de trabajar con sobre-muestreo, y en el caso de poder hacerlo, no hay que olvidar que esos nuevos puntos de cálculo debidos a la interpolación no son muestras reales, sino aproximaciones.
Pero, más allá de los procesadores dinámicos y tímbricos mencionados, encontramos otros procesadores que también se ven afectados por la elección de la FM.
El Spreader de Logic Pro, un plug-in de procesado de la imagen estéreo, también mejora al incrementar la FM. Para demostrarlo vamos a elegir una frecuencia alta que no sea múltiplo ni de 44.100 ni de 48.000, dado que los resultados con frecuencias múltiplo de la FM suelen dar mejores resultados que las que no lo son.
Los afinadores de tono también mejoran su respuesta cuanto mayor sea la FM empleada.
Incluso las reverbs se ven afectadas por la FM que estemos utilizando.
Pero la importancia de la FM va más allá. Logic, como otros secuenciadores, dispone de una herramienta llamada Flex Time para la edición temporal (timestretch) que permite la elongación o contracción del audio, y también se ve afectada. Generamos una senoide a 995Hz de 10 segundos y la alargamos hasta los 15 segundos utilizando una FM de 44K1Hz.
A continuación, en otro proyecto ahora a 192KHz de FM, volvemos a generar una senoide a 995Hz que una vez alargada de 10 a 15 segundos da este resultado.
Razones para no utilizar frecuencias de muestreo elevadas
[Índice]Ya hemos visto que el empleo de FMs superiores a 44K1Hz tiene beneficios para la integridad del sonido en la zona audible del espectro, pero existen al menos dos razones que debemos tener en cuenta antes de elevarla en nuestros proyectos.
Sobrecarga del sistema
[Índice]Debemos estar atentos a las capacidades de nuestro sistema y no forzarlo acercándolo a sus límites funcionales comprometiendo su estabilidad.
En nuestro sistema, un Mac Pro 5.1 de 12 núcleos a 3,46GHz de reloj nominal con 32 GBs de memoria RAM y seis discos duros SSD en dos RAIDs, el impacto que tiene el ecualizador con HOFA IQ-EQ con todos los filtros desactivados es el siguiente:
Mayores niveles de ruido pueden significar mayores valores de distorsión
[Índice]Debemos valorar y saber cómo reducir este efecto negativo que puede tener el ampliar el rango de frecuencia funcional con el que vamos a trabajar. Al aumentar la FM estamos elevando al mismo tiempo la frecuencia superior de corte, lo que permite que entre en nuestro sistema parte de la señal que se estaba desechando al trabajar a 44K1Hz, pero también, y aquí viene el punto desfavorable, que junto con esa componente de alta frecuencia de la señal también se incluya ruido no deseado en forma de interferencias electromagnéticas. A primera vista podría parecer que dado que esas senoides indeseadas no son audibles no debiéramos preocuparnos, pero de nuevo debemos estar atentos a qué sucede en el rango audible.
Una de las distorsiones que se presentan en un sistema de audio es la de intermodulación, y aparece cuando ese sistema deja de ser lineal, esto es, de nuevo, con plug-ins de saturación y control dinámico.
En un escenario en el que utilizáramos una FM de orden alto, supongamos 192KHz, el ruido en forma de senoides debido a inducciones electromagnéticas presente en la banda superior a 22.050Hz puede interactuar con el resto de señales y aparecer como una mezcla de distorsión por aliasing e IMD (distorsión por intermodulación) en zonas audibles del espectro.
Para desarrollar esta idea, procedemos a grabar audio “en vacío” a 192KHz con un preamplificador de gama media, un Focusrite Voicemaster Pro, que da buenos resultados en general, pero va a hacer de rata de laboratorio enseñando algunas de sus vergüenzas. Para ello, conectamos un cable XLR de 6 metros a modo de antena a la entrada del pre-amplificador y ajustamos éste con 40dBs de ganancia, conectando su salida a una Motu HD192. Aquí podemos ver el ruido resultante en las condiciones de ensayo descritas:
Un amplificador con una CMRR mayor tendría un mejor comportamiento, pero tampoco quedaría exento de interferencia a alta frecuencia.
Volvamos sobre nuestro modesto pre-amplificador, para ver qué repercusiones va a acarrear el ruido que ha sido incapaz de filtrar durante la grabación. Generamos una senoide en 1KHz y procedemos a limitarlo con un Waves L2 con los tiempos al mínimo. Recordemos que la FM es de 192KHz.
Pero si esta misma señal es limitada junto con el ruido grabado por el Focusrite Voicemaster Pro, las señales presentes en ese audio interactúan con la señal de 1KHz generando nuevas senoides no deseadas al pasar por el sistema no lineal que es el L2. Para poder observar correctamente este efecto, hemos aplicado una ganancia en Logic Pro X al ruido de 48dBs, de modo que como era de esperar, las senoides de 10KHz, 20KHz, 40KHz... presentes en el archivo de ruido ahora se presentan claras, pero en lo que queremos incidir es en las nuevas sonoides que aparecen cercanas a la señal de 1KHz y que no estaban presentes ni en la señal de 1KHz ni en el archivo de ruido grabado por el Voicemaster Pro.
En comparación, realizando el mismo ensayo a 44K1Hz, las señales no deseadas que se presentan son menores.
No debemos alertarnos en exceso ante este problema, pues estos inconvenientes se pueden solucionar aplicando filtros a las señales una vez han sido grabadas, de modo que atenuemos aquella parte de la señal que no nos interesa para evitar que se generen artefactos indeseados. Volvemos a trabajar con una FM de 192KHz, pero ahora aplicamos una reducción a la zona más alta de la señal grabada por el Focusrite Voicemaster Pro con la intención de reducir las senoides generadas en la zona de 1KHz.
Conclusiones
[Índice]Una frecuencia de muestreo más alta representa una mejora frente a la distorsión por alias durante el procesado de audio, favoreciendo un sonido más claro y detallado. Por contra, supone un coste en capacidad de procesado de nuestro ordenador y abre la puerta a distorsiones indeseadas generadas por el aumento del ruido, debido a la utilización de un mayor ancho de banda.
Si disponemos de un ordenador capaz y sabemos filtrar adecuadamente, apostando por frecuencias de muestreo elevadas podemos beneficiarnos de un sonido menos “digitaloide” al reducir las senoides no armonizadas que se generan cuando procesamos a una frecuencia estándar de 44.1 KHz.