Normas de sonoridad: qué son EBU R 128, ITU-R BS.1770 y las unidades LU, LUFS y LKFS
- Qué es la sonoridad
- Porqué surgen las normas de sonoridad (EBU R-128)
- Antes de estas normas: la guerra del volumen
- Las normas, un empuje contra la guerra del volumen
- Contenidos de la norma EBU R-128
- Medición de sonoridad
- Unidades
- Dinámica, rango de sonoridad (LRA, loudness range)
- Valores de pico
- Valores de referencia y escalas
Las tripas profundas de las normas técnicas suelen estar hechas por y para expertos. Pero todos deberíamos entender las bases del funcionamiento de EBU R 128. A eso va destinado este tutorial.
Qué es la sonoridad
[Índice]Hablar de ‘longitud’ y su unidad en metros es hablar de una cuestión física precisa, sin ambigüedades. No sucede esto con la ‘sonoridad’. Hablamos de ‘sonoridad’ para referirnos a la sensación de nivel sonoro que percibimos las personas. Es por tanto una variable no puramente física, sino que desea dar cabida a algunos aspectos perceptuales y que como tales son variables entre personas. Como consecuencia cualquier medida de sonoridad busca aplicar criterios razonables y pragmáticos, en muchos casos tras estudios estadísticos de cómo oye y cómo valora el nivel percibido un amplio grupo de personas. Es normal también que haya muchas propuestas diferentes que han surgido a lo largo del tiempo para definir algún procedimiento que pueda ser admitido como medida de sonoridad.
Sin ir más lejos, el clásico vúmetro es un intento, muy básico, en este sentido y que ha sido útil durante años. Pero a día de hoy contamos con unas normas internacionales mucho más ambiciosas y útiles para valorar la sonoridad. Nos referimos a normas como EBU R 128, que amplía pero es muy semejante a la ITU-R BS.1770. Hay también otras normas muy cercanas y que usan los mismos conceptos (ATSC A/85, OP-59, ARIB TR-B32, AGCOM 219/09/CSP, ASWG-R001 en sus versiones home y portable, ...) que se aplicane en determinados sectores o en zonas del mundo como Japón u Oceanía. Por suerte entre todas ellas son más los parecidos que las diferencias. Así que nos quedamos con la EBU R-128 para representarlas. Es una norma de la European Broadcasting Union y es posiblemente la más interesante y completa de todas (por ejemplo la versión inicial de BS.1770, se modificó para adquirir ideas nacidas en EBU R-128).
Tenéis algunos tutoriales detallados sobre sonoridad en tres tutoriales anteriores sobre nivel audio y sonoridad, medidores rms/vúmetro/picómetro, y curvas isofónicas y de ponderación.
Porqué surgen las normas de sonoridad (EBU R-128)
[Índice]En esencia, el objetivo inicial era evitar los saltos de nivel exagerados al cambiar entre anuncios y programas TV, o entre emisoras de radio, o entre diferentes tipos de música, etc. La norma EBU R-128 estandariza unos mecanismos de medida y unos objetivos comunes de sonoridad, margen dinámico y nivel de pico que deben ser cumplidos por los contenidos audio. Esa estandarización es la clave para esa deseada cómoda convivencia entre tan diferentes contenidos.
Inicialmente pensada para el terreno de la televisión / 'broadcast', se ha extendido a otros sectores relacionados con sonido. Cada vez en uso en más países en cuanto a radiodifusión (UK, Francia, Alemania…), también el audio online está aplicándola. Apple Music / iTunes, YouTube, o Spotify tienen sus propios perfiles de recomendación en cuanto a niveles, basados en estas normas.
Pero no sólo se trata de una imposición, una cuestión de requisitos de obligado cumplimiento. La información amplia que ofrecen los medidores EBU R-128 es muy útil por si misma (mencionábamos algunos usos en este tutorial).
Antes de estas normas: la guerra del volumen
[Índice]Anteriormente a EBU R-128, no había normas claras y universales sobre cuál debía ser la sonoridad de un contenido audio. Como resultado, y buscando las ventajas de sonar ‘fuerte’, muchísima música ha sido mezclada y masterizada para lograr un máximo de sonoridad, aplastando la dinámica con compresiones severas. Tenéis unos ejemplos excelentes por parte del hispasónico Euridia en otro tutorial, o una descripción de un ejemplo clásico (Death Magnetic, un álbum de Metallica) en este enlace.
Lo cierto es que todavía hoy no es extraño encontrar grabaciones con nivel promedio de -6dBFS. Sólo queda en ese caso un recorrido de 6dB como ‘factor de cresta’, y por tanto los picos apenas destacan respecto al nivel medio. Pensemos por comparación que es habitual en los libros y estudios suponer que el factor de cresta en el habla ronda los 12-15dB y en el caso de la música supera los 20dB. La propia holgura, más allá del valor ‘0’ de los vúmetros, en sistemas analógicos profesionales suele situarse en torno a 20-24dB: en esos equipos los picos pueden llegar a estar esos 20-24dB por encima del nivel 0VU sin que haya una distorsión grave. ¿Equipos excelentes para al final dejar la música constreñida en un espacio de sólo 6dB?
Ante esa deriva, ha habido muchas voces clamando por respetar una mayor integridad de la dinámica de la música. Bob Katz propuso -14dBFS como objetivo para música que, por su estilo, no demanda una alta dinámica, y -20dBFS para estilos más ‘naturales’ (clásica, jazz…). Si plantear -14dBFS de dinámica se ha defendido para recuperar la dinámica perdida, queda claro hasta qué punto era habitual una compresión mucho mayor y severísima.
Las normas, un empuje contra la guerra del volumen
[Índice]Cuando hablamos de mediciones EBU R-128 se usa como unidad el LUFS (Loudness Unit Full Scale) que en esencia equivale a los dBFS pero con algunos criterios perceptuales de por medio, tal como veremos enseguida. Pero queremos destacar ya que en lugar de continuar la filosofía de vigilar sólo los picos (no sobrepasar 0dBFS), EBU R-128 propugna un nivel promedio en emisiones de TV de -23LUFS (con +/-0,5 LU como margen de error, +/-1LU en situaciones en vivo) que permite que sobreviva un amplio margen dinámico por encima.
Ante ese requisito, la mezcla se debe preocupar ahora de acerca su valor medio a un nivel, no de acercar su valor ‘pico’ al extremo. Y la filosofía cambia. Tenemos la tranquilidad de que nadie sonorá desproporcionadamente fuerte aunque haya comprimido salvajemente las evoluciones dinámicas. En esencia viene a ser un -24dBFS, es decir, dejar disponible un espacio de nada menos que 24dB por encima del valor promedio de sonoridad en el que puedan alojarse picos ocasionales que son la sal y la pimienta para tener un contenido audio dinámico y no apagado.
Contenidos audio ‘a la antigua’, mezclados con -6dBFS de nivel medio a base de compresión y limitación que introducían fortísima transformación, se someterán ahora a una severa bajada de nivel antes de ser emitidas/escuchadas por televisión, radio o emisiones online y servicios de streaming. A los contenidos cuya sonoridad integrada esté por encima, se les bajará el nivel para resituarlo en esos -23LUFS. La bajada de nivel sería de unos -18dB en el ejemplo de los -6dBFS de nivel medio. Por tanto no tendrá sentido la búsqueda de máxima sonoridad a base de aniquilar la dinámica. Será mucho más impactante a ese nivel promedio una música más viva y contrastada que mantenga el mismo valor medio de -23dB pero que deje asomar picos y valles a su alrededor.
En el ámbito estrictamente musical (más allá del de cine, TV y su variedad de contenidos) los valores de referencia suelen ser algo más elevados. Apple Music / iTunes aplica -16 LUFS, YouTube, Tidal o Spotify -14 LUFS. Pero en todo caso seguimos hablando de niveles ‘reducidos’ en comparación con la obsesión por la máxima sonoridad, y que nos permitirán mezclar y masterizar con un mayor respeto a la dinámica.
Eso no quita que en determinados estilos como música electrónica de baile o rock metal sea esencial al propio carácter el que la dinámica esté muy forzadamente aplastada. Pero esas músicas ya no sonarán atronadoras en comparación con un tema jazz o clásico. Sencillamente se escucharán con una sonoridad parecida, a un mismo nivel medio ambas. Unas con el carácter aplastado que les es propio y las otras con un carácter más natural, abierto y contrastado en dinámica del que no puede prescindir sin devaluarse.
Contenidos de la norma EBU R-128
[Índice]La norma define
- Procedimiento para medir 3 cuestiones: sonoridad, rango dinámico y valor de pico
- Unidades que se aplicarán para diferenciar este tipo de medidas de otras
- Valores de referencia (valores objetivo que deben cumplir los contenidos audio)
Además da recomendaciones prácticas para poder lograr los objetivos durante sesiones de mezcla ya sea en vivo o en postproducción. Todo ello queda descrito en los documentos EBU Tech 3341, 3342, 3343 y 3344.
Medición de sonoridad
[Índice]Tiene en cuenta la sensibilidad del oído humano a diferentes frecuencias. Lo hace aplicando una curva de ponderación. No opta por las clásicas curvas A/B/C derivadas de las curvas isofónicas, sino que define una nueva curva K, muy eficiente en cuanto a cálculo. La curva K combina un sencillo paso alto para reducir el impacto en la medida de las frecuencias muy graves (a las que somos menos sensibles, las oímos menos que otras) y un realce en escalón (‘shelving’) en agudos, para reflejar el que frecuencias ya muy elevadas llegan a ser bastante molestas y notables, muy presentes. También está descrito, por ejemplo, cómo se combinan en sistemas multicanal los canales estéreo, centro, y surround para una medida resumen única total.
Además en EBU R-128 se realizan simultáneamente nada menos que tres tipos de medida de sonoridad, con diferentes plazos de visión (instantánea, a corto y a largo):
- Sonoridad momentánea: bloques de 400ms que se obtienen cada 100ms (solapados) para visualizar en caliente la sonoridad y sus cambios al estilo de los vúmetros y semejantes.
- Sonoridad a corto plazo: en bloques de 3 segundos solapados (nuevo bloque cada segundo). Ofrece un contorno de sonoridad a lo largo del programa que permite conocer su evolución y dónde se producen sus zonas críticas (da pistas sobre dónde actuar en caso de necesitar algún retoque).
- Sonoridad integrada o del programa: sonoridad promedio de un contenido audio completo, desde su inicio hasta su final (por ejemplo una película entera). Resume en un único valor la sonoridad promedio del programa. Partiendo del contorno de la sonoridad a corto plazo calcula una media, básicamente promedia la medida obtenida en los bloques de 3 segundos. Pero utiliza un mecanismo de puerta cuando el valor es bajo en comparación con la media, para no contabilizar periodos largos de silencio que reducirían sin sentido la sonoridad (suelen ser pausas). La puerta hace que no se computen ciertos bloques para la sonoridad integrada: ni cuando el nivel es <-70LUFS (ya extremadamente bajo), ni tampoco cuando el nivel está más de 10LU (para entendernos, unos 10dB) por debajo del valor que se haya obtenido para la propia sonoridad integrada. Así que potencia de forma importante el efecto concentrado hacia los valores máximos. Se ha establecido así porque ha habido consenso en que permite comparar en condiciones más equilibradas la sonoridad de contenidos con muchos silencios y otros de carácter más constante.
Unidades
[Índice]Cuando las mediciones se realizan de acuerdo a norma EBU R-128, los valores aparecen descritos con las unidades LU y LUFS.
Ya hemos mencionado que LUFS (Loudness Unit relative to Full Scale) en esencia equivale a los dBFS. Pero al indicarlo como LUFS estamos señalando que en la medida se ha aplicado la curva K y todos los demás criterios que exige R-128 (como esos plazos concretos de promediado, etc.). Indicar esta unidad sirve el propósito de hacer evidente que se ha aplicado en la medición todo el procedimiento.
Una unidad relacionada con el LUFS es el denominado LKFS (Loudness K-Weighted relative to Full Scale) que es el nombre que se usaba en la norma ITU-R BS.1770, anterior a EBU R-128. Pero se trata de lo mismo, lo llamemos LUFS o LKFS. Eso sí, en cada uno de esos ámbitos normativos el nivel objetivo es (apenas diferente) -24 LKFS o -23 LUFS.
Para mediciones relativas respecto a un valor de referencia se usa como unidad el LU (loudness unit), equivalente al dB, pero de nuevo implicando que se trata de un entorno en el que se aplican los procedimientos R-128. Así por ejemplo, la distancia que separa dos valores absolutos como podrían ser -23 LUFS y -20 LUFS, se daría en LU. Esos dos valores en LUFS distan entre sí 3 LU, o lo que es lo mismo 3dB pero en un entorno R-128.
El LU es también la forma preferida para los medidores estilo ‘vúmetro’ en modo EBU R-128 o ITU-R BS.1770. En ellos el valor 0VU será el que representa el nivel promedio exigido (sean los -23LUFS o los -24 LKFS) y tendremos por encima y por debajo indicaciones en LU para representar otros valores en relación a esa referencia.
Dinámica, rango de sonoridad (LRA, loudness range)
[Índice]EBU R-128 mide también la excursión dinámica de la señal, la distancia entre momentos fuertes y débiles en cuanto a dinámica. Lógicamente, al ser una distancia entre dos valores, se especifica en LU (no en LUFS o LKFS). Vamos con el procedimiento de medida:
En esencia se parte de la sonoridad a corto (bloques de 3 segundos cada segundo) y se obtiene la diferencia entre la parte más fuerte y la más débil no silenciosa. Pero hay de nuevo elementos de tipo puerta para que la medida no se vea desvirtuada por cosas que suceden sólo de forma muy ocasional o que son realmente muy débiles respecto al nivel promedio.
Así, no se computa ningún bloque que esté a -70LUFS, ni tampoco lo que esté más de 20LU por debajo del nivel sonoridad del programa o integrada. Además, de total de los bloques que sobrevivan a la puerta se eliminan el 5% más intensos y el 10% más débiles, para reducir el impacto de bloques que sean muy excepcionales. Queda así definido cual es el rango dinámico que ocupa nuestra señal o programa. Puede parecernos más o menos enrevesado, pero es algo que las máquinas no tienen problema en calcular y que los expertos que definieron esta estrategia han convenido en que es útil para obtener un valor más útil para comparar unos tipos de programas con otros.
Este ejemplo está tomado de los textos de la EBU y ofrece el cálculo del LRA para la película ‘The Matrix’, que resulta en un margen bastante importante de unos 25 LU. La imagen muestra un histograma de los niveles que presentan los bloques de 3 segundos. Pensad en un histograma básicamente como un recuento. Esa curva representa que % del tiempo de la película está ocupado con bloques de determinada sonoridad (en el eje horizontal están los diferentes niveles en LUFS y en el vertical el % de bloques que han presentado ese nivel).
Un margen tan amplio como esos 25 LUFS podría ser aceptable en un cine, teatro o auditorio, pero sería posiblemente excesivo para un salón de un domicilio particular: costaría oír las partes débiles o bien molestaría mucho el sonido en las partes fuertes (haciendo que vuelva a ser necesario usar el mando remoto para controlar los niveles). Tampoco es comparable el margen que necesitamos en una conferencia, ante música barroca, o en un concierto de música del periodo romántico.
Por ello EBU R-128 no obliga a cumplir con un determinado valor de LRA, pero sí recomienda que las medidas de rango dinámico se hagan de esta forma para facilitar comparaciones. Hay algunas emisoras y contextos que sí imponen o recomiendan valores, por ejemplo en ocasiones se habla de LRA máximo de 20LU para los canales surround y 15LU para los canales estéreo. Para eso habrá que estar a las condiciones especificadas en cada cliente o contrato, si las hubiera.
Valores de pico
[Índice]Los valores de sonoridad son siempre valores ‘promedio’. Pero en los sistemas tenemos además que garantizar el que ningún pico exceda de los límites tolerables. Como forma de garantizar la ausencia de 'clipping', se realiza una estimación del 'true peak'.
Tiene en cuenta el que será el verdadero pico tras la conversión digital a analógico, para lo cual se sobremuestrea al menos x4 la señal, ya sea muestreándola a esas velocidades altas o bien calculando muestras intermedias con una determinada calidad mínima de interpolación definida en la norma para cuando se parte de un muestreo más convencional x1 o x2. La medida respecto al 'true peak' se indica con dBTP, exigiéndose que el pico verdadero se sitúe en -1dBFS, para respetar así un pequeño margen de seguridad: el pico verdadero debe estar 1dB por debajo del nivel correspondiente al ‘full scale’ en la representación digital.
Valores de referencia y escalas
[Índice]Como decíamos en TV se establece que el nivel de emisión estará situado en -23LUFS (+/- 0,5LU, o bien para eventos ‘en vivo’ +/- 1LU). Ese nivel de referencia pasa a ser el nivel 0LU, de forma equivalente al anterior 0VU que marcaba el nivel de referencia existiendo aún amplia holgura por encima). En otros ámbitos existen otros valores de referencia. Hablábamos de -14LUFS en Youtube y Spotify, -16LUFS en iTunes, etc.
También debe asegurarse que el valor true peak no sobrepase -1dBFS, para asegurar la ausencia de distorsión.
Para la representación se recomiendan dos posibles escalas que alcanzan hasta +9 y +18 LU, que serían usadas ante programas con escaso o amplio margen dinámico. Los nuevos medidores pueden optar por ofrecer la medida relativa en LU (situando el valor 0LU en la referencia elegida, normalmente -23LUFS) o bien la medida absoluta en LUFS.
Hay que destacar que en determinados ámbitos se exige con la entrega del producto audio la entrega de los perfiles de sonoridad según EBU R-128. Esos perfiles se documentan de forma automática con algunos de los programas de medición, que generan un fichero con toda la información necesaria: Esos ficheros pueden entregarse al cliente como prueba de cumplimiento de los requisitos.
Muchos de los sistemas de medición nos permiten establecer nuestro propio valor de referencia, que situará el 0LU allá donde prefiramos o necesitemos.