Sony demuestra un generador de pistas de bajo a partir de audio
Por si no estaba suficientemente caliente el ambiente con las posibilidades y los miedos que trae consigo la IA, investigadores de Sony muestran en el vídeo que acompañamos un sistema que genera una pista audio de bajo 'escuchando' el tema donde hay que añadirla.
Aunque quizá tienen más popularidad los sistemas de separación en stems y los de transformación de voz para 'cantar como', otro área de intensa actividad investigadora es la de lograr crear intervenciones musicales en el contexto de una pieza preexistente. Es un tipo de tarea para la que se combinan muy diferentes aproximaciones para el análisis y la generación audio/musical. Entre otras las propias del análisis/tratamiento de señal, las del análisis musical (en el sentido más 'gramatical'), o los sistemas de aprendizaje/entrenamiento.
El trabajo que muestra este vídeo, resultado de la labor de investigadores del CSL (Computer Science Lab) de Sony en París, conjuntamente con la Queen Mary University londinense, combina técnicas de análisis de audio grabado para obtener representaciones extremadamente reducidas pero razonablemente 'invertibles' (que permiten 'regenerar' el audio a partir de un conjunto de parámetros de representación muy compacto), técnicas de análisis musical automatizado para extraer características de alto nivel musical, estudio de un corpus enorme de temas (en torno a 20000) para generar un conjunto de reglas entrenado que conozca las características propias de las líneas de bajo, y técnicas de aleatorización controlada para inyectar algo de innovación en esas representaciones, más todo un sistema de resíntesis que permita finalmente conseguir generar una pista audio creíblemente natural para ser mezclada con un tema originalmente carente de tal instrumento.
Encontraréis más información y ejemplos en esta página de Sony. Entre ellos veréis casos en los que se indica al sistema que tome referencia en un tema preexistente para inyectar una línea de bajo del mismo estilo sobre otra canción, escucharéis cómo imita detalles de timbre y fraseo, y también encontraréis ejemplos en los que es el propio sistema el que decide qué tipo de timbre e intención es la que debe seguir la línea de bajo tomando referencia en cómo es el tema que debe acompañar y su conocimiento aprendido a partir de esas 20000 canciones usadas en el aprendizaje.
Incluso si los ejemplos del vídeo son la punta del iceberg y han sido elegidos por ser especialmente favorables, no deja de ser sorprendente y anticipa lo que en unos años puede llegar a ser todavía más llamativo.
El artículo original, preparado para el congreso ICASSP 2024 (todo un clásico desde hace decenios en el que se reúne lo más innovador en la investigación en torno al procesado de señal en relación a acústica, voz, música) lo podéis consultar en este enlace.