Un algoritmo de inteligencia artificial que recrea sonidos de materiales en vídeo
En el laboratorio de ciencia computacional e inteligencia artificial del MIT se han puesto a la tarea de desarrollar un algoritmo bastante peculiar, capaz de predecir propiedades acústicas a partir de imágenes pudiendo así simular efectos sonoros de forma artificial y en muchos casos de forma bastante realista.
Normalmente los montadores de sonido, artistas foley y diseñadores sonoros pasan largas horas no solo cortando y sincronizando material a la imagen, sino también buscando en sus librerías, materiales para grabar y demás, fuentes que sirvan para determinadas situaciones. Aunque su labor probablemente nunca sea reemplazada, igual se sorprenderán al encontrar que, al menos en determinadas cuestiones, este algoritmo del MIT recrea automáticamente determinadas texturas y sonidos, que en sincronía con la imagen, no parecieran generados de forma artificial. El vídeo habla por sí solo:
Hemos de tener en cuenta que el desarrollo se ha enfocado en golpes y rasguños, es decir, en ciertos movimientos específicos y no en todo tipo de sonidos en general, en tanto habrá timbres mucho más complejos que el sistema en cuestión aún no logra generar. Sin embargo es fascinante el realismo que logra el algoritmo, porque no solo sincroniza los sonidos generados sino que los sintetiza para recrear cualidades acústicas según la imagen identificada.
El proceso se realiza mediante una compleja técnica que permite al ordenador recopilar determinados patrones de la imagen y recrearlos en formas de onda. Tras unos 1000 videos grabados de un estimado de 46000 sonidos representados en diferentes objetos, el algoritmo ha podido aprender a reconocer los elementos y deconstruir sus materiales acústicos diversas cualidades, desde el pitch hasta la amplitud. Así se crea una gran base de datos que permite identificar la imagen y la forma de onda y desde allí reproducir el sonido en cuestión, como se muestra muy bien en el vídeo.
Un experimento grandioso que si bien está enfocado no solo en el audio sino en la forma como los sistemas de inteligencia artificial actúan en torno a lo físico/material, podría ser el comienzo de nuevas tecnologías que permitan otros métodos de búsqueda, sincronización y edición a la hora de diseñar sonidos.
No se trataría de reemplazar al diseñador, sino de darle herramientas nuevas, formas más inmediatas y experimentales de encontrar y empalmar sonidos a la imagen. Otra interesante aplicación es la de poder generar sistemas de reacción ante situaciones y materiales concretos, que permitan crear sonidos de dispositivos, herramientas e incluso ciudades, a partir de los patrones de identificación inteligente que pueden llevarse del sonido y la imagen a muchos otros territorios, como menciona Andrew Owenes, estudiante de doctorado incolucrado en la investigación:
"Un robot podría mirar una acera e intuitivamente saber que el cemento es duro y el pasto es suave, y por ende saber qué pasaría si camina en uno de estos [...] Ser capaces de predecir el sonido es un primer paso importante para ser capaces de predecir las consecuencias de interacciones físicas en el mundo."
MIT | Paper publicado (vía Gizmodo)