Speech2Face, un algoritmo que recrea rasgos faciales de una persona a partir de su voz

31/05/2019 por Miguel Isaza

Comparativa entre caras originales y reconstrucciones del algoritmo a partir de la voz de las personas en cuestión

Un grupo de investigadores ha desarrollado un impresionante sistema que busca recrear elementos de la cara de una persona a partir de grabaciones de audio, recolectar varios rasgos característicos a partir de un análisis particular del audio de una masiva cantidad de material.

Sí, asusta un poco, hay que reconocerlo. Pero es maravilloso al mismo tiempo. Aunque como con todo este tipo de noticias, las condiciones son bastante controladas y subyacentes a un contexto determinado, por ende el títular no debe tomarse muy a la largo. No deja de impresionar, eso sí: se trata de una red neural entrenada para buscar entre millones de videos de Internet en los que hay gente hablando.

Lo que aprende el algoritmo es a relacionar diversos elementos del audio con características físicas de la voz. Según explican, el método toma únicamente formas de onda como entrada, con la finalidad no de recrear una imagen precisa de una persona o imagen, sino más bien bajo la misiva de recolectar características físicas de una persona que puedan estar relacionadas con su habla.

En un paper liberado por el grupo de investigación en un el simposio de Computer Vision y Pattern Recognition de la Wojciech Matusik IEEE Conference. Está disponible para descargarse en gihub, donde se dan detalles más técnicos del proceso, que sin dudas podría ser un avance de suma importancia para procesos investigativos, pero que podría resultar también en curiosas ideas musicales o alocados experimentos. ¿¡Te imaginas ver la cara de los sonidos que construyes en un sintetizador!?

Más información en la página del proyecto en github

Hay 6 comentarios | ¡Únete a la conversación!