Magacín

Google desarrolla un sistema de inteligencia artificial capaz de aislar una voz entre varias

16/04/2018 por Miguel Isaza

Cuando comenzó la grabación no se hablaba propiamente de oídos de las máquinas, sino más bien de transducción, de transferencia de una señal; fin de la historia. Hoy las máquinas tienen 'oídos': están pensadas para algo más que grabar, en tanto siguen órdenes desde lo que oyen. Interpretan los mensajes según le permitan las variables de sus algoritmos y logran así computar voces, información, preguntas, búsquedas, etc. Consecuencia de ello la idea de teléfonos inteligentes con asistentes que "oyen" voces y siguen órdenes, o la hoy amplia variedad de altavoces inteligentes que escuchan lo que se les diga en el espacio.

Uno de los retos en este sentido ha sido la posibilidad de distinguir voces y dotar a los sistemas de inteligencia artificial de una capacidad cada vez más precisa en el reconocimiento de voces individuales o específicas, asunto que llega a un nivel aún más profundo en el nuevo experimento de Google Labs: un sistema de aprendizaje de máquinas que permite seleccionar voces de una persona específica entre varias, al mirar en las caras de quienes hablan.

El truco, claro está, tiene que ver con la asociación de datos –en este caso de imágenes– y no propiamente con un asunto sónico en cuanto tal, dado que el sistema logra identificar el sonido gracias al enlace con lo visual. Ahora bien, la selección de la voz individual se logra mediante una red neural que reconoce los hablantes y permite la selección virtual de las voces.

En los ejemplos que comparten se escucha a varias personas hablar simultáneamente, mientras el algoritmo hace su trabajo de selección y aislamiento por voces. A decir verdad, parece bastante efectivo y probablemente sea una función a implementar en el futuro del procesamiento de audio, no solo en sistemas de chat sino en procesos de informática musical. Habrá que ver hasta donde llevan el impulso los de Google.

Más información: Google Labs

Te puede interesar