Sintetizadores

El sintetizador que dio voz a Stephen Hawking

14/03/2018 por Soyuz | 4 min de lectura

Conseguir que las máquinas hablen es una vieja aspiración humana. Conocemos intentos muy anteriores a la electrónica y la informática: autómatas conocidos como "cabezas descaradas" (brazen heads) ya intentaban imitar las funciones del tracto vocal con curiosos artilugios mecánicos, en plena Edad Media.

Pero fue la invención del vocoder en la primera mitad del siglo XX lo que nos puso en el camino de una síntesis de voz efectiva, analizando sus tonos y resonancias fundamentales. Sobre esa idea, Bell Labs presentó en 1939 Voder —acrónimo de "voice demonstrator"—, el primer intento de sintetizar la voz humana descomponiéndola en sus componentes acústicos. A estos primeros experimentos seguirían otras máquinas, como Pattern Playback o MUSA, pero lo que nos interesa hoy es una pieza de software con la que todos asociamos el sonido metálico y robótico de la síntesis de voz: DECTalk, responsable del habla tan característica de Stephen Hawking desde los años 80.

Hawking, diagnosticado con ELA a los 21 años —una cruel enfermedad que deteriora progresivamente las habilidades motoras—, perdió su capacidad de hablar en 1985 debido a una traqueotomía de urgencia, tras pasar por una fuerte neumonía que casi acaba con él. Sin embargo, consiguió recuperarse y enseguida empezó a buscar formas alternativas de comunicación, empezando por un juego de cartas con palabras que le iban señalando, mientras él arqueaba sus cejas para seleccionarlas.

Pero las cartas eran un método lento y pesado que requería la intervención de otras personas; se imponía una solución informática y autónoma. La necesidad de Hawking era doble: por una parte, necesitaba algún tipo de interfaz para trasladar sus pensamientos al ordenador; por otro lado, necesitaba un sintetizador para convertirlos en voz.

La primera interfaz que utilizó Hawking fue Equalizer, un software de la compañía Words Plus que se ejecutaba en un Apple II. Con movimientos de su pulgar, esperaba a que un cursor en movimiento continuo pasara por encima de las letras que quería escribir, y las iba seleccionando. Este sistema le permitía escribir hasta 15 palabras por minuto, que luego se enviaban a un sintetizador de voz.

El sintetizador era un CallText 5010 de Speech Plus, una empresa californiana fundada en 1988 y ya desaparecida. En realidad se trata de una versión del más antiguo DECTalk, que a su vez es una implementación muy cercana a MITalk, un algoritmo de síntesis desarrollado por Dennis Klatt en el MIT a principios de los 80. Tenía tres voces: una femenina, llamada "Beautiful Betty", otra infantil ("Kit the Kid") y una masculina ("Perfect Paul"). Esta última es la voz de Hawking.

Cuando su pulgar empezó a perder fuerza, Hawking tuvo que pasar a otro sistema de interfaz, basado en el movimiento de su mejilla. Se llamaba EZ Keys, también de Words Plus, pero luego sería reemplazado por un desarrollo específico de Intel para Hawking, ACAT (Assistive Context-Aware Toolkit), que ahora es de código abierto. Funcionaba sobre un hardware montado en su silla de ruedas, cuya configuración más reciente era una tablet Lenovo Yoga 260 con procesador Intel Corei7-6600U y disco duro SSD de 512 GB, moviendo un Windows 10.

Sin embargo y a pesar de las mejoras en el software y hardware de la interfaz, Hawking nunca dejó de usar el CallText. Cabe preguntarse por qué utilizaba una síntesis de voz tan primitiva, cuando existen posibilidades mucho más logradas ya desde hace años. En nuestros modernos ordenadores Mac y PC contamos con sintetizadores de voz de gran realismo, en los que podemos definir incluso detalles como el sexo y acento. La respuesta tiene que ver con los rasgos de la personalidad: cambiar de voz sería como cambiarse de cara. Simplemente, Hawking se identificaba con su viejo Calltext, y pasar a un estilo de voz diferente le haría sentirse un extraño. Aunque puede haber otras razones; alguna vez le preguntaron por qué no utilizaba una voz con acento británico, más propia de un nativo de Oxford como él. Hawking respondió: "con el acento americano, tengo mucho más éxito con las mujeres".

Hay un topic en Facepunch que reúne mucha información sobre el funcionamiento de DECTalk, basado en fonemas y frecuencias. No sólo es capaz de hablar, sino también de cantar; este es el código que habría que pasarle para cantar las primeras cuatro notas de la quinta de Beethoven:

[d<100,17>aa<400> d<100,17>aa<400>] [d<100,17>aa<400> d<120,13>aa<700>]

Al final de ese topic encontraréis varios enlaces con una amplia selección de canciones en código —desde villancicos a clásicos del country—.

Hay diversas posibilidades para experimentar hoy con este tipo de síntesis. Por ejemplo, Plogue tiene un producto llamado Chipspeech, con diversos personajes. Uno de ellos, Dee Klat, deriva del algoritmo Klatt Talk. También hemos encontrado este curioso simulador online.