Sobre como hacerlo, seguro que se nos ocurre algo. Pero más que a nivel de programación, lo suyo sería poder hacerlo "manual", con un botón o algo, automatización y que no sean cortes a lo bruto sino pequeños fades para evitar los chasquidos de cuando cortas a lo bruto.
Así a bote pronto, se me ocurre meter la voz en un sampler y lanzarla con una tecla del teclado, de manera que cuando levantemos la tecla se produzca el silencio pero siga sin pausar la pista.
Cuando pueda lo miro y si consigo algo decente lo comento.

