A raíz de lo que cuentas, yo destacaría unos cuantos puntos clave:
-Si tienes picos de VST performance poco antes de que se produzca el "cuelgue" de la nota, ahí puedes tener una explicación. Tenemos un equipo casi calcado, salvo que mi procesador es a 3,20 GHzs. Lo normal es que puedas trabajar con varias librerías pesadas y varios plugins exigentes sin producir picos. ¿Sufres picos cuando abres un proyecto nuevo, con una única instancia de PLAY y con un único instrumento cargado? Si es así, quizá tengas el tamaño del buffer de tu tarjeta demasiado bajo (ya has dicho que no es así), o el driver no sea el más óptimo para trabajar con audio.
-Sobre lo último que te comento, desconozco el mundo SoundBlaster, pero tengo entendido que son tarjetas más destinadas a juegos que a cualquier otra cosa. No sé si será un producto profesional, pero... ¿no puedes probar con otra interface que tenga otras E/S MIDI? Con esto matas dos pájaros de un tiro: usas un controlador ASIO mejor para el sistema de audio VST (lo que se traduce en menos problemas de rendimiento VST), y un sistema de E/S MIDI también mejor. Algo tipo RME, Focusrite, Motu,... no hace falta que sea la pera, con mil canales y unos preamps de la leche, con que la interfaz esté diseñada para el trabajo con audio será suficiente.
-Yo creo (es una opinión personal, sin haber usado PLAY) que dejar activada la protección contra sobrecargas (overloads) es importante. No sé qué razones se darán en el tutorial que has visto para quitarla, pero si se producen sobrecargas de procesador vas a tener problemas de uso con cualquier VSTi. Lo normal de estos romplers/samplers es que, ante sobrecargas, se eliminen las voces que sonaron primero para impedir que el problema vaya a más. Un valor de protección que salte al 80% o 90% de carga de CPU creo que puede estar bien, en principio. No le veo el sentido a "trabajar por encima de tus posibilidades", quizá en el tutorial indiquen alguna ventaja que desconozco.
-Voces es el número de samples que levanta el programa al mismo tiempo. No son los eventos simultáneos que el controlador MIDI es capaz de emitir, si no los samples simultáneos que puede manejar PLAY. Tocar tres teclas en tu teclado puede suponer que, dependiendo del instrumento cargado, su tipo de polifonía y la cantidad de posiciones de micro cargadas, tu PLAY emita 3, 10, 20 o 1000 voces. Si tienes el límite en 2048, puede suceder que instrumentos "chupones" comiencen a emitir voces sin límite hasta que, mucho antes de llegar a ese límite de 2048, se sature la CPU y se estrese la RAM (y se produzca lo que los anglos llaman clicks, pops, hang-outs, drops, sustain bugs, etc.). Esto sucede a veces con instrumentos que tienen feedback sobre sí mismos, o que tienen largos eventos con sustain, por eso te preguntaba lo del pedal. Se supone que PLAY debería impedir que esas sobrecargas se produzcan, pero... siendo que ya experimentas ese tipo de problemas, mejor establecer tú el límite de voces e ir probando con la configuración más idónea.
-En resumen, si no te importa hacer pruebas, abre un proyecto a 16 bits, configura el PLAY con un máximo inicial de 128 voces (ves subiendo ese valor a 512, 1024, etc. si experimentas cosas raras, como notas que dejan de sonar), con una protección de sobrecarga de en torno al 80% de CPU, y cuéntanos a ver qué tal te ha ido. Si además puedes cambiar de interface de audio, ya hasta puedes ir a exámen