Hola! Según tengo yo entendido más que el volumen puedes jugar con la ecualización, realzando diferentes frecuencias que actúan directamente sobre la inteligibilidad de la voz en cuestión. Yo la verdad que tocaría mucho la ecualización antes de subir mucho el volumen.
Aquí hay un artículo que me gusta mucho sobre todo eso, del que si me permites te voy a sacar un extracto con la parte de la voz (que es la que quieres ahora) y al final te dejo el link por si quieres mirártelo entero.
"Por último vamos a analizar el elemento más importante: la
voz. Antes de ponernos a ver como podemos conseguir una buena ecualización en la voz debemos hacer una pequeña reflexión sobre como se distribuye la inteligibilidad de la voz en función de la frecuencia. Se han hecho bastantes estudios por prestigiosos psicoacústicos, lo cuales llegan siempre a la misma conclusión. Uno de esos estudios consistió en hacer escuchar varios textos grabados a una audiencia de tal forma que los oyentes escribieran lo que entendiesen a modo de dictado. Cada texto tenía una ecualización distinta y se llegó a la conclusión de que en una voz existen tres zonas frecuenciales muy bien definidas y de las que la inteligibilidad de la palabra depende en gran medida. Además se observó que las frecuencias que contienen menos densidad de energía son las que menos tienen que ver con dicha inteligibilidad. Las frecuencias bajas de la voz corresponden con el área comprendida entre 125Hz y 250Hz. Aunque este rango sea muy estrecho es muy importante, ya que en este margen de frecuencisa se contienen la información tímbrica fundamental de la voz, es decir, es en este margen donde está la información de quien es el que está halando (o cantando). Luego tenemos la zona donde se concentra casi toda la energía de la voz, y que es propia de las vocales. Esta zona comprende desde 300Hz hasta los 1’5kHz aproximadamente. Por último tenemos la zona entre 1’5kHz y 4kHz, donde se concentran las consonantes, y que, aunque no contenga apenas densidad de energía, es esencial para la inteligibilidad. Esta separación del rango frecuencial de la voz va a ser muy importante a la hora de aprender a ecualizar una voz, ya que aparte de buscar un sonido agradable en la voz debemos mantener la inteligibilidad siempre bien alta. Si tenéis en cuenta esta división no os va a costar nada intuir los efectos que vamos a tener al reforzar o atenuar algunas frecuencias dentro de una voz. Por ejemplo, un refuerzo en la zona más baja de la voz (entre 125Hz y 250Hz va a hacer que la voz suene con más cuerpo, pero no influirá nada en la inteligibilidad. Para trabajar con la definición de la voz podemos trabajar sobre 500Hz y 1’5kHz. Si reforzamos entre 1kHz y 3kHz el sonido que vamos a obtener va a ser muy “nasal” e “incisivo”. Si cogemos el rango comprendido entre 3kHz y 5kHz y lo recortamos podréis observar como perdemos inteligibilidad y la letra deja de entenderse bien. También es muy importante cuidar mucho los armónicos de las consonantes (sobre 5 y 10kHz) ya que podemos tener silibancia o seseo. A veces funciona bien hacer un refuerzo con un filtro de estantería por encima de 10kHz para añadir cierto “aire” a una pista vocal."
Fuente:
https://www.hispasonic.com/tutoriales/mezcla-ecualizando/2560
Un saludo y espero que te sirva de algo.