Lo único sencillo de hacer, aunque no va a dar prácticamente ningún resultado, es utilizar un ecualizador e ir disminuyendo progresivamente las frecuencias donde no entre la voz. Pero para aislarla completamente, va a ser imposible no cargarse gran parte de la voz, porque a poco que lleve un par de instrumentos, las frecuencias estarán solapadas.
Incluso es más "fácil" aislar la voz de una canción, que el caso que planteas. Por cierto, para aislar la voz no se utilizaría un ecualizador, sino que se haría por inversión de fase y luego ya sí que habría que retocar con un ecualizador. Pero es muy complicado que quede bien y no es nada trivial.