El problema es que al estar todo mezclado no puedes eliminar la voz por completo, y lo que es más; aparte de lo que quites de voz, te cargarás también otros instrumentos y sonidos presentes en la grabación.
Verás, la voz humana tiene un rango de frecuencias que van aproximadamente de 85Hz a 155Hz para los hombres y de 165Hz a 255Hz para las mujeres (Pavarottí, Montserat Caballé y compañía no cuentan

).
De este modo, si metemos un filtro que sea capaz de eliminar los sonidos de frecuencia entre 85Hz y 255Hz, habremos eliminado casi por completo la voz. Eso no va a ser así porque como la voz no es una señal sinusoidal pura ni de coña, se van a dar armónicos a frecuencias superiores que van a ser audibles, y es que además, al eliminar esas frecuencias que antes mencionaba, los instrumentos (hablando en el caso de un disco de música) que suenen en ese rango, también van a dejar de escucharse (o se van a atenuar muchísimo, por lo de los armónicos que antes os he comentado).
En definitiva, que si no tenéis un master multipista de la grabación, malamente vais a poder hacer una "versión karaoke" del disco.
Espero no haberos aburrido demasiado!