Desconozco si hay algún plug-in que pueda hacer lo que comentas, pero el sentido común me lleva a pensar que no. Piensa que la música, en general, llega a cubrir gran parte del rango de frecuencias audibles por el oido humano, mientras que la voz (principalmente) está presente en en un rango mucho más acotado, por lo que no es lo mismo eliminar la música de la voz, que la voz de la música, aunque sea obteniendo como resultado un sonido distorsionado (cómo el caso del pograma que comentas), causa de haber suprimido el rango de frecuencias de en los que está presente la voz.
Podrías tratar de eacualizar la pista eliminando las frecuencias en las que la voz no esta presente (simplificando un poco su rango va de los 80 hz hasta poco más de los 10 Khz pero la mayor parte de la informacion se encuentra entre los 300 y los 4 khz). De esta manera se minimizaría un poco la música pero seguiría oyendose. Si la música grabada no esta muy alta respecto a los dialogos, y el volumen de la nueva música que quieres incorporar es suficente, puede que llegas a enmascarar algo la música que quieres quitar.
Un saludo.