Si hablamos de audio 5.1 principalmente las voces estaran en el canal central y entonces en los canales frontares y traseros estereo puedes sustituir sin mas el fondo musical , y en el canal central podras hacer lo que has dicho de bajar y subir el volumen.
Con todo lo que ha avanzado el software, me preguntaba si hay ahora alguna forma efectiva y sencilla de hacerlo [..]
Si, la hay: Usar Plugins VST, por ejemplo un compresor de sonido empleando el canal lateral. En las estaciones de radio se usa un compresor para cambiar el volumen del fondo musical: el microfono del locutor esta conectado al canal lateral del compresor y el reproductor del fondo musical va a la entrada principal del compresor, la salida del compresor junto con el microfono van a la mezcladora de audio y cuando el locutor habla acciona el compresor bajando el volumen del fondo de audio, cuando no hay señal en el microfono el compresor permite el paso directo del audio. Asi de manera automativca subes y bajas el volumen del fondo musical para permitir escuchar mejor a quien este hablando.
Un ecualizador parametrico o un ecualizador grafico [este tiene barras para controlar el nivel de sonido en cada frecuencia], buscas el rango de frecuencias en que esta la voz o voces y atenuas [bajas el volumen] de todas las demas frecuencias, con eso se deberia escuchars casi solamente las voces. Luego usas la salida del ecualizador para poner en la entrada lateral del compresor y a la entrada del mezclador de audio, tambien la salida del compresor la metes al mezclador de audio, asi se mezceln y combinen ambas señales y de una señal mas calar de dialogos y con un nivel de fondo muy bajo.
Otra opcion seria, si es solamente un fondo musical, consigue esa misma musica y sincronizala con el video [o mejor dicho con el audio del video], luego invierte [gira 180°] la pista de la musical y mezclala, asi tendras una suma [o deberia decir, una resta] matematica entre ambas pistas y en la pista resultante deberias tener solo la voz
O por ultimo un plugin VST con IA creado precisamente para esa funcion de 'extraer la voz'
Por ejemplo, EXTRACT:DIALOGUE de acondigital, si ya has usado un ecualizador parametrico y dibujar las curvas de ecualizacion, aqui es mas o menos lo mismo, con la curva le indicas a la IA las frecuencias donde estas las voces que quieres extraer, la IA analisa los tonos que corresponden a la voces y va eliminando paulatinamente los demas tonos de la pista y al final tener una clara voz o voces como resultado. O bien, usas alguno de los presets ya creados que trae el plugin y vas ajustando poco a poco
-->>acondigital.com/products/extract-dialogue

Varios editores de audio pueden usar los plugins VST que encuentre en la PC, solo es ir a las opciones del editor y buscar la opcion de UBICAR CARPETA VST, cuando instales elñ plugin solo usa la opcion de instalacion personalizada para que veas y elijas en donde quieres instalar los archivos *.DLL del plugin, y despues decirle al editor sobre esa caropeta. Reinicias el editor y ya poodras usar el plugin VST.