Microsoft desvela VALL-E, una IA capaz de recrear la voz de cualquier persona a partir de un corte de tres segundos

Alejo I
6 0 96
Noticias » Tecnología
Los avances en IA conversacional y de generación de imágenes están siendo tan espectaculares como continuados. En cuestión de unos pocos meses se han abierto al público varias plataformas capaces de proporcionar resultados virtualmente indistinguibles de los creados por un ser humano de carne y hueso salvo en los más nimios detalles, y tras la sorpresa que ha supuesto ChatGPT, ahora Microsoft ha anunciado VALL-E, una IA capaz de simular la voz de una persona con una muestra de solo tres segundos.

Este "modelo neuronal de códec de lenguaje" destaca por una elevadísima capacidad de síntesis del habla, posible gracias a una biblioteca de audio creada inicialmente por Meta que contiene 60.000 horas de inglés hablado por más de 7.000 interlocutores. Como suele suceder con muchos de estos registros para investigación y desarrollo (desde rostros para reconocimiento fácil a composiciones artísticas para generación de imágenes), gran parte de las muestras de audio proceden del dominio público, y más concretamente de los audiolibros de LibriVox.

Partiendo de esta vasta colección de sonidos humanos, VALL-E puede imitar una voz a partir de un corte de tres segundos y una ground truth a partir de una grabación de esa misma persona diciendo una frase concreta para ejecutar posteriormente una comparación. Con estos datos, la IA puede pronunciar los textos introducidos con sorprendente fidelidad. Según indica ArsTechnica, algunas frases pueden sonar algo enlatadas, pero otras pueden confundirse fácilmente con el habla de una persona real, manteniendo un tono emocional verosímil.

Microsoft tiene grandes expectativas para VALL-E. Algunos de sus posibles usos pasarían por la creación de aplicaciones de texto a voz de alta calidad, algo que podría ser muy útil para personas afectadas de dolencias en las partes del cuerpo que hacen posible el habla a nivel mecánico, así como para aquellas con problemas neurodegenerativos. Sin embargo, también existe un riesgo importante de que se produzca un uso fraudulento de VALL-E, y por este motivo Microsoft no ha querido divulgar el código. Lo que sí ha publicado es un paper que puede ser leído en este enlace.
96 comentarios
  1. Vale
  2. Carlos Latre al paro.
  3. Expectativas:
    Microsoft tiene grandes expectativas para VALL-E


    La realidad:
    (spoiler, visita la página completa para verlo)
  4. Si fuera actor de doblaje estaria ahora mismo bajandome los testiculos a su lugar correspondiente.
  5. La verdad es que esto tiene mucho, mucho peligro. La dinamita del siglo XXI [+risas]
  6. Interesante para hacer perrerías.
  7. Osea que con esto, el día de mañana, puedo presentar una “grabación” de teléfono falsa e incriminar a alguien por ello.

    También podría suplantar a alguien para el robo de datos, haciéndome pasar por esa persona.

    Armas de doble filo todo esto.
  8. Lo que ha avanzado todo esto en los últimos 3 años es una locura, en 5 años estoy seguro de que vamos a flipar mucho, se viene un cambio como lo fue en su dia internet
  9. pues muy bien.

    ya podemos mandar a la mierda toda la biometria basada en voz humana, media industria del doblaje, y otra media docena de cosas mas.

    la IA no da mas que alegrias. :o
  10. Le veo más posibilidad de uso para fines chungos o delictivos que otra cosa. Suplantaciones de identidad a la orden del día…
Ver más comentarios »