OpenAI presenta Voice Engine, un modelo de IA para clonar la voz

Después de la generación de texto, imágenes y videos con modelos de IA, OpenAI presenta Voice Engine, un modelo para crear voces sintéticas a partir de una muestra de 15 segundos. Debido a los riesgos éticos y al posible mal uso de la clonación de la voz, Voice Engine no está disponible públicamente y por ahora la compañía solo lo ha puesto en manos de equipos de confianza para realizar una prueba a pequeña escala. Se trata del mismo enfoque que OpenAI adoptó con Sora, su modelo de IA de texto a vídeo revelado hace apenas unas semanas.

OpenAI explica que Voice Engine lleva en desarrollo desde 2022, momento a partir del cual se empezó a usar para potenciar las voces disponibles en la API de texto a voz así como ChatGPT Voice, una herramienta para interactuar con el chatbot con la voz, y Read Aloud, una función que lee en voz alta. Para generar una voz con un “sonido natural” que se “parece mucho” a la fuente original, Voice Engine necesita 15 segundos de voz grabada. Cuando tiene el material, el modelo de IA puede emplear esa voz para pronunciar cualquier texto.

Las primeras aplicaciones de Voice Engine incluyen usarlo para ofrecer asistencia en la lectura y la combinación con GPT-4 para crear respuestas personalizadas en tiempo real; traducción de contenido con la opción de conservar el acento nativo de la voz original; aplicaciones terapéuticas para personas con enfermedades que afectan el habla; o ayuda para recuperar la voz a pacientes con dificultades del habla. En la página de OpenAI encontraréis diferentes ejemplos donde se escucha la voz original y el audio generado con Voice Engine.

Nos encontramos ante una tecnología con enormes implicaciones para aquellos que se ganan la vida con la voz, incluyendo los narradores de audiolibros, actores de doblaje, servicio de atención al cliente, presentadores de radio, podcasteros… Por no hablar del uso que se puede hacer de la voz sintética para suplantar la identidad. OpenAI reconoce que la capacidad que tiene Voice Engine para pronunciar discursos con una voz que se asemeje a la de una persona “conlleva serios riesgos” que son “especialmente importantes en un año electoral [en Estados Unidos]”.

Para abordar estos peligros, OpenAI tiene una política de uso que prohíbe la suplantación de otra persona sin su consentimiento y el permiso explícito e informado de la persona que pone la voz original. Los usuarios de Voice Engine también están obligados a revelar al oyente que está escuchando una voz generada por IA. Además, OpenAI ha implantado un conjunto de medidas de seguridad que incluyen marcas de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un sistema de monitorización proactivo para saber cómo se utiliza.
Están que no paran, esto es increíble a la vez que peligroso, el mundo no volverá a ser seguro si se puede suplantar a uno con tanta facilidad.
Lo único bueno de esta página es la selección de la imagen en casa noticia.

Ojito con las estafas robando la voz.
Y creo que leí una vez que la voz no tiene copyright.
Así que se puede usar la voz de alguien sin consecuencias punibles que no sean un delito claro.
Estamos jodidos. Contratos telefónicos diciendo nuestros datos (disponibles en mil sitios) dando aceptación...
exitfor escribió:Estamos jodidos. Contratos telefónicos diciendo nuestros datos (disponibles en mil sitios) dando aceptación...


Pues tienes toda la razón, cada vez hay más timos de este tipo en los que sin hacer nada te suplantan y la IA no deja de dar herramientas para crear "fakes" a punta pala.
como las telefonicas etc etc graban nuestras voces cada vez que llamamos por averias etc..ya pueden clonar nuestras voces y tener audios perfectos donde digan que aceptamos nuevos contratos......o pueden haber audios donde digamos que reconocemos haber matado a nuestro vecino..etc

y lo mejor..si ahora hay algun audio de un pllitico reconociendo que ha robado millones...siempre podra decir que es una voz que no es suya...

es genial!!
Al final la IA va a terminar como ls criptos, mayormente para uso delictivo [fiu]
La tecnología evoluciona a una velocidad increíble, pero a su vez nosotros como sociedad no estamos evolucionando a la misma velocidad, con lo cual estas tecnologías en nuestras manos solo nos llevarán al más absoluto caos. Una pena.
La foto de.portada un 10
exitfor escribió:Estamos jodidos. Contratos telefónicos diciendo nuestros datos (disponibles en mil sitios) dando aceptación...


La aceptación por voz dejará de ser un método válido para cualquier contrato y listos
Comento solo para felicitar la elección de la imagen de la noticia [carcajad]
La verdad es que si un modelo de IA como este llega al gran público, habría que eliminar la posibilidad de contratar o alterar el contrato de cualquier servicio de manera telefónica.
Y ya hay modelos similares disponibles para cualquiera, pero requieren de muchos más datos de entrada para poder clonar la voz
Como está wolfy?, lo escucho ladrar.

Wolfy está bien, dime dónde estás.

Tus padres adoptivos están muertos.
Benzo escribió:...dobladores*, servicio de atención al cliente, presentadores de radio,...


*Actores de doblaje. Un doblador creo que dobla tubos, o camisetas...
exitfor escribió:Estamos jodidos. Contratos telefónicos diciendo nuestros datos (disponibles en mil sitios) dando aceptación...


Esto ya se hacia hace mucho, descolgabas diciendo "¿Si?" y con eso ya hacian una grabacíon en la que aceptabas a todo diciendo si a todo xD
El avance de IA en este campo puede ser la hostia para cine y videojuegos.

Coger la voz de un actor y traducirla directamente a todos los idiomas.
Darkw00d escribió:
exitfor escribió:Estamos jodidos. Contratos telefónicos diciendo nuestros datos (disponibles en mil sitios) dando aceptación...


La aceptación por voz dejará de ser un método válido para cualquier contrato y listos


Teniendo en cuenta que la IA detecta mejor que yo las luces de tráfico, tampoco me consuela mucho.
He oído las demos de su web y, si es cierto que son generadas por IA, son absolutamente increíbles. 100% idénticas a las voces originales, es... aterrador. Por mucho que digan que si marca de agua, que si obligación de tener que informar de que estás escuchando una IA, etc... La tecnología ya existe y, en cuanto esté disponible para todo el mundo (sea OpenAI u otra empresa la primera en hacerlo), nunca más podremos estar seguros de que la voz que escuchamos es de un ser humano salvo que estemos en persona y cara a cara con dicho individuo. Las empresas de telemarketing tienen que estar frotándose las manos ahora mismo.
Me ha venido a la mente Constantino Romero.
Ojalá hubiera tenido esto cuando de chaval hacía bromas telefónicas en las cabinas de teléfono.
@madsuka El único Doblador que conozco es Bender Rodriguez.
Ésto da mucho miedo, ya no solamente porque te puedan colar contratos telefónicos de forma fraudulenta, que sería el mal menor, podrías acabar implicado en delitos que no has cometido simplemente con la excusa de que tienen grabadas conversaciones tuyas que te involucran.
Y lo siguiente será la suplantación de tu rostro en sitios donde no has estado.
Hay que crear una legislación claro y que ponga límites a la IA de forma urgente. No todo vale.
A mí me han jodido con la eliminación de los plugins de chatGPT.
Ahora que recién comienzo el TFM me habría venido súper bien pillar algún plugin o algo que buscase en el google scholar la bibliografía para hacer el estado del arte...
Tampoco encuentro foros especializados en IA (al menos de habla hispana).

Yo creo que a esto de la IA aún le queda, porque preguntar a chatGPT y que no te de las fuentes... Yo al menos no me fío para cosas de importancia.
Pasarán algunos años hasta que esto esté implantado a fondo, para mi, a nivel usuario todavía queda, y eso que tengo un GPT sólo para mi TFM y no consigo obtener cosas en condiciones. He conseguido más en ScholarAI que con chatGPT.
Me ha venido a la mente Constantino Romero.
Esto es increíble y aterrador.

Espero que esto se regule, (Que quizás no lo harán) lejos de actores de voz, con solo 15 segundos de voz ya me veo que llamen a gente envejeciente que no sabe nada de esto, ponen la voz de un nieto pidiendo auxilio y piensan de realmente esta secuestrado... Si con antes la gente picaba por menos, ahora mucho mas fácil.
exitfor escribió:Estamos jodidos. Contratos telefónicos diciendo nuestros datos (disponibles en mil sitios) dando aceptación...


Pues se tendrá que cambiar la forma en la que puedes realizar un contrato. Es de chiste que permitan formalizar un contrato mediante una llamada telefónica y un DNI.
Yo también vengo simplemente a felicitar la elección de la foto de portada.
Ojalá las pelis siguieran siendo tan buenas como esa, y el mundo no se pareciera cada vez más al de Skynet.
La legislación siempre va con mucho retraso respecto a lo que pasa en la vida, estamos viviendo el inicio de algo que va a cambiar la historia de la humanidad, cuando todo esto sea cotidiano es de suponer que la legislación se habrá adaptado.
A los actores de doblaje hay que protegerlos, pero a los artistas, diseñadores y animadores que nos den por c***

A mi lo de la IA no me da miedo, lo que ocurre es que los avances solo caen en manos de los de siempre, los ricos para empobrecimiento del resto.

Que se pongan a hacer políticos con IA y acabamos con el hambre en el mundo en apenas 10 años.
chotio escribió:A los actores de doblaje hay que protegerlos, pero a los artistas, diseñadores y animadores que nos den por c***

A mi lo de la IA no me da miedo, lo que ocurre es que los avances solo caen en manos de los de siempre, los ricos para empobrecimiento del resto.

Que se pongan a hacer políticos con IA y acabamos con el hambre en el mundo en apenas 10 años.

Como los hagan a imagen y semejanza de los actuales acabamos en la miseria [+risas]
Espero un mod para GTA VI con voces en español, porque a los negros hablando en slang cuesta un huevo entenderlos, y jugar leyendo subtítulos mientras conduces con tráfico suele acabar en choques estúpidos.
Lo mejor de la noticia, la foto de portada, mis dieses
Esto está dpm para doblar a nuestro idioma juegos que no lo están.

Me imagino los Metal Gear 2 y 3 enteramente doblados a nuestro idioma [babas] entre otros.
chotio escribió:A los actores de doblaje hay que protegerlos, pero a los artistas, diseñadores y animadores que nos den por c***

A mi lo de la IA no me da miedo, lo que ocurre es que los avances solo caen en manos de los de siempre, los ricos para empobrecimiento del resto.

Que se pongan a hacer políticos con IA y acabamos con el hambre en el mundo en apenas 10 años.

Internet solo ha caído en manos de los ricos?
Por fin podré clonar la voz de la tía a la que acoso desde hace años y que me diga las cosas que quiero oír a la vez que genero un video sexual con las fotos que le he ido robando de las redes sociales.
Otro por aquí que viene a alabar la elección de la foto.

Mejor escogida imposible.
Se avecinan tempestades. Estafas a gran escala.
Habrá que volverse andaluz o hablar raro para que no tenga cojones la IA a pillarte el truco
gojesusga escribió:Habrá que volverse andaluz o hablar raro para que no tenga cojones la IA a pillarte el truco
[reojillo]
No es que clone las voces, es que las mejora. Yo hubiera dicho que el audio generado era el original y el audio de referencia era el generado por IA xD
Volveremos al papel y al trámite presencial viendo el percal de todo esto.
gojesusga escribió:Habrá que volverse andaluz o hablar raro para que no tenga cojones la IA a pillarte el truco

La IA lo malo que tiene es que no podrá curar tu retraso.
no os preocupeis europa ya ha pensado en la solucion antes de lanzar el problema, el ID digital esta a puntito de caramelo y en breves sera obligatorio y necesario para sobrevivir en el maravilloso NWO. La unica solucion a sus problemas.

Accion->reaccion->solucion
nunca falla.
Si algo bueno puede salir de esto, es que con los derechos adecuados, podrian redoblarse peliculas que hasta ahora, actores de doblaje como Constantino Romero, volvieran a ponerle voz a sus respectivos actores a los que doblaba antes de fallecer. Eso si seria maravilloso.
La cantidad de estafas que se avecinan puede ser dramático. Estan jugando con el futuro del mundo en paz.
75 respuestas
1, 2