[HO] Inteligencia Artificial (IA)

18, 9, 10, 11, 12
Yo estoy muy perdido con todo esto pero he visto este video y me ha dado algo de mal rollo... Tienen las IA un lenguaje de este tipo para entenderse entre ellas o es un montaje??

@Torres https://github.com/PennyroyalTea/gibberlink

Es un proyecto especificamente desarrollado para esto, dotar a una IA de utilizar otro protocolo de lenguaje para ser más eficiente.

No es nada extraño, se sabe que una IA conversacional puede consultar a otra IA para validar y verificar la información, un modo de lograr que sea más precisa y no se equivoque. Me suena que Valve o Nvidia presentaron una idea así. Pero entre IAs no es necesario que usen el lenguaje humano para entenderse si pueden comunicarse de otro modo que les permita ser más rápidas.
katatsumuri está baneado del subforo por "faltas de respeto constantes"
@Torres en 2017 facebook, antes de ser meta, tuvo que desactivar dos IAs que empezaron a hablar entre ellas en un lenguaje inventado porque parecía que no eran muy amigables.
https://es.gizmodo.com/lo-que-realmente ... 1797424875

Quiero decir, que no es algo nuevo.

Gemini si lo pones a hablar con otro gemini es bastante cortito, de hecho diría que llega un momento que puede entrar en bucle, está muy capado.
katatsumuri escribió:@Torres en 2017 facebook, antes de ser meta, tuvo que desactivar dos IAs que empezaron a hablar entre ellas en un lenguaje inventado porque parecía que no eran muy amigables.
https://es.gizmodo.com/lo-que-realmente ... 1797424875

Quiero decir, que no es algo nuevo.

Gemini si lo pones a hablar con otro gemini es bastante cortito, de hecho diría que llega un momento que puede entrar en bucle, está muy capado.


No muy amigables como el robot este matón que se encaró con el público [qmparto] [qmparto] [qmparto] [qmparto]


Abrams escribió:@Torres https://github.com/PennyroyalTea/gibberlink

Es un proyecto especificamente desarrollado para esto, dotar a una IA de utilizar otro protocolo de lenguaje para ser más eficiente.

No es nada extraño, se sabe que una IA conversacional puede consultar a otra IA para validar y verificar la información, un modo de lograr que sea más precisa y no se equivoque. Me suena que Valve o Nvidia presentaron una idea así. Pero entre IAs no es necesario que usen el lenguaje humano para entenderse si pueden comunicarse de otro modo que les permita ser más rápidas.

De hecho, tengo unas cámaras de seguridad de hace años que se emparejan con la aplicación del móvil (Smart Life) hablando exactamente en ese idioma chungo starwarsiano.




Que ganas tengo que volver a ver las películas clásicas con la voz original de sus actores, pero en español Marlon Brando, Harrison Ford, Stallone, etc, etc.
@dinodini pues como España no apueste fuerte y serio en los avances con IA, mucho me temo que vamos a sufrir una invasión del latino.

Es algo que llevo tiempo viendo en IAs de texto a voz, muy pocas se adaptan al castellano, la mayoría al latino.
katatsumuri está baneado del subforo por "faltas de respeto constantes"
Abrams escribió:@dinodini pues como España no apueste fuerte y serio en los avances con IA, mucho me temo que vamos a sufrir una invasión del latino.

Es algo que llevo tiempo viendo en IAs de texto a voz, muy pocas se adaptan al castellano, la mayoría al latino.

La invasión ya la vivimos donde muchos jóvenes incluso hablan así por la influencia de la música que está de moda, pero en ese aspecto que mencionas no es un problema ya que hacer una IA que hable castellano no algo complejo de elaborar, ya existen modelos de voz en castellano y funcionan perfectamente, no es un procedimiento muy complejo y cada vez será mucho más eficiente y rápido.

Lo que está claro es que igual que el inglés ha transformado parte de nuestra lengua Hispanoamérica también lo hará y no hay punto de no retorno, de hecho en USA ocurrirá lo mismo y diría que allí si será más agresivo, son cosas de la vida, el mundo cambia.

Y tampoco se piensa en el árabe, como si el árabe no fuera a hacer lo mismo.


@Torres es un peligro la verdad, ahora no pero en unos años si.
Cuando las acciones de NVIDIA empiezan a levantarse, Deepseek ha decidido darles otro mazazo, y han publicado el código fuente del Kernel CUDA de descoficación MLA que han usado para acelerar x8 la inferencia de su modelo:

https://github.com/deepseek-ai/FlashMLA
Torres escribió:
katatsumuri escribió:@Torres en 2017 facebook, antes de ser meta, tuvo que desactivar dos IAs que empezaron a hablar entre ellas en un lenguaje inventado porque parecía que no eran muy amigables.
https://es.gizmodo.com/lo-que-realmente ... 1797424875

Quiero decir, que no es algo nuevo.

Gemini si lo pones a hablar con otro gemini es bastante cortito, de hecho diría que llega un momento que puede entrar en bucle, está muy capado.


No muy amigables como el robot este matón que se encaró con el público [qmparto] [qmparto] [qmparto] [qmparto]




Madre mía el vídeo...."atacar al público" "cundió el pánico" "comportamiento violento".... Y el pobre robot lo único que hace es equivocarse de dirección y dar un traspies
[qmparto]
Flipante es poco, ya se ha llegado al nivel de HER:

https://www.sesame.com/research/crossin ... voice#demo

Probadlo que os vais a sorprender :O
¿Puede alguien explicarme algo de estos videos de IA?



¿Como se hace el movimiento de esa gente? Entiendo que debe de ser que graban a personas normales, capturan el movimiento, y ahora se lo ponen a esas fotos, a esas personas que salen en las fotos. Es decir, el movimiento de esas personas de las fotos es real, es motion capture de personas en un estudio de grabación, no?

Por otro lado me pregunto como recrean la parte que no se ve de la foto. He visto videos de personas que se dan la vuelta. ¿Como puede la IA inventarse como es el pelo por atrás, inventarse la parte del rostro que no se ve en la foto?
dinodini escribió:¿Puede alguien explicarme algo de estos videos de IA?



¿Como se hace el movimiento de esa gente? Entiendo que debe de ser que graban a personas normales, capturan el movimiento, y ahora se lo ponen a esas fotos, a esas personas que salen en las fotos. Es decir, el movimiento de esas personas de las fotos es real, es motion capture de personas en un estudio de grabación, no?

Por otro lado me pregunto como recrean la parte que no se ve de la foto. He visto videos de personas que se dan la vuelta. ¿Como puede la IA inventarse como es el pelo por atrás, inventarse la parte del rostro que no se ve en la foto?


En absoluto... El funcionamiento es exáctamente igual que el de las IAs de imágenes sólo que estas se entrenan con clips de video muy cortos (2-5 segundos como mucho). La IA aprende a partir de un enorme volumen de imágenes y vídeos a generalizar, y de esa forma es que puede extrapolar los movimientos y mantener la coherencia, y también 'imaginar' las partes no visibles de la imagen. En resumen, pongamos que le das la imagen de un perro de una raza que no conoce, pero como sabe cómo son los perros y cómo se mueven, puede animarlo sin necesidad de ver imágenes y vídeos de ese perro concreto haciendo todo tipo de cosas.





Hay varias cosas que fallan en esta predicción.

La traducción no puede ser al instante, porque no se puede traducir palabra a palabra. Hay que esperar a que termine una frase para que se entienda el contexto, estructura de la frase, etc, antes de traducirla. Por ej. en unos idiomas el verbo está al final de la frase. Por tanto la traducción tendrá un retardo con respecto a la persona que habla. Es decir, una persona se pone a hablar contigo y el traductor no te va a decir la traducción hasta pasado unos segundos, lo que dure la frase que esté diciendote esa persona vamos.

Por otro lado sera confuso estar escuchando dos voces a la vez, la de tu interlocutor y la del traductor. Eso lo hemos visto en películas de algunos paises del este, que lo que hacen alli con las películas es dejar la voz original y otra voz al mismo tiempo con la traducción. En esos casos lo que hacen es poner en un volumen mas bajo la voz original, para evitor la confusión de escuchar dos voces al mismo tiempo, pero eso en la vida real no va a pasar. Quien te este hablando no lo va ha hacer en un tono bajo, con lo que va a ser molesto estár escuchando dos voces a la vez. Al final lo que pasará es que la gente esperará a que esa pesona termine de hablar para que empiece a oir la traducción de lo que acaba de decir. Por tanto las conversaciones con traducción sincronizada no lo vamos a ver.

El ruido de fondo hará inviable muchas traducciones. Y no hablo solo de ruido en si, que haga complicado al traductor entender lo que dice esa persona. me refiero a que haya otras personas hablando alrededor, por ej. estando en un bar, personas que no están en tu grupo de amigos. El traductor tambien te lo va a traducir y se va a mezclar con lo que te dice tu interlocutor.
dinodini escribió:





Hay varias cosas que fallan en esta predicción.

La traducción no puede ser al instante, porque no se puede traducir palabra a palabra. Hay que esperar a que termine una frase para que se entienda el contexto, estructura de la frase, etc, antes de traducirla. Por ej. en unos idiomas el verbo está al final de la frase. Por tanto la traducción tendrá un retardo con respecto a la persona que habla. Es decir, una persona se pone a hablar contigo y el traductor no te va a decir la traducción hasta pasado unos segundos, lo que dure la frase que esté diciendote esa persona vamos.

Por otro lado sera confuso estar escuchando dos voces a la vez, la de tu interlocutor y la del traductor. Eso lo hemos visto en películas de algunos paises del este, que lo que hacen alli con las películas es dejar la voz original y otra voz al mismo tiempo con la traducción. En esos casos lo que hacen es poner en un volumen mas bajo la voz original, para evitor la confusión de escuchar dos voces al mismo tiempo, pero eso en la vida real no va a pasar. Quien te este hablando no lo va ha hacer en un tono bajo, con lo que va a ser molesto estár escuchando dos voces a la vez. Al final lo que pasará es que la gente esperará a que esa pesona termine de hablar para que empiece a oir la traducción de lo que acaba de decir. Por tanto las conversaciones con traducción sincronizada no lo vamos a ver.

El ruido de fondo hará inviable muchas traducciones. Y no hablo solo de ruido en si, que haga complicado al traductor entender lo que dice esa persona. me refiero a que haya otras personas hablando alrededor, por ej. estando en un bar, personas que no están en tu grupo de amigos. El traductor tambien te lo va a traducir y se va a mezclar con lo que te dice tu interlocutor.

Algo falla también en tu hipótesis. Si tú puedes entender a quien te está hablando junto a otras personas, ruidos, etc. La IA también podría hacerlo. Hoy en día es prácticamente imposible, pero tal y como dice el del vídeo, de aquí a 10 años puede que llegue a ser así.

Tú mismo tampoco entiendes el concepto del que te está hablando hasta que termina la frase al completo, incluso si te habla en tu idioma nativo. La IA hará lo mismo, y como estará más capacitada que cualquier ser humano, podrá procesar el contexto mucho más rápido de lo que lo haría cualquier ser humano.

Aunque tal y como dices, siempre habrá un retraso, pero es problema de los propios lenguajes. Como por ejemplo si te digo "The red (pausa de 4 segundos) car". Ahí la IA si traduce al español "El rojo (pausa de 4 segundos) coche", ya la ha cagado.
dinodini escribió:





Hay varias cosas que fallan en esta predicción.

La traducción no puede ser al instante, porque no se puede traducir palabra a palabra. Hay que esperar a que termine una frase para que se entienda el contexto, estructura de la frase, etc, antes de traducirla. Por ej. en unos idiomas el verbo está al final de la frase. Por tanto la traducción tendrá un retardo con respecto a la persona que habla. Es decir, una persona se pone a hablar contigo y el traductor no te va a decir la traducción hasta pasado unos segundos, lo que dure la frase que esté diciendote esa persona vamos.

Por otro lado sera confuso estar escuchando dos voces a la vez, la de tu interlocutor y la del traductor. Eso lo hemos visto en películas de algunos paises del este, que lo que hacen alli con las películas es dejar la voz original y otra voz al mismo tiempo con la traducción. En esos casos lo que hacen es poner en un volumen mas bajo la voz original, para evitor la confusión de escuchar dos voces al mismo tiempo, pero eso en la vida real no va a pasar. Quien te este hablando no lo va ha hacer en un tono bajo, con lo que va a ser molesto estár escuchando dos voces a la vez. Al final lo que pasará es que la gente esperará a que esa pesona termine de hablar para que empiece a oir la traducción de lo que acaba de decir. Por tanto las conversaciones con traducción sincronizada no lo vamos a ver.

El ruido de fondo hará inviable muchas traducciones. Y no hablo solo de ruido en si, que haga complicado al traductor entender lo que dice esa persona. me refiero a que haya otras personas hablando alrededor, por ej. estando en un bar, personas que no están en tu grupo de amigos. El traductor tambien te lo va a traducir y se va a mezclar con lo que te dice tu interlocutor.

Hay auriculares con cancelación de ruido activa. No es perfecta pero puede reducir el volumen a un nivel aceptable y que lo pase lo que dices.
amchacon escribió:
dinodini escribió:





Hay varias cosas que fallan en esta predicción.

La traducción no puede ser al instante, porque no se puede traducir palabra a palabra. Hay que esperar a que termine una frase para que se entienda el contexto, estructura de la frase, etc, antes de traducirla. Por ej. en unos idiomas el verbo está al final de la frase. Por tanto la traducción tendrá un retardo con respecto a la persona que habla. Es decir, una persona se pone a hablar contigo y el traductor no te va a decir la traducción hasta pasado unos segundos, lo que dure la frase que esté diciendote esa persona vamos.

Por otro lado sera confuso estar escuchando dos voces a la vez, la de tu interlocutor y la del traductor. Eso lo hemos visto en películas de algunos paises del este, que lo que hacen alli con las películas es dejar la voz original y otra voz al mismo tiempo con la traducción. En esos casos lo que hacen es poner en un volumen mas bajo la voz original, para evitor la confusión de escuchar dos voces al mismo tiempo, pero eso en la vida real no va a pasar. Quien te este hablando no lo va ha hacer en un tono bajo, con lo que va a ser molesto estár escuchando dos voces a la vez. Al final lo que pasará es que la gente esperará a que esa pesona termine de hablar para que empiece a oir la traducción de lo que acaba de decir. Por tanto las conversaciones con traducción sincronizada no lo vamos a ver.

El ruido de fondo hará inviable muchas traducciones. Y no hablo solo de ruido en si, que haga complicado al traductor entender lo que dice esa persona. me refiero a que haya otras personas hablando alrededor, por ej. estando en un bar, personas que no están en tu grupo de amigos. El traductor tambien te lo va a traducir y se va a mezclar con lo que te dice tu interlocutor.

Hay auriculares con cancelación de ruido activa. No es perfecta pero puede reducir el volumen a un nivel aceptable y que lo pase lo que dices.


Y respecto a lo de las personas alrededor, ya se usa la IA con el micrófono para 'aislar' la voz del interlocutor del ruido de fondo y el resto de voces, de hecho es una de las cosas que hace la Switch 2 con el micrófono que incluye, lo que comentaron en el direct y que seguramente se encargará nVidia Voice, aunque no es la única que lo hace.
Hubo algún lío de permisos ayer?

Chagpt pasó del sabado recrear imagenes a mil estilos (por ejemplo funko pop hasta poniendo el bocadillo de Pop en la caja) a el domingo decir que no podía casi nada.

Después sugería que podia hacer algo sin copy "estilo cabezon" si querías. Y cuando le decías que vale, decia que ni así podia por copy.

Así con 99% de estilos. Incluso describiendo un tipo de estilo sin relación alguna con copy decia que tu tía.

Hoy no he probado. Le habrán caído demandas a cholón después del boom de final de semana a sábado por todas partes por todo el mundo que no sabía ni lo que era ia?
exitfor escribió:Hubo algún lío de permisos ayer?

Chagpt pasó del sabado recrear imagenes a mil estilos (por ejemplo funko pop hasta poniendo el bocadillo de Pop en la caja) a el domingo decir que no podía casi nada.

Después sugería que podia hacer algo sin copy "estilo cabezon" si querías. Y cuando le decías que vale, decia que ni así podia por copy.

Así con 99% de estilos. Incluso describiendo un tipo de estilo sin relación alguna con copy decia que tu tía.

Hoy no he probado. Le habrán caído demandas a cholón después del boom de final de semana a sábado por todas partes por todo el mundo que no sabía ni lo que era ia?


La censura en sí no la lleva el modelo sino el servicio que lo utiliza, con lo cual lo pueden ir 'actualizando' y poniendo más y más cosas en la 'lista negra' cuando quieran, y esto que comentas, ya pasaba desde antes, por ejemplo con Dall-E 3, que los primeros días podía, por ejemplo, generar imágenes con Michael Jackson o Bruce Lee y sólo dos días después ya no se podía... No hace falta que les demanden ni nada... A lo que se popularice algo, hacen criba para cubrirse las espaldas y poco después ya no se puede hacer o el más difícil. Es lo malo que tienen los modelos cerrados por suscripción.
Los que doblan también intentan sincronizar la voz con el movimiento de la boca del actor. incluso perdiendo literalidad de la traducción para que no quede raro. De momento en estos videos no existe.
Pero siendo la IA capaz de recrear la boca del actor y moverla a su antojo, no creo que sea muy difícil de implementar.
Franquicia escribió:Los que doblan también intentan sincronizar la voz con el movimiento de la boca del actor. incluso perdiendo literalidad de la traducción para que no quede raro. De momento en estos videos no existe.
Pero siendo la IA capaz de recrear la boca del actor y moverla a su antojo, no creo que sea muy difícil de implementar.


Ya hay modelos que sincronizan la voz con las expresiones y los labios, incluso a partir de tan sólo una imagen y un archivo de audio, y lo hacen bastante bién...
SIRDRAK escribió:
exitfor escribió:Hubo algún lío de permisos ayer?

Chagpt pasó del sabado recrear imagenes a mil estilos (por ejemplo funko pop hasta poniendo el bocadillo de Pop en la caja) a el domingo decir que no podía casi nada.

Después sugería que podia hacer algo sin copy "estilo cabezon" si querías. Y cuando le decías que vale, decia que ni así podia por copy.

Así con 99% de estilos. Incluso describiendo un tipo de estilo sin relación alguna con copy decia que tu tía.

Hoy no he probado. Le habrán caído demandas a cholón después del boom de final de semana a sábado por todas partes por todo el mundo que no sabía ni lo que era ia?


La censura en sí no la lleva el modelo sino el servicio que lo utiliza, con lo cual lo pueden ir 'actualizando' y poniendo más y más cosas en la 'lista negra' cuando quieran, y esto que comentas, ya pasaba desde antes, por ejemplo con Dall-E 3, que los primeros días podía, por ejemplo, generar imágenes con Michael Jackson o Bruce Lee y sólo dos días después ya no se podía... No hace falta que les demanden ni nada... A lo que se popularice algo, hacen criba para cubrirse las espaldas y poco después ya no se puede hacer o el más difícil. Es lo malo que tienen los modelos cerrados por suscripción.

Y esto tiene mas solución que ejecuciones locales "basadas en" ?

Supongo que los locales como contra tendrán no tener toda la capacidad que si tienen los otros.

Es mera curiosidad. En este tipo de cosas lo uso como divertimento.
exitfor escribió:
SIRDRAK escribió:
exitfor escribió:Hubo algún lío de permisos ayer?

Chagpt pasó del sabado recrear imagenes a mil estilos (por ejemplo funko pop hasta poniendo el bocadillo de Pop en la caja) a el domingo decir que no podía casi nada.

Después sugería que podia hacer algo sin copy "estilo cabezon" si querías. Y cuando le decías que vale, decia que ni así podia por copy.

Así con 99% de estilos. Incluso describiendo un tipo de estilo sin relación alguna con copy decia que tu tía.

Hoy no he probado. Le habrán caído demandas a cholón después del boom de final de semana a sábado por todas partes por todo el mundo que no sabía ni lo que era ia?


La censura en sí no la lleva el modelo sino el servicio que lo utiliza, con lo cual lo pueden ir 'actualizando' y poniendo más y más cosas en la 'lista negra' cuando quieran, y esto que comentas, ya pasaba desde antes, por ejemplo con Dall-E 3, que los primeros días podía, por ejemplo, generar imágenes con Michael Jackson o Bruce Lee y sólo dos días después ya no se podía... No hace falta que les demanden ni nada... A lo que se popularice algo, hacen criba para cubrirse las espaldas y poco después ya no se puede hacer o el más difícil. Es lo malo que tienen los modelos cerrados por suscripción.

Y esto tiene mas solución que ejecuciones locales "basadas en" ?

Supongo que los locales como contra tendrán no tener toda la capacidad que si tienen los otros.

Es mera curiosidad. En este tipo de cosas lo uso como divertimento.


Las IA opensource en local de generación de imágenes y vídeos en muchas ocasiones no tienen nada que envidiar a las de suscripción, si bien tardará un tiempo en surgir algo como ChatGPT-Imagen/ChatGPT-4o, y de hecho tienen muchas más herramientas y modos a tu disposición lo que le da unas posibilidades infinitas en comparación a las otras, por no mencionar la posibilidad de entrenar tus propios modelos, no tener censura y un sin fin de ventajas más... Claro que su uso es más complicado también, por otro lado, y tienes que tener tarjetas gráficas punteras a ser posible.
Schwefelgelb escribió:

Qué burrada. De aquí a poco tiempo alguna productora hará una serie de esta forma, y si tienen una buena historia/guión podría suponer un antes y un después en la historia de la animación.
575 respuestas
18, 9, 10, 11, 12