España investiga ChatGPT por posibles violaciones de privacidad

Riwer escribió:
albion_land escribió:
Riwer escribió:Si el trabajo que pretendes realizar es ser fontanero y uno te enseña fontaneria, puedes lucrarte siendo fontanero, y por tanto te lucras a costa de quien te enseñó.


Pero es que ahí está el tema. Cuando tú aprendes un oficio, normalmente pagas por aprenderlo. No me meto en el nivel, lo mismo me da el colegio, FP o la universidad. En todos ellos, parte del dinero sale de tu bolsillo y mucha otra parte del estado (tu bolsillo, en un porcentaje).

Cuando tú aprendes algo, otros te dedican su tiempo y esfuerzo para que lo aprendas. Y tú sales beneficiado por aprender eso.

En el tema de la IA, nada de esto existe: una empresa coge lo que tú sabes, no te paga por ello (ni siquiera te vas a enterar), y encima se forra a costa de otros.

Si no quieres ver el problema, me va a costar explicarlo de nuevo.

De nuevo agradezco tu respuesta.


Lo que marco en negrita no tiene por qué, y al mismo tiempo aplica a la empresa que gasta recursos y dinero en entrenar una IA a gran escala con hardware caro. Mis estudios pagados son informaticos (soy programador en una empresa de biotecnología), y eso no me ha impedido llegar a un nivel profesional en dibujo de forma autodidacta.
Con internet uno puede documentarse y practicar para aprender muchas cosas en muchos campos (artes, música, idiomas, etc).
De hecho incluso tambien alguna vez me han acusado de "intrusismo laboral" por hacer ciertos diseños para empresas (logos y carteles y poca cosa) sin ser diseñador. (E irónicamente luego tienes paginas de freelancers donde no hay ninguna verificación de sus formaciones, solo estrellitas de valoraciones y ni se regula si pagan sus cuotas de autonomos y bla bla).

Pero en realidad es que da igual si tienes estudios o te has formado por tu cuenta. Si tu tienes un conocimiento la forma de exponerlo es añadirlo en tu currículum/portfolio etc y que te pongan a prueba.
Si tus habilidades verfician lo que dices, no importa.

Y entiendo donde ves el problema, pero es que realmente me parece ver solo "la mitad del camino".
En mis arguentos estoy alegando al "fair use" que es el uso de información accesible para uso educativo, eso no cambia. Pero el problema que ves es que una empresa se lucra.
Lo que yo intento hacerte ver, es como individual realmente todos "nos lucramos" (no tiene que ser solo con billetes) de los que aprendemos de otros sin darles retribuciones ni créditos.

Si me entiendes mejor, aunque te pueda resultar exagerado, es que yo lo veo como defensa a la cultura libre.
Por qué una empresa deberia pagar a miles o decenas de miles de intermediarios por hacer lo mismo que yo puedo hacer en mi casa gratis?
Por qué un dibujo mio se lo puede bajar alguien, editarlo en photoshop, ponerselo de fondo pantalla, imprimirlo y hacerse un poster, o hasta copiarlo para practicar pero una empresa no puede usarlo para entrenar una IA? (Ambos casos son privados y locales, no afectan a re-distribución ni exposición de contenido ajeno)

Yo al publicar en internet un dibujo mio renuncio por ley al derecho de tener una copia digital exclusiva (para hacerlo tendria que convertirlo en NFT y no afectaria a las copias digitales "no-nft").
Entiendes por donde voy? Yo no puedo quejarme de que usen de un modo u otro lo que yo mismo pongo al alcance de todos para que hagan lo que quieran con él (salvo excepciones muy clarificadas como plagio, reventa en merchandising, etc).


Porque una IA no es una persona y tendrán que pagar por tus datos si no los has cedido de manera gratuita.
Es como el copilot de Microsoft que robaba datos en GitHub de repositorios privados o con licencias que permitían usar ese código siempre que se atribuya correctamente a quien lo haya hecho pero el Copilot no atribuye una mierda igual que Chatgpt no lo hace.
Si una empresa coge datos de manera ilegal para entrenar su IA y con ello genera respuestas ya sean dibujos o código que ha robado a otra persona pues es ilegal.
Riwer escribió:
albion_land escribió:Si tus ingresos principales, los que te dan para vivir, no salen del dibujo entiendo en parte que eso te lleva a pensar así.


Eso no deberia afectar a como tratar un tema de forma racional y objetiva.
La revolución industrial se llevó por delante muchos puestos de trabajo, la revolución digital otros tantos.

El fin siempre ha sido que las personas no tengan que trabajar en trabajos repitiivos y de esfuerzo.
De hecho el fin utópico (que ya no es tan utópico) es del que las personas ya no tengan ni que trabajar, sino tener robots para que trabajen para ellos.

Esas frases que citas yo las veo como "quejas ambiguas" sin saber muy bien por qué plantearlas.
Si a una persona no se le pide retribución ni explicaciones por dónde ha aprendido ni como, por qué se le pretende pedir a una IA, porque es dueña de una empresa privada?
Por esa regla de 3 tendrian que pedir explicaciones a mis padres por mi formación?

Si esque no tiene sentido.

Como he comentado en otros mensajes, lo que hay en general es miedo y escepticismo sobre la IA.
Por ahora no existe un marco regulatorio que recoja este tipo de casos.

Este punto en concreto:

*)The idea is for people to “get paid for what they create, even when it is filtered and recombined” into something that’s unrecognizable.

Demuestra por si solo que viene de alguien que no tiene ni idea para empezar de qué es y como funciona la inteligencia artificial (ni un modelo de machine learning, ni inferencia).
Porque no IA simple y llanamente no hace eso. Aprender de verdad por puro y ensayo y error para lograr la capacidad de crear por su cuenta.
Y la preocupación de la afirmación, como no podia ser de otra forma, es "que la gente cobre".
Lo que reafirma lo que digo,al final todo son palabras ambiguas de todos y hay una mezcla entre miedo, escepticismo y ver si se puede rascar algo por el proceso.

Algo muchisimo mas comun es que yo suba una imágen a imgur.com, se haga viral y yo demande a imgur por colaborar con su exito sin pagarme por ello.
Son cosas que directamente no tiene sentido.

Pero mas preocupante de los palos de ciego que están llevando estas quejas hoy dia (que se quejan sin saber muy bien de qué y piden dinero), es el freno al avance que puede suponer ponerle barreras serias.
Porque la mayoria de la gente aun no es consciente de la tremenda revolución que está al caer con el tema de las IA


Nada, ya nos hemos enrocado cada uno en su postura.

Termino ya con un último comentario. El artículo es de opinión y de alguien que sí sabe de IA, probablemente más que tú y que yo. Este comentario tuyo no me parece justo:

"
Demuestra por si solo que viene de alguien que no tiene ni idea para empezar de qué es y como funciona la inteligencia artificial (ni un modelo de machine learning, ni inferencia).
"
seaman escribió:Porque una IA no es una persona y tendrán que pagar por tus datos si no los has cedido de manera gratuita.
Es como el copilot de Microsoft que robaba datos en GitHub de repositorios privados o con licencias que permitían usar ese código siempre que se atribuya correctamente a quien lo haya hecho pero el Copilot no atribuye una mierda igual que Chatgpt no lo hace.
Si una empresa coge datos de manera ilegal para entrenar su IA y con ello genera respuestas ya sean dibujos o código que ha robado a otra persona pues es ilegal.


Las leyes no aplican a personas o IAs, sino a acciones.
Lo de copilot no tiene nada que ver y tu mismo lo dices.
Un repositorio privado es eso, privado. Imagenes públicadas voluntariamente en internet por artistas como o el propio texto de la Wikipedia que es colaboración colectiva es directamente "cultura de uso público".

Copolito no tenia ningun derecho a coger datos de repositorios privados ni retribuyendo ni dando créditos (salvo acuerdo pactado claro).
Y ahí está el asunto. Que coger datos públicos de internet no tiene nada de ilegal.


@albion_land Lo siento pero discrepo. Si supiera de IA el que ha escrito el artículo no habria dicho eso. Es de no saber ni un minimo de como funciona la tokenizacion de un modelo de LLM (que se puede resumir salvajemente como predecir palabras) ni como funciona un modelo de creación de imagenes como Stable Diffusion (que por texto entiende una idea y contexto y pinta pixeles para satisfacer la petición si usar ni un solo pixel de las fuentes, sino su propio conocimiento por contexto de las formas y caracteristicas de los solicitado en el prompt. Podria pasarme horas explicando sobre el tema, los checkpoints, Lora, textual inversion y no estaria ni diciendo la mitad.)
Creeme que no, esa frase es una falacia.
Riwer escribió:
seaman escribió:Porque una IA no es una persona y tendrán que pagar por tus datos si no los has cedido de manera gratuita.
Es como el copilot de Microsoft que robaba datos en GitHub de repositorios privados o con licencias que permitían usar ese código siempre que se atribuya correctamente a quien lo haya hecho pero el Copilot no atribuye una mierda igual que Chatgpt no lo hace.
Si una empresa coge datos de manera ilegal para entrenar su IA y con ello genera respuestas ya sean dibujos o código que ha robado a otra persona pues es ilegal.


Las leyes no aplican a personas o IAs, sino a acciones.
Lo de copilot no tiene nada que ver y tu mismo lo dices.
Un repositorio privado es eso, privado. Imagenes públicadas voluntariamente en internet por artistas como o el propio texto de la Wikipedia que es colaboración colectiva es directamente "cultura de uso público".

Copolito no tenia ningun derecho a coger datos de repositorios privados ni retribuyendo ni dando créditos (salvo acuerdo pactado claro).
Y ahí está el asunto. Que coger datos públicos de internet no tiene nada de ilegal.


@albion_land Lo siento pero discrepo. Si supiera de IA el que ha escrito el artículo no habria dicho eso. Es de no saber ni un minimo de como funciona la tokenizacion de un modelo de LLM (que se puede resumir salvajemente como predecir palabras) ni como funciona un modelo de creación de imagenes como Stable Diffusion (que por texto entiende una idea y contexto y pinta pixeles para satisfacer la petición si usar ni un solo pixel de las fuentes, sino su propio conocimiento por contexto de las formas y caracteristicas de los solicitado en el prompt. Podria pasarme horas explicando sobre el tema, los checkpoints, Lora, textual inversion y no estaria ni diciendo la mitad.)
Creeme que no, esa frase es una falacia.


A ver si te crees que ChatGPT no ha cogido código de repositorios públicos pero con licencias restrictivas que no pueda usar.
seaman escribió:A ver si te crees que ChatGPT no ha cogido código de repositorios públicos pero con licencias restrictivas que no pueda usar.


Y tu sabes como funcionan las licencias de software? Porque parece que no.
Porque tenga la licencia que sea, el código para entrenar una IA no se distribuye por lo que directamente no tiene aplicación ninguna licencia de software.
Si yo hago un fork de un repositorio publico que tenga licencia CC BY-NC-SA por ejemplo, no está permitido usarse en proyectos comerciales y debe dar créditos.
Sin embargo si ese codigo es una aplicacion que genera un fichero, el fichero lo puedo usar donde y como me salga de las bolas en sistemas comerciales y sin dar créditos.
El entrenamiento de las IA siempre es algo privado y local en los datacenter de una empresa, no en el producto final que usa el usuario, y es algo que parece que no entendeis o no quereis entender.

Las licencias de software aquí ni pinchan ni cortan, lo que aplica es la vulnerabilidad de la privacidad de los repositorios privados
Riwer escribió:
seaman escribió:A ver si te crees que ChatGPT no ha cogido código de repositorios públicos pero con licencias restrictivas que no pueda usar.


Y tu sabes como funcionan las licencias de software? Porque parece que no.
Porque tenga la licencia que sea, el código para entrenar una IA no se distribuye por lo que directamente no tiene aplicación ninguna licencia de software.
Si yo hago un fork de un repositorio publico que tenga licencia CC BY-NC-SA por ejemplo, no está permitido usarse en proyectos comerciales y debe dar créditos.
Sin embargo si ese codigo es una aplicacion que genera un fichero, el fichero lo puedo usar donde y como me salga de las bolas en sistemas comerciales y sin dar créditos.
El entrenamiento de las IA siempre es algo privado y local en los datacenter de una empresa, no en el producto final que usa el usuario, y es algo que parece que no entendeis o no quereis entender.

Las licencias de software aquí ni pinchan ni cortan, lo que aplica es la vulnerabilidad de la privacidad de los repositorios privados


Claro, el código que da es exactamente igual que el del repositorio pero no vulnera ninguna privacidad.

Habrá veces que genere codigo aleatorio o que no pueda considerarse copiado, puede pero habrá otras ocasiones que si que copie sin piedad ya sea código, imágenes o texto. Y esta herramienta es de pago, no te creas que es gratuita.

Aquí te dejo un artículo en donde incluso Chatgpt te dice que ha sido entrenado con código con licencia y que podría llegar a usarlo siendo plagiarismo.

https://medium.com/@anywhichway/putting ... ce8edabae2
seaman escribió:
Riwer escribió:
seaman escribió:A ver si te crees que ChatGPT no ha cogido código de repositorios públicos pero con licencias restrictivas que no pueda usar.


Y tu sabes como funcionan las licencias de software? Porque parece que no.
Porque tenga la licencia que sea, el código para entrenar una IA no se distribuye por lo que directamente no tiene aplicación ninguna licencia de software.
Si yo hago un fork de un repositorio publico que tenga licencia CC BY-NC-SA por ejemplo, no está permitido usarse en proyectos comerciales y debe dar créditos.
Sin embargo si ese codigo es una aplicacion que genera un fichero, el fichero lo puedo usar donde y como me salga de las bolas en sistemas comerciales y sin dar créditos.
El entrenamiento de las IA siempre es algo privado y local en los datacenter de una empresa, no en el producto final que usa el usuario, y es algo que parece que no entendeis o no quereis entender.

Las licencias de software aquí ni pinchan ni cortan, lo que aplica es la vulnerabilidad de la privacidad de los repositorios privados


Claro, el código que da es exactamente igual que el del repositorio pero no vulnera ninguna privacidad.

Habrá veces que genere codigo aleatorio o que no pueda considerarse copiado, puede pero habrá otras ocasiones que si que copie sin piedad ya sea código, imágenes o texto. Y esta herramienta es de pago, no te creas que es gratuita.

Aquí te dejo un artículo en donde incluso Chatgpt te dice que ha sido entrenado con código con licencia y que podría llegar a usarlo siendo plagiarismo.

https://medium.com/@anywhichway/putting ... ce8edabae2


Desde luego.
Que investiguen entonces y pidan explicaciones por los casos concretos donde si cruzan la linea.
Ya sea usando repositorios privados, ya sea copy paste descarado o se muestre algo que realmente sea identico a la fuente y no generado.
Porque bajo mis propias palabras incurriría en "redistribución de la fuente no autorizada", y por supuesto apoyo que eso se controle.

Otra cosa es que la gente pretenda o piense que se tiene que remunerar a todo cristo porque su material utilizarse en el entrenamiento, que no por aparecer en un resultado. Esto es lo que critico que no tiene sentido.
56 respuestas
1, 2