Retirado el mayor conjunto de datos de imágenes de IA tras descubrir material de abuso sexual inf... en Noticias

Benzo mod 21 dic 2023 15:02 *

El poder del arte

Staff
Moderador

51.120 mensajes
desde feb 2002

Editado 2 veces. Última: 21/12/2023 - 15:17:34 por .

La inteligencia artificial generativa necesita de un conjunto de datos para el aprendizaje automático a gran escala y toda esta información se obtiene de la internet libre de forma directa o mediante modelos generales. Si hablamos de imágenes el modelo más grande y gratuito es LAION-5B, el mismo que usa (y en parte financia) Stable Diffusion. El problema es que investigadores de la Universidad Stanford han descubierto que LAION-5B contiene 3.226 casos sospechosos de material de abuso sexual infantil, de los cuales 1.008 han sido verificados de forma externa. En consecuencia, LAION-5B ha sido retirado temporalmente.

El Stanford Internet Observatory sostiene que su investigación ha concluido que LAION-5B contiene “miles de imágenes ilegales”, así como imágenes íntimas publicadas y recopiladas sin consentimiento y cuya legalidad varía en función de la jurisdicción. El informe afirma que la presencia de material de abuso sexual infantil (CSAM, por sus siglas en inglés) no tiene porque afectar de forma notable al resultado del modelo más allá de su capacidad para combinar conceptos de actividad sexual y niños, pero “es probable que sí ejerza una influencia”.

Se trata de un descubrimiento que pone de relieve el peligro de rastrear internet de forma indiscriminada con el objetivo de obtener material para entrenar modelos de inteligencia artificial generativa. Desde hace como mínimo dos años LAION es consciente que su modelo puede incluir CSAM. “Intentamos eliminar esas cosas, pero no existe garantía de que desaparezcan todas”, le dijo el ingeniero principal de LAION a un investigador cuando le preguntó cómo gestionan la posibilidad de que datos ilegales se incluyan en la base.

En el caso de LAION-5B se trata de una base de datos con más de 5.850 millones de enlaces a imágenes extraídos de la web abierta, incluyendo las redes sociales. Sus responsables avisan de que la información no ha recibido ningún tipo de tratamiento, motivo por el cual reconocen que puede contener material “muy incómodo y perturbador”. Stable Diffusion se entrena con este modelo y tiene una serie de controles para que no se pueda usar para crear imágenes que muestren escenas de abuso sexual infantil, pero sí que hace uso de esta gigantesca cantidad de imagenes para entrenar su modelo de generación de IA.

Como institución, la Universidad Stanford no puede ver CSAM, así que los investigadores y expertos suelen recurrir al hashing perceptivo, que extrae una huella digital de una imagen o vídeo. Una de las herramientas más usadas es PhotoDNA, un software desarrollado por Microsoft que crea y asigna un hash a una imagen o vídeo de CSAM con el fin de encontrarla en otros lugares de la web y eliminarla o perseguir al abusador o distribuidor.

Fuente: 404media

mogurito 21 dic 2023 15:07

Soy un Cimmerio

22.548 mensajes
desde dic 2000
en La montaña del Dios Crom

Es una de las cosas malas de la IA y toca vigilar que no pasen estas cosas.

neofonta 21 dic 2023 15:37

MegaAdicto!!!

11.862 mensajes
desde feb 2008
en rubinense

Gamertag: F0NTA PSN ID: FONTA_Steam ID: neofonta

Yo investigaría de dónde haya salido toda esa información.

pabloc 21 dic 2023 15:44

Bloodborneado.

10.980 mensajes
desde mar 2008

PSN ID: zefalump Steam ID: zefalump

1 valoración positiva

La IA no es el problema el problema son los enfermos que hacen cosas como el abuso de menores.
HDP.

DJ Deu 21 dic 2023 15:44

Comandante del Clit

5.852 mensajes
desde oct 2001
en Zombieland

Steam ID: MRDeu

1 valoración positiva

neofonta escribió:Yo investigaría de dónde haya salido toda esa información.

Eso no se investiga hombre, que si no caería la mayor parte de la gente que hay en el poder, estamos locos o que?

Abrams 21 dic 2023 15:52

MegaAdicto!!!

5.127 mensajes
desde nov 2014
en Hoenn

neofonta escribió:Yo investigaría de dónde haya salido toda esa información.

Realmente no hay mucho que investigar, la notícia lo dice, el problema es rastrear lo que se encuentra en la red de forma indiscriminada. Una vez se pública algo en Internet su huella digital perdura y no desaparece, siempre habrá un rastro de todo lo que se ha publicado en cualquier sitio. Así que el lugar de donde hayan salido esas imagenes no tiene por qué ser indicativo de nada, lo mismo son imagenes que están por ahí, custodiadas por nadie. En la deep web hay mucho de esto, por desgracia.

En mi opinión lo mejor que se puede hacer es entrenar a las IAs para saber distinguir y filtrar este tipo de contenidos (sería, de hecho, super útil para automatizar la moderación de redes sociales y foros, cada vez se leen más historias de moderadores con traumas por el tipo de contenidos que ven cada día). Pero claro, para entrenar las IAs en ese sentido... Aquí juega un papel crucial la ética, es un tema complicado.

nxname 21 dic 2023 15:55

Staf Moredador

9.612 mensajes
y 2 fotos
desde mar 2003
en Chile, Santiago

Página web de nxname Gamertag: NXNAME

Pero, si de mas de 5mm fueron 3k las ilicitas, tampoco lo veo tan grave. Es un 0.06% de la base

Lo interesante es si pueden desarrollar una IA capaz de identificar imágenes ilícitas.

#402615# 21 dic 2023 16:32

Mano dura contra ésta gentuza!

Quark 21 dic 2023 17:15 *

Lost in translation

2.226 mensajes
desde jun 2005
en Tokyo - Valencia

Página web de Quark Steam ID: neverwinterdandg

Editado 1 vez. Última: 21/12/2023 - 17:16:57 por Quark.

nxname escribió:Pero, si de mas de 5mm fueron 3k las ilicitas, tampoco lo veo tan grave. Es un 0.06% de la base

Lo interesante es si pueden desarrollar una IA capaz de identificar imágenes ilícitas.

Opino lo mismo, pero lo veo complicado.

Danielynx 21 dic 2023 18:47

Habitual

89 mensajes
desde nov 2006
en Valencia

DJ Deu escribió:
neofonta escribió:Yo investigaría de dónde haya salido toda esa información.

Eso no se investiga hombre, que si no caería la mayor parte de la gente que hay en el poder, estamos locos o que?

No nos libramos de los frikis extrema derecha de QANON ni aquí.

JoseAtk 21 dic 2023 21:51 *

Adicto

478 mensajes
desde nov 2017
en Zaragoza

Página web de JoseAtk

Editado 1 vez. Última: 21/12/2023 - 21:52:14 por JoseAtk.

ia = no real (siempre y cuando tampoco se usen técnicas de clonado de caras reales). Para los enfermos mentales de este asqueroso mundo que buscan este contenido, mejor asi que no de otro modo dentro de la gravedad del asunto no?, y poner a la IA con este contenido para cazar a esa gentuza y empalarlos al sol, mientras los cuervos les arrancan los ojos.

Cody_Travers 22 dic 2023 09:48

I hate portals....

10.088 mensajes
desde sep 2010

PSN ID: Zalenor Steam ID: Scz6963

La gente es lo puto peor madre mia

Buitrako 22 dic 2023 12:33

MegaAdicto!!!

1.546 mensajes
desde mar 2008

JoseAtk escribió:ia = no real (siempre y cuando tampoco se usen técnicas de clonado de caras reales). Para los enfermos mentales de este asqueroso mundo que buscan este contenido, mejor asi que no de otro modo dentro de la gravedad del asunto no?, y poner a la IA con este contenido para cazar a esa gentuza y empalarlos al sol, mientras los cuervos les arrancan los ojos.

El problema es que las imágenes que se han utilizado para entrenar a la IA sí que son reales y sí que contenían abusos sexuales infantiles. Es importantísimo que se dediquen a rastrear el origen de las mismas.

CASTIGADOR 22 dic 2023 12:43

ASQUEADO

14.477 mensajes
desde feb 2002
en Madrid

1 valoración positiva

DJ Deu escribió:
neofonta escribió:Yo investigaría de dónde haya salido toda esa información.

Eso no se investiga hombre, que si no caería la mayor parte de la gente que hay en el poder, estamos locos o que?

Esa es la verdadera realidad que luego a nadie parece importarle por lo visto, los mayores abusadores son gente con poder y dinero que siempre quedan impunes.

ZeTaKa 23 dic 2023 13:40

zK:~ zk$

1.842 mensajes
desde ene 2005
en /Users/zk

CASTIGADOR escribió:
DJ Deu escribió:
neofonta escribió:Yo investigaría de dónde haya salido toda esa información.

Eso no se investiga hombre, que si no caería la mayor parte de la gente que hay en el poder, estamos locos o que?

Esa es la verdadera realidad que luego a nadie parece importarle por lo visto, los mayores abusadores son gente con poder y dinero que siempre quedan impunes.

Quien no recuerda esos noticieros donde se encuentra una red de estos @|#€ saliendo un pobre diablo con cuatro discos duros y diciendo el periolisto. No, si hay un montón de gente importante encausada, pero ya si eso, mañana saldrán sus nombres