Retirado el mayor conjunto de datos de imágenes de IA tras descubrir material de abuso sexual infantil

Benzo
0 0 17
Noticias » Internet
La inteligencia artificial generativa necesita de un conjunto de datos para el aprendizaje automático a gran escala y toda esta información se obtiene de la internet libre de forma directa o mediante modelos generales. Si hablamos de imágenes el modelo más grande y gratuito es LAION-5B, el mismo que usa (y en parte financia) Stable Diffusion. El problema es que investigadores de la Universidad Stanford han descubierto que LAION-5B contiene 3.226 casos sospechosos de material de abuso sexual infantil, de los cuales 1.008 han sido verificados de forma externa. En consecuencia, LAION-5B ha sido retirado temporalmente.

El Stanford Internet Observatory sostiene que su investigación ha concluido que LAION-5B contiene “miles de imágenes ilegales”, así como imágenes íntimas publicadas y recopiladas sin consentimiento y cuya legalidad varía en función de la jurisdicción. El informe afirma que la presencia de material de abuso sexual infantil (CSAM, por sus siglas en inglés) no tiene porque afectar de forma notable al resultado del modelo más allá de su capacidad para combinar conceptos de actividad sexual y niños, pero “es probable que sí ejerza una influencia”.

Se trata de un descubrimiento que pone de relieve el peligro de rastrear internet de forma indiscriminada con el objetivo de obtener material para entrenar modelos de inteligencia artificial generativa. Desde hace como mínimo dos años LAION es consciente que su modelo puede incluir CSAM. “Intentamos eliminar esas cosas, pero no existe garantía de que desaparezcan todas”, le dijo el ingeniero principal de LAION a un investigador cuando le preguntó cómo gestionan la posibilidad de que datos ilegales se incluyan en la base.

En el caso de LAION-5B se trata de una base de datos con más de 5.850 millones de enlaces a imágenes extraídos de la web abierta, incluyendo las redes sociales. Sus responsables avisan de que la información no ha recibido ningún tipo de tratamiento, motivo por el cual reconocen que puede contener material “muy incómodo y perturbador”. Stable Diffusion se entrena con este modelo y tiene una serie de controles para que no se pueda usar para crear imágenes que muestren escenas de abuso sexual infantil, pero sí que hace uso de esta gigantesca cantidad de imagenes para entrenar su modelo de generación de IA.

Como institución, la Universidad Stanford no puede ver CSAM, así que los investigadores y expertos suelen recurrir al hashing perceptivo, que extrae una huella digital de una imagen o vídeo. Una de las herramientas más usadas es PhotoDNA, un software desarrollado por Microsoft que crea y asigna un hash a una imagen o vídeo de CSAM con el fin de encontrarla en otros lugares de la web y eliminarla o perseguir al abusador o distribuidor.
17 comentarios
  1. Es una de las cosas malas de la IA y toca vigilar que no pasen estas cosas.
  2. Yo investigaría de dónde haya salido toda esa información.
  3. La IA no es el problema el problema son los enfermos que hacen cosas como el abuso de menores.
    HDP.
  4. neofonta escribió:Yo investigaría de dónde haya salido toda esa información.


    Eso no se investiga hombre, que si no caería la mayor parte de la gente que hay en el poder, estamos locos o que?
  5. neofonta escribió:Yo investigaría de dónde haya salido toda esa información.


    Realmente no hay mucho que investigar, la notícia lo dice, el problema es rastrear lo que se encuentra en la red de forma indiscriminada. Una vez se pública algo en Internet su huella digital perdura y no desaparece, siempre habrá un rastro de todo lo que se ha publicado en cualquier sitio. Así que el lugar de donde hayan salido esas imagenes no tiene por qué ser indicativo de nada, lo mismo son imagenes que están por ahí, custodiadas por nadie. En la deep web hay mucho de esto, por desgracia.

    En mi opinión lo mejor que se puede hacer es entrenar a las IAs para saber distinguir y filtrar este tipo de contenidos (sería, de hecho, super útil para automatizar la moderación de redes sociales y foros, cada vez se leen más historias de moderadores con traumas por el tipo de contenidos que ven cada día). Pero claro, para entrenar las IAs en ese sentido... Aquí juega un papel crucial la ética, es un tema complicado.
  6. Pero, si de mas de 5mm fueron 3k las ilicitas, tampoco lo veo tan grave. Es un 0.06% de la base

    Lo interesante es si pueden desarrollar una IA capaz de identificar imágenes ilícitas.
  7. Mano dura contra ésta gentuza!
  8. nxname escribió:Pero, si de mas de 5mm fueron 3k las ilicitas, tampoco lo veo tan grave. Es un 0.06% de la base

    Lo interesante es si pueden desarrollar una IA capaz de identificar imágenes ilícitas.


    Opino lo mismo, pero lo veo complicado.
  9. DJ Deu escribió:
    neofonta escribió:Yo investigaría de dónde haya salido toda esa información.


    Eso no se investiga hombre, que si no caería la mayor parte de la gente que hay en el poder, estamos locos o que?


    No nos libramos de los frikis extrema derecha de QANON ni aquí.
  10. ia = no real (siempre y cuando tampoco se usen técnicas de clonado de caras reales). Para los enfermos mentales de este asqueroso mundo que buscan este contenido, mejor asi que no de otro modo dentro de la gravedad del asunto no?, y poner a la IA con este contenido para cazar a esa gentuza y empalarlos al sol, mientras los cuervos les arrancan los ojos.
Ver más comentarios »