Reuters añade que antes de Apple otras compañías como Meta, Google y Amazon han llegado a acuerdos de licencia Shutterstock para tener acceso a los cientos de millones de imágenes, vídeos y archivos de música que almacena en su biblioteca. No hay detalles sobre el importe exacto del trato, pero Jarrod Yahes, director financiero de Shutterstock, ha confirmado que este tipo de acuerdos iniciales con empresas tecnológicas oscilan entre los 25 y 50 millones de dólares cada uno, y que la mayoría se amplían con el tiempo.
Las compañías que desarrollan y entrenan sistemas de IA como OpenAI, Google o Meta no siempre son claros sobre la procedencia de los datos que usan para entrenarlos. Estos grandes modelos de lenguaje (LLM, por sus siglas en inglés) necesitan una cantidad muy generosa de datos y no basta con la información pública que hay en Internet. Hace pocos días The New York Times informaba que OpenAI entrenaba GPT, uno de los modelos más avanzados a día de hoy, con transcripciones de vídeos de YouTube, algo que iría en contra de las políticas de la plataforma propiedad de Google, según su director ejecutivo Neal Mohan.
¿Cuánto vale el contenido para entrenar una IA? Reuters ha hablado con decenas de personas con conocimiento de este tipo de acuerdos y descubierto que el precio puede variar en función del contenido y del comprador. Por ejemplo, Daniela Braga, directora ejecutiva de la empresa de datos de IA Defined.ai, dice que las compañías suelen pagar entre 1 y 2 dólares por imagen, entre 2 y 4 dólares por un vídeo de corta duración y entre 100 y 300 dólares por cada hora de vídeo largo, mientras que las tarifas por texto rondan los 0,001 dólares por palabra.
Actualmente estamos asistiendo a una carrera armamentista para desarrollar el sistema de IA más avanzado, una situación que ha llevado a los gigantes tecnológicos como Google, Meta, Microsoft, OpenAI y Apple a cosechar datos por Internet como si no hubiera un mañana. En la red hay mucho contenido público, pero que un texto, imagen o vídeo esté a disposición de cualquiera no significa que no esté protegido por los derechos de autor. Los desafíos legales ya han llegado como demuestra la demanda que The New York Times presentó contra OpenAI y Microsoft por usar sin autorización su contenido para entrenar a ChatGPT.
Este tipo de acuerdos parece que no dejan de crecer. Freepik, un competidor de Shutterstock, dice a Reuters que ha llegado a tratos con dos grandes empresas tecnológicas para licenciar una parte de su archivo de imágenes y que hay cinco acuerdos similares en tramitación. Por su parte, OpenAI tiene alianzas con Associated Press, Axel Springer y Prisa (El País), Google paga 60 millones de dólares al año para tener acceso a su API de datos, mientras que Thomson Reuters, propietaria de Reuters, también ha reconocido tener acuerdos con los que licencia sus noticias para entrenar modelos de lenguaje.