Aunque el Reglamento 2024/1689 de Inteligencia Artificial (RIA) no regula la propiedad intelectual, sí reconoce la tensión existente entre los proveedores de tecnología y los creadores de contenido. Buscando un equilibro entre estas dos pulsiones, regula la implementación de mecanismos de exclusión que permitan a los titulares de obras protegidas impedir su uso para el entrenamiento de modelos de inteligencia artificial (IA), y exigir que los proveedores revelen qué fuentes han utilizado. El cumplimiento será exigible desde el 2 de agosto de 2025, por lo que toca asegurar que los proveedores de modelos de IA de propósito general -que incluyen la IA generativa- están en posición de cumplir.
El déjà-vu jurídico: cada salto tecnológico sacude las normas de propiedad intelectual
Cada revolución tecnológica tensiona los cimientos de la normativa de propiedad intelectual. El botón REC del Betamax desató el célebre caso Sony v Universal y abrió la puerta a la copia privada, que permitió a los usuarios grabar programas retransmitidos por televisión en el ámbito doméstico para poder verlos más tarde; Napster convirtió la música en archivos que cambiaban de mano en segundos y forzó el nacimiento de las licencias digitales; y hasta los buscadores web se vieron cuestionados hasta que la excepción de cita y la jurisprudencia del Tribunal de Justicia de la Unión Europea ampararon sus snippets.
Ahora esa tensión se traslada a la inteligencia artificial (IA) generativa. Cada semana surge una nueva demanda de periódicos, fotógrafos o editoriales que denuncian la ingesta masiva de sus contenidos para entrenar modelos sin autorización ni remuneración.
Mecanismos de exclusión u ‘opt-out’: el derecho a decir “no me uses para entrenar”
Un eje central de la regulación europea en materia de propiedad intelectual es el mecanismo de “opt-out” o derecho de exclusión introducido por la Directiva 2019/790 sobre derechos de autor en el mercado único digital. En concreto, su artículo 4(3) establece una excepción que permite la minería de textos y datos (base del entrenamiento) sobre contenidos protegidos, siempre que se tenga acceso legal a los mismos, salvo que el titular haya reservado sus derechos para excluir su contenido de estas actividades. O, dicho de otro modo, los creadores de contenidos u otros titulares tienen derecho a oponerse a que sus obras sean leídas, analizadas, extraídas o reproducidas para entrenar modelos de IA (a menos que la finalidad sea puramente científica).
El RIA aborda este mecanismo de opt-out y lo convierte en una obligación expresa para los desarrolladores de IA. En concreto, su art. 53.1(c) exige a los proveedores que establezcan directrices para detectar y cumplir las reservas de derechos que puedan haber efectuado los titulares de obras protegidas. Es decir, los sistemas de IA (GPAI) deben estar diseñados para identificar y aceptar las señales de “no usar” que los titulares hayan asociado a sus contenidos. El RIA incluso menciona que deben utilizar tecnologías de vanguardia para llevar a cabo esta tarea, reflejando la expectativa de que sea la propia industria la que desarrolle herramientas técnicas eficaces (por ejemplo, rastreadores de metadatos, arañas web que respeten robots.txt, identificadores digitales, etc.) para filtrar contenidos sujetos a opt-out.
El caso Kneschke v LAION del tribunal de Hamburgo (2024) ilustra las dificultades en la práctica, ya que, en este caso, se consideró que basta una cláusula clara en los términos y condiciones de la web (e.g., prohibido el scraping por bots) para entender que estamos ante un opt-out vinculante, sin exigir formato legible por máquina ni archivo robots.txt. La sentencia está apelada, pero sirve como aviso para navegantes en el sentido de que determinados tribunales podrían reconocer reservas de derechos expresadas en lenguaje natural, aunque la industria apueste claramente por la adopción de estándares de comunicación máquina-a-máquina.
Por otro lado, esta obligación no aplica únicamente a los proveedores establecidos en la UE, sino a todos aquellos que introduzcan un modelo en la UE, independientemente de dónde se haya llevado a cabo el entrenamiento o la compilación del dataset. ¿El objetivo? Evitar ventajas competitivas basadas en el entrenamiento de modelos en países con normativas más laxas.
Obligaciones de transparencia: enseñar (parte) del ‘dataset’
En segundo lugar, el RIA impone obligaciones de transparencia a los proveedores de modelos GPAI con el objeto de arrojar luz sobre los materiales realmente utilizados para el entrenamiento de sus modelos y, con ello, poder verificar si han cumplido con las exclusiones realizadas por los titulares.
En concreto, el art. 53.1(d) RIA exige a los proveedores que elaboren y pongan a disposición del público un resumen suficientemente detallado del contenido que hayan utilizado en el entrenamiento del modelo GPAI, con arreglo al modelo que facilitará la Oficina de IA. Este resumen deberá incluir información sobre las principales fuentes de contenidos empleadas. El objetivo es que, sin revelar secretos empresariales -la configuración del dataset lo es- ni detalles excesivamente técnicos, se proporcione una visión global que permita a terceros interesados saber qué tipo de contenidos han sido utilizados.
¿Excepciones a esta obligación? Pocas. Básicamente, los desarrolladores de modelos con fines no profesionales o de investigación científica. Ahora bien, el RIA sí prevé que se establezcan formas simplificadas de cumplimiento para las pymes.
El Código de Buenas Prácticas que no llega…
Esta es la teoría, pero la implementación práctica está lejos de ser sencilla. El propio RIA contempla la elaboración de un Código de Buenas Prácticas para facilitar el cumplimiento de las obligaciones para proveedores de GPAI, exigibles desde el 2 de agosto de 2025. El Código debería haberse aprobado el 2 de mayo de 2025 pero, a día de hoy, no existe fecha previsible para su aprobación final.
En materia de derechos de autor, el tercer borrador del Código de Buenas Prácticas (publicado el 11 de marzo de 2025) establece los siguientes compromisos:
- Crear, mantener y aplicar una política (documento único) que explique cómo el proveedor del modelo GPIA respeta la normativa europea de derechos de autor y asigne responsables internos.
- “Scraping responsable”, de modo que, al rastrear la web, solo se utilicen contenidos legalmente accesibles, sin burlar paywalls ni medidas anticopia, y excluyendo dominios “pirata” reconocidos por tribunales o autoridades.
- Detectar y acatar los mecanismos de exclusión u opt-out, mediante robots.txt u otros metadatos estandarizados, colaborando con estándares comunes y facilitando información sobre sus rastreadores.
- Cuando se usen datasets de terceros, intentar verificar que también se recopilan respetando las reservas de derechos.
- Reducir el riesgo de que los modelos memoricen obras protegidas y repitan resultados que vulneren derechos de autor (e., overfitting).
- Designar un punto de contacto visible y un procedimiento electrónico para que los titulares denuncien incumplimientos.
No obstante, se trata de un mero borrador. La discusión continúa y crece el escepticismo sobre la publicación de la versión final en 2025, lo que alimenta las peticiones de la industria para aplazar la aplicación de las obligaciones del RIA por falta de directrices claras.
La brújula (voluntaria) de la OCDE
Por su parte, en febrero de 2025 la OCDE publicó el informe Intellectual Property Issues in AI Trained on Scraped Data, esbozando la creación de un código voluntario de conducta en materia de scraping y derechos de autor para desarrolladores de IA que, no siendo obligatorio, sí resulta de extrema utilidad como referencia técnico-política. Así, tras realizar un análisis global con especial atención a la excepción europea de minería de datos y a la doctrina estadounidense del fair use, el informe concluye que la incertidumbre sobre su alcance es, a día de hoy, el principal obstáculo normativo para el desarrollo de la IA generativa.
Frente a este panorama, la OCDE recomienda la adopción de marcos voluntarios de buenas prácticas basada en tres ejes:
- Transparencia en la cadena de datos, divulgando las fuentes y preservando metadatos que permitan a los titulares rastrear usos no autorizados.
- Adopción de mecanismos estandarizados de exclusión, abogando por una etiqueta legible por maquina común (extensión de txt con la directiva ai-policy:disallow o metadatos embebidos) y el desarrollo de un registro público de reservas de derechos.
- Soluciones de licencia colectiva y cláusulas contractuales tipo que faciliten acuerdos rápidos entre creadores y empresas de IA cuando el opt-out no sea deseable, es decir, en aquellos supuestos en los que el titular del contenido no quiere excluir el entrenamiento, sino percibir una compensación por el uso.
Las directrices de la OCDE no son vinculantes, pero se trata, sin duda, de una referencia política de primer nivel para los reguladores. Mientras esperamos el refuerzo del Código de Buenas Prácticas, y en ausencia de una moratoria, estas directrices pueden servir como guía para cumplir con las obligaciones que el RIA impone a los proveedores de modelos GPAI.
‘Checklist’ inmediato para proveedores de GPAI
A modo de cierre, los proveedores de modelos GPAI deben:
Conclusión
Queda menos de un mes. La inacción y la espera ya no son una opción. Los proveedores de modelos GPAI deben cumplir con los mecanismos de opt-out y transparencia exigibles por el RIA para evitar sanciones y, sobre todo, para construir confianza con titulares y usuarios. Y es que hay dos formas de afrontar el cumplimiento normativo en materia de IA, como una carga o como una ventaja competitiva. El reto ahora no es cuestionar el contenido del RIA sino decidir cómo vamos a cumplir con sus obligaciones.