PROGRAMMATIC SPAIN

View Original

‘Web scraping: oportunidades y desafíos regulatorios’, por Fabia Cairoli

El uso del llamado “raspado web” (web scraping), es decir, técnicas automatizadas para extraer información de entornos online, está en aumento. Este proceso incluye la búsqueda y extracción de contenido con diversos propósitos. La Autoridad Italiana de Protección de Datos (Garante) lo describe como una “recolección masiva e indiscriminada de datos (incluidos datos personales) llevada a cabo mediante técnicas de rastreo web [que] se combina con actividades como el almacenamiento y la retención de los datos recopilados por bots para su posterior análisis dirigido, procesamiento y uso”.

Dado el amplio rango de entornos que necesitan ser escaneados y el gran volumen de información, el proceso emplea sistemas automatizados como el análisis de códigos HTML y API (interfaces de programación de aplicaciones). 

Aunque estas técnicas han existido durante mucho tiempo, la atención mediática y regulatoria ha crecido recientemente debido a que el web scraping se utiliza para entrenar sistemas de inteligencia artificial (IA). Una consecuencia del desarrollo creciente de estas tecnologías es su insaciable demanda de datos, cuyo objetivo es mejorar su capacidad para realizar tareas de manera efectiva y ofrecer resultados precisos. Cuanto más precisos sean los resultados, más indispensables se percibirán estas tecnologías como herramientas.

Sin embargo, el uso del web scraping plantea numerosas preguntas, incluyendo los riesgos de violar derechos de propiedad intelectual, regulaciones de privacidad y términos de servicio de los sitios web. No solo es difícil garantizar un enfoque que cumpla con las normativas, sino que también resulta crucial considerar las implicaciones éticas.

Principales cuestiones legales: equilibrar intereses comerciales y protección individual

El creciente uso del web scraping (que ha hecho que el fenómeno sea imposible de ignorar), la creciente presión mediática y el reconocimiento de que los grandes volúmenes de datos amplifican el riesgo de uso indebido (como suele ocurrir con los macrodatos) son algunas de las razones detrás del interés cada vez mayor en esta práctica.

Los principales riesgos asociados con su uso incluyen:

  1. Protección de la privacidad de los usuarios: El web scraping a menudo implica la recopilación de grandes cantidades de datos personales. Esto puede conducir a violaciones de la privacidad, ya que la información podría recopilarse y utilizarse de manera indebida.

  2. Protección de los derechos de propiedad intelectual: El contenido se recopila sin reconocer la autoría de los creadores, quienes, como consecuencia, pierden el control sobre el uso de sus creaciones y de sus datos (un problema que se superpone con las preocupaciones de privacidad).

  3. Cumplimiento de los términos contractuales de las plataformas online: La legalidad del web scraping depende de los términos de servicio que regulan la plataforma que aloja el contenido que se pretende recopilar.

  4. Aplicación de medidas de seguridad adecuadas: La recolección indiscriminada de datos puede llevar a riesgos de brechas de seguridad no controladas.

  5. Garantizar el control de calidad del contenido: Un factor que podría socavar la fiabilidad del contenido generado por sistemas de IA.

El riesgo de violar los requisitos de protección de datos

El web scraping puede resultar incompatible con las regulaciones de privacidad (refiriéndose principalmente al Reglamento General de Protección de Datos -RGPD- de la UE 2016/679), especialmente en lo que respecta a la “transparencia” y la “seguridad”. Los desarrolladores de sistemas de inteligencia artificial (IA), por ejemplo, enfrentan varios procedimientos legales por presuntas violaciones de las normativas de privacidad (uno de los casos más destacados fue presentado por noyb contra OpenAI en abril de 2024).

Los diversos procedimientos en curso destacan que los requisitos para garantizar que las operaciones de web scraping cumplan con el RGPD recaen tanto en la empresa que realiza esta técnica como en la entidad responsable de proteger el contenido.

Dentro de esta división de responsabilidades, se deben abordar los siguientes requisitos:

1. Roles de privacidad de las partes involucradas:
La Autoridad de Protección de Datos de los Países Bajos, en sus Directrices de mayo de 2024, proporcionó ideas prácticas sobre los roles que cada parte debería asumir. Según estas directrices:

    • El sitio web que aloja el contenido y la empresa que realiza el web scraping podrían asumir el rol de responsables del tratamiento de datos (uno o ambos, dependiendo de su relación contractual).

    • Sin embargo, la fase posterior a la recopilación, donde los datos se procesan para fines específicos, sería realizada por la empresa que lo ejecuta, actuando como responsable del tratamiento en este caso.

    • Si el propósito de procesamiento es compartido, las partes pueden actuar como corresponsables del tratamiento.

Definir correctamente los roles, permite determinar qué parte es responsable de obligaciones específicas, como identificar la base legal y proporcionar un aviso de privacidad.

2. Transparencia y base legal:
Es necesario garantizar que los usuarios estén informados sobre cómo se procesarán sus datos y cuál es la base legal aplicable. Aunque esta posición parece intuitiva, dado que todas las operaciones de procesamiento están sujetas a los artículos 6-14 del RGPD, no siempre es fácil implementarla. La Autoridad Italiana, en 2023, describió los requisitos básicos

Este tema está relacionado con uno igualmente debatido: la mera disponibilidad de datos online no justifica su recopilación indiscriminada. Incluso si los datos son públicamente accesibles, deben ser utilizados de acuerdo con el propósito previsto y dentro de las expectativas de los interesados.

Este punto ha sido enfatizado en varias ocasiones, como por ejemplo:

  • Caso C-446/21: El abogado general subrayó que la divulgación de datos sensibles podría calificarse como una de las excepciones del artículo 9 del RGPD. Sin embargo, para que dichos datos sean utilizados, también debe cumplirse una de las condiciones establecidas en el artículo 6 del RGPD.

  • Caso C-252/21: El Tribunal de Justicia declaró: “For the purpose of applying the exception provided for in Article 9(2)(e) of the GDPR, it must be verified whether the data subject has explicitly and through a clear positive act intended to make the personal data in question accessible to the public”.

  • Resolución de agosto de 2023: La Autoridad Italiana de Protección de Datos (Garante) enfatizó que la información (incluso los datos públicamente disponibles) no puede ser utilizada de manera desproporcionada, equilibrando el derecho a la información y la libertad de actividad periodística con los derechos del individuo cuyos datos se publican.

Determinar la base legal adecuada para el web scraping sigue siendo un desafío:

  • Base contractual: El Comité Europeo de Protección de Datos (EDPB) recuerda que no es admisible transferir el riesgo del tratamiento de datos a los usuarios alegando que aceptaron los términos y condiciones de un sitio web. Por esta razón, esta base legal es poco probable que sea aplicable.

  • Consentimiento: Aunque es preferible porque otorga a los usuarios un control máximo sobre sus datos, es difícil de implementar. Esto se debe en parte al desafío de obtener un consentimiento informado (los usuarios a menudo no comprenden completamente el procesamiento involucrado) y porque dicho consentimiento debería ser obtenido de todos los usuarios.

  • Interés legítimo:

    • La Autoridad de Protección de Datos de los Países Bajos señala que el web scraping no califica como un procesamiento adicional, ya que es realizado por terceros y no por el controlador de datos original (mientras que el artículo 6(4) del RGPD se aplica a nuevas actividades de procesamiento realizadas por el mismo controlador).

    • Sin embargo, el interés legítimo sigue siendo una opción viable entre las bases legales aplicables. En mayo de 2024, el EDPB, en un informe sobre las actividades de ChatGPT, mostró cierto escepticismo hacia el interés legítimo, subrayando que parte del equilibrio depende de la implementación de medidas de seguridad apropiadas y de pasos preventivos para evitar la recopilación de ciertos tipos de información (por ejemplo, datos sobre menores o datos sensibles). La Autoridad de Protección de Datos de los Países Bajos, en las Directrices mencionadas, adopta una posición similar: el interés legítimo requiere una estricta “prueba de balance”. En resumen, es esencial determinar si: (i) existe un interés legítimo, (ii) el procesamiento de los datos es necesario para lograr el propósito previsto, (iii) existe un equilibrio entre el interés legítimo y los derechos y libertades de los interesados.

Sin embargo, llevar a cabo esta prueba de balance presenta dificultades adicionales:

  • Naturaleza del interés legítimo: No está claro si el interés perseguido debe constituir un derecho codificado. Este tema está actualmente bajo revisión por el Tribunal de Justicia de la Unión Europea (TJUE) [Nota del autor: el Tribunal de Justicia se ha pronunciado a favor del reconocimiento de intereses legítimos incluso cuando no están respaldados por una institución jurídica].

  • Ambigüedad en el propósito: Según la Oficina del Comisionado de Información del Reino Unido (ICO), la primera condición de la prueba de balance exige que la entidad que realiza el web scraping tenga claro el propósito del uso de los datos. Esto no siempre es sencillo. Además, la situación se complica cuando quienes realizan el web scraping desarrollan sistemas de IA para terceros: ¿puede el uso de esta información por parte de esos terceros seguir considerándose bajo el mismo interés legítimo de la entidad que desarrolló el modelo?

  • El gran volumen de datos y la cantidad de interesados involucrados: Esto convierte el tratamiento en una actividad de alto riesgo.

  • Presencia de datos sensibles o judiciales, así como datos de menores, que aumentan la complejidad de identificar una base legal adecuada.

  • Respeto a las expectativas de los usuarios: Los derechos de privacidad deben garantizar que los interesados puedan oponerse al tratamiento o revocar su consentimiento.

  • Derechos de privacidad: dado que las bases legales más comúnmente utilizadas para los fines de entrenamiento de la IA son el interés legítimo y el consentimiento, será esencial garantizar adecuadamente el derecho a oponerse o revocar el consentimiento.

Riesgos relacionados con la violación de derechos de propiedad intelectual (PI)

Para garantizar una gestión adecuada de los derechos de PI, corresponde a los operadores encontrar un terreno común. A medida que las prácticas de web scraping se vuelven más frecuentes y difíciles de limitar, también aumentan las negociaciones entre los titulares de derechos de PI y los desarrolladores de IA. Este esfuerzo por llegar a acuerdos surge de acusaciones crecientes por parte de operadores sobre la recopilación no autorizada de contenido protegido por PI y datos también protegidos por el derecho civil en un sentido más amplio.

Esto es evidente en casos de actores que han denunciado el uso indebido de su voz (véase, por ejemplo, el reciente caso de Johansson) o en demandas presentadas por autores (véase, por ejemplo, esta noticia). Otro caso significativo es el de The New York Times, que en diciembre de 2023 presentó una demanda contra OpenAI, alegando el uso no autorizado de su contenido y solicitando la eliminación de datos recopilados en violación de los derechos de autor. Este caso es especialmente relevante porque, según OpenAI, The New York Times presuntamente pirateó el algoritmo para reunir pruebas en apoyo de su caso. Solo se puede imaginar las noches de insomnio de los equipos legales de ambas partes, enfrentando una transición de un supuesto uso indebido de derechos de PI a un posible ciberdelito.

Por lo tanto, es un esfuerzo conjunto de todas las partes involucradas lo que está llevando a acuerdos entre desarrolladores de soluciones de IA y ciertos editores. Por ejemplo, el acuerdo entre OpenAI y el editor alemán Axel Springer.

Dicho esto, este tema requiere una evaluación más profunda que no se incluye en esta contribución. 

Riesgos relacionados con la violación de los términos de servicio

El riesgo de incumplir los términos contractuales es bastante alto: incluso antes de la proliferación de actividades de web scraping, los editores ya imponían prohibiciones a la recopilación indiscriminada de información en línea. Estas restricciones se han vuelto aún más estrictas: cualquier recopilación que viole los términos de uso constituye un incumplimiento contractual con posibles consecuencias en términos de compensación por daños.

Preocupaciones de seguridad: ¿qué medidas adoptar?

El web scraping puede exponer a los sitios web a riesgos de seguridad. Los bots automatizados pueden explotar vulnerabilidades en las aplicaciones web, provocando brechas de datos o comprometiendo la integridad del sitio. El web scraping excesivo puede sobrecargar los servidores de un sitio web, causando degradación del rendimiento o posibles caídas del servicio. Esto no solo afecta su funcionalidad, sino que también deteriora la experiencia del usuario.

En junio de 2024, la Autoridad Italiana de Protección de Datos proporcionó unas primeras directrices para que los operadores de sitios adopten medidas destinadas a prevenir o al menos dificultar el web scraping. Entre estas medidas se incluyen:

  1. Creación de áreas restringidas: Áreas accesibles únicamente mediante registro, para retirar datos de una disponibilidad pública presunta.

  2. Prohibición explícita del uso de web scraping en los términos de un sitio web o plataforma: Este punto es interesante, ya que parece ser una aplicación práctica de la obligación del artículo 32 del RGPD sobre los responsables del tratamiento de datos. Además, recuerda el caso de Cambridge Analytica, donde algunos comentaristas consideraron que hubo una atribución excesiva de responsabilidad hacia ciertos operadores.

  3. Monitoreo de solicitudes HTTP:  Supervisar las solicitudes recibidas por un sitio web o plataforma e implementar límites de velocidad (rate limiting).

  4. Adopción de técnicas para restringir el uso de bots:  Una posición similar fue adoptada en la Declaración conjunta publicada en agosto de 2023 por un grupo de autoridades. Este documento también subrayó un tema significativo: la consideración de que el web scraping podría clasificarse como una brecha de datos (data breach).

Problemas más críticos

La recopilación de información sin verificar su fuente y, a menudo, descontextualizadola, plantea un riesgo significativo para quienes dependen de ella. Por ejemplo, las respuestas proporcionadas por los sistemas de inteligencia artificial más populares utilizados por el público no profesional pueden no ser confiables, ya que la lógica detrás de un resultado dado no puede verificarse. Esto implica que es difícil confiar en las respuestas de un sistema de IA, y depender de dichas respuestas podría ser potencialmente problemático (por ejemplo, en el campo de la salud, donde un profesional debe comprender el "por qué" y el "cómo" de un proceso lógico para respaldar su trabajo como investigador científico).

La recopilación de información de fuentes indistintas significa que un sistema de IA producirá el resultado más común o tenderá a inclinarse en esa dirección. Esto implica que, si la fuente de información está corrompida, es sesgada o extremista, los resultados generados por el sistema de IA reflejarán lo mismo, reforzando los sesgos que ya polarizan a la sociedad (como se vio con Tay, que llevó a Microsoft a finalizar el experimento).

Finalmente, y no menos importante, existe una dimensión ética en el web scraping de datos: la acumulación de grandes cantidades de información contribuye a fortalecer el control sobre los usuarios. Además, los proveedores de soluciones de IA tienden a rechazar la responsabilidad. Por ejemplo, cuando se le pregunta explícitamente, ChatGPT responde:

“No, ChatGPT no asume responsabilidad por el contenido que genera. Es una inteligencia artificial diseñada para proporcionar información y asistencia basada en los datos con los que ha sido entrenada. Sin embargo, las respuestas generadas pueden no ser siempre precisas o actualizadas, y no constituyen asesoramiento legal, médico, financiero ni de ningún otro tipo profesional. Siempre se recomienda buscar la opinión de un experto humano cualificado para asuntos críticos o decisiones importantes”, como se establece en sus términos de servicio.

En un contexto donde no está claro si el elemento clave es el dato original o el resultado de su procesamiento, determinar la responsabilidad no es sencillo. Según los puntos de vista expresados por diferentes desarrolladores de sistemas de IA, esta responsabilidad, por ejemplo, podría no atribuírseles. De hecho, el tema es ampliamente debatido y es objeto de regulaciones (algunas ya finalizadas, otras aún en progreso) que buscan aportar claridad interpretativa.

AI Act, jurisprudencia y datos sintéticos: conclusiones

El auge de los sistemas avanzados de inteligencia artificial (IA) ha llevado a un cambio significativo en el enfoque de las autoridades, ejemplificado por el desarrollo del AI Act. El objetivo es imponer regulaciones estrictas y garantizar su cumplimiento. Sin embargo, el problema central parece ser que estas tecnologías dependen inherentemente del uso de información que, "por defecto", parece violar diversas disposiciones regulatorias y de seguridad. Donde el legislador puede no haber tenido éxito por completo, serán los tribunales quienes deberán intervenir, una vez más llevando la ley a una aplicación práctica.

Los numerosos casos mencionados son solo un ejemplo. Además, la opinión pública está constantemente influenciada por las contribuciones de asociaciones que protegen los derechos digitales. Por ejemplo, una reciente intervención de noyb parece haber detenido las intenciones de Meta de comenzar a usar datos de usuarios en Europa para entrenar sistemas de IA.

Esto también plantea la cuestión de qué medidas podrían ser adecuadas para mitigar los riesgos vinculados al uso de sistemas de IA y si realmente existe espacio para que estos sistemas coexistan con el marco regulatorio actual. Además, frente a las solicitudes de eliminación de datos recopilados de manera indebida, persiste la incertidumbre sobre qué información debería eliminarse.

Los peligros potenciales son claros: la posible pérdida de control sobre los propios datos, algo que preocupa a los usuarios, y la falta de confiabilidad de los contenidos generados por sistemas de IA. Estas cuestiones fueron destacadas por el Supervisor Europeo de Protección de Datos en una declaración reciente, "Orientaciones sobre el Uso de la IA Generativa".

De hecho, dada la complejidad en la gestión de la información y el posible abuso de los datos disponibles, los datos sintéticos (información generada artificialmente) probablemente se volverán cada vez más importantes. Sin embargo, estos conjuntos de datos tienden a incorporar sesgos que se refuerzan con el uso repetido, lo que podría agravar los problemas existentes en lugar de mitigarlos.

Fabia Cairoli, abogada experta en protección de datos y tecnología