Google permite a los publishers excluirse del IA Data Training

October 4, 2023 Diego Ruiz Cano

Ahora los publishers pueden plantarse y elegir que no se utilicen sus datos para entrenar los modelos de inteligencia artificial de Google, como Bard.

Mientras que rastreadores como Googlebot siguen indexando las webs de los publishers en los resultados de búsqueda de Google, la nueva herramienta del gigante tecnológico, Google-Extended, ofrece a los publishers la opción de no permitir que sus datos se utilicen para entrenar modelos de IA. Según Google, este nuevo control "permite a los publishers gestionar si sus sitios ayudan a mejorar las API generativas de Bard y Vertex AI”.

Sin embargo, Alex Berger, director sénior de marketing de producto de Adform, califica este movimiento de Google como "sospechoso". "Decir: ‘Oye, vamos a plagiar tu contenido, entrenar a nuestra base de datos con cero opt-in y consentimiento de tu parte, pero puedes optar por no hacerlo' me parece un completo disparate. Y luego, basándose en su posición de monopolio, si te eliminan o bloquean es básicamente la muerte. Ahora bromean diciendo que no te penalizan. Pero apostaría dinero a que dentro de 24 meses hay una dimensión de ranking que penaliza radicalmente a cualquiera que no opte por ello", escribió Berger en un post de LinkedIn.

En julio, la web Gizmodo descubrió que Google había revisado su política de privacidad. Su gama de servicios de IA, incluidos Bard y Cloud AI, se entrenarían utilizando datos públicos que la empresa ha raspado en Internet. Google no respondió a más peticiones de comentarios.

Entre líneas

Se puede acceder a Google-Extended a través del archivo robots.txt, que sirve como texto base que informa a los rastreadores web sobre los permisos de acceso al sitio. "A medida que las aplicaciones de IA se expandan, los publishers se enfrentarán a la creciente complejidad de gestionar diferentes usos a escala", afirmó el gigante tecnológico. "Por eso nos hemos comprometido a colaborar con las comunidades web y de IA para explorar enfoques adicionales legibles por máquina para elegir y controlar para los publishers web".

Sin embargo, los publishers se han encontrado en un dilema ante los rastreadores de Google. Bloquearlos podría suponer perder la posibilidad de aparecer en los resultados de búsqueda, que es una forma importante de aumentar el tráfico orgánico y generar ingresos.

Esto ha llevado a algunos publishers, como The New York Times, a tomar una vía legal actualizando sus condiciones de servicio para prohibir el scraping de sus contenidos para entrenar un sistema de aprendizaje automático o de IA.

En otros casos, los publishers han expresado su preocupación por los modelos de IA que se basan en gran medida en sus contenidos, lo que podría perjudicar sus flujos de ingresos. A menudo, los modelos de IA generan contenidos de los publishers sin proporcionar la atribución adecuada.

Esto ha llevado a varias webs, como CNN y Reuters, a bloquear el rastreador web empleado por OpenAI para el raspado de datos y el entrenamiento ChatGPT.

Fuente: Adweek