PROGRAMMATIC SPAIN

View Original

¿Se debería bloquear el rastreador de ChatGPT? La última tendencia en el entorno digital

ChatGPT, el primero de los bots de IA generativa que conocimos masivamente, fue toda una revolución que cambió nuestra forma de crear contenido, especialmente, en los sectores artísticos y publicitarios. Pese a que puede ser una herramienta de gran ayuda, muchas empresas mediáticas y otros sitios web la ven como una amenaza.

De hecho, un análisis de los 1.000 sitios más importantes de la web realizado por Originality AI muestra que el 12% ya bloquea el rastreador de ChatGPT. Según la investigación, la cifra pasó del 9,3% el 22 de agosto al 12% el 29 de agosto de este mismo año.

Los principales sitios web que bloquean GPTBot son Pinterest, Amazon, Quora, Indeed, además de los grandes medios de comunicación estadounidenses como el NYTimes, TheGuardian, CNN.com, USAToday, BusinessInsider, Reuters, WashingtonPost, NPR, CBS, NBC, Bloomberg, CNBC y ESPN.

No obstante, hay fuentes que aumentan esta cifra considerablemente. Kevin Indig, experto en SEO y Growth, sube la apuesta hasta el 84%. Para llegar a este dato, tal y como explica en su blog, agrupó las webs por modelo de negocio y extrapoló quién más es probable que bloquee Chat GPT basándose en los modelos de negocio que ya lo están bloqueando.

“Después de desglosar las entradas, llegué a un total de 938 sitios en la lista. 60 son duplicados. Algunos sitios son semiduplicados”, apunta. De esos 1.000, 410 son publishers, 268 marketplaces, 43 organizaciones, 40 sitios web y 38 apps. Es decir, una cuarta parte de los publishers ya bloquean ChatGPT, seguidos de casi el 15% de los marketplaces.

¿Cuál es el valor de aparecer en Chat GPT?

“La mayoría de los sitios pierden más compartiendo sus datos con Chat GPT de lo que ganan”, dice el autor. Para los publishers, el contenido es el producto. Entregarlo gratuitamente a la IA generativa significa renunciar a la mayoría, si no a la totalidad, de los ingresos publicitarios. Los publishers recuerdan las caídas de ingresos provocadas por las redes sociales y los motores de búsqueda modernos a finales de la década de 2000.

Los marketplaces, por su parte, crean sus propios asistentes de IA y no quieren competencia. Véase Monty de G2, el planificador de IA de Tripadvisor, el ayudante de deberes de Course Hero o el asistente de IA de Quora. Chat GPT rastrea la web por dos razones: recopilar datos frescos para las respuestas (porque la base de datos de Chat GPT solo proporciona datos hasta septiembre de 2021) y mejorar los modelos entrenándolos con más datos.

Conseguir buenos datos es difícil para los creadores de modelos de IA porque necesitan una señal de que el contenido es de alta calidad. Esa señal puede venir de la valoración de fuentes como el New York Times o Wikipedia. Google y Bing tienen la ventaja de utilizar sus señales de clasificación para dar prioridad a los contenidos de alta calidad para el entrenamiento del modelo. El rastreador de Chat GPT no es el único que debe bloquearse si un sitio quiere evitar que los LLM rastreen su contenido: también tiene que bloquear Common Crawl bot, Anthropic AI y otros.

“¿Tendrán los sitios web que bloquear también a Bing? Es probable que Microsoft comparta datos de rastreo con OpenAI debido a su estrecha colaboración y a que Chat GPT ya estaba integrado con Bing hasta que lo retiraron”, comenta.

¿Quién quiere que sus contenidos se indexen en el chat GPT?

Las empresas que no venden contenidos pero podrían utilizarlos para captar nuevos clientes son aquellas que quieren indexar sus contenidos en este chatbot, como señala el artículo. Son, por ejemplo, empresas SaaS, organizaciones sin ánimo de lucro, universidades, escritores que quieren que sus ideas se difundan, vendedores de hardware o aplicaciones.

Bloquear o no Chat GPT en los modelos de negocio depende mucho de la estrategia a seguir. Si eres un publisher o marketplace, una plataforma de contenidos, un diccionario, una plataforma educativa o un sitio web de traductores, probablemente quieras bloquearlos.

Un publisher puede desarrollar herramientas de IA para que la creación de contenidos sea más eficaz. Un marketplace puede entrenar modelos de IA con tus datos y crear su propio asistente dejando que LLM rastree el sitio e incluya las ideas de ese marketplace.