‘Datos de calidad: una mina de oro para los medios’, por Pepe Cerezo

July 18, 2024 Pepe Cerezo

El concepto de digitalización sepultó el término Sociedad de la Información. Sin embargo, a la luz del auge de la IA generativa, deberíamos rescatarlo de nuevo. Una vez que la digitalización se ha extendido a los ámbitos social, económico y político, es el corpus de datos el que configura la piedra angular de la sociedad del s. XXI. Mas aún, podemos decir que la IA es un nuevo estadio en la evolución tecnológica, es la digitalización super-vitaminada con datos.

Los modelos fundacionales de IA basados en aprendizaje profundo (Deep Learning) requieren una ingente cantidad de datos para ser efectivos y precisos. En concreto, la IA-Gen se basa en los denominados Lenguajes de Gran Tamaño (Large Language Models o LLM, por sus siglas en inglés), un tipo de modelo diseñado para entender y generar texto de manera muy similar a como lo haría un humano (lenguaje natural) y que requiere un corpus de datos e información para poder “adiestrarlos”. Modelos como GPT, BERT, etc. han sido entrenados con inmensos corpus de textos provenientes de Internet: artículos de noticias, blogs, entre otros contenidos. A partir de de estos datos aprenden y extraen patrones sobre la estructura del lenguaje, la semántica, aportan contexto, etc.

La calidad de los datos afecta directamente a la capacidad de los modelos para interactuar de manera efectiva con los usuarios. Pero no todos los datos son igual de valiosos. Uno de los posibles riesgos que esconde la IA gen es lo que algunos científicos han denominado el colapso del modelo. El término hace referencia a las consecuencias que tendría en el caso de que el contenido generado por IA (contenido sintético) superara en cantidad al contenido original disponible en Internet, del que se nutren mayoritariamente los modelos fundacionales.

A medida que los contenidos generados por IA vayan en aumento, la diversidad de datos decrecerá. Si los modelos de IA se entrenan predominantemente con datos generados por otros modelos, la diversidad de información se reduce, afectando inevitablemente la calidad del aprendizaje.

El uso de este contenido para entrenar nuevos modelos puede causar defectos irreversibles en su precisión y funcionalidad. Por ello, según los investigadores de la Universidad de Cornell, el valor de los datos generados por humanos será cada vez más valioso en comparación con los generados por modelos LLM.

Las compañías propietarias de los modelos saben que es imperativo incorporar constantemente una proporción significativa de contenido original y variado. Por ello, los datos y contenidos de los medios son la columna vertebral para el desarrollo y perfeccionamiento de los modelos de IA. Estos datos no solo permiten a la IA aprender y evolucionar sino que también la capacitan para comprender, contextualizar e interactuar mejor con el “mundo real”.

La capacidad de procesar y analizar datos se traduce en modelos de IA más eficientes y precisos. Los datos continuos sirven además como set de validación en la medida en que ayudan en las técnicas de evaluación de precisión y en el ajuste de hiperparámetros destinados a optimizar el rendimiento del modelos.

En este contexto, podemos entender el valor que aportan los medios de comunicación como una fuente de datos diversos, fiables y, en gran medida, etiquetados, lo que les confiere un papel esencial para entrenar modelos de IA de fibra que den resultados eficientes.

Sin duda, la calidad, la diversidad, la coherencia y el etiquetado son cualidades que debe tener un corpus. En el aprendizaje de los modelos, la calidad de los datos mejoran significativamente los modelos de IA. La diversidad temática es otro de los puntos fuertes ya que abarca información sobre temas de actualidad e históricos; sin olvidar la coherencia que permite un mayor ajuste del contexto y ayuda a reducir los riesgos de errores y alucinaciones. Por otra parte, también es valioso el trabajo de etiquetado y metadatos que ofrecen los corpus de los medios, lo que facilita el proceso de supervisión y aprendizaje.

En este sentido, tan importante es la actualización continua, que permite a los modelos de IA adaptarse a los cambios en tiempo real, como los datos históricos que en muchos casos recorren largos períodos de tiempo. ¡Qué gran valor cobra de nuevo el esfuerzo relajado por la digitalización de las hemerotecas!

Ante esta realidad, surge una poderosa vía de nuevos ingresos. De repente, los medios están sentados sobre una potencial mina de oro. Por ello, en este nuevo escenario es necesario tener una posición de fuerza que permita negociaciones más equilibradas.

Las negociaciones sobre el uso de datos de medios por parte de modelos de IA son esenciales para establecer términos justos que protejan los intereses de los creadores de información y aseguren la calidad del contenido. Esto va más allá de un mero acuerdo de compensación económica al uso, ya que los medios están cediendo el “core” de su negocio.

Pepe Cerezo, fundador de Digital Journey y board member de PROGRAMMATIC SPAIN