Por qué los datos no son el nuevo petróleo pero sí tienen un profundo impacto económico

La frase "los datos son el nuevo petróleo" fue acuñada por Clive Humby en 2006 y desde entonces ha sido ampliamente repetida. Sin embargo, la analogía sólo tiene mérito en algunos aspectos y el impacto económico más amplio de los datos se ha silenciado fuera de unas pocas empresas selectas de tecnología y finanzas. Así empieza una de las últimas reflexiones publicadas Clemens Mewald, Head of Product en Instabase, que apunta que las diferencias reales entre el petróleo y los datos “son fundamentales”.

“Sobre todo, el petróleo es una mercancía. Su calidad está estandarizada y es medible, lo que hace que el petróleo de distintas fuentes sea sustituible (en términos económicos es un "bien homogéneo"). Es omnipresente y tiene un precio bien establecido. Y no menos importante, si se tiene un barril de petróleo, no se puede simplemente hacer una copia para producir otro: el petróleo es un recurso limitado que hay que sacar de la tierra”, señala.

A su juicio, los datos, en cambio, son un bien heterogéneo: su variedad es ilimitada y el valor de cada uno de ellos no puede medirse objetivamente. “Cuando dos partes intercambian un bien, el vendedor tiene que fijar un precio y el comprador tiene que establecer su disposición a pagar”, dice.

Esto se complica por dos atributos de los datos, como explica:

  1. El coste marginal de vender los mismos datos a otro comprador es cero. Para Mewald, el coste de producción de los datos es muy variable (secuenciar un genoma es más costoso que tomarse la temperatura), pero una vez que existen, ese coste es irrecuperable. El proceso de venderlos a otro comprador es el simple acto de copiarlos que, a efectos prácticos, es cero.

  2. Es difícil establecer el valor de los datos sin "consumirlos". Una base de datos de clientes potenciales sólo tiene valor si se traduce en ventas reales. El valor del mismo conjunto de datos depende en gran medida del comprador y, en este sentido, los datos se parecen más a los "bienes de experiencia", como los libros o las vacaciones, apunta.

En este artículo, el experto sostiene que los datos son uno de los bienes más infrautilizados y, en consecuencia, infravalorados. Además, explica cómo el intercambio programático de datos en tiempo real que podría tener un profundo impacto en la economía de los datos.


¿Por qué debe importarnos la economía de los datos?

Distinción entre 1st party data y 3rd party data

Cuando la mayoría de las empresas piensan en datos, piensan en los datos que poseen. First-party data es un tipo de datos que suele recopilarse de sitios web. Por ejemplo, el historial de búsquedas y clicks de Google forma parte de su corpus de 1st party-data.

Por otro lado, 3rd party-data son datos que no pertenecen directamente a quien los recopila. Por ejemplo, si preguntamos cómo se detecta el spam en el correo electrónico, las respuestas más comunes incluyen: erratas, gramática o mención de palabras clave específicas. Una respuesta ligeramente mejor es "si el remitente forma parte de tus contactos o no", no porque sea cierta (hay más remitentes válidos de correo no deseado fuera de tus contactos que en ellos), sino porque tiene en cuenta una fuente de datos ajena al propio correo electrónico: tus contactos.

“Aunque sólo sea a efectos de esta anécdota, digamos que la señal más importante para detectar el spam por correo electrónico es en realidad la antigüedad del dominio del remitente. Una vez dicho esto parece intuitivo: los spammers registran con frecuencia nuevos dominios que, en poco tiempo, son bloqueados por los proveedores de correo electrónico”, explica el autor, quien señala que la mayoría de la gente no piensa en esta respuesta porque la antigüedad del dominio del remitente no forma parte de su "conjunto de datos de primera parte", que sólo contiene cosas como los correos electrónicos del remitente y del destinatario, el asunto y el cuerpo del correo electrónico.

Relacionar y unir datos

“Extrapolando la idea de que se puede detectar mejor el spam por correo electrónico simplemente aumentando el conjunto de datos con la antigüedad del dominio del remitente, cabe imaginar que hay infinitas formas de aplicar el mismo principio”, dice el experto, que, a continuación, muestra un ejemplo sencillo de los datos que se pueden encontrar a partir de una dirección.

RenTech fue una de las primeras empresas que utilizó datos alternativos, como imágenes por satélite, web scraping y otros conjuntos de datos de origen creativo, para obtener una ventaja en sus operaciones. UBS utilizó imágenes por satélite para controlar los aparcamientos de las grandes superficies y correlacionar el tráfico de vehículos con los ingresos trimestrales, lo que le permitió predecir con mayor exactitud los beneficios antes de su publicación.

Sólo en Estados Unidos hay más de 300.000 proveedores de datos, y probablemente miles de millones de conjuntos de datos. Muchos de ellos podrían proporcionar una ventaja competitiva a las empresas, el único límite es la creatividad, apunta.

El valor de utilizar datos externos

Mientras que el valor de los datos externos para las empresas de comercio cuantitativo es inmediato y significativo, los ejecutivos de otros sectores han tardado en darse cuenta de ello. En el caso de Amazon, podría ser qué producto es más probable que compre un cliente determinado. Para una empresa de prospección petrolífera, podría ser dónde descubrir el próximo yacimiento de petróleo.

En el caso de las cadenas de supermercados, el autor explica que pierden aproximadamente un 10% de sus alimentos por deterioro. “Si pudieran predecir mejor la demanda, podrían mejorar su cadena de suministro y reducir ese deterioro. Con un margen bruto del 20%, cada punto porcentual de reducción del deterioro mejoraría su margen bruto en 0,8 puntos porcentuales. Así pues, para una empresa como Albertsons, cada punto porcentual de mejora en la predicción de la demanda podría suponer unos 640 millones de dólares al año. Los datos alternativos podrían contribuir a ello”, manifiesta.

Los datos externos han conseguido convertirse en un mercado estimado en 5.000 millones de dólares que crece un 50% año tras año, y los mercados que comercian con esos datos representan otro mercado de 1.000 millones de dólares.

Esto representa sólo una pequeña fracción del tamaño potencial del mercado por al menos dos razones:

  1. Aunque todas las empresas deberían poder beneficiarse del third-party data, sólo las más maduras analíticamente saben cómo aprovecharlo en su beneficio.

  2. Las que se atreven a intentarlo se ven frenadas por el anticuado proceso para descubrir y adquirir third-party data.

Para ilustrar esta situación, Clemens Mewald recurre a los anuncios programáticos, que, en su opinión, pueden enseñarnos cómo mejorar la economía de los datos.


La evolución del proceso de compra de anuncios

No hace mucho, en 2014, la compra programática de anuncios representaba menos de la mitad del gasto en publicidad digital. Los anunciantes decían a una agencia a qué tipo de público querían llegar y, a continuación, la agencia analizaba los publishers con los que trabajaba y su "inventario" (páginas de revistas, vallas publicitarias, espacios publicitarios en televisión, etc.). Después, elaboraba un plan sobre dónde realizar una campaña para cumplir esos requisitos.

Tras algunas negociaciones, la empresa y la agencia acababan firmando un contrato. La creatividad publicitaria se desarrollaba, revisaba y aprobaba. Se enviaban los pedidos de inserción y, finalmente, se ponía en marcha la campaña publicitaria. Unos meses más tarde, la empresa recibía un informe sobre cómo creía la agencia que había ido (basado en un pequeño conjunto de datos de muestra).

Entonces llegó Google, que, entre otros, popularizó lo que se conoce como compra programática de anuncios. Google creó su propio adexchanger (AdX) que conectaba el inventario de múltiples publishers con diferentes redes publicitarias. A medida que los usuarios realizaban búsquedas o visitaban sitios web, se realizaba una subasta en tiempo real que enfrentaba a todos los anunciantes y elegía al mejor postor (en realidad, el segundo mejor postor) para mostrar sus anuncios.

“Así fue como la compra de publicidad pasó de ser un calvario de meses con muchos humanos implicados y muy poca transparencia a una transacción en tiempo real que fijaba los precios (a través de la subasta) y proporcionaba una medición instantánea de las impresiones (y a veces incluso de las conversiones). Este nivel de velocidad, liquidez y transparencia provocó una explosión en el mercado de la publicidad online y la compra programática de anuncios representa ahora cerca del 90% de los presupuestos de publicidad digital”, zanja.

El anticuado proceso de compra de datos

Comprar datos hoy en día es incluso más doloroso que comprar anuncios hace 20 años, dice el autor, quien desglosa las fases de este proceso.

  • Descubrimiento: La organización interesada tiene que pensar en todos los datos que necesita, ir a todos los proveedores de datos y buscarlos. No obstante, la mayoría de los "mercados de datos" son básicamente búsquedas de texto libre sobre descripciones.

  • Adquisición: Una vez que una empresa encuentre lo que cree que necesita, tendrá que averiguar cómo obtener esos datos. Normalmente, hay que hablar con un proveedor de datos, informarse sobre las licencias, negociar las condiciones y firmar un contrato. Este proceso se repite varias veces para diferentes con third-party data de diferentes proveedores, cada uno con sus propios contratos, condiciones y licencias.

  • Integración: Una vez obtenidos los datos, puede resultar que no sean tan útiles como se pensaba.

Este proceso puede llevar desde varios meses hasta más de un año. En un intento de construir una organización más rápida, algunas consultoras están sugiriendo que la solución es contratar "equipos de abastecimiento de datos" enteros y crear relaciones con agregadores de datos.


La economía de los datos necesita un intercambio programático de datos en tiempo real

“La razón por la que invoco el ejemplo de la compra programática de anuncios es mi firme convicción de que la economía de los datos puede evolucionar de la misma manera, lo que se traduciría en un impacto económico comparativamente profundo”, declara tajante el autor.

  • Descubrimiento y adquisición: “Consideremos un intercambio de datos que reuniera a todos los proveedores de datos (el "inventario") y racionalizara las licencias para poder facilitar las transacciones de forma programática”, explica. “Los consumidores de datos proporcionarían cualquier first-party data y expresarían la tarea en la que están interesados (por ejemplo, predecir la demanda), así como el valor que dan a cada unidad de mejora”.

    En este sentido, apunta que el intercambio de datos identificaría automáticamente qué third-party data proporcionaría una mejora cuantificable a esa tarea, realizaría una subasta en tiempo real basada en el presupuesto del consumidor de datos y elegiría de forma óptima el subconjunto de third-party data que cumpliera sus requisitos. Esta proximidad a la tarea real resolvería los problemas de descubrimiento y extracción de valor de los mercados de datos existentes, opina, que tienen que tratar los datos como una mercancía “y no como el bien de experiencia que son”.

  • Integración y mejora continuas: Dado que la mayoría de las tareas predictivas valiosas son de naturaleza continua, prosigue el autor, la bolsa se convertiría en el centro de transacciones repetidas que aportan más valor con el tiempo a medida que nuevos proveedores y consumidores de datos se incorporan al ecosistema. Así, ejecutar la subasta cada vez que se realiza una tarea predictiva (y no sólo una vez cuando se decide qué datos se quieren comprar) garantizaría que los nuevos proveedores de datos lleguen a la distribución inmediatamente, y que los consumidores de datos se beneficien del inventario de datos más reciente y del descubrimiento de precios. “Al igual que la compra de publicidad evolucionó de offline y manual, las transacciones de datos pasarían a ser en tiempo real, programáticas y, lo que es más importante, medibles”, dice.

Este "intercambio de datos programáticos en tiempo real" proporcionaría incentivos económicos a todos los participantes en el mercado y así lo explica Clemens Mewald:

  • Tanto los proveedores de datos como los consumidores se beneficiarían de una mayor capacidad de descubrimiento. Los mercados de datos tienen un “problema de long-tail”: hay una enorme cantidad y variedad de datos, y es casi imposible descubrir con los métodos actuales los datos más relevantes para cualquier tarea/aplicación.

  • La estandarización de las condiciones y licencias, de modo que las transacciones pudieran realizarse mediante programación, mejoraría la velocidad y liquidez de la economía de datos, eliminando fricciones en el proceso de compra y abriéndolo a un público más amplio. Como resultado, el mercado global se ampliaría significativamente.

  • Al fijar el precio en una subasta basada en el valor subjetivo para cada consumidor de datos, los consumidores obtienen un mejor trato si hay varios proveedores de datos con datos comparables, y los proveedores pueden discriminar el precio entre consumidores que valoran el mismo tipo de datos de forma diferente.

  • La agregación de la demanda de los consumidores de datos en una plataforma proporcionaría información muy valiosa a los proveedores de datos. Por ejemplo, dadas todas las tareas y la disposición a pagar de la demanda, el intercambio de datos podría deducir exactamente qué datos faltan en el lado del proveedor, lo que ayudaría a priorizar la adquisición y creación de datos.


Problemas difíciles que hay que resolver

Según el autor del citado artículo, este intercambio programático de datos también debe abordar la concesión de licencias y la entrega, de forma parecida a lo que hizo Spotify con la música. Estos son los problemas más urgentes a resolver:

Comercial

A nivel comercial, la concesión de licencias de datos es relativamente nueva y no hay mucha estandarización. Cada proveedor de datos tiene sus propias licencias que son incompatibles con las de los demás. Para facilitar el intercambio, es necesario racionalizar la concesión de licencias.

Por otro lado, los mercados de datos pueden temer la desintermediación. El ecosistema de datos es complicado. Para los proveedores de datos, se trataría de un canal de distribución totalmente nuevo.

Los mercados y agregadores de datos, por su parte, son el equivalente de las discográficas que pueden querer bloquear el acceso directo de los proveedores de datos a un intercambio programático de datos.

Introducir un nuevo modelo de precios en una industria "antigua" es difícil. Los mecanismos de liquidez de un intercambio programático ampliarían significativamente tanto la demanda como la oferta, y el mecanismo de fijación de precios optimizaría la captura de valor. En conjunto, un intercambio de datos programáticos sería una victoria para los proveedores de datos, señala.

Aspectos técnicos

La detección semántica de tipos está anclada en el pasado. Para identificar automáticamente qué conjuntos de datos podrían unirse, primero hay que entender el tipo semántico de los datos. Por ejemplo, ¿se trata de un número, un código postal o una moneda? “La mayor parte de la detección del tipo semántico se basa en la heurística, pero existen enfoques más modernos”, comenta.

“No se puede descubrir datos por la fuerza bruta. El enfoque ingenuo para averiguar qué third-party data beneficia más a su tarea sería simplemente 'probar' todos los datos para identificar cuál aporta más valor. Afortunadamente, hay avances modernos en campos como la teoría de la información y la síntesis de datos que hacen que este problema sea manejable”, continúa.

Además, unir datos es difícil. Una vez que se conocen los tipos semánticos y se dispone de un mecanismo para identificar qué third-party data aportaría un beneficio significativo, hay que unir first-party data y third-party data de formas interesantes. Por ejemplo, los datos meteorológicos pueden venir con la longitud y latitud de la estación meteorológica que no coincide con el aeropuerto para el que se quieren predecir los retrasos de los vuelos. O puede que los datos de tráfico peatonal lleguen cada hora y haya que averiguar si se quiere utilizar una media, un máximo o un enésimo percentil para el agregado diario.

Por último, a los proveedores de datos no les gusta ceder sus datos (porque se pueden replicar muy fácilmente). Sin embargo, existen técnicas que permiten aumentar las predicciones preservando el acceso a los datos y la privacidad. “Creo que el impacto de un intercambio programático de datos en tiempo real será profundo y, afortunadamente, los recientes avances en IA ofrecen soluciones a los retos antes mencionados. Por mi parte, espero un futuro en el que los datos sean una experiencia y no una mercancía”, termina el artículo.


Fuente: Towards Data Science

Anterior
Anterior

¿Deberían las agencias publicitarias cambiar su modelo de negocio para sobrevivir?

Siguiente
Siguiente

Las grandes tecnológicas se enfrentan al problema del "falso trabajo", que puede conllevar despidos