PROGRAMMATIC SPAIN

View Original

Data Labellers: los trabajadores invisibles que hacen posible la IA

Los Chatbots de IA como ChatGPT, Bard, Claude y LLaMA pueden explicar conceptos complejos como la gravedad en un lenguaje comprensible para un niño de cinco años. Y los generadores de imágenes como Midjourney, DALL-E y Stable Diffusion convierten las palabras en imágenes con un clic del ratón. Milagrosas proezas posibles gracias al entrenamiento de los sistemas con conjuntos de datos masivos, creados con la ayuda de los Data Labellers.

Los data labellers, también llamados profesionales de los datos, etiquetan y clasifican la información para entrenar a las IA´s. Para formar a una IA generativa una red neuronal consume una enorme cantidad y variedad de datos, emerge un modelo y nace una aplicación.

En el caso de los chatbots, esos datos se obtienen principalmente de Internet. Normalmente incluye fuentes como libros, Wikipedia, arXiv, GitHub y el archivo web de Common Crawl. Los data labellers hacen anotaciones manuales para que los sistemas de IA puedan aprender a desenvolverse en la interacción humana. Un buen ejemplo de por qué esto es necesario fue cuando los hackers de ChatGPT convencieron al bot para que escribiera instrucciones para fabricar napalm. La información está disponible en los datos de entrenamiento de la IA, pero explicársela a los usuarios es inapropiado. Los data labellers crean ese contexto, por lo que la IA aprende a no dar la receta.

Los generadores de imágenes funcionan de forma similar. DALL-E2 utiliza CLIP (Contrastive Language-Image Pre-training) para conectar palabras e imágenes, por ejemplo una foto de un perro en Wikipedia con el título "caniche".

Pero otros utilizan ImageNet, una de las mayores bases de datos de imágenes. Contiene 14 millones de fotos etiquetadas con 22.000 categorías de objetos como "globo" o "fresa". Su creación fue un trabajo ingente que requirió 25.000 data labellers.

A medida que las organizaciones empiezan a desarrollar IA para sus fines específicos, necesitan organizar sus datos. Un ejemplo, al crear una IA de servicio al cliente para una compañía de seguros, el programa tiene que saber que "renovar" y "accidente" son palabras clave y remitir a los clientes al departamento correcto. O, si se dedica a la reparación de coches, la IA tiene que saber identificar piezas en una foto y añadirlas a un presupuesto.

En ambos casos, lo más probable es que subcontrate a una empresa de etiquetado de datos la preparación manual de los datos de formación, que requiere mucho trabajo. Ahí es donde está la función clave de los data labellers.

Fuente: GenerativeAI