OpenAI transcribió miles de vídeos de YouTube para alimentar su modelo de IA desafiando los límites legales
Esta semana, The Wall Street Journal informó que las empresas de IA se enfrentaban a obstáculos para obtener datos de entrenamiento de alta calidad. La semana pasada, el medio neoyorquino detalló algunas estrategias adoptadas por estas compañías, muchas de las cuales implican actividades que rozan los límites legales de los derechos de autor en el ámbito de la IA.
El artículo destaca el caso de OpenAI, que, en su búsqueda desesperada por datos de entrenamiento, al parecer desarrolló su modelo de transcripción de audio, Whisper, para superar el obstáculo. Se dice que transcribieron más de un millón de horas de vídeos de YouTube para entrenar a su modelo más avanzado de lenguaje, el GPT-4. Según The New York Times, la compañía era consciente de que esta práctica era cuestionable desde el punto de vista legal, pero creía que estaba amparada por el "uso justo" de los materiales. El presidente de OpenAI, Greg Brockman, habría estado personalmente involucrado en la selección de los vídeos utilizados, según el periódico.
Lindsay Held, portavoz de OpenAI, explicó a medios como The Verge que la compañía elabora conjuntos de datos "únicos" para cada uno de sus modelos con el fin de enriquecer su comprensión del mundo y mantener su competitividad en investigación a nivel mundial. Held agregó que OpenAI recopila datos de diversas fuentes, tanto públicas como privadas, y que están explorando la posibilidad de generar sus propios datos sintéticos.
El NYT informa que OpenAI agotó sus fuentes de datos útiles en 2021 y comenzó a considerar la transcripción de vídeos de YouTube, podcasts y audiolibros como una alternativa. Además de los vídeos de YouTube, OpenAI había entrenado sus modelos con datos que incluían código de GitHub, bases de datos de movimientos de ajedrez y contenido educativo de plataformas como Quizlet.
Google también habría recolectado transcripciones de vídeos de YouTube, aunque la compañía no ha confirmado oficialmente esta actividad. Sin embargo, Matt Bryant, portavoz de Google, señaló que la empresa ha entrenado sus modelos "con cierto contenido de YouTube, de acuerdo con nuestros acuerdos con los creadores de la plataforma".
Según el NYT, tanto Google como Meta se encontraron con dificultades para obtener datos de entrenamiento de alta calidad. Meta, en particular, habría considerado opciones como pagar licencias de libros o incluso adquirir una gran editorial para ampliar su acceso a datos. No obstante, se enfrentaron a limitaciones en el uso de datos del consumidor debido a cambios en políticas de privacidad, especialmente tras el escándalo de Cambridge Analytica.
El mundo de la IA se enfrenta a un desafío significativo debido a la rápida ‘evaporación’ de datos de entrenamiento para sus modelos. Según el Journal, las compañías podrían quedarse sin contenido nuevo para el año 2028. Las posibles soluciones incluyen el uso de datos "sintéticos" creados por los propios modelos de IA o la implementación de estrategias de "aprendizaje curricular", pero ninguna de estas alternativas está completamente probada. Por ahora, las empresas de IA continúan enfrentándose a dilemas éticos y legales en su búsqueda de datos de entrenamiento.
Fuente: The Verge