Elon Musk afirma que la IA ha agotado los datos del mundo real y apuesta por el uso de “datos sintéticos”
Elon Musk, fundador de la empresa de Inteligencia Artificial xAI, ha declarado que los datos del mundo real disponibles para entrenar modelos de inteligencia artificial (IA) “se han agotado”. “Básicamente, hemos agotado la suma acumulativa del conocimiento humano… en el entrenamiento de IA. Eso ocurrió el año pasado”, explicó Musk a Mark Penn, presidente de Stagwell durante una charla.
Esta postura refuerza lo señalado en diciembre por Ilya Sutskever, ex Chief Scientist de OpenAI, quien destacó que la industria de la IA había alcanzado el “pico de datos”. Ambos coinciden en que la falta de nuevos datos forzará un cambio en cómo se desarrollan los modelos de inteligencia artificial.
Según TheCrunch, Musk planteó que el futuro de la IA pasa por la creación de “datos sintéticos”, generados por los propios modelos de inteligencia artificial. “La única forma de complementar los datos reales es con datos sintéticos, donde la IA crea datos de entrenamiento. Con estos datos, la IA, se calificará a sí misma y atravesará un proceso de autoaprendizaje”, explicó Musk.
Empresas como Microsoft, Meta, OpenAI y Anthropic ya están implementando datos sintéticos para entrenar sus modelos. Según Gartner, el 60% de los datos utilizados en proyectos de IA y análisis en 2024 serán generados sintéticamente. Modelos recientes como Phi-4 de Microsoft, Gemma de Google y Claude 3.5 Sonnet de Anthropic se han desarrollado en parte utilizando datos generados por IA.
Ventajas y desafíos del uso de datos sintéticos
El uso de datos sintéticos presenta ventajas claras, como la reducción de costes. Por ejemplo, Writer, una startup de IA, desarrolló su modelo Palmyra X 004 con un coste de 700.000 dólares, frente a los 4,6 millones que habría costado un modelo de OpenAI de tamaño similar.
Sin embargo, los expertos advierten sobre los riesgos. Investigaciones recientes sugieren que entrenar modelos con datos sintéticos podría llevar al "colapso del modelo", donde la IA se vuelve menos creativa y más sesgada. Si los datos originales contienen sesgos, los modelos resultantes replicarán esas limitaciones. La industria tecnológica sigue buscando soluciones para optimizar el uso de datos en la IA. Musk concluyó que, aunque los datos sintéticos representan una oportunidad, también plantean nuevos desafíos en términos de calidad y ética. “La inteligencia artificial debe aprender de manera responsable para mantener su relevancia y funcionalidad”, destacó. Con el aumento de la dependencia de datos generados por IA, la innovación deberá equilibrarse con medidas que garanticen la precisión y la transparencia en un ecosistema en constante evolución.