Episodio 44: Next Big Thing Landscape de AI Generativa con Xavi Garrido
En su reciente artículo publicado en la nueva sección TheNextBigThing de este medio, Xavi Garrido, experto en inteligencia artificial, analizaba el panorama de aplicaciones de inteligencia artificial (IA) generativa y explicaba cómo está construido en diferentes categorías, con el objetivo de proporcionar una comprensión clara de su estructura y alcance.
De la mano de Salvatore Cospito, Garrido repasa en este episodio de Programmatic Talks los entresijos de este landscape y resuelve todas las dudas sobre esta tecnología en auge.
Estas son las categorías que diferencia Xavi Garrido:
Texto: Esta es la categoría más avanzada, con aplicaciones que incluyen marketing (contenido), ventas (correo electrónico), soporte (chatbots y correo electrónico), escritura general, toma de notas y más. A medida que los modelos mejoren, podemos esperar ver contenidos de mayor calidad y longitud, así como una mejor adaptación específica al sector. Aquí encontramos lo modelos más conocidos, OpenaI GPT-4 y chatGPT, Deepmind de Google, Facebook Opt, etc.
Código: Con la aparición de herramientas como GitHub Copilot, la generación de código promete tener un gran impacto en la productividad de los desarrolladores a corto plazo y facilitar el uso creativo del código para personas no especializadas en el desarrollo. Aquí podemos ver cómo las aplicaciones son la generación de código, la documentación del mismo, pasar texto a SQL o generar web app.
Imagen: Aunque es un fenómeno más reciente, la generación de imágenes se ha vuelto viral debido a su facilidad para compartir en redes sociales. Estamos presenciando la aparición de modelos de imágenes con diferentes estilos estéticos y técnicas para editar y modificar las imágenes generadas. Las aplicaciones incluyen generación de imágenes, social y consumo, publicidad, medios y diseño.
Discurso: Aunque la síntesis de voz existe desde hace tiempo (¡hola, Siri!), las aplicaciones para consumidores y empresas están mejorando. Para aplicaciones de alta calidad, como películas y podcasts, la calidad del habla sintética es esencial. Los modelos actuales ofrecen un punto de partida para el refinamiento adicional o la producción final para aplicaciones utilitarias.
Vídeo: La generación y edición de vídeo está avanzando rápidamente, y su potencial para desbloquear mercados creativos masivos como el cine, los videojuegos, la realidad virtual, la arquitectura y el diseño de productos físicos es emocionante. Los modelos de vídeo y 3D están siendo desarrollados por organizaciones de investigación en este momento.
3D: Modelos 3D y escenas. Esta categoría está emergiendo rápidamente y promete revolucionar áreas como la arquitectura, el diseño de productos y la industria del entretenimiento.
Otros dominios: La investigación y desarrollo de modelos fundamentales en IA generativa está ocurriendo en numerosos campos, como el audio y la música, la biología y la química (proteínas y moléculas generativas), los videojuegos, la automatización de procesos robóticos (RPA) y más.