OpenAI presenta GPT-4o, su modelo más avanzado hasta la fecha 

May 14, 2024 Berta Jiménez

OpenAI ha dado un paso más en el campo de la inteligencia artificial presentando ayer lunes su último modelo de IA generativa, GPT-4o, el producto más “inteligente y rápido” que la compañía ha lanzado hasta el momento. GPT-4o (la “o” hace referencia a “omni”) “es un paso adelante hacia una interacción mucho más natural entre el ser humano y el ordenador”, explican desde OpenAI. Este modelo acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de texto, audio e imagen como salida. Es decir, trabaja el audio, texto e imagen al mismo tiempo.

En solo 232 milisegundos, con una media de 320 milisegundos, puede responder a entradas de audio, lo que es similar al tiempo de respuesta humana en una conversación. Además, iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, siendo además mucho más rápido y un 50% más barato en la API.

Según las pruebas tradicionales, GPT-4o alcanza el nivel de rendimiento de GPT-4 Turbo en texto, razonamiento e inteligencia de codificación, al tiempo que establece nuevos hitos en capacidades multilingües, de audio y de visión. “GPT-4o es especialmente mejor en visión y comprensión de audio en comparación con los modelos existentes”, explica la empresa de ChatGPT en su blog.

“Con GPT-4o, hemos entrenado un único modelo de principio a fin para texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal”, cuentan los responsables. No obstante, avisan: “Como GPT-4o es nuestro primer modelo que combina todas estas modalidades, aún estamos explorando la superficie de lo que el modelo puede hacer y sus limitaciones”.

Así lo explicó también Muri Murati, la CTO de OpenAI, durante la presentación de esta semana, alegando que el nuevo modelo de IA tiene una "inteligencia al nivel de GPT-4", pero mejora en sus capacidades de texto, audio y visión. Este avance tecnológico ha permitido, entre otras cosas, desarrollar un nuevo modo de voz.

Mejoras en el modo de voz

Antes de GPT-4o, un usuario podía utilizar el Modo Voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) de media. Para lograrlo, el Modo Voz constaba de tres modelos separados: un modelo simple transcribía audio a texto, GPT-3.5 o GPT-4 tomaba el texto y lo emitía, y un tercer modelo simple volvía a convertir ese texto en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, perdía mucha información: no podía observar directamente el tono, varios interlocutores o ruidos de fondo, y no podía emitir risas, cantos o expresar emociones.

Ahora, este modelo no solo responde al instante, sino que también brinda respuestas en diferentes tonos de voz e incluso puede reír, cantar, tener diferentes estados de ánimo y resolver problemas matemáticos, como ha ejemplificado OpenAI.

Otra de las funciones destacadas es que GTP-4o es capaz de realizar una la traducción de manera instantánea, es decir, podría traducir en tiempo real una conversación entre dos personas que hablan distintos idiomas. Por el momento, la compañía de inteligencia artificial ha comenzado a desplegar GPT-4o entre los usuarios de ChatGPT Plus y Team (versiones de pago), aunque pronto estará disponible también para ChatGPT gratuito.