PROGRAMMATIC SPAIN

View Original

Alexa presenta nuevas tecnologías de reconocimiento de voz y conversión de texto a voz

Amazon presentó la pasada semana su nueva gama de productos y servicios. En un acto en las oficinas de la compañía, Dave Limp, vicepresidente senior de la compañía, y Rohit Prasad, vicepresidente senior de Amazon y científico jefe de inteligencia artificial general, adelantaron una serie de innovaciones del dispositivo Alexa.

El principal anuncio fue que el nuevo modelo de lenguaje (LLM) de Alexa, que se ha optimizado para aplicaciones de voz, va a permitir a los usuarios conversar con el dispositivo de cualquier tema de manera mucho más natural. Se ha perfeccionado para realizar con fiabilidad las llamadas API, de modo que encienda las luces correctas o ajuste la temperatura en las habitaciones de manera correcta.

Es capaz de una personalización proactiva basada en la inferencia, de forma que puede resaltar los eventos del calendario, la música reproducida recientemente o incluso recomendaciones de recetas basadas en las compras de un cliente. Asimismo, cuenta con varios mecanismos para hacer que sus afirmaciones sean más fiables y protege aún más la privacidad del cliente.

Durante la presentación, Prasad habló de otras mejoras de estos modelos de IA conversacional de Alexa, diseñadas para que las interacciones con este servicio sean más naturales. Una de ellas es la nueva forma de encender Alexa con solo mirar a la pantalla de un dispositivo Alexa con cámara: el procesamiento visual en el dispositivo se combina con modelos acústicos para determinar si un cliente está hablando con Alexa o con otra persona.

Alexa también ha revisado su sistema de reconocimiento automático del habla (automatic-speech-recognition o ASR), incluyendo los modelos de aprendizaje automático, los algoritmos y el hardware, y está pasando a un nuevo modelo de conversión de texto en habla (LTTS) basado en la arquitectura LLM y entrenado con miles de horas de datos de audio de varios idiomas, acentos y estilos.

Por último, Prasad presentó el nuevo modelo de conversión de voz de Alexa, un modelo basado en LLM que “produce voz de salida directamente a partir de la voz de entrada”, como explica la propia compañía. Con el modelo speech-to-speech, Alexa mostrará atributos conversacionales similares a los humanos, como la risa, y podrá adaptar su discurso no solo al contenido de sus propios enunciados, sino también a lo que diga el interlocutor. Por ejemplo, responderá con emociones a las emociones del interlocutor.

Esta actualización entrará en funcionamiento a finales de este año, y los modelos LTTS y speech-to-speech se implantarán el año que viene.

¿Cómo funciona el modelo conversacional de Alexa?

El nuevo modelo ASR de Alexa es un modelo de miles de millones de parámetros entrenado con una mezcla de frases cortas orientadas a objetivos y conversaciones más largas. El entrenamiento ha requerido una cuidadosa alternancia de tipos de datos y objetivos de entrenamiento para garantizar el mejor rendimiento en ambos tipos de interacciones.

Para dar cabida a un modelo ASR más amplio, Alexa está pasando de un procesamiento del habla basado en CPU a un procesamiento acelerado por hardware, tal y como afirman los responsables de Amazon. Las entradas de un modelo ASR son fotogramas de datos, o instantáneas de 30 milisegundos del espectro de frecuencias de la señal del habla. En las CPU, los fotogramas suelen procesarse de uno en uno. Pero esto resulta ineficaz en las GPU, que tienen muchos núcleos de procesamiento que se ejecutan en paralelo y necesitan datos suficientes para mantenerlos a todos ocupados.

El nuevo motor ASR de Alexa acumula fotogramas del habla de entrada hasta que tiene datos suficientes para garantizar un trabajo adecuado para todos los núcleos de las GPU. Para minimizar la latencia, también realiza un seguimiento de las pausas en la señal del habla y, si la duración de la pausa es lo suficientemente larga como para indicar el posible final del habla, envía inmediatamente todos los fotogramas acumulados.

El procesamiento por lotes de los datos del habla en la GPU también hace posible un nuevo algoritmo de reconocimiento del habla que utiliza la función de espera dinámica para mejorar la precisión del ASR. Normalmente, cuando una aplicación de ASR en streaming interpreta un fotograma de entrada, utiliza los fotogramas anteriores como contexto: la información sobre fotogramas anteriores puede restringir sus hipótesis sobre el fotograma actual de forma útil. Sin embargo, con los datos por lotes, el modelo ASR puede utilizar como contexto no sólo los fotogramas precedentes, sino también los siguientes, con lo que se obtienen hipótesis más precisas.

A diferencia de los modelos TTS anteriores, el LTTS es un modelo integral. Consiste en un LLM tradicional de texto a texto y un modelo de síntesis de voz que se ajustan conjuntamente, de modo que el resultado del LLM se adapta a las necesidades del sintetizador de voz. El conjunto de datos de ajuste fino consta de miles de horas de habla, frente a las aproximadamente 100 horas utilizadas para entrenar modelos anteriores.

El modelo LTTS aprende a modelar los discursos en función de la entonación, la paralingüística y otros aspectos del habla. El resultado es un habla que combina toda la gama de elementos emocionales presentes en la comunicación humana (como la curiosidad al hacer preguntas o los chistes) con onomatopeyas para crear un habla natural, expresiva y similar a la humana.

Para mejorar aún más la expresividad, el modelo LTTS puede utilizarse junto con otro LLM ajustado para etiquetar el texto de entrada con "instrucciones de escena" que indiquen cómo debe pronunciarse el texto.

Fuente: Amazon Blog