Las limitaciones del reconocimiento de voz: qué hacer para maximizar su rendimiento

EmpresasSoftware

De acuerdo con Interactive Intelligence, las dificultades del reconocimiento de voz cuando se llama a las empresas son muchas veces consecuencia de limitaciones inherentes al reconocimiento automático de voz.

Por Felipe Schwartzmann
Territory Manager, South America de Interactive Intelligence

 

Todos hemos experimentado las dificultades del reconocimiento de voz cuando se llama a las empresas. Si bien algunas de estas malas experiencias tienen que ver con problemas en el diseño de los sistemas, muchas otras son consecuencia de limitaciones inherentes al reconocimiento automático de voz.

La comprensión de estas restricciones es fundamental para establecer expectativas realistas de rendimiento, así como para trabajar en la optimización de recursos, centrándose en factores que pueden ser modificados.

Las siguientes son dos limitaciones del sistema que comúnmente se pasan por alto.

La primera se refiere a los archivos gramaticales: el reconocimiento de una aplicación de voz se apoya en un archivo gramatical para cada colección. Si bien existe una serie de ajustes adicionales relacionados con los niveles de sincronización y de confianza, un archivo de gramática es el motor de voz que se compara con la expresión de la persona que llama para determinar un resultado. Por lo general, los problemas no surgen cuando el motor de reconocimiento de voz no reconoce lo que se dice, sino cuando la persona que llama dice algo que el archivo de gramática no contenía, o cuando no se puede igualar a una entrada en el archivo. El sistema está haciendo todo lo posible para confirmar lo que la persona está diciendo, pero ese contenido no está.

La segunda limitación se relaciona con lo que el sistema escucha efectivamente, algo que muchas veces difiere de lo que quiere escuchar. A diferencia de los humanos, estos sistemas siempre escuchan. Sin embargo, existen expresiones que no son reconocidas. Un ejemplo podría ser una risa, o un carraspeo. Muchos usuarios llevan a cabo múltiples conversaciones al interactuar con una aplicación de voz, y a menudo no se dan cuenta de que el sistema está escuchando a ambas conversaciones. Este tipo de comportamientos es muy difícil de descifrar.

La comprensión de las limitaciones de estas herramientas ayuda a las empresas se centren en las cosas que pueden cambiar para mejorar el rendimiento, evitando el desperdicio de recursos.

Si bien existen limitaciones inherentes, hay un número de factores que pueden maximizar el rendimiento de estas herramientas.

Las siguientes son dos buenas prácticas que pueden mejorar significativamente los resultados:

  • La implementación de las pruebas de usabilidad. Una vez que usted siente que su aplicación ha sido probada y esta lista para la producción, es necesario trabajar con los miembros del equipo que no pertenecen al proyecto para probarlo y obtener retroalimentación. De ser posible, es mejor involucrar a un grupo elegido entre sus clientes. Estos testeos proporcionan escenarios y datos de prueba. Solicite su retroalimentación en áreas o aspectos como la sencillez, el ritmo, la claridad de la autodirección, el reconocimiento (que pueden estar respondiendo con algo que no correspondía), etc. Los datos que se obtienen de las pruebas de usabilidad son extremadamente valiosos y sirven para aprender acerca de los desafíos que se pueden presentar con los clientes una vez que la aplicación esté en marcha.
  • El ajuste del sistema en curso. Las aplicaciones de voz, los sistemas de marcación por tonos, o DTMF (dual-tono multifrecuencia), y las aplicaciones de IVR, son muchas veces diseñadas, desarrolladas e implementadas sólo una vez. Se trata, en general, de agentes electrónicos necesitaban poca o ninguna formación para su seguimiento. Este no es el caso de los sistemas de reconocimiento de voz.

Recuerde que este tipo de aplicaciones requieren de ajustes periódicos. Las alineaciones iniciales permiten mejorar el rendimiento de manera sostenida. Lo recomendable es que, durante el primer año, se realicen de dos a tres ajustes. Para aplicaciones más maduras, uno o dos por año serán suficientes.

A medida que se entienden las limitaciones inherentes y se perfeccionan las prácticas, los sistemas de reconocimiento de voz ofrecen una experiencia mejorada para la persona que llama, minimizando los costos para la empresa que atiende.

Leer la biografía del autor  Ocultar la biografía del autor