Sabemos que los asistentes virtuales (IVA por sus siglas en inglés) han conquistado el mundo. Interactuar con nuestros dispositivos por medio de comandos de voz se está convirtiendo en la norma, y a pesar de los graciosos malentendidos, la tecnología detrás de estos asistentes es increíble.
Se trata de un software - un set de instrucciones que le da órdenes a una computadora - comprendiendo el habla humana. Es un programa que entiende, analiza y responde cuando una persona le dirige la palabra. No hace mucho tiempo, este tipo de herramienta se hubiera considerado ciencia ficción. Ahora es algo que damos por sentado cada vez que usamos nuestros teléfonos inteligentes.
Esta interacción verbal es el resultado de una tendencia tecnológica llamada reconocimiento de voz, la cual se puede resumir como la habilidad para reconocer el habla humana automáticamente y con precisión. Es una aplicación de inteligencia artificial (IA) - esos astutos algoritmos que utilizan bases de datos para aprender.
Lo Básico
La esencia del reconocimiento de voz se deriva de la capacidad de convertir audio hablado o conversaciones humanas en texto. Implica ejecutar un archivo de audio a través de un reconocedor - un algoritmo que reconoce lo que se está diciendo - y obtener una transcripción en forma de un archivo de texto. Este tipo de reconocimiento de voz incluye elementos como el dictado, donde el software escribe las palabras habladas en un correo electrónico o documento.
Los IVAs lo llevan un paso más allá: gracias a la inteligencia artificial integrada en el software, actúan sobre lo que se dice. Es decir, reconocen las palabras habladas como una orden y actúan en consecuencia.
¿Cómo Funciona?
Para comenzar, para que un dispositivo reconozca el habla debe tener las herramientas adecuadas para hacerlo. Un buen micrófono es esencial para que el reconocimiento de voz funcione correctamente. Cuando una persona habla, el micrófono transforma las vibraciones de sonido de una voz en una señal eléctrica. Ésta es luego procesada por el hardware del dispositivo (por ejemplo, una tarjeta de sonido) para convertirla en datos.
Aquí es donde entra en juego la IA del software, iniciando un proceso de comparación. El algoritmo compara los datos del habla con una gran base de datos preexistente de palabras, oraciones y expresiones establecidas. El tamaño de la base de datos determinará qué tan exacto (o inteligente) sea el software de reconocimiento de voz. Por ejemplo, Google Assistant utiliza las inmensas bases de datos de Google. Una vez que reconoce una comparación con lo que se ha dicho, procesa los datos y los devuelve como una salida en forma de una ejecución.
Así, por ejemplo, cada vez que una persona le pide a Siri que "llame a Juan", ésta envía la señal digital a los servidores de Apple hasta que encuentra una coincidencia para "llamar" y para "Juan", según la información recopilada anteriormente. Luego, busca el número de "Juan" y lo marca.
Subiendo el Nivel: Procesamiento del Lenguaje Natural (PLN)
Combinado con el reconocimiento de voz, el PLN se está convirtiendo rápidamente en una parte integral del software que pretende comprender las palabras. El lenguaje humano es complicado y trae consigo toda una estructura subyacente que puede ser difícil de comprender. Desde las reglas gramaticales (que pueden o no seguirse), a los diferentes significados o el contexto relativo que puedan tener - sin mencionar los elementos como el lenguaje popular o las expresiones idiomáticas de cada cultura - las frases y los acrónimos. Todo esto debe transmitirse y enseñarse a la IA con el fin de que sea capaz de entender el lenguaje de la manera más natural posible.
Por ende, PLN: un conjunto de algoritmos que brindan soporte al software emulando la capacidad de comprender el lenguaje. Dependiendo de los requisitos y necesidades del programa, los algoritmos de PLN proporcionan diferentes niveles de asistencia. Los más avanzados utilizan la tecnología cognitiva, como la tecnología semántica, proporcionan un enfoque mucho más completo. Utilizan toda la información disponible para determinar qué significa una palabra específica en un contexto particular. El léxico es el núcleo fundamental de estos algoritmos.
PLN es el pilar de los IVAs. Es lo que les permite comprender los comandos hablados. Facilita la interacción entre los seres humanos y los dispositivos electrónicos, lo que hace que su dinámica sea mucho más natural y mejoran la experiencia general del cliente.
Un Enfoque UX/UI
Algunos elementos de UX/UI que se debe considerar cuando se trata de brindar la mejor experiencia de usuario para software de reconocimiento de voz y PLN son:
Escuchando Atentamente
El sonido es esencial. Uno de los objetivos finales de controlar una aplicación utilizando solo comandos de voz es reducir la necesidad de interactuar físicamente con el dispositivo. Por lo tanto, las respuestas provenientes del dispositivo deben ser transmitidas de una manera que lo facilite, es decir, a través del sonido. Esto aplica particularmente cuando se trata de la tecnología móvil; si se le habla a un teléfono inteligente desde el otro lado de la habitación, no es suficiente que aparezcan respuestas visuales en la pantalla.
La respuesta audible o la voz del software es un elemento esencial de la experiencia del usuario. Es una parte crucial para darle a la interacción una sensación natural. En otras palabras, la voz que se la da al software juega un papel crucial a la hora de brindar una buen UX. Las respuestas deberían de ser tan naturales como si fuera una persona hablando.
Así es como el diseño de UX que involucra aplicaciones móviles de reconocimiento de voz difiere de la norma. Mientras que otras aplicaciones se centran en los aspectos visuales de la interfaz de usuario, cuando se trata de este tipo de software, el sonido se vuelve mucho más importante. Es la clave para proporcionar una experiencia de usuario satisfactoria.
Una Experiencia Natural
El principal desafío cuando se trata de aplicaciones de reconocimiento de voz es hacer que la experiencia se sienta natural. El objetivo final es que el software comprenda lo que la persona está diciendo cuando habla con naturalidad. Desafortunadamente, esta interacción entre el ser humano y el dispositivo no siempre es fácil.
Debido a las numerosas diferencias en las inflexiones personales y el lenguaje, este objetivo es difícil de lograr. El lenguaje que utilizan las personas se ve afectado por numerosos factores, desde las campañas publicitarias, hasta el lanzamiento de productos y servicios por parte de corporaciones globales, o incluso del ambiente político actual. Por lo tanto, el entrenamiento de software involucrado en el proceso es bastante considerable. Este es el reto principal para los desarrolladores cuando se trata de brindar una buena experiencia de usuario.
Seguridad
Otro elemento que se debe tener en cuenta cuando se trata de aplicaciones que integran el reconocimiento de voz es la seguridad. Los usuarios deben ser conscientes de que las palabras que hablan se procesan en los servidores y no en el propio dispositivo. Esto es particularmente importante cuando se trata de aplicaciones que registran o almacenan lo que el usuario dice para su procesamiento posterior. Los usuarios necesitan saber que sus datos están siendo utilizados.
La mayoría del tiempo, esto se establece en los Términos y Condiciones pero el diseño de la interfaz de usuario debe de incluir elementos claros para que los usuarios sepan que lo que están diciendo se está registrando o procesando de alguna forma. Por ejemplo, al hablar con Siri, una serie de ondulaciones se mueven a través de la parte inferior de la pantalla. De esta manera, el usuario sabe que Siri está "escuchando". Al hacer que sea visualmente evidente, la persona se da cuenta de manera instantánea que el software se está ejecutando y cualquier problema de seguridad se puede prevenir.