Alexa y la Inteligencia Artificial conversacional
El rápido desarrollo y la popularización de los asistentes de voz como Amazon Echo, Google Home y Apple HomePod ha dado lugar a una auténtica carrera por dominar la Inteligencia Artificial conversacional, una tecnología que permitiría entablar una conversación con una máquina como si se tratase de una persona y transmitirle órdenes y preguntas con un lenguaje natural en lugar de espetar expresiones clave que el dispositivo pueda reconocer. El desarrollo de este tipo de IA se enmarca en lo que se denomina diseño conversacional, una tendencia que se destaca en el Design in Tech Report de este año y a la que Erika Hall, co-fundadora de Mule Design Studio ha dedicado un libro recientemente. Según explica en una conversación con Adam Risman, Hall considera que el diseño necesita basarse en la conversación humana como modelo para la interacción con sistemas digitales, lo cual puede lograrse examinando las estructuras de la comunicación entre personas para crear una experiencia más natural en el usuario. En lugar de simplemente centrarse en las funciones que debe cumplir el producto a diseñar, indica Hall, es preciso plantearse cómo será la interacción entre este producto y las personas que lo empleen, qué intercambios se producirán, no sólo en términos de una interfaz gráfica sino más ampliamente del diálogo que se establece entre el dispositivo y el usuario.
Este diálogo se produce claramente en forma verbal en los asistentes de voz que ahora pugnan por entrar en los hogares, siendo además esta interacción el aspecto más importante de estos productos. Amazon ha desarrollado ya toda una línea de productos basados en Alexa, su servicio de asistencia por voz basado en la nube, que permite a los usuarios formular preguntas al dispositivo o ordenarle ejecutar determinadas acciones sin necesidad de presionar ningún botón. Obviamente, la empresa tiene un interés primordial en mejorar la efectividad de este servicio a fin de que el dispositivo pueda reconocer rápidamente lo que le solicita el usuario y a la vez proporcionarle una experiencia similar a la de estar conversando con una persona. Pero esto resulta enormemente complejo, puesto que conlleva enseñar a la máquina no sólo a ser capaz de reconocer las palabras que pronuncia el usuario sino también a mantener una conversación, algo que implica no sólo facilitar información sino también hablar de cosas banales o rellenar el diálogo con pequeñas expresiones cotidianas. Para una máquina programada para facilitar una respuesta a una solicitud concreta, no es sencillo mantener una charla trivial. Este recurso de nuestra interacción diaria con otras personas es algo que hemos aprendido a lo largo de múltiples experiencias y que se ajusta a un contexto específico que sabemos percibir (ya se trate de un ascensor en unos grandes almacenes, la cafetería de una sala de conferencias, el interior de un taxi o una parada de autobús) y a la información que disponemos, o podemos intuir, acerca de nuestro interlocutor. Todo ello introduce un enorme número de variables y requiere recopilar una cantidad de información contextual que normalmente queda más allá de las posibilidades del dispositivo. Con todo, es posible simular una conversación natural recurriendo a las expresiones que se emplean más a menudo en encuentros en los que se sabe poco del interlocutor o se tiene muy poco que decir, combinando estas expresiones con datos que se pueden obtener en Internet. Esto es lo que se ha hecho a lo largo de más de una década en los experimentos de simulación de conversaciones con chatbots que principalmente planteaban experimentar el encuentro con una entidad aparentemente inteligente, que inmediatamente suscitaba cuestiones acerca de la diferencia entre humanos y robots, la naturaleza de la propia conciencia y otras reflexiones metafísicas.
La instalación interactiva Agent Ruby (1998–2002), de la artista Lynn Hershmann-Leeson, es un notable ejemplo de este tipo de inteligencia artificial. La pieza consiste en un personaje femenino, extraído del film Teknolust de la propia artista, que se aloja en un sitio web (actualmente en el SF MoMA) y puede chatear con cualquier usuario a través de una interfaz de texto, a la vez que cambia de expresión en función del contenido de la conversación. El programa desarrollado para esta instalación permite a Ruby recordar las conversaciones que ha mantenido con los usuarios y la información que ha buscado en la Red, con lo cual sus conocimientos y su capacidad para mantener conversaciones más complejas mejora con el tiempo. Esta misma estrategia es la que se ha aplicado al desarrollo de la inteligencia artificial en servicios como Alexa, que se nutre tanto de las interacciones con sus usuarios como de las miles de conversaciones que se pueden encontrar en chats y foros en Internet, así como en múltiples otras fuentes de documentación acerca de los diálogos entre dos o más personas.
Consciente de la necesidad de avanzarse en el desarrollo de una IA conversacional, Amazon lanzó en 2017 el Alexa Prize, un concurso abierto a equipos de estudiantes universitarios que compiten para desarrollar el mejor bot social, un programa destinado a integrarse en el servicio Alexa que permita a sus dispositivos mantener charlas triviales con los usuarios. La empresa dedica a este concurso 3,5 millones de dólares, que se reparten entre las universidades participantes, con premios de entre 50.000 y 1 millón de dólares, siendo este último gran premio para el equipo que logre que su programa mantenga una conversación coherente y entretenida con un ser humano durante 20 minutos. Amazon cuenta con la ventaja de disponer no sólo de dinero sino también de productos con los que pueden trabajar los desarrolladores (los cuales, por tanto, crearán un programa diseñado específicamente para la línea Echo) y sus propias herramientas y almacenamiento en la nube, lo cual a su vez facilita a Amazon conservar toda la documentación y los datos recopilados por los equipos participantes. Según narra James Vlahos en un artículo para WIRED, la competición de la primera edición del Alexa Prize ha llevado a los equipos finalistas por tres caminos para lograr el codiciado premio:
- Apostar por el aprendizaje automático: alimentar a una red neuronal artificial con miles de contenidos de texto, incluyendo conversaciones y cadenas de mensajes en plataformas populares como Reddit y Twitter. A partir de los datos recopilados en esta enorme cantidad de interacciones entre humanos, el bot puede deducir qué respuesta es más adecuada en cada ocasión, si bien esto puede llevar a que el bot mantenga conversaciones apáticas o responda de maneras impredecibles.
- Apostar por la confección de una serie de reglas: esta opción requiere mucho más trabajo e implica determinar una serie de temas y respuestas adecuadas a distintas situaciones, que sirven al bot de guía a medida que identifica el tema de la conversación. El problema de esta estrategia es que a menudo conduce al botón a tratar de plantear conversaciones muy pautadas, que claramente llevan al humano a hablar de sus libros favoritos, películas o música dentro de un patrón repetitivo.
- Apostar por un modelo híbrido: combinando las dos estrategias anteriores, es posible introducir cierta espontaneidad en la conversación a la vez que se mantiene una cierta dirección en las respuestas. Esta estrategia es la que facilitó al equipo ganador de la primera edición del Alexa Prize hacerse con el primer premio, aunque no logró el gran premio de 1 millón de dólares, dado que su bot no llegó a mantener una conversación coherente durante 20 minutos.
Una conclusión que se extrae de la primera edición del premio Alexa es que es necesario disponer de mucha información acerca de las conversaciones humanas para lograr que el bot sea coherente, pero también gracioso, espontáneo y algo irreverente. Una de las interacciones más exitosas se dio con un bot que era capaz de responder al usuario con reflexiones interesantes y también algún chiste. El problema que se plantea en este punto es que, para recopilar más información acerca de las conversaciones, es preciso hacer dialogar el bot con un gran número de personas, de manera parecida a cómo Google nutre su IA con las búsquedas que hacen los usuarios en su plataforma o desarrolla métodos de reconocimiento de imágenes empleando miles de fotografías cuyo contenido ha sido identificado y etiquetado. Hacer esto con una IA conversacional implica dejar que muchas personas dialoguen con un bot que puede cometer fallos y dar respuestas políticamente incorrectas o incluso ofensivas. Según señalan Cade Metz y Keith Collins en un artículo para el New York Times, esto supone un considerable riesgo para las empresas, puesto que hacer público un bot que acabe publicando en redes sociales mensajes xenófobos, racistas o misóginos es un auténtico desastre que afecta a la imagen de su desarrollador. Esto fue lo que ocurrió con Tay, un chatbot de inteligencia artificial desarrollado por Microsoft y lanzado en Twitter el 23 de marzo de 2016. El bot pretendía simular la personalidad de una muchacha estadounidense de 19 años y estaba programado para aprender de sus conversaciones con otros usuarios. No obstante, una de las características de Tay era usar elementos de las respuestas de sus interlocutores, lo cual fue rápidamente aprovechado por muchos usuarios, quienes empezaron a enseñarle a publicar mensajes racistas y xenófobos. En apenas 16 horas y tras publicar más de 96.000 mensajes, la cuenta de Tay fue eliminada de Twitter. Tras un intento posterior de lanzar el bot, que igualmente empezó a publicar tuits políticamente incorrectos y se quedó estancado en un bucle, Microsoft decidió retirarlo y seguir trabajando en su proyecto de IA de forma privada.
El desastre de Microsoft ilustra claramente el problema al que se enfrentan todas las empresas que están tratando de desarrollar una IA conversacional, y que en parte se debe a tratar de simular un comportamiento muy humano a partir de la simple acumulación de datos. Habitualmente los desarrolladores acuden a foros como Twitter o Reddit, donde encuentran una gran cantidad de datos sobre conversaciones entre humanos, pero no tienen en cuenta que en muchas ocasiones los usuarios se comportan de forma diferente en los foros y a menudo acuden a ellos buscando polémica o con la necesidad de presumir o quejarse. Estos no son los parámetros de una charla trivial. Si los bots tienen que aprender a hablar con personas, sin duda deberán hacerlo manteniendo conversaciones reales, lo cual implica que de vez en cuando se producirán respuestas incorrectas. Según el investigador Bill Dolan, de Microsoft (citado por Metz y Collins), será necesario que el público pueda perdonar a los bots cuando se equivoquen. Aunque también es posible que haya que dar un paso atrás y centrar la IA en tareas más limitadas hasta que se puedan mejorar sus respuestas, de manera similar a cómo Google Glass tuvo que repensarse para un entorno más controlado. En cualquier caso, parece que aún queda un largo camino hasta que sea posible mantener una conversación fluida e interesante con una máquina.
Referencias
Menon, R. (4 dic. 2017) The Rise of Conversational AI. Forbes.
Metz, C. y Collins, K. (21 feb. 2018) To Give A.I. the Gift of Gab, Silicon Valley Needs to Offend You. The New York Times.
Risman, A. (14 feb. 2018) Erika Hall on the importance of conversation in design. Intercom.
Vlahos, J. (27 feb. 2018). Inside the Alexa Prize. WIRED.