Descripción
Conversing es un modelo conceptual de interacción que permite describir un producto interactivo como si estuviera llevando a cabo una conversación con el usuario. Este modelo refleja una comunicación bidireccional donde el sistema no actúa como siervo bajo las órdenes del usuario, como sucede en el modelo instructing, sino más bien como compañero o asistente.
Es importante tener presente que este modelo no necesariamente implica que el sistema interactivo comprenda el lenguaje natural. Las opciones de conversación pueden estar limitadas a ciertas frases o palabras preestablecidas que son presentadas al usuario para que elija entre ellas.
Algunas de las primeras interfaces de usuario intentaban ya imitar una conversación entre personas bajo la premisa de que el uso del lenguaje permitía a los usuarios usar un modelo de interacción con el que ya estaban familiarizados.
S. Nickerson, en 1976, establecía dieciséis características de las conversaciones entre humanos que se deberían tener en cuenta a la hora de implementar interacciones conversacionales:
- Bidireccionalidad. Nickerson diferencia entre sistemas que «escuchan» y sistemas que «hablan», lo que indica que el flujo de información en dos sentidos es fundamental para una conversación.
- Iniciativa mixta. Otra característica importante que diferencia este modelo de interacción respecto al modelo instructing es que, al igual que en una conversación, el líder no siempre es el usuario. En un modelo conversacional, el sistema interactivo puede sugerir acciones o hacer preguntas al usuario.
- Visibilidad de quién tiene el control. En todo momento la interfaz debe indicar quién tiene el control de la conversación. ¿Está el sistema esperando respuesta del usuario? ¿Está el sistema haciendo algo por el usuario? Estas cuestiones, que en otros modelos son más evidentes, aquí se deben tener en especial consideración.
- Transferencia de control. En una conversación entre personas nos podemos interrumpir. Por ejemplo, si es evidente que la otra persona no ha entendido qué le hemos dicho, tenemos mecanismos para interrumpir su respuesta y clarificar. Lo mismo caracteriza un producto interactivo bajo el modelo conversing: si el usuario observa que se está realizando una acción distinta a la que se pretendía, debería poder interrumpirla y tomar el control de la conversación.
- Presencia. «¿Estás ahí?» Esta simple pregunta, que puede resultar familiar a cualquier persona que haya participado en una audioconferencia, es importante tenerla en cuenta en este modelo de interacción. El usuario debe poder saber que el sistema interactivo está presente escuchando su conversación; y también a la inversa: el sistema debe tener mecanismos para saber si el usuario está ahí, ya sea simplemente preguntando o mediante sensores de presencia (como, por ejemplo, reconocimiento facial mediante una cámara).
- Comunicación no verbal. La comunicación no verbal entre personas permite introducir matices o sustituir eficientemente expresiones de carácter verbal. Por ejemplo, en una conversación cara a cara, podemos usar el asentimiento para ir indicando que estamos escuchando, o interjecciones como «mm…mm…» en una llamada, para recordar al interlocutor que estamos ahí. Los sistemas interactivos pueden ofrecer mecanismos para interpretar nuestra comunicación no verbal y comunicarse también de la misma forma, como cuando un asistente de voz muestra una pista visual de que nos ha oído.
- Intolerancia al silencio. Relacionado con la presencia, los productos interactivos deberían evitar los silencios demasiado largos, por ejemplo, informando claramente al usuario cuando algo va a tardar más de lo previsto.
- Estructura. Las conversaciones tienen normalmente una estructura definida que permite reconocer cuándo empiezan y cuándo acaban. Una conversación con una máquina debería seguir también una estructura clara y existir un acuerdo o protocolo sobre cuándo y cómo se inicia y termina una conversación.
- Escala temporal. Las conversaciones se guían por unos tiempos, ritmos y pausas definidos culturalmente a los que estamos acostumbrados. Estos tiempos pueden variar al utilizar una interfaz (por ejemplo, por dificultades en introducir de forma textual lo que queremos) y es importante que se tenga en cuenta para determinar otras características que ya hemos mencionado, como la intolerancia al silencio o la presencia.
- Gran ancho de banda. En una típica conversación hablada, la capacidad de transmitir información en una cierta unidad de tiempo puede ser mucho mayor que en otros sistemas conversacionales. Por ejemplo, en una conversación por escrito, tanto con otro humano como con una máquina, la cantidad de información en un minuto suele ser significativamente menor que hablando. Estas diferencias y particularidades pueden ser inherentes al mecanismo de comunicación elegido, pero es importante que con un producto interactivo se adecúen a las expectativas que tiene el usuario en las interacciones interpersonales.
- Lenguaje informal. Una conversación no debería estar regida por utilizar ciertas expresiones y no otras. Si bien decíamos al principio que un modelo de interacción tipo conversing no necesariamente debe saber procesar el lenguaje natural, sí se beneficia claramente de ello y permite, por ejemplo, al usuario utilizar sinónimos o expresiones menos rígidas para hablar con el sistema interactivo.
- Contexto situacional compartido. El contexto compartido es lo que permite que en una conversación se puedan omitir cuestiones y que el interlocutor no tenga ninguna duda de a qué nos referimos. En una interfaz que usa un modelo tipo conversing, el sistema puede, por ejemplo, saber que estamos en una calle concreta de Barcelona cuando le preguntamos «¿cómo puedo ir al centro?» y actuar en consecuencia.
- Conocimiento compartido del mundo. Otro tipo de contexto, pero mucho más genérico, es el del mundo en el que interactuamos. Siguiendo el ejemplo de la característica anterior, un sistema interactivo debe saber qué significa centro en el contexto situacional de Barcelona para poder guiarnos adecuadamente.
- Conocimiento especial compartido. Cuando conversamos, conocemos ciertas cuestiones de nuestro interlocutor que nos permiten comprender mejor las intenciones de los mensajes y ser más eficientes. En un sistema digital, y siguiendo con el ejemplo anterior, es positivo que el sistema comprenda a qué nos referimos con casa. Es un conocimiento especial —no contextual ni inherente— del mundo, pero que nos permite articular expresiones como «¿cómo puedo ir a casa?».
- Historial. Como si fuera otro tipo de contexto compartido, las conversaciones anteriores que hemos tenido con el producto interactivo pueden ser relevantes para conversaciones presentes. Cuanto más «recuerde» el sistema, más parecido será su comportamiento al de una conversación convencional.
- Igualdad entre participantes. Nickerson parte de la premisa de que se requiere cierta igualdad de capacidades intelectuales entre los participantes de una conversación para que existan menos dificultades en transmitir información. Esta premisa la traslada también a la interacción con ordenadores e indica que cuanto más se asemeje la capacidad intelectual del sistema a la del humano, menos frustrante será la interlocución.
Ejemplos
A continuación se presentan dos ejemplos con carácter ilustrativo de este modelo de interacción.
Interfaces habladas de lenguaje natural
Este tipo de interfaces utilizan sistemas de reconocimiento de voz e interpretación de lenguaje natural para entender peticiones del usuario y actuar en consecuencia.
Un ejemplo es la siguiente la transcripción de una conversación real utilizando la interfaz Google Assistant en un teléfono Android: primero, el usuario utiliza la expresión de introducción «Ok Google» y, a partir de aquí, se inicia el diálogo para que el sistema interactivo le recuerde al usuario que debe hacer una compra:
Usuario: Ok Google. Crear un recordatorio
Asistente: ¿Cuál es el recordatorio?
Usuario: Comprar huevos.
Asistente: Muy bien, «comprar huevos». ¿Cuándo quieres recibir el recordatorio?
Usuario: Hoy, a las 21 horas.
Asistente: Listo, te enviaré el recordatorio a las 9 de la noche.
Esta conversación es ilustrativa de varias de las características de Nickerson, como bidireccionalidad, presencia, estructura, lenguaje informal o conocimiento compartido del mundo.
Bot conversacional
Los bots conversacionales, o chatbots, son sistemas interactivos que simulan tener una conversación real con el usuario, normalmente, por escrito.
En el siguiente ejemplo, un usuario entabla una conversación con un bot de la aplicación de mensajería Telegram para crear un paquete de pegatinas que van a ser usadas en el chat.
A diferencia de una interfaz de lenguaje natural, aquí el usuario debe conversar usando expresiones concretas:
Consideraciones
Por un lado, este modelo puede ser útil para llevar a cabo tareas concretas, pero se debe tener en cuenta que puede generar unas expectativas irreales en los usuarios. Incluso las interfaces de lenguaje natural pueden no interpretar correctamente las solicitudes y ofrecer respuestas o iniciar actividades que no son las intencionadas.
Por otro lado, algunas interacciones pueden ser innecesariamente tediosas usando un modelo de estas características, ya que una conversación implica una secuencialidad que no siempre se adecuará a las necesidades del usuario. El caso mostrado en la figura anterior es ejemplo de ello: el chatbot solicita la información al usuario en un orden específico.
Referencias
Preece, J.; Rogers, Y.; Sharp, H. (2002) Interaction design : beyond human-computer interaction. Nueva York : J. Wiley & Sons (pág. 519).
Nickerson, R. S. (Octubre, 1976). «On conversational interaction with computers«. Proceedings of the ACM/SIGGRAPH workshop on User-oriented design of interactive graphics systems (págs. 101-113).