Conversing

Interacció

Descripció

Conversing és un model conceptual d’interacció que permet descriure un producte interactiu com si estigués duent a terme una conversa amb l’usuari. Aquest model reflecteix una comunicació bidireccional en la qual el sistema no actua com a esclau sota les ordres de l’usuari, com passa en el model instructing, sinó més aviat com a company o assistent.

És important tenir present que aquest model no implica necessàriament que el sistema interactiu comprengui el llenguatge natural. Les opcions de conversa poden estar limitades a certes frases o paraules preestablertes que són presentades a l’usuari perquè hi faci una tria.

Algunes de les primeres interfícies d’usuari ja intentaven imitar una conversa entre persones amb la premissa que l’ús del llenguatge permetia als usuaris usar un model d’interacció amb el qual ja estaven familiaritzats.

En 1976 R. S. Nickerson establia setze característiques de les converses entre humans que s’haurien de tenir en compte a l’hora d’implementar interaccions conversacionals:

Bidireccionalitat. Nickerson diferencia entre sistemes que «escolten» i sistemes que «parlen», la qual cosa indica que el flux d’informació en dos sentits és fonamental per a una conversa.
Iniciativa mixta. Una altra característica important que diferencia aquest model d’interacció respecte al model instructing és que, igual que en una conversa, el líder no és sempre l’usuari. En un model conversacional, el sistema interactiu pot suggerir accions o fer preguntes a l’usuari.

L’antic assistent d’Office és conegut justament per portar la iniciativa i intentar ajudar l’usuari. Captura feta de Wikipedia.

Visibilitat de qui té el control. En tot moment la interfície ha d’indicar qui té el control de la conversa. El sistema espera resposta de l’usuari? El sistema fa alguna cosa per l’usuari? Aquestes qüestions, que en altres models són més evidents, aquí s’han de tenir en consideració especialment.
Transferència de control. En una conversa entre dues persones ens podem interrompre. Per exemple, si és evident que l’altra persona no ha entès el que li hem dit, tenim mecanismes per a interrompre la seva resposta i aclarir-ho. El mateix caracteritza un producte interactiu en el model conversing: si l’usuari observa que es fa una acció diferent de la que es pretenia, hauria de poder interrompre-la i prendre el control de la conversa.
Presència. «Ets aquí?» Aquesta simple pregunta, que pot ser familiar per a qualsevol persona que hagi participat en una audioconferència, és important tenir-la en compte en aquest model d’interacció. L’usuari ha de poder saber, escoltant la seva conversa, que el sistema interactiu és present. I també, al revés, el sistema ha de tenir mecanismes per a saber si l’usuari és aquí, sia preguntant simplement o amb sensors de presència (com per exemple reconeixement facial amb una càmera).

Altaveu Amazon Echo amb l’assistent Alexa. Quan l’usuari diu «Alexa», s’il·lumina en blau per indicar-li que escolta i és present.
Font: foto de Masaki Tokutomi llicenciada en CC BY-NC 2.0.

Comunicació no verbal. La comunicació no verbal entre persones permet introduir matisos o substituir eficientment expressions de caràcter verbal. Per exemple, en una conversa cara a cara podem usar l’assentiment per a anar indicant que escoltem, o en una trucada interjeccions com «mm… mm…» per a recordar a l’interlocutor que hi som. Els sistemes interactius poden oferir mecanismes per a interpretar la nostra comunicació no verbal i comunicar-se també de la mateixa manera, com quan un assistent de veu mostra una pista visual que ens ha sentit.
Intolerància al silenci. Relacionats amb la presència, els productes interactius haurien d’evitar els silencis massa llargs, per exemple, informant clarament l’usuari quan alguna cosa trigarà més del previst.
Estructura. Les converses tenen normalment una estructura definida que permet reconèixer quan comencen i quan acaben. Una conversa amb una màquina hauria de seguir també una estructura clara i hi hauria d’haver un acord o protocol sobre quan i com s’inicia i acaba una conversa.
Escala temporal. Les converses es guien per uns temps, ritmes i pauses definits culturalment, als quals estem acostumats. Aquests temps poden variar en utilitzar una interfície (per exemple, per dificultats per a introduir el que volem de manera textual), i és important que es tingui en compte per a determinar altres característiques que ja hem esmentat, com la intolerància al silenci o la presència.
Gran amplada de banda. En una conversa parlada típica, la capacitat de transmetre informació en una certa unitat de temps pot ser molt major que en altres sistemes conversacionals. Per exemple, en una conversa per escrit, tant amb un humà com amb una màquina, la quantitat d’informació sol ser significativament menor en un minut que si és parlada. Aquestes diferències i particularitats poden ser inherents al mecanisme de comunicació triat, però és important que amb un producte interactiu s’adeqüin a les expectatives que té l’usuari en les interaccions interpersonals.
Llenguatge informal. Una conversa no hauria d’estar regida per utilitzar certes expressions i no d’altres. Si bé al principi dèiem que un model d’interacció del tipus conversing no ha de saber necessàriament processar el llenguatge natural, sí que se’n beneficia clarament i permet a l’usuari utilitzar, per exemple, sinònims o expressions menys rígides per a parlar amb el sistema interactiu.
Context situacional compartit. El context compartit és el que permet que en una conversa es puguin ometre qüestions i que l’interlocutor no tingui cap dubte d’allò a què ens referim. En una interfície que usa un model del tipus conversing, el sistema pot saber, per exemple, que som en un carrer concret de Barcelona quan li preguntem «com puc anar al centre?», i actuar en conseqüència.

Captura de Google Assistant. El sistema no sol·licita a l’usuari l’origen del viatge: això és una informació contextual ja coneguda.
Font: elaboració pròpia.

Coneixement compartit del món. Un altre tipus de context, però molt més genèric, és el del món en què interactuem. Seguint l’exemple de la característica anterior, un sistema interactiu ha de saber què significa centre en el context situacional de Barcelona per a poder guiar-nos adequadament.
Coneixement especial compartit. Quan conversem, coneixem certes qüestions del nostre interlocutor que ens permeten comprendre millor les intencions dels missatges i ser més eficients. Seguint amb l’exemple anterior, en un sistema digital és positiu que el sistema comprengui a què ens referim amb casa. És un coneixement especial —no contextual ni inherent— del món, però ens permet articular expressions del tipus «com puc anar a casa?».
Historial. Com si fos un altre tipus de context compartit, les converses anteriors que hem tingut amb el producte interactiu poden ser rellevants per a converses presents. Com més «recordi» el sistema, més semblat al d’una conversa convencional serà el seu comportament.
Igualtat entre participants. Nickerson parteix de la premissa que es requereix certa igualtat de capacitats intel·lectuals entre els participants d’una conversa perquè hi hagi menys dificultats per a transmetre informació. Trasllada aquesta premissa també a la interacció amb ordinadors i indica que com més s’assembli la capacitat intel·lectual del sistema a la de l’humà, menys frustrant serà la interlocució.

Exemples

A continuació es presenten dos exemples il·lustratius d’aquest model d’interacció.

Interfícies parlades de llenguatge natural

Aquest tipus d’interfícies utilitzen sistemes de reconeixement de veu i interpretació de llenguatge natural per a entendre peticions de l’usuari i actuar en conseqüència.

Un exemple és la següent la transcripció d’una conversa real utilitzant la interfície Google Assistant en un telèfon Android: primer, l’usuari utilitza l’expressió d’introducció «Ok Google» i, a partir d’aquí, s’inicia el diàleg perquè el sistema interactiu recordi a l’usuari que ha de fer una compra:

Usuari: Ok Google. Crear un recordatori

Assistent: Quin és el recordatori?

Usuari: Comprar ous.

Assistent: Molt bé: «comprar ous». Quan vols rebre el recordatori?

Usuari: Avui, a les 21 hores.

Assistent: Llestos. T’enviaré el recordatori a les 9 de la nit.

Aquesta conversa és il·lustrativa de diverses de les característiques de Nickerson, com bidireccionalitat, presència, estructura, llenguatge informal o coneixement compartit del món.

Bot conversacional

Els bots de conversa o chatbots són sistemes interactius que simulen tenir una conversa real amb l’usuari, normalment per escrit.

En l’exemple següent un usuari entaula una conversa amb un bot de l’aplicació de missatgeria Telegram per crear un paquet d’adhesius que seran usats en el xat.

Aquí, a diferència d’una interfície de llenguatge natural, l’usuari ha de conversar usant expressions concretes:

Captura de pantalla d’una conversa amb el bot Sticker de Telegram.
Font: elaboració pròpia.

Consideracions

D’una banda, aquest model pot ser útil per a dur a terme tasques concretes, però s’ha de tenir en compte que pot generar unes expectatives irreals en els usuaris. Fins i tot les interfícies de llenguatge natural poden no interpretar correctament les sol·licituds i oferir respostes o iniciar activitats que no són les intencionades.

D’altra banda, algunes interaccions poden ser tedioses innecessàriament usant un model d’aquestes característiques, ja que una conversa implica una seqüencialitat que no s’adequarà sempre a les necessitats de l’usuari. El cas mostrat en la figura anterior és un exemple d’això: el bot de conversa sol·licita la informació a l’usuari en un ordre específic.

Referències

Nickerson, R. S. (1976). «On conversational interaction with computers«. Proceedings of the ACM/SIGGRAPH workshop on user-oriented design of interactive graphics systems (pàg. 101-113).

Preece, J.; Rogers, Y.; Sharp, H. (2002). Interaction design: beyond human-computer interaction. Nova York: J. Wiley & Sons.