Speech

Interacció

Descripció

El paradigma d’interacció Speech fa referència a l’acció o habilitat de l’usuari d’interactuar mitjançant la veu amb un sistema digital. L’augment de les interfícies basades en la veu ja és un fet i ens permeten poder buscar, enviar missatges i, fins i tot, controlar els nostres dispositius connectats.

S’aprecia una evolució clara, des d’interfícies gràfiques GUI a interfícies de veu. La majoria de nosaltres estem familiaritzats amb l’ús d’aquestes interfícies (sobretot en els nostres dispositius mòbils), no obstant això, molts d’aquests sistemes manquen d’un disseny adequat. Algunes de les raons que s’identifiquen és que manquen d’un context en la parla i no s’implementen amb una naturalesa veritablement conversacional. D’altra banda, moltes d’aquestes estan dissenyades per a actuar com a recopiladores d’informació. Addicionalment, els diàlegs es presenten de manera anàloga a la forma en què nosaltres escrivim i no a la forma en què parlem. En general, la limitació de la tecnologia no es presenta com la responsable d’una experiència millor o pitjor, els dissenyadors han de conèixer com aplicar els processos necessaris per a implementar una interfície de veu adequada.

Tot i això, cal destacar que, respecte a la tecnologia, el problema principal és que aquest tipus de sistemes requereixen una configuració en forma d’«entrenament» i possibles gaps en el seu rendiment (a causa de les fallades que ocorren quan la qualitat de l’àudio és pobre, quan solament es reconeix part d’una frase, pronunciacions concretes o, fins i tot, quan no es detecta cap entrada). Per contra, alguns avantatges d’aquest paradigma es presenten de manera que no requereixen una atenció visual permanent, ja que permet als usuaris interaccionar mentre fan altres coses, la seva ubiqüitat d’ús, una corba d’aprenentatge molt inferior enfront d’un altre tipus d’interfícies d’usuari tradicionals o aspectes com ara la reducció en la grandària dels dispositius que la implementen enfront d’aquells que implementen les interfícies visuals o touch. A més, es complementa perfectament amb la interacció de tipus gestual.

Així, en un futur més que proper, els éssers humans estarem envoltats per centenars de màquines, moltes d’aquestes seran robots amb què haurem d’interactuar diàriament (algunes més simples i altres dotades d’intel·ligència o capacitat d’aprenentatge). La parla és la forma més sòlida i agradable que permet a les persones interaccionar amb les màquines (les persones som éssers naturalment conversadors i parlar és de les primeres tasques que anem aprenent des que naixem). D’aquesta manera, la incorporació de la veu complementarà o, fins i tot, reemplaçarà, les interfícies d’entrada de text més tradicionals com són les textuals, les tàctils o les gestuals.

Cal destacar que la interacció mitjançant la veu no solament se centra en una simple identificació verbal (tokens) i processament, sinó que requereix un disseny de com serà l’entrada. Així, diferents àmbits d’aplicació requereixen convertir aquestes paraules en text d’utilitat aplicats a diferents contextos, com pot ser l’emplenament de formularis, el dictat d’un text pla, l’especificació d’accions o comandaments concrets al sistema i, fins i tot, l’establiment d’una conversa. La veu, com a element d’entrada pot variar des d’una forma curta (una única paraula, nombre o frase) a una forma avançada (dictat continu). A més, els sistemes reconeixen el llenguatge de l’usuari i el tradueix en comandaments computacionals.

Aplicació

A continuació, distingim tres possibles aproximacions per a la creació de sistemes mitjançant la interacció per veu:

  • Comandaments: aquest tipus d’interfícies presenten una gran limitació ja que el llenguatge permès es basa en quadres sintàctics fixos amb substitució de variables. Malgrat que, des del punt de vista del disseny, es redueix la seva complexitat quan es defineix únicament una sintaxi rígida que limita en gran manera les possibles entrades de veu. L’èxit d’aquest tipus d’interfícies depèn molt de la voluntat dels usuaris per a aprendre el llenguatge específic per a aquest propòsit, tal com indiquem en el paradigma Typing. Un cas concret d’aplicació són alguns dels sistemes handsfree que fan ús del telèfon mòbil dins d’un vehicle i que permeten a l’usuari, per exemple, establir una trucada mitjançant una seqüència de números (numeració telefònica) o mitjançant el nom d’un contacte de l’agenda.
  • Arbres de diàleg: aquesta aproximació redueix la complexitat del reconeixement mitjançant la descomposició de l’activitat del domini a una seqüència basada en punts d’elecció. Això permet a l’usuari seleccionar entre un conjunt d’alternatives possibles o indicar una resposta específica (per exemple, respondre amb un valor numèric o mitjançant un valor «Sí»/«No»). Un cas concret d’aplicació és l’àmbit del suport telefònic a l’usuari l’objectiu del qual és resoldre automàticament un problema conegut sense necessitat de contactar amb un operador humà. L’inconvenient, des de la perspectiva de l’usuari, se centra en la incapacitat d’accedir ràpidament a les parts d’un domini havent de travessar moltes branques o entrar en un camí sense sortida atesa la impossibilitat de donar resposta. Això pot comportar una experiència frustrant per als usuaris. Des de la perspectiva del dissenyador, aquests sistemes poden ser difícils de construir perquè requereixen poder descompondre una activitat en forma d’un arbre de diàleg tractant que mantinguin un cert equilibri, malgrat no requereix d’entrenament o esforç per part del programador com ocorre en el següent cas.
  • Llenguatge natural: els avenços en intel·ligència artificial i l’aprenentatge automàtic estan possibilitant un ressorgiment de les denominades interfícies conversacionals i el processament del llenguatge natural, creant un potencial encara per explotar sobre el paradigma d’interacció speech. Per mitjà d’aquest es pot abordar el problema d’accés mitjançant un idioma concret que permeti que els usuaris emprin el llenguatge natural sense cap tipus de restricció i sense la necessitat de memoritzar comandaments o diàlegs predefinits. L’usuari solament ha de conèixer per endavant l’idioma i el domini en què treballa el sistema perquè la interacció pugui ser efectiva. El processament del llenguatge té l’objectiu de fer possible la comprensió i el processament de la informació expressada en el llenguatge humà. Aquest enfocament no solament implica una gran càrrega en el desenvolupador per a entendre qualsevol declaració raonable per part de l’usuari, sinó que també comporta la càrrega addicional en el desenvolupament d’un diàleg de descobriment. Un cas concret d’aplicació són els assistents virtuals dels dispositius mòbils. Per mitjà de l’entrenament, el sistema reconeix l’usuari. Això permet que aquests sistemes puguin ser utilitzats, fins i tot, per a reconèixer la identitat dels usuaris en entorns segurs.

Exemples

Trobem dos tipus principals d’exemples en interfícies d’usuari que permeten una interacció per veu. D’una banda, hi ha els assistents de veu intel·ligents integrats en els diferents sistemes operatius dels smartphones.

Siri

És el nom de l’assistent vocal desenvolupat per Apple pels seus smartphones i tauletes tàctils. Aquest programari va ser introduït el 2011 a l’iPhone 4S i, des de llavors, s’incorpora a tots els dispositius iOS.

Siri registra la sol·licitud per mitjà de la freqüència i ones de so de la veu de l’usuari i les tradueix a un codi. Posteriorment, Siri desglossa el codi per a identificar patrons, frases i paraules clau. La informació s’integra a uns algorismes que es filtren mitjançant múltiples combinacions d’oracions per a determinar el que significa la frase registrada. Després d’aquest procediment, Siri determina la sol·licitud realitzada i avalua quines respostes es poden dur a terme accedint a la informació emmagatzemada.

Siri és capaç de crear oracions completes i rellevants per al tipus de pregunta o comandament sol·licitat.

Google Assistant/Now

Actualment, Google Now i Google Assistant segueixen sent tecnologies independents. Google Now és l’assistent personal de veu que funciona per mitjà de dispositius que utilitzen Android o iOS. Ofereix les possibilitats típiques de programació d’esdeveniments i alarmes, i també utilitza comandaments de veu per a executar funcionalitats del dispositiu. D’altra banda, Google Assistant conté els mateixos elements que Google Now si bé conté una IA més avançada. Al seu torn, es caracteritza per tenir una interfície conversacional més amigable i estar integrat amb el dispositiu Google Home, que presentarem més endavant.

Windows Cortana

És l’assistent virtual desenvolupat per Microsoft per a Windows Phone (ara descontinuat) i disponible per a dispositius que utilitzin Windows 10, iOS, Android i Xbox One. L’assistent utilitza els motors de cerca (com ara Bing) com a base de dades. Addicionalment, Cortana va registrant informació de la interacció de l’usuari per a aprendre quins són els teus interessos i rutines per a facilitar-te suggeriments o serveis a mida totalment personalitzats al teu perfil.

Assistents de veu integrats als smartphones
Font: Wikipedia.

Addicionalment als assistents de la veu integrats als smartphones, es llisten els assistents de veu intel·ligents més rellevants i que es presenten integrats en els assistents de la llar.

Google Home

És un dispositiu amb altaveu desenvolupat per Google que es defineix com un centre de control i assistent de la llar. A més, s’utilitza com a sistema d’entreteniment. Es pot usar per a reproduir música a la llar, administrar sense esforç les tasques quotidianes i també per a preguntar-los qüestions que es desitja conèixer.

Apple Home Kit

Sistema desenvolupat per Apple que permet controlar els dispositius intel·ligents instal·lats a casa. Mitjançant comandaments de veu (via Siri) permet ajustar la temperatura i il·luminació de forma remota, a més de rebre notificacions dels dispositius connectats. Com a desavantatge, Apple Home Kit no és compatible amb diversos dispositius ja existents al mercat.

Amazon Echo

És el dispositiu intel·ligent de la llar desenvolupat per Amazon. Utilitza el seu sistema de control per veu denominat Alexa. Aquest assistent permet interactuar directament amb el dispositiu sense haver de passar per un smartphone connectat. Si bé manté les mateixes característiques que els seus competidors (control dels sistemes domòtics de la llar i reproducció de música), el seu punt fort és la plataforma de control per veu que la suporta, la qual cosa el fa molt més eficient i intuïtiu per al seu ús domèstic. El sistema és compatible amb altres dispositius (sensors) intel·ligents de la llar com ara SmartThings, Wink i Insteon que proporcionen a Amazon Echo una major versatilitat.

Assistents de veu integrats en els assistents de la llar
Font: Wikipedia.

Referències

Elovic, A. «Chatbots – The Beginners Guide». Disponible a: <https://chatbotsmagazine.com/chatbots-the-beginners-guide-618e72599b55>. [Data de consulta: 25 de gener de 2021].

Harris, R. A. (2004). Voice interaction design: crafting the new conversational speech systems. Elsevier.

Jokinen, K. (2009). Constructive dialogue modelling: Speech interaction and rational agents (vol. 10). John Wiley & Sons.

Nassar, R. «Everyone’s Guide to Designing Great Conversational Interface Experiences». Disponible a: <https://uxdesign.cc/designing-great-conversational-interfaces-89ac70fcb611>. [Data de consulta: 25 de gener de 2021].

Shevat, A. (2017). Designing Bots, Creating Conversational Experiences. O’Reilly Media.