Gesture

Interacció

Descripció

El gest és una forma de comunicació no verbal en què una sèrie d’accions corporals tenen com a objectiu transmetre un missatge concret. L’ús de gestos pot involucrar el moviment de les mans, la cara o altres parts del cos.

El gest es caracteritza per tenir multitud de representacions diferents podent estar compost per un petit gest amb la mà, grans moviments que involucren tot el cos o, simplement, una postura concreta. Malgrat que el gest generalment és una forma de comunicació no verbal, es pot combinar amb la parla o altres mitjans d’expressió (la llengua de signes és sens dubte la forma de comunicació més estesa entre les persones que pateixen una discapacitat auditiva). En el nostre dia a dia, els gestos ens poden ajudar a dur a terme una xerrada o discurs i, fins i tot, a trobar les paraules que no som capaços de comunicar de manera oral. Aquest tipus de gestos estaran condicionats pel tipus de conversa que estiguem realitzant, el tipus de públic a què ens dirigim i, fins i tot, al nostre estat anímic, si bé la major part del temps utilitzem els gestos per a fer  indicacions (gestos díctics) o icònics (els quals ens ajuden a explicar un concepte concret).

Hi ha gestos que són reconeguts de la mateixa manera pràcticament a tot el món (com el gest d’assenyalar, l’afirmació o negació amb el cap) i a nivell general tenen una component cultural rellevant (un mateix gest té un significat diferent segons el país en què s’expressi). De la mateixa manera, en totes les cultures s’utilitza amb la mateixa freqüència la gestualitat en una conversa, si bé no s’utilitzarà de la mateixa manera (en la cultura llatina, la gestualitat és en la seva majoria més àmplia que en la cultura oriental per exemple).

D’altra banda, la interacció basada en gestos s’ha considerat durant molt temps un enfocament prometedor per a proporcionar una manera natural i intuïtiva per a les interaccions persona-ordinador en una gran quantitat de dominis, activitats i aplicacions informàtiques. En aquest sentit, fins ara els dissenys d’interfície d’usuari s’han centrat principalment en la interacció per mitjà d’un mouse, teclat i, fins i tot, tocant una pantalla. Aquest tipus de dispositius estan evolucionant juntament amb altres eines per a ajudar-nos a dissenyar experiències millors en un marc multimodal en què la interacció gestual serà una peça clau.

Es preveu, en un futur pròxim, el desenvolupament de noves tecnologies en aquest àmbit en què obtenir informació en una pantalla, seleccionar i moure elements mitjançant un simple gest en l’aire sigui possible. La interacció gestual necessitarà plantejar nous enfocaments allunyats de la interacció actual mitjançant les pantalles tàctils, permetent als usuaris tenir més control, la qual cosa també requerirà un millor disseny d’UX.

Tecnologia i interacció gestual

Cada vegada més, la interacció gestual aplicada a la tecnologia forma part de la nostra vida diària per mitjà dels dispositius mòbils. En aquest àmbit, la interacció més coneguda actualment es realitza amb gestos sobre superfícies tàctils. L’evolució de la tecnologia tàctil ha fet que actualment comptem amb pantalles multi-tàctils, les quals permeten el reconeixement de diferents punts de contacte mitjançant la pressió i interacció gestual. Hi ha multitud de gestos d’interacció tàctil, sent els més coneguts els que es basen en un «toc», «doble toc», «toc continu» per a fer una selecció, unir dos dits per a fer scroll, o ajuntar dos dits i estendre’ls per fer un efecte de zoom.

Exemples de gestos d’interacció tàctil
Font: Wikipedia.

Així mateix, hi ha un altre tipus d’interacció que es realitza sense necessitat de tocar directament una superfície. Es coneix com a interacció gestual sense contacte (touchless). La interacció gestual touchless i la tecnologia que s’està desenvolupant en aquest camp estan actualment en una etapa incipient si bé ha despertat l’interès de la comunitat científic-tecnològica per la seva important contribució a les interfícies naturals d’usuari. Aquest tipus d’interacció elimina per complet la dependència de dispositius tradicionals com ara el teclat o el mouse, permetent a l’usuari explorar i controlar un espai d’informació multimèdia o dispositius digitals per mitjà de moviments corporals i el reconeixement de gestos.

El reconeixement de gestos s’emmarca en l’àmbit d’interacció i la tecnologia del llenguatge amb l’objectiu d’interpretar gestos humans. Aquesta tecnologia ofereix la possibilitat de controlar i interactuar amb els dispositius sense tocar-los físicament, principalment per mitjà de càmeres. A més dels moviments de les mans i el cos, la tecnologia de reconeixement de gestos també es pot utilitzar per a llegir expressions facials i de la parla (és a dir, lectura dels llavis) i també dels moviments oculars.

Actualment, el reconeixement per gestos és la forma en què els ordinadors comencen a entendre el llenguatge corporal humà, constituint així mecanismes de comunicació més avançats que les interfícies d’usuari de text primitiu amb què comptem avui, o, fins i tot, que les interfícies gràfiques d’usuari (GUI) la majoria de les quals estan limitades a l’ús de teclats i ratolins.

El reconeixement de gestos és una interfície d’usuari alternativa que permet proporcionar dades en temps real a un ordinador. En lloc d’escriure amb tecles o tocar en una pantalla tàctil, un sensor de moviment percep i interpreta els moviments com la font principal d’entrada de dades. Això és el que succeeix en el moment en què es realitza un gest i el sistema el processa. Els passos es poden resumir de la manera següent:

 1. Una càmera alimenta dades d’imatge en un dispositiu sensor connectat a un ordinador. El dispositiu de detecció generalment usa un sensor o projector d’infrarojos amb l’objectiu de calcular la profunditat.
 2. El software especialment dissenyat identifica els gestos per mitjà d’una biblioteca predeterminada en què cada gest es correspon amb un comandament.
 3. El software correlaciona cada gest registrat en temps real, interpreta el gest i utilitza la biblioteca per a identificar els gestos significatius que coincideixin amb la biblioteca.
 4. Una vegada que s’ha interpretat el gest, el sistema executa el comandament relacionat amb aquest gest específic.

Aplicacions

Hi ha diferents dispositius d’entrada que s’utilitzen en l’àmbit del reconeixement per gestos que van més enllà de les conegudes KUI (Kinetic User Interfaces) utilitzades per mitjà de perifèrics. Algunes d’aquestes són:

 • Guants: permeten detectar la posició i rotació de les mans, mitjançant dispositius magnètics o inercials. Molts d’aquests poden detectar el moviment dels dits amb un nivell alt d’exactitud i alguns dels guants inclouen un feedback hàptic.
 • Càmeres sensibles a la profunditat: Reconeixen els gestos de l’usuari mitjançant càmeres que recullen informació tridimensional.
 • Càmeres estereoscòpiques: aquest tipus de càmeres conté dues o més lents i sensors d’imatge la posició relativa de la qual és coneguda, la qual cosa permet que la càmera simuli la visió binocular humana. Posteriorment, el sistema obté les imatges quan troba la correspondència entre els punts vistos per una càmera, i els mateixos punts des de l’altra càmera.
 • Controladors basats en gestos. Aquests controladors actuen com una extensió del cos de manera que quan es realitzen els gestos, una part del moviment pot ser capturat per un software. Alguns d’aquests dispositius estan comercialment dirigits a substituir el teclat i ratolí per mitjà de la gestualitat de les mans. Un exemple d’aquest tipus de dispositius és el Leap Motion, si bé aconsegueix ser un dispositiu molt més precís que els altres, no ha acabat d’assentar-se al mercat.

Dispositius d’entrada en el reconeixement de gestos
Font: Wikipedia.

Exemples

Els exemples d’aplicacions que es poden dur a terme en l’àmbit del reconeixement dels gestos van des d’aplicacions en tablets, notebooks i smartphones (el desbloqueig o els gestos d’interacció en pantalles tàctils són les aplicacions més destacables) a videojocs, televisors intel·ligents, cinema i l’àmbit de la salut, entre d’altres. A continuació, podem comprovar alguns d’aquests.

Bolígrafs digitals

El reconeixement de gestos per mitjà de bolígrafs digitals es posiciona com una alternativa als perifèrics tradicionals. Aquests dispositius reconeixen l’escriptura feta a mà per un usuari i permet la seva inserció en un dispositiu electrònic. Hi ha diferents variants d’aquest tipus de dispositius, des dels més convencionals que permeten dibuixar o escriure fent un reconeixement del text sobre una superfície tàctil (tauletes gràfiques) fins a aquells que no requereixen un dispositiu digital com a superfície (una llibreta de paper) que incorporen funcionalitats addicionals com, per exemple, correccions automàtiques de text, prediccions de text o la possibilitat de poder fer enregistraments simultanis d’àudio a manera de notes mentre l’usuari escriu (dispositiu Moleskine Pen+).

Captura de moviment

La captura de moviment (motion capture), està dirigit a registrar els moviments d’una persona o objecte amb la finalitat de reproduir-los en un entorn virtual. Aquesta tecnologia ha contribuït a l’estudi dels moviments dels éssers humans i animals en general, generant beneficis en l’àmbit de la salut i anatomia. Aquest tipus de tecnologia sol utilitzar la captura dels moviments per mitjà de sensors òptics, giroscòpics, mecànics o magnètics. La indústria del cinema i videojocs són les que estan potenciant més aquest tipus de reconeixement de gestos.

Motion capture amb Chad Phantom
Font: Wikipedia.

Reconeixement d’expressions i gestos facials

L’anàlisi automàtica dels gestos facials s’està convertint en una àrea de molt interès en els àmbits de detecció de malalties, rehabilitació de trastorns mentals, estudis sociològics o bé de l’animació 3D i videojocs.

Anàlisi de l’expressió facial, Emotion API
Font: Flicker, autor fotològic. https://www.flickr.com/photos/fotologic/23555336780.

La indústria dels videojocs és la que està creixent més en aquest àmbit i on es poden comprovar els avenços més innovadors per mitjà dels exemples següents:

 • Nintendo Wii (Nintendo, 2006), és un bon exemple que va marcar l’inici de la introducció de la tecnologia de reconeixement gestual en entorns immersius de joc. Comptava amb una tecnologia híbrida en què l’usuari podia interactuar amb la consola usant uns controladors sense fils. La gran oferta de jocs, i també la possibilitat de connectar altres perifèrics a la videoconsola, van convertir en un èxit aquesta manera d’interacció virtual.
 • Kinect (Microsoft, 2010, actualment descontinuada) va donar un salt tecnològic permetent una experiència única controlant personatges virtuals i interactuant amb jocs per mitjà dels gestos i moviments del cos sense utilitzar cap controlador físic. Cal dir que no va aconseguir assentar-se al mercat, quedant com una tecnologia d’entreteniment anecdòtica sense haver aconseguit una integració completa amb l’experiència de l’usuari final.
 • Playstation Move (Playstation, 2010), també va patir un desenllaç molt semblant a l’exemple anterior, si bé la seva tecnologia de base era menys innovadora que el seu competidor de Microsoft ja que oferia un sistema similar al de Nintendo llançat 4 anys enrere. Actualment, Playstation està intentant aprofitar l’ús d’aquest dispositiu combinant-lo amb les seves ulleres de realitat virtual (Playstation VR, 2016), una tecnologia que està obrint un nou horitzó en la indústria del videojoc.
 • Holo Lens: En aquest sentit, l’avenç en el camp de la realitat virtual i augmentada, juntament amb el reconeixement de veu i en combinació amb el reconeixement gestual, ha obert multitud d’oportunitats que estan sent explotades en l’actualitat. Microsoft torna a intentar establir-se com a pioner en aquest context amb els seus Microsoft Holo Lens. Aquestes ulleres de realitat virtual permeten una immersió gairebé total del jugador simulant hologrames que s’integren en el seu camp de visió.

Microsoft Holo Lens
Font: Wikipedia.

Referències

Guness, S. P. (2015). Development and Evaluation of Facial Gesture Recognition and Head Tracking for Assistive Technologies. Diss. University of Kent.

Li, X. i altres (2011). «Hand gesture recognition by stereo camera using the thinning method». Multimedia Technology (ICMT), 2011 International Conference on. IEEE. 

Premaratne, P. (2014). Human Computer Interaction Using Hand Gestures, Cognitive Science and Technology. Springer Science & Business Media.

Rautaray, S. S.; Agrawal. A. (2012). «Real time hand gesture recognition system for dynamic applications». International Journal of UbiComp (núm. 3, vol. 1, pàg. 21).

Vogiazou, Y. (2016). «6 Reasons Why UX Designers Should Explore Gestural Interaction». Disponible a: <https://www.invisionapp.com/blog/ux-design-gestural-interaction/>. [Data de consulta: 25 de gener de 2021].

Vogiazou, Y. (2016). «Beyond Touch: Designing Effective Gestural Interactions». Disponible a: <https://www.invisionapp.com/blog/effective-gestural-interaction-design/>. [Data de consulta: 25 de gener de 2021].

Zhang, X. i altres (2009). «Hand gesture recognition and virtual game control based on 3D accelerometer and EMG sensors». Proceedings of the 14th international conference on intelligent user interfaces. ACM.