Gesture

Interacción

Descripción

El gesto es una forma de comunicación no verbal en la que una serie de acciones corporales tienen como objetivo transmitir un mensaje concreto. El uso de gestos puede involucrar el movimiento de las manos, la cara u otras partes del cuerpo.

El gesto se caracteriza por tener multitud de representaciones diferentes; puede estar compuesto por un pequeño gesto con la mano, grandes movimientos que involucran todo el cuerpo, o simplemente una postura concreta. Aunque el gesto generalmente es una forma de comunicación no verbal, se puede combinar con el habla u otros medios de expresión (la lengua de signos es sin duda la forma de comunicación más extendida entre las personas que sufren discapacidad auditiva). En nuestro día a día, los gestos pueden ayudarnos a llevar a cabo una charla o discurso, e incluso a encontrar las palabras que no somos capaces de comunicar de manera oral. Este tipo de gestos va a estar condicionado según el tipo de conversación que estemos realizando, el tipo de público al que nos dirigimos e incluso según nuestro estado anímico, si bien la mayor parte del tiempo utilizamos gestos para realizar indicaciones (gestos deícticos, o icónicos, los cuales nos ayudan a explicar un concepto concreto).

Existen gestos que son reconocidos del mismo modo prácticamente en todo el mundo (como el gesto de señalar, la afirmación o negación con la cabeza) y otros que tienen un componente cultural relevante (un mismo gesto tiene un significado diferente según el país donde se exprese). Del mismo modo, en todas las culturas se utiliza con la misma frecuencia la gestualidad en una conversación, si bien no se utilizará del mismo modo (en la cultura latina, la gestualidad es en su mayoría más amplia que en la cultura oriental, por ejemplo).

Por otro lado, la interacción basada en gestos se ha considerado durante mucho tiempo un enfoque prometedor para proporcionar una manera natural e intuitiva para las interacciones persona-ordenador en gran cantidad de dominios, actividades y aplicaciones informáticas. En este sentido, hasta ahora los diseños de interfaz de usuario se han centrado en la interacción a través de un ratón, teclado e incluso tocando una pantalla. Este tipo de dispositivos están evolucionando, junto con otras herramientas, para ayudarnos a diseñar mejores experiencias en un marco multimodal donde la interacción gestual será una pieza clave.

El desarrollo de nuevas tecnologías, en este ámbito, se prevé en un futuro próximo en donde obtener información en una pantalla, seleccionar y mover elementos a través de un simple gesto en el aire sea posible. La interacción gestual requerirá plantear nuevos enfoques alejados de la interacción que tenemos actualmente a través de las pantallas táctiles, permitiendo a los usuarios tener más control, lo que requerirá también un mejor diseño de UX.

Tecnología e interacción gestual

La interacción gestual aplicada a la tecnología forma cada vez más parte de nuestra vida diaria a través de los dispositivos móviles. En este ámbito, la interacción más conocida actualmente se realiza con gestos sobre superficies táctiles. La evolución de la tecnología táctil ha hecho que actualmente contemos con pantallas multitáctiles, las cuales permiten el reconocimiento de diferentes puntos de contacto a través de la presión e interacción gestual. Existen multitud de gestos de interacción táctil; los más conocidos son los que se basan en un «toque», «doble toque», «toque continuo» para realizar una selección, unir dos dedos para realizar scroll, o juntar dos dedos y extenderlos para realizar un efecto de zoom.

Ejemplos de gestos de interacción táctil
Fuente: Wikipedia.

Asimismo, existe otro tipo de interacción que se realiza sin necesidad de tocar directamente una superficie. Se conoce como interacción gestual sin contacto (touchless). La interacción gestual touchless y la tecnología que se está desarrollando en este campo están en una etapa incipiente, si bien ha despertado el interés de la comunidad científico-tecnológica por su importante contribución a las interfaces naturales de usuario. Este tipo de interacción elimina por completo la dependencia de dispositivos tradicionales como el teclado o el ratón, permitiendo al usuario explorar y controlar un espacio de información multimedia y/o dispositivos digitales a través de movimientos corporales y el reconocimiento de gestos.

El reconocimiento de gestos se enmarca en el ámbito de interacción y la tecnología del lenguaje con el objetivo de interpretar gestos humanos. Esta tecnología ofrece la posibilidad de controlar e interactuar con los dispositivos sin tocarlos físicamente, principalmente a través de cámaras. Además de los movimientos de las manos y el cuerpo, la tecnología de reconocimiento de gestos también se puede utilizar para leer expresiones faciales y del habla (es decir, lectura de labios), así como movimientos oculares.

Actualmente, el reconocimiento por gestos es la forma en que los ordenadores comienzan a entender el lenguaje corporal humano, constituyendo así mecanismos de comunicación más avanzados que las interfaces de usuario de texto primitivo con las que contamos hoy día, o incluso que las interfaces gráficas de usuario (GUI), la mayoría de los cuales están limitados al uso de teclados y ratones.

El reconocimiento de gestos es una interfaz de usuario alternativa que permite proporcionar datos en tiempo real a un ordenador. En lugar de escribir con teclas o tocar en una pantalla táctil, un sensor de movimiento percibe e interpreta los movimientos como la principal fuente de entrada de datos. Esto es lo que sucede en el momento en que se realiza un gesto y el sistema procesa. Los pasos pueden resumirse de la siguiente manera:

Una cámara alimenta datos de imagen en un dispositivo sensor conectado a un ordenador. El dispositivo de detección generalmente usa un sensor o proyector de infrarrojos con el objetivo de calcular la profundidad.
El software especialmente diseñado identifica los gestos a través de una biblioteca predeterminada donde cada gesto se corresponde con un comando.
El software correlaciona cada gesto registrado en tiempo real, interpreta el gesto y utiliza la biblioteca para identificar gestos significativos que coincidan con la biblioteca.
Una vez que se ha interpretado el gesto, el sistema ejecuta el comando relacionado con ese gesto específico.

Aplicaciones

Existen diferentes dispositivos de entrada que se utilizan en el ámbito del reconocimiento por gestos que van más allá de las conocidas KUI (kinetic user interfaces) utilizadas a través de periféricos. Algunas de ellas son:

Guantes: permiten detectar la posición y rotación de las manos, a través de dispositivos magnéticos o inerciales. Muchos de ellos pueden detectar el movimiento de los dedos con un alto nivel de exactitud y algunos de los guantes incluyen feedback háptico.
Cámaras sensibles a la profundidad: reconocen los gestos del usuario mediante cámaras que recogen información tridimensional.
Cámaras estereoscópicas: este tipo de cámaras contiene dos o más lentes y sensores de imagen cuya posición relativa es conocida, lo que permite que la cámara simule la visión binocular humana. Posteriormente, el sistema obtiene las imágenes al encontrar la correspondencia entre los puntos vistos por una cámara, y los mismos puntos desde la otra cámara.
Controladores basados en gestos. Estos controladores actúan como una extensión del cuerpo, de modo que cuando se realizan los gestos, parte del movimiento puede ser capturado por un software. Algunos de estos dispositivos están comercialmente dirigidos a sustituir el teclado y ratón a través de la gestualidad de las manos. Un ejemplo de este tipo de dispositivos es el Leap Motion, que si bien consigue ser un dispositivo mucho más preciso que los demás, no ha acabado de asentarse en el mercado.

Dispositivos de entrada en el reconocimiento de gestos
Fuente: Wikipedia.

Ejemplos

Los ejemplos de aplicaciones que se pueden realizar en el ámbito de reconocimientos de gestos van desde aplicaciones en el ámbito de tabletas y notebooks, teléfonos inteligentes (el desbloqueo o los gestos de interacción en pantallas táctiles son las aplicaciones más destacables), videojuegos, televisores inteligentes, cine, y en el ámbito de la salud, entre otros. A continuación, se pueden comprobar algunos de ellos.

Bolígrafos digitales

El reconocimiento de gestos a través de bolígrafos digitales se posiciona como alternativa a los periféricos tradicionales. Estos dispositivos reconocen la escritura hecha a mano por un usuario y permite su inserción en un dispositivo electrónico. Existen diferentes variantes de este tipo de dispositivos: desde los más convencionales, que permiten dibujar o escribir haciendo un reconocimiento de texto sobre una superficie táctil (tabletas gráficas), hasta aquellos que no requieren de un dispositivo digital como superficie (una libreta de papel) que incorporan funcionalidades adicionales como, por ejemplo, correcciones automáticas de texto, predicciones de texto o la posibilidad de poder hacer grabaciones simultáneas de audio a modo de notas mientras el usuario escribe (dispositivo Moleskine Pen+).

Captura de movimiento

La captura de movimiento (motion capture) está dirigida a registrar los movimientos de una persona u objeto con el fin de reproducirlo en un entorno virtual. Esta tecnología ha contribuido al estudio de los movimientos de los seres humanos y animales en general, generando beneficios en el ámbito de la salud y anatomía. Este tipo de tecnología suele utilizar la captura de movimientos a través de sensores ópticos, giroscópicos, mecánicos o magnéticos. La industria del cine y videojuegos son las que están potenciando más este tipo de reconocimiento de gestos.

Motion capture con Chad Phantom
Fuente: Wikipedia.

Reconocimiento de expresiones y gestos faciales

El análisis automático de los gestos faciales se está convirtiendo en un área de mucho interés en los ámbitos de detección de enfermedades, rehabilitación de trastornos mentales, estudios sociológicos, o bien de la animación 3D y videojuegos.

Análisis de la expresión facial, Emotion API
Fuente: Flickr, autor fotologic. https://www.flickr.com/photos/fotologic/23555336780.

La industria de los videojuegos es la que está creciendo más en este ámbito y donde se pueden comprobar los avances más innovadores a través de los siguientes ejemplos:

Nintendo Wii (Nintendo, 2006) es un buen ejemplo que marcó el inicio de la introducción de la tecnología de reconocimiento gestual en entornos de juego inmersivos. Contaba con una tecnología híbrida donde el usuario podía interactuar con la consola usando unos controladores inalámbricos. La gran oferta de juegos, así como la posibilidad de conectar otros periféricos a la videoconsola, convirtieron en un éxito este modo de interacción virtual.
Kinect (Microsoft, 2010, actualmente descontinuada) dio un salto tecnológico que permitió una experiencia única, controlando personajes virtuales e interactuando con juegos a través de los gestos y movimientos del cuerpo sin utilizar ningún controlador físico. Cabe decir que no logró asentarse en el mercado, quedando como una tecnología de entretenimiento anecdótica sin haber conseguido una integración completa con la experiencia del usuario final.
Playstation Move (Playstation, 2010) también sufrió un desenlace muy parecido al anterior ejemplo, si bien su tecnología de base era menos innovadora que su competidor de Microsoft, ya que ofrecía un sistema similar al de Nintendo lanzado cuatro años atrás. Actualmente, Playstation está intentando aprovechar el uso de este dispositivo combinándolo con sus gafas de realidad virtual (Playstation VR, 2016), una tecnología que está abriendo un nuevo horizonte en la industria del videojuego.
Holo Lens. En este sentido, el avance en el campo de la realidad virtual y aumentada, junto con el reconocimiento de voz y combinados con el reconocimiento gestual, ha abierto multitud de oportunidades que están siendo explotadas en la actualidad. Microsoft vuelve a intentar establecerse como pionero en este contexto con Microsoft Holo Lens. Estas gafas de realidad virtual permiten una inmersión casi total del jugador simulando hologramas que se integran en su campo de visión.

Microsoft Holo Lens
Fuente: Wikipedia.

Referencias

Guness, S. P. (2015). Development and Evaluation of Facial Gesture Recognition and Head Tracking for Assistive Technologies. Diss. University of Kent.

Li, X. y otros (2011). «Hand gesture recognition by stereo camera using the thinning method». Multimedia Technology (ICMT), 2011 International Conference on IEEE.

Premaratne, P. (2014). Human Computer Interaction Using Hand Gestures, Cognitive Science and Technology. Springer Science & Business Media.

Rautaray, S. S.; Agrawal. A. (2012). «Real time hand gesture recognition system for dynamic applications». International Journal of UbiComp (3.1: 21).

Vogiazou, Y. (2016). «6 Reasons Why UX Designers Should Explore Gestural Interaction» [en línea]. <https://www.invisionapp.com/blog/ux-design-gestural-interaction/>. [Fecha de consulta: 25 de enero de 2021].

Vogiazou, Y. (2016). «Beyond Touch: Designing Effective Gestural Interactions» [en línea]. <https://www.invisionapp.com/blog/effective-gestural-interaction-design/>. [Fecha de consulta: 25 de enero de 2021].

Zhang, X. y otros (2009). «Hand gesture recognition and virtual game control based on 3D accelerometer and EMG sensors». Proceedings of the 14th International Conference on Intelligent User Interfaces. ACM.