Llegan las máquinas que detectan emociones

Pasamos más horas a solas con el teléfono y el ordenador que con cualquier otro ser humano. A estas alturas de los acontecimientos muy pocos estarán en disposición de discutir este hecho. Dormimos con el móvil al lado de la cama: revisarlo es lo último que hacemos antes de dormir y lo primero que hacemos al abrir los ojos. La compañía estadounidense de investigación tecnológica Unisys asegura que una persona tarda como promedio veintiséis horas en denunciar el robo de una cartera. Pero si el objeto perdido es un teléfono, la denuncia se produce a los 68 minutos.

Portátiles y smartphones son nuestros compañeros constantes. Ante ellos nos quitamos la careta, no fingimos, somos lo que somos. Es una pena que ellos no puedan estar a la altura (de momento). Porque, por muchas horas que pases con tu laptop, él es incapaz de adivinar si estás triste y no puede reaccionar en consecuencia. Su inteligencia cognitiva resulta pasmosa, pero su capacidad emocional es nula. Estés eufórico, hundido en la melancolía o nervioso, siempre tendrás delante la misma máquina inteligente y fría. A pesar de ello, ese dispositivo es capaz de mantenerte absorto y aislado de tus amigos y parientes: de hecho, buen número de tus conexiones sociales tienen lugar a través de tus redes.

"Los programadores deben considerar la perspectiva del afecto al crear un software destinado a interactuar con humanos"

Los expertos, hartos de advertir de la relativa deshumanización que subyace tras los amigos y amantes digitales, han buscado un inesperado giro al asunto: devolver las emociones al mundo de las interacciones digitales. Y el único modo de hacerlo es enseñar a las máquinas a interpretar las emociones y a reaccionar de un modo parecido a cómo lo haría un ser humano.

La señal definitiva es el destino que han dado últimamente a sus dineros algunos capitalistas de Sand Hill Road, esa colina próxima a la Universidad de Stanford donde se concentran los que invierten en el futuro que tú ni siquiera imaginas. Pues bien, estos prohombres han decidido invertir por primera vez en startups de nombres tiernos. A saber: Affectiva, eMotion, Realeyes, Sension o Emotient.

El tema lo introdujo, en 1995, Rosalind Picard, profesora del Instituto Tecnológico de Massachusetts (MIT), y entonces fue tratada con sarcasmo por sugerir que, para conseguir que una máquina fuera verdaderamente inteligente, había que dotarla de respuesta emocional. "Los programadores deben considerar la perspectiva del afecto al crear un software destinado a interactuar con humanos", escribió. Luego amplió su teoría en el libroAffective Computing (Informática afectiva). Y, sin pretenderlo, bautizó un nuevo campo en las ciencias de la computación. Picard ha sido la inspiración para muchos investigadores, como la egipcia Rana el Kaliouby, quien, con su colaboración, ha creado el algoritmo Affdex, capaz de identificar la expresión de diferentes emociones a partir de rasgos faciales.

Affectiva, que salió del proyecto del MIT, es el origen de Affdex y, como casi todas las empresas centradas en las emociones, utiliza las investigaciones del psicólogo Paul Ekman, quien por cierto ha fichado por la competencia, la startup Emotient, creada por Marian Bartlett, profesora de la Universidad de California.

Expresiones idénticas en todo el mundo

Ekman empezó sus investigaciones de las emociones humanas en los 60, y consiguió crear un cuerpo sólido de evidencias que demuestran quees posible identificar seis emociones humanas a partir de la expresión facial, porque sus rasgos son casi idénticos, independientemente del género, la edad o el contexto cultural. Así creó una especie de enciclopedia de quinientas páginas que compila todos los movimientos faciales posibles y que se conoce como el Facial Action Coding System.

A partir de esa información, con el uso de un algoritmo concreto y técnicas de aprendizaje automático, se ha conseguido que una máquina sea capaz de diferenciar una sonrisa auténtica de una social –pensada para agradar– o el dolor fingido del real. Una línea, un entrecejo demasiado fruncido o la tensión marcada en un músculo pueden servir para distinguir una emoción de otra. Los creadores de Affdex aseguran que su precisión para interpretar un entrecejo se acerca al 90 %.

"Nuestro punto de partida es el rostro humano", explica su fundadora. “En la ciencia de las emociones humanas –continúa–, cada movimiento facial es una unidad de acción. Por ejemplo, el tirón de la comisura labial de una gran sonrisa es la unidad de acción número doce, las líneas de expresión del entrecejo son la número cuatro”. Los humanos somos increíblemente consistentes y repetitivos en el modo de fruncir la nariz o las cejas para expresar sentimientos. Son movimientos universales, y todo es cuestión de entrenar a los ordenadores para detectar los pequeños cambios en los músculos faciales que diferencian un entrecejo fruncido por disgusto de uno fruncido por asombro.

Según El Kaliouby, conseguir que una máquina lea estos cambios es difícil, porque son rápidos y combinados entre sí. Para enseñar a un ordenador a diferenciar una sonrisa genuina de una falsa se introducen en el programa decenas de miles de caras de sonrisas reales de diferentes edades, etnias y géneros, y la misma cantidad de sonrisas sociales. Mediante el aprendizaje automático o machine learning, el algoritmo identifica las líneas, los pliegues y los cambios musculares faciales propios de ambas maneras de sonreír.

"Las máquinas son muy buenas recopilando detalles de las imágenes. Un cambio casi imperceptible es inmediatamente detectado; incluso una variación en un solo píxel. El desafío es conseguir que la máquina identifique, por ejemplo, la tristeza en la amplia variedad de rostros que existe en la especie humana", explica Jay Turcot, investigador de Affectiva. Y para que sea capaz de aprenderlo tiene que ignorar las pequeñas individualidades de cada rostro que no son sustanciales. "Para que la máquina se aproxime a la habilidad de nuestra especie para detectar las emociones, o incluso la sobrepase, tiene que haber procesado miles y miles de caras diferentes", explica Turcot.

Base de datos con 2,9 millones de rostros

El investigador asegura que entrenar ordenadores es tan difícil y emocionante como enseñar a una clase repleta de estudiantes: algunos te sorprenden, otros te decepcionan, llegan los nuevos, se experimentan nuevas metodologías, los mejores son sometidos a pruebas más afinadas… Affectiva ha conseguido compilar 12.000 millones de indicadores emocionales a partir del estudio de 2,9 millones de caras de sujetos de 75 países. Ya es la base de datos emocionales más grande del mundo.

Los softwares de analítica de las emociones no tienen una tarea fácil por delante. Hasta ahora nada ha superado al ojo humano para detectar la falsedad y la impostura en las caras de nuestros semejantes. Los ordenadores nos superan en lógica, pero no en tareas de percepción, como el reconocimiento de la voz o la identificación de los objetos. Según confirma Bartlett, "los procesos de percepción son fáciles para los humanos y difíciles para las máquinas". Sin embargo, en su laboratorio de San Diego, esta experta en aprendizaje automático de máquinas ha conseguido que los ordenadores superen a los humanos a la hora de detectar falsas expresiones de dolor. Cierto que lo ha logrado en el ámbito controlado de un laboratorio y no en el confuso mundo real, pero es un primer paso.

El sistema de Bartlett también se basa en el Facial Action Coding System de Ekman, que subdivide las expresiones faciales en movimientos –fruncido de nariz, temblor de párpado, etcétera– que implican a uno o a varios músculos de la cara.

El equipo de Emotient ha trabajo durante años para crear un sistema visual que automatice esa suerte de enciclopedia de los movimientos faciales y ha desarrollado otro algoritmo capaz de reconocer los patrones faciales que corresponden a cada emoción.

En el experimento en cuestión se reclutaron a veinticinco voluntarios, que fueron grabados en dos vídeos. En uno de ellos se filmaba su cara mientras soportaban un dolor real (tenían un brazo sumergido en un cubo de hielo durante un minuto). En el segundo se capturaba su rostro fingiendo que algo les dolía (esta vez su brazo flotaba en una agradable agua templada). Ambas versiones fueron mostradas a 170 personas, quienes después de verlas varias veces cometieron muchos errores, y solo acertaron con poco más de la mitad. En cambio, el sistema informático detectó el dolor fingido con una precisión del 85 %. Los resultados fueron publicados en la revista Current Biology.

Paul Saffo, un prestigioso analista y futurólogo, pronostica desde sus clases de la Universidad de Stanford que la tecnología de lectura facial podría combinarse con programas que tuvieran otros modos complementarios de reconocimiento de las emociones, tales como los softwares que analizan las voces humanas. “Si los ordenadores alcanzan el punto en el que puedan combinar los códigos faciales, los sensores de voz y el rastreo de la gestualidad y las miradas, interactuaremos con nuestras máquinas en un modo más natural y menos forzado”, asegura Saffo. ¿Te imaginas que una tarde cuando pidieras a Siri –la aplicación de asistente personal– que te busque la cartelera de cine, ella detectara por tu voz que estás triste y solo te leyera las películas que te vienen bien? Según el criterio de Siri, claro. Pues algo parecido intentan hacer los creativos de publicidad con lo que llaman publicidad inteligente.

Un avance clave para ciegos y autistas

Muchose habla y poco se ha visto de lo que se supone que serán anuncios que aparecerán en tu vida en el momento justo, cuando más los necesites. Las agencias de publicidad están muy interesadas en proveer de emoción nuestras interacciones digitales. No es casual que entre los clientes de Affectiva estén Unilever, Mars y Coca-Cola. La compañía también aportó elknow-how de su algoritmo para diseñar el orden de la publicidad en la última edición de la Super Bowl.

“Nuestra tecnología registra las expresiones faciales individuales mientras los usuarios ven un anuncio. Los analizamos momento a momento. Actualmente estamos en condiciones de medir lo que esas expresiones revelan para proporcionarle al cliente una analítica exhaustiva de las reacciones emocionales del usuario a su anuncio”, explica Gabi Zijderveld, vicepresidente de Affectiva. Lo que ya han demostrado varios estudios es que, a medida que la gente se emociona más, también se muestra más comprometida y recuerda con más nitidez. Esto tiene gran valor para los creativos de publicidad.

Para El Kaliouby lo más sorprendente es que somos expresivos todo el tiempo, incluso cuando estamos sentados solos frente a nuestros dispositivos actuales, insensibles e incapaces de entendernos. Sería ideal que ese testigo mudo pudiera interpretar y reaccionar a nuestros estados de ánimo, o saber que si tenemos un mal día es mejor que no se ande con tonterías quedándose colgado una y otra vez. En cinco años, pronostica El Kaliouby,todos los dispositivos tendrán un chip emocional incorporado y se convertirán definitivamente en nuestros mejores amigos.

Sin embargo, el mérito no reside en domesticar al ordenador de casa, sino en que, cuando vayas a hacer una gestión, digamos a Hacienda, te topes con un ordenador desconocido y que, a pesar de verlo por primera vez, pueda identificar por tus rasgos faciales una mentira piadosa o un sentimiento de angustia, o revelar cualquier emoción que tú estés interesado en ocultar.

La tecnología dotada de emociones podría ser muy útil para las personas ciegas. Unas gafas con un chip emocional emitirían información al usuario sobre los rostros que tiene delante. Asimismo, podrían ayudar a los que sufren algún síndrome del espectro autista a interpretar pistas emocionales y mejorar así su vida social.

Las aplicaciones educativas podrían detectar cuándo el usuario está aburrido, y acelerar su ritmo de aprendizaje. En caso de que interpretaran que el estudiante está confuso, la reacción más probable sería ralentizar la liberación del contenido.

Un coche capaz de identificar que estás cansado y con sueño jamás te permitiría conducir, y una nevera que te viera algo ansioso se bloquearía para que no te dieras el típico atracón de media noche que al día siguiente te producirá acidez y toneladas de sentimientos de culpa.

 

 

Lo que no le parece justo a El Kaliouby es que pasemos todo el día colgados de dispositivos que pasan de nosotros. Ella lo vivió en primera persona cuando consiguió una beca en Cambridge y tuvo que separarse de su familia. “Estaba todas las noches en Skype, en el email, mandando mensajes desde un teléfono o un ordenador que no tenía ni idea de lo sola que me sentía”, cuenta. De ahí surgió la idea de dotar a la tecnología con al menos una pizca de emoción. "Cada vez que coges el teléfono, hay un pulso emocional, sobre todo si estás esperando algo. En nuestras investigaciones hemos visto que la gente revisa sus móviles entre diez y doce veces por hora. Es una pena que no podamos entendernos del todo con ellos".

Quizá llegue el luminoso día en que tu teléfono sea tan inteligente que te impida mandar a tu ex ese wasap noctámbulo y asilvestrado antes de que te arrepientas para siempre. El teléfono detectará en tu cara que no estás teniendo un buen día. Lo verá en tu entrecejo, o tal vez en el temblor del párpado derecho que aparece cuando estás estresado. Leerá en la línea de la comisura de tu labio superior que te sientes ofuscado. Y punto. Ese wasap se autodestruirá en 3, 2, 1, 0.

Imágenes: Aldebaran Robotics