Un consorcio de investigadores europeos coordinado por el Centro de Visión por Computador (CVC) de la Universitad Autónoma de Barcelona (UAB) ha desarrollado HERMES, un sistema cognitivo computacional integrado por cámaras de vídeo y software que es capaz de reconocer y prever el comportamiento humano, así como de describirlo en lenguaje natural.
HERMES (Human Expressive Representations of Motion and their Evalutation in Sequences) se basa en el análisis del comportamiento humano a partir de secuencias de vídeo capturadas con tres niveles de enfoque: el del individuo, como un objeto relativamente alejado; el de su cuerpo, con una proximidad media que permite analizar sus posturas; y el del rostro, que permite estudiar con detalle sus expresiones faciales. La información obtenida, procesada por algoritmos de visión por computador y de inteligencia artificial, permite al sistema aprender y reconocer patrones de movimiento.
El nuevo sistema aporta dos novedades importantes en el campo de la visión por computador. La primera es la descripción de los movimientos captados por las cámaras en lenguaje natural, a través de frases sencillas y precisas que van apareciendo en la pantalla del ordenador en tiempo real, junto con el número fotograma en que se produce la acción.
El sistema puede utilizar también un avatar hablando y describir la información en diferentes idiomas. La segunda es la posibilidad de analizar y descubrir potenciales comportamientos inusuales -a partir de los movimientos aprendidos- y de alertar sobre ellos. Por ejemplo, el sistema enviará un aviso al centro de control de una estación de metro cuando capte un individuo que intente bajar a la vía del tren; o alertará cuando una persona anciana que viva sola sufra una caída.
Las ventajas de aplicación que supone son muy altas en el ámbito de la vigilancia inteligente y la prevención de accidentes y delitos, pero los investigadores consideran que también tiene un gran potencial como herramienta de estudio en otros campos, como el marketing o la psicología.
HERMES ha sido un proyecto coordinado por Juan José Villanueva, profesor emérito del Departamento de Ciencias de la Computación de la UAB y desde hace un año exdirector del CVC, del que fue director durante los últimos 14 años.
El nuevo sistema, que ha recibido varios premios científicos en los mejores congresos especializados, ha sido desarrollado dentro del 6º Programa Marco de Investigación de la Unión Europa.
Con una duración de tres años y medio y un presupuesto de 2.100.000 euros, en su realización han participado investigadores de cinco de los grupos de investigación más reconocidos de Europa en esta área y de una empresa especializada en tecnologías de la información y comunicación. Este nuevo sistema se estructura a su vez en siete subproyectos.
Siete subproyectos de HERMES
1.- El sistema de cámaras: se han utilizado cámaras estáticas para abarcar la escena completa y cámaras activas de alta resolución - sensores “pan-tilt-zoom” (inclinación horizontal-vertical-zoom)-, que permiten un seguimiento y una mayor aproximación automática a los individuos. Para hacerlo, se han aplicado técnicas de optimización de la información contenida en las imágenes.
2.- El análisis del movimiento de los objetos y de los individuos de la imagen. La información obtenida es utilizada para guiar las cámaras activas hacia donde se producen las acciones. Estos problemas se han abordado con diferentes tipos de técnicas de seguimiento.
3.- El análisis del movimiento del cuerpo de los individuos, para extraer la información de las diversas partes del cuerpo, analizar las acciones y describir y prever el comportamiento. Se han usado técnicas basadas en el reconocimiento de patrones y siluetas.
4.- El análisis del movimiento facial, para la comprensión del estado emocional de los individuos, su actitud y las posibles reacciones. En este subproyecto se han utilizado y desarrollado nuevas técnicas para el seguimiento y la alineación de las caras en 2D y 3D.
5.- La integración del software y del lenguaje natural, con el objetivo de describir lo que está pasando en las escenas registradas, con un esquema conceptual de representación.
6.- La integración de todo el sistema, software y hardware, para trabajar en entornos reales y en tiempo real. Se ha diseñado e implantado todo el sistema en una arquitectura orientada al funcionamiento en escenarios reales.
7.- La generación de secuencias virtuales a partir de la descripción de comportamientos en lenguaje natural y la interactuación de los dos mundos, el real y el virtual, en una misma secuencia, con técnicas de realidad aumentada.