El Instituto Tecnológico de Informática (ITI) de la Universidad Politécnica de Valencia coordina un ambicioso proyecto de investigación nacional, dentro del programa CONSOLIDER-INGENIO 2010, cuyo objetivo es añadir a las técnicas tradicionales de reconocimiento de forma y visión por computador la interacción multimodal con el usuario, llegando a una sinergia entre máquinas y personas que en la actualidad no ha podido aún alcanzarse.
El proyecto, dirigido por el catedrático Enrique Vidal, aglutina a 81 científicos e ingenieros de referencia internacional en los campos de visión por computador, procesamiento del habla y del lenguaje o robótica, entre otras áreas.
En la última década la demanda social e industrial en tecnologías interactivas multimodales para el desarrollo de interfaces hombre-máquina ha crecido considerablemente. Hoy día se reconoce que la total automatización en ocasiones no es posible y muchas veces tampoco es conveniente. “Ahora, gracias a las técnicas de reconocimiento de formas y visión por computador, estamos en condiciones de conseguir máquinas que sean una prolongación de nosotros y que las manejemos, por ejemplo, como manejamos el coche”, explica Enrique Vidal.
El proyecto plantea una novedad fundamental respecto a los planteamientos tradicionales de reconocimiento de formas y visión por computador. Según apunta su coordinador, hasta ahora, se buscaba siempre suplir al usuario. Ahora ya no. “Con este proyecto, lo que perseguimos es que las máquinas ayuden a predecir las intenciones del usuario, teniendo en cuenta el contexto y asumiendo siempre que quien decide es la persona”, apunta Vidal.
Las aplicaciones del proyecto son múltiples y van desde la transcripción de textos manuscritos o la traducción automática de textos, hasta la interacción entre robots y entre robots y humanos, la identificación biométrica o la ayuda a la conducción.
Transcripción inteligente de textos manuscritos
Los investigadores del Instituto Tecnológico de Informática (ITI) de la Politécnica están trabajando en nuevas técnicas para la traducción de textos y la transcripción inteligente de antiguos manuscritos.
“A día de hoy, no existe una tecnología fiable que permita transcribir correcta y automáticamente un texto antiguo. La figura del paleógrafo resulta fundamental, ya que conoce las abreviaturas y el contexto histórico del manuscrito”, explica el experto.
El sistema en el que están trabajando desde el ITI ayudará al paleógrafo, proponiéndole transcripciones plausibles, a partir de las imágenes del texto.
Además, el objetivo es que el sistema sea capaz de interactuar con el usuario, y decidir incluso a partir de sus propios gestos. Es decir, que si la propuesta del sistema no convence al paleógrafo y éste lo manifiesta con una simple mueca, le ofrezca otra alternativa. Este sistema se utilizaría similarmente para la traducción convencional de textos.
Otro de los campos de aplicación de estas técnicas de visión por computador y reconocimiento de formas es la robótica. En este campo, el proyecto aborda la interacción entre robots, “de modo que lo que hace un robot lo entienda el otro”, y la interacción entre el robot y la persona. “El objetivo es que el robot sea capaz de entender lo que le dice la persona gracias al contexto, a la propia interacción multimodal”, apunta Enrique Vidal.
Asimismo, otra de sus aplicaciones la encontramos en la conducción, por ejemplo, para facilitar el aparcamiento de vehículos o para la detección de peatones. “Hasta ahora, el coche se conduce mediante la transmisión de información principalmente en una “dirección”: el usuario ordena a la máquina y esta ejecuta sus órdenes. En este proyecto, lo que se persigue es incrementar la realimentación entre el automóvil y el conductor con las prestaciones que ofrece la visión por computador”.
Por último, otro de los campos en los que se trabaja es en la búsqueda de imágenes en la web basada en información de relevancia que da el usuario. “La multimodalidad permitirá que el sistema discierna si la imagen que tengo en la pantalla es la que buscaba o no y hacer eso sin tocar el ratón, simplemente mirando o hablando. En definitiva, se trata de predecir e interpretar el pensamiento y reacciones del usuario, para que su interacción con la máquina sea más “humana”, concluye Vidal.