“Quiero hablar con un operador”

Cuando usted llama por teléfono y le responde una máquina, es probable que eche de menos un poco de empatía. Ingenieros y psicolingüistas intentan lograr que los sistemas de reconocimiento de voz se enteren de lo que pedimos, nos respondan como lo haría una persona e incluso perciban los acentos. No desespere: están trabajando en ello.

“Por favor, indique claramente el motivo de su consulta” . Foto: Truthout.org

Cuando usted llama por teléfono y le responde una máquina, es probable que eche de menos un poco de empatía. Ingenieros y psicolingüistas intentan lograr que los sistemas de reconocimiento de voz se enteren de lo que pedimos, nos respondan como lo haría una persona e incluso perciban los acentos. No desespere: están trabajando en ello.

Pocas cosas desquician a tanta gente tan a diario como la frase “por favor, indique claramente el motivo de su consulta” de un sistema automatizado de recepción de llamadas telefónicas. En la mayoría de los casos, el usuario buscará desesperadamente hablar con una voz humana ante la imposibilidad de razonar con una máquina. “Quiero hablar con un operador”.

Tras estas tecnologías se ocultan, sin embargo, muchos grupos de investigadores que dedican su carrera a que el ordenador entienda que queremos cambiar nuestro plan de tarifas y no adquirir un nuevo teléfono.

Antonio Rubio, investigador en el Departamento de Teoría de la Señal, Telemática y Comunicaciones de la Universidad de Granada, comenzó a estudiar los sistemas de reconocimiento de voz “en los años ochenta, pero entonces eran aún muy rudimentarios”.

En el año 1991, junto con las universidades Autónoma de Barcelona y las politécnicas de Madrid, Catalunya y Valencia, pusieron en marcha el proyecto Albayzín, una base de datos para el reconocimiento de palabras. “Era sobre información geográfica”, recuerda Rubio, “frases como cuál es el río más largo que cruza Andalucía, cosas así, dificilísimas de reconocer en aquel momento ya que ni siquiera estábamos trabajando con la tecnología de palabras aisladas, pero, en definitiva, se estaba creando una base de datos para el futuro”.

Para el proyecto Albayzín se reunieron desde ingenieros en telecomunicaciones hasta fonetistas pasando por expertos en computación. En aquel momento, el grupo de la Universidad de Granada estaba formado mayoritariamente por físicos, como Rubio, “aunque en los últimos años hemos incorporado muchos ingenieros en telecomunicación y algún informático”.

Sin embargo, el progreso en la disciplina de los sistemas de reconocimiento de voz no es sólo puramente técnico. También se intenta enseñar a la máquina que contesta al teléfono a pensar y responder como lo haría un ser humano.

Entre ingenieros y psicolingüistas

“Al principio las aplicaciones consistían en que se apretaba el botón 1 o 2 si se optaba por una opción u otra del menú propuesto, luego se pasó a reconocimiento de palabras, luego de frases, ya por voz y, finalmente, al reconocimiento del lenguaje natural, que son dos cosas: primero, reconocer lo que se dice y luego clasificarlo” dice Guillermo de Jorge, Doctor en Ciencia Cognitiva por la UAM y que durante los últimos nueve años ha trabajado en sistemas de este tipo para empresas como Indra y Realia.

De Jorge, actualmente profesor de Psicología en la UNED, está trabajando junto a su grupo en un nuevo sistema de llamadas para pequeñas operadoras telefónicas. El objetivo es evitar la arquitectura de menús, que el usuario pueda hablar de forma coloquial y ser entendido por la máquina. El grupo de investigadores está compuesto por psicólogos cognitivos, lingüistas e ingenieros. “Es una mezcla entre ingenieros y psicolingüistas”, explica el profesor. “La inteligencia artificial engloba todo esto, en el fondo se trata de comprender las frases como las comprendería un humano”.

El objetivo es que el usuario pueda hablar de forma coloquial y ser entendido por la máquina

La parte importante del sistema desarrollado en la UNED es la clasificación. “Tratamos de implementar o programar algoritmos que clasifiquen las llamadas en función del razonamiento humano”, dice De Jorge. “La forma en que un ser humano interpreta un texto no es la suma de las palabras de ese texto, sino la integración de todas esas palabras en una idea general. En un contexto determinado cogemos algunas características de las palabras y desdeñamos otras”. Las primeras aproximaciones de este sistema se están probando actualmente en Cestel –un proveedor de tecnología para aseguradoras y operadoras telefónicas–.

Por su lado, el grupo de Antonio Rubio trata de mejorar la comunicación humano-máquina desde un aspecto más técnico. “Estamos trabajando en el robustecimiento, en conseguir que los sistemas no se degraden por culpa de las condiciones ambientales o el ruido. Es decir, que se hable igual en un laboratorio o en mitad de la calle. Hasta hace poco, si pasaba un camión junto a nosotros mientras llamábamos, el comportamiento del sistema se degradaba”.

Hablar con japoneses sin saber japonés

Además, la irrupción de los móviles y de las llamadas por internet (VoIP) ha añadido nuevas dificultades técnicas a la hora de hacerse entender. “El hecho de que se puedan perder paquetes de información cuando se transmite por internet o por móvil también afecta al comportamiento del sistema”, dice Rubio. “Parte de nuestro grupo trabaja en mitigar los posibles errores que se puedan producir por culpa de pérdidas de paquetes de información. La idea es subsanar esas pérdidas para que el sistema de reconocimiento siga siendo razonable”, explica.

El objetivo es lograr el pleno entendimiento entre ser humano y sistema de voz de un banco u operadora cualquiera. Los herederos de aquel grupo de la Politécnica de Catalunya que comenzó con ellos en el proyecto Albayzín se encuentran ahora desarrollando “sistemas que hacen traducción de voz a voz. No solo lograr entender lo que se dice al ordenador sino además traducirlo sobre la marcha a otro idioma, de forma que se pueda hablar con gente de Japón sin saber japonés”, dice Rubio.

Otros grupos trabajan en sistemas capaces incluso de distinguir acentos, o de ajustar el tiempo de reacción de la máquina al ofrecer la respuesta, para adecuarla a lo que esperaríamos de otro humano. El avance de estas tecnologías en estos treinta años es notable, sin embargo, ¿cuánto de este progreso llega desde el laboratorio hasta la vida real, hasta nuestros oídos? No tanto.

Algunos grupos trabajan en sistemas capaces de distinguir acentos

“Los departamentos de I+D de las multinacionales sí que trabajan estos temas, aunque quizá no todo lo que deberían”, opina Rubio, “muchas veces lo que hacen es sólo comprar la tecnología y, desgraciadamente, no siempre en España”.

“En general, tanto las empresas-cliente como las proveedoras de tecnología, es normal que trabajen al día y no se preocupen de innovar, entre otras cosas por las presiones que tienen día a día”, dice De Jorge, que defiende el papel de las universidades para liderar esa transmisión de conocimiento a las empresas. “Una de nuestras misiones es hacer eso, llevar a las empresas a que puedan nutrirse de lo que nosotros desarrollamos. En el mundo real no hay demasiado tiempo para reflexionar lo que es un diálogo que te parezca natural, reflexionar sobre qué esperaría un humano oír de otro humano y no de una máquina”.

Otro motivo por el que este tipo de sistemas no son todavía plenamente naturales es, para Antonio Rubio, la seguridad. “Por ejemplo, en una transacción bancaria se intenta asegurar que no se va a hacer nada que el cliente no quiera, entonces, a veces es preferible utilizar un sistema mucho más elemental de lo que se podría llegar a hacer pero asegurándose de que funcione bien”.

Seguridad versus naturalidad

Esa búsqueda de estabilidad en las operaciones va, a menudo, en detrimento de la posibilidad de implantar sistemas de lenguaje natural, algo que para Rubio todavía está lejano. “Se puede hacer, pero se corre el grave riesgo de que la máquina se equivoque. Una cosa es que funcione bien y otra que sea agradable para el usuario, y muchas veces, para que el sistema funcione, tiene que ser desagradable”. En el mismo sentido De Jorge opina que “las grandes empresas quieren hacer las cosas muy estables y evitan hacer experimentos”.

Aunque las tecnologías de lenguaje natural, como la desarrollada por su equipo, van introduciéndose lentamente en la vida real, para De Jorge la evolución de estos sistemas es, a día de hoy, tangible al llamar a una de estas empresas. “Ya no tienen menús cuando llamas a 'atención al cliente', te preguntan abiertamente qué es lo que quieres, recogen tu respuesta y te 'enrutan' a la operadora que te lo pueda resolver”, dice.

Y si la máquina se confunde o le pide que repita claramente el motivo de su consulta, tómeselo con calma. No es un ser humano, pero lo intenta.

Fuente: SINC
Derechos: Creative Commons
Artículos relacionados