Entrevista con Mike Dillinger, Presidente de la Association for Machine Translation in the Americas

"La traducción automática se orienta principalmente a internet y a los textos técnicos"

La traducción automática se ha perfeccionado mucho en los últimos 20 años, pero necesita textos limpios y claros para funcionar bien, según el presidente de la Association for Machine Translation in the Americas, Mike Dillinger.

Mike Dillinger
Mike Dillinger.

Mike Dillinger, presidente de la Association for Machine Translation in the Americas y profesor adjunto del departamento de Psicología de la San José State University, ha estado en la Facultad de Informática de la Universidad Politécnica de Madrid invitado por el Departamento de Inteligencia Artificial, impartiendo un curso sobre paráfrasis y minería de textos.

Como reconocido experto en la traducción automática, ¿cómo definiría el estado del arte en esta disciplina?

El estado del arte es un estado de muchísimos cambios. Hace quince o veinte años se introdujo un enfoque nuevo que tuvo consecuencias muy importantes. Nuestro problema principal en aquella época tenía dos partes: costaba mucho tiempo y mucho dinero desarrollar las reglas gramaticales necesarias para analizar la frase original y las reglas de "transferencia" o traducción; y parecía imposible abarcar manualmente la vasta variedad de palabras y tipos de frases en los documentos.

El nuevo enfoque utiliza técnicas estadísticas para identificar reglas cualitativamente más simples pero lo hace rápidamente, automáticamente, y en amplísima escala para abarcar mucho más de la lengua. Técnicas semejantes se utilizan para identificar términos y sus posibles traducciones.

¡Son avances enormes! Antes se desarrollaban los sistemas de forma artesanal; ahora se hace de forma industrial. Hoy las investigaciones intentan aumentar la complejidad cualitativa de las reglas para reflejar mejor las estructuras sintácticas y los aspectos del significado. Se recuperan los avances cualitativos del enfoque anterior.

Desde los '70 se utilizan sistemas de traducción automática. ¿Ha alcanzado esta tecnología su grado de madurez?

Si se entiende madurez para utilización en aplicaciones industriales, sí, sin duda. La TA es ampliamente utilizada desde hace 30 años por instituciones industriales y militares de primer nivel. La Comunidad Europea, Ford, SAP, Symantec, las Fuerzas Aéreas Norteamericanas y muchas otras organizaciones la utilizan todos los días.

Ahora bien, si se entiende madurez para su utilización por el público que introduce cualquier frase para ser traducida, no, igualmente sin duda. Como todas las tecnologías, la traducción automática tiene sus limitaciones. No se espera de un Mercedes que marche bien en la nieve o en la arena: necesita una autovía para alcanzar su mejor rendimiento, o un vehiculo diferente. Tampoco se espera de un Fórmula1 que gane un rally utilizando gasolina común o alcohol. Necesita un combustible especial.

Desgraciadamente, muchas veces se espera una traducción perfecta de un texto poco claro y lleno de errores. Por el momento, la traducción automática necesita textos limpios y correctos para funcionar bien.

¿Cree que la TA es bien comprendida por la sociedad?

¡De ninguna manera! Lo veo muy frecuentemente. Muchos entienden por "traducción" algo como adivinar los pensamientos del autor aún cuando éste no se haya expresado clara y correctamente. Muchos tienen expectativas exageradas de lo que podría hacer un sistema de traducción. Con eso, siempre quedan decepcionados. Por otro lado, los que trabajamos con TA necesitamos hacer muchos esfuerzos para que la sociedad entienda mejor para qué sirve y cuando funciona bien: es el mandato específico de la Asociación que presido.

¿De qué se trata, de hacer programas, sistemas de traducción, traducción computerizada, de fabricar diccionarios electrónicos…? ¿Cómo definiría exactamente esta disciplina?

Se trata de hacer sistemas informatizados de traducción. Eso incluye, claro, construir diccionarios electrónicos, gramáticas, bases de datos de co-ocurrencias de palabras, y otros recursos lingüísticos. Pero también incluye desarrollar procesos de evaluación automática de traducciones, procesos de "limpiar" y analizar los textos de entrada, y procesos para garantizar que todo marchará bien cuando llegue un pedido para traducir 300,000 páginas de una vez. Como son procesos y componentes muy diferentes, exige la colaboración de lingüistas, programadores e ingenieros.

¿De qué etapas consta el proceso de traducción automatizada?

1. Preparación de los documentos. Quizá la etapa más importante, pues hay que asegurar que las frases de cada documento se comprenden bien y están correctas.

2. Adaptación del sistema de traducción. De la misma forma que ocurre con un traductor humano, el sistema de traducción automatizada necesita informaciones acerca de todas las palabras que encontrará en los documentos. Se le pueden "enseñar" otras palabras por un proceso que se llama personalización (en inglés "customization").

3. Traducción de los documentos. Cada formato de documento, como Word, pdf o HTML, tiene muchas características diferentes, además de las frases que interesan para la traducción. En esta etapa, se separan las frases del formato en el que están, por ejemplo.

4. Verificación de las traducciones. El control de calidad es muy importante para traductores humanos y automáticos. Ni las palabras ni las frases tienen un sólo sentido, así es que es muy fácil entenderlas de una manera diferente de lo que se pretende.

5. Distribución de los documentos. Ésta es una etapa más compleja de lo que comúnmente se piensa. Cuando salen 10.000 documentos para traducir en 10 lenguas diferentes, verificar que todos fueron traducidos, ponerlos todos en el orden correcto sin mezclar las lenguas, etc., exige mucha organización.

¿Constituye esta tecnología una amenaza para el trabajo de los intérpretes humanos? ¿Cree que aumenta realmente los puestos de trabajo?

¡De ninguna manera constituye una amenaza! La TA quita de las manos del traductor humano lo más rutinario para que pueda aplicar sus conocimientos especializados en lo mas difícil. Siempre necesitaremos traductores humanos para textos legales, literarios, textos mas complejos.

Por otro lado, la TA hoy día se aplica más a situaciones en las que los humanos no participan. Sería incluso cruel poner personas a traducir correos electrónicos, chats, mensajes SMS y páginas Web aleatorias. El volumen de textos es tan grande y la velocidad de traducción que exigen son tales, que sería una tortura para un humano. Es cuestión de escala: un traductor humano normal produce de 8 a 10 páginas traducidas por día. A escala web, 8 a 10 páginas por segundo sería poquísimo.

La introducción de nuevas tecnologías raras veces aumenta los puestos de trabajo, mucho menos en una economía global. Lo que hace es crear una diferencia cada vez más nítida entre trabajos rutinarios que exigen pocos conocimientos y los trabajos especializados.

La implantación de esta tecnología, ¿es un problema técnico o un problema social?

Sobretodo es un problema de ingeniería social porque las personas tienen que cambiar sus comportamientos y su modo de ver las cosas. El proceso de la TA sigue exactamente las mismas etapas de la traducción humana, con dos diferencias principales:

a) En los sistemas de traducción hay que tener muchísimo más cuidado con la redacción. Los traductores humanos utilizan sus conocimientos técnicos (cuando los hay) para compensar los fallos de redacción, pero los sistemas de traducción automatizada no tienen esos conocimientos: reflejan demasiado fielmente los fallos del texto inicial. Es difícil conseguir que se traduzca más fielmente, pero hoy día hay herramientas de revisión automática que ayudan muchísimo. Symantec es un ejemplo reciente que utiliza un revisor automático y un sistema de traducción para alcanzar resultados rapidísimos y buenísimos.

b) En los sistemas de traducción hay que trabajar con muchísimos documentos traducidos. ¿Qué pasa si, en vez de 50 documentos traducidos a la semana, una organización recibe 5.000? Automatizar el proceso de traducción acaba por revelar que otras partes del manejo de documentos tienen problemas.

Usted habla de que el British Nacional Corpus, que recoge un conjunto relacionado de textos representativos de la lengua inglesa, tiene 15 millones de términos diferentes, pero que los diccionarios de traducción automática sólo tienen 300.000 términos. ¿Cómo superar esta barrera a la hora de edificar un sistema de TA aceptable para la sociedad?

Esta colección de más de 100 millones de palabras en inglés refleja muy bien las características macro de la lengua. Una es ésta: se utilizan muchísimas palabras. Sin embargo, su frecuencia es radicalmente diferente: de los 15 millones de términos, ¡el 70% sólo se utiliza pocas veces!

Para superar la "barrera" de la variabilidad del vocabulario, hoy día se utilizan las palabras más frecuentes para crear un sistema de base al que se agregan de 5.000 a 10.00 palabras específicas para cada cliente comercial. Funciona bastante bien.

Para aplicaciones web, eso simplemente no funciona. Faltan, incluso en los mejores sistemas, literalmente millones de palabras, sin contar que nuevas palabras son inventadas a cada día. Hay por lo menos tres remedios actuales: pedirle al usuario "intentar otra vez" la traducción, pedirle al usuario que introduzca un sinónimo, y construir automáticamente o semi-automáticamente bases de datos de sinónimos.

A mi modo de ver, tendremos que desarrollar sistemas para "guiar" al autor de contenidos web, como ya existen para contenidos técnicos. Hay fuertes presiones económicas para ir en esa dirección.

La Association for Machine Translation in the Americas que usted preside organiza la conferencia AMTA 2008, que se celebrará en octubre 2008 en Hawai. ¿Qué novedades se aportarán en esta conferencia?

¡Las hay siempre! ¡Hay que ir para verlas! Una cosa diferente que se hace esta vez es juntar conferencias de varios grupos. No es una sola conferencia. En el mismo hotel, en la misma semana, tendremos AMTA, el Workshop internacional de la traducción del Habla (IWSLT), un Workshop del órgano del gobierno americano NIST sobre cómo evaluar los métodos de evaluación de traducción, un encuentro de la Localization Industry Standards Association que trae representantes de grandes empresas, y otro grupo de investigadores del congreso Empirical Methods in Natural Language Processing (EMNLP). Finalmente, como será en Hawai, nuestros colegas de Asia vendrán para que sea aún mas internacional.

Más información

Página de web del congreso

Facultad de Informática de la Universidad Politécnica de Madrid

Fuente: UPM
Derechos: Creative Commons
Artículos relacionados