Analizan las técnicas de corrección ortográfica

Varios investigadores del Grupo COLE (Compiladores y Lenguajes) de la Escola Superior de Enxeñaría Informática de la Universidad de Vigo, dirigido por el catedrático Manuel Vilares Ferro, llevan varios años inmersos en la investigación de la recuperación de información. Ahora el sistema utilizado ha permitido corregir en tiempo real errores al escribir.

Foto: Roberto Vázquez.

UVI

Juan Otero Pombo, uno de los investigadores, presentó su tesis de doctoral, que, bajo el nombre Análisis léxico robusto, aborda el desarrollo y evaluación de técnicas de corrección ortográfica y su aplicación en entornos de recuperación de información en los que los errores ortográficos están presentes. Es decir, el desarrollo de un sistema que permita identificar correctamente las palabras con errores ortográficos que un usuario introduce en una búsqueda.

Tal como se recoge en la tesis de Juan Otero Pombo, hoy en día hay una “frenética y constante evolución de la informática” que dio lugar a lo que se conoce como Sociedad de la Información.

En su investigación, Otero Pombo, que estuvo seis años recogiendo datos, asegura que actualmente se generan e se publican numerosos datos en formato electrónico, que deben ser procesados y estructurados para facilitar el acceso rápido y eficaz. Sin embargo, “la mayor parte de los contenidos se encuentra con escaso o, simplemente, sin ningún tipo de estructura”.

Es aquí donde entran los sistemas de recuperación de información, que permiten localizar aquellos documentos de una colección que satisfacen los requirimientos de un usuario. Por lo tanto, tal como defiende Otero Pombo, se hace necesario contar con mecanismos eficaces que, desde el punto de vista computacional, permitan que las personas puedan comunicarse directamente con las máquinas en lenguaje humano, y que estas sean capaces de extraer conocimiento a través del lenguaje natural.

Por eso surge el Procesamiento del Lenguaje Natural (PLN), subdisciplina de la Inteligencia Artificial que persigue la representación y comprensión automática del lenguaje humano por medio de la realización de un análisis léxico (reconoce unidades mínimas del lenguaje), sintáctico (reconoce unidades gramaticales formadas por varias unidades léxicas), semántico (captura el significado de una frase) y pragmático (añade información al significado de la frase en función del contexto).

Aún así, la búsqueda de información, como actividad humana que es, tiene por frecuente la "introducción de errores ortográficos o de digitación en la consulta, lo que complica la tarea de recuperación". Por todo esto, el objetivo es desarrollar y evaluar la tecnología de base necesaria para el PLN, sobre todo en el ámbito del análisis léxico y de la corrección ortográfica y la etiquetación.

Tras estas investigaciones, Otero Pombo aportó con su tesis un nuevo método de corrección ortográfica "mas eficiente y menos costoso que los que se vinieron aplicando hasta el momento, ya que reduce al mínimo posible la exploración del diccionario en busca de la corrección más adecuada en cada momento".

Esta técnica se integró después en el etiquetador morfosintáctico MrTagoo, desarrollado por el grupo COLE de la Universidad de Vigo y el LyS (Lengua y Sociedad de la Información) de la Universidad de A Coruña, que permite asignar automáticamente una categoría léxica (sustantivo, verbo...) a cada palabra de un texto en español y gallego.

El resultado de esta integración permite solucionar los tres problemas comunes en el proceso de consultas en un sistema computacional de recuperación de información: la ambigüedad segmental (cuando la identificación de los términos que forman una consulta no resultan triviales), la ambigüedad morfosintáctica (cuando las palabras pueden jugar distintos papeles según la frase en la que aparezcan) y la corrección ortográfica contextual (elige entre las alternativas de corrección la que mejor encaja con la consulta).

El resultado de los experimentos realizados en un campo de recuperación de información con consultas degradadas, pone de manifiesto que el "uso de técnicas de corrección ortográfica tiene un impacto muy positivo sobre los sistemas de recuperación de información", frente a otras propuestas realizadas con anterioridad. Además, como alternativa a la aplicación de algoritmos de corrección ortográfica, se evaluó también "una técnica de recuperación de información basada en n-gramas de caracteres superpuestos, que presenta la ventaja de no requerir ningún recurso lingüístico extra", y ofreció también unos excelentes resultados en ámbitos en los que existe un elevado número de errores en las consultas.

Procesamientos del Lenguaje Natural (PLN)

Los PLN dependen directamente de la calidad y de la cobertura de los recursos lingüísticos en los que se basan. Sin embargo, a día de hoy solo existen recursos de calidad y cobertura suficientes para el inglés, mientra que lenguas primarias como el francés y el español apenas tienen unos recursos en desarrollo precario, y para idiomas como el gallego, estos son inexistentes. Esta susodicha carencia se debe principalmente al alto coste que implican los trabajos manuales para la formación de recursos para todos los idiomas.

En este sentido, y con la finalidad de afrontar esta necesidad, nació el proyecto Victoria, formado por varios miembros de equipos franceses y españoles, entre los que se encuentran Miguel Ángel Molinero (investigador del grupo LyS de la Universidad de A Coruña) y Elena Sánchez Trigo (investigadora del grupo COLE de la Universidad de Vigo).

El proyecto, que comenzó en noviembre de 2008, se propone "desarrollar una cadena secuencial de herramientas semi-automáticas de adquisición y corrección de recursos lingüísticos, explotar métodos de transferencia de conocimiento lingüístico entre recursos que describen lenguajes relacionados y desarrollar una plataforma colaborativa de desarrollo de recursos lingüísticos". En una primera fase, los investigadores de Victoria se concentraron en los recursos necesarios para construir analizadores sintácticos para español y gallego.

Esta iniciativa ya construyó varios recursos que serán liberados bajo licencia LGPL-LR (Lesser General Public License for Linguistic Resources), entre los que destacan reglas morfológicas, un léxico de gran cobertura con información morfológica y sintáctica, y una gran meta-gramática para el español. Por otra parte, para el gallego, ya cuentan con reglas de configuración idiomáticas y un léxico con información morfológica.

Fuente: Universidad de Vigo

Derechos: Creative Commons

Claves