Desarrollan herramientas para utilizar la web como corpus en euskera

Investigadores de la Universidad del País Vasco han demostrado que se puede consultar directamente la web como si fuera un corpus en euskera, además de crear uno de 210 millones de palabras. Los corpus son grandes muestras del lenguaje escrito, gigantescas recopilaciones de textos y de palabras.

UPV/EHU

8/10/2014 12:20 CEST

En la jerga de la lingüística de corpus suele decirse aquello de more data is better data, es decir, 'más datos significa mejores datos'. Aunque para muchos el propio término sea desconocido, los corpus son fundamentales para las tecnologías del lenguaje: sin corpus, no habría sistemas de traducción automática ni aplicaciones para el reconocimiento de la voz, ni existirían los diccionarios modernos.

Pero en lo que a cantidad se refiere, no hay quien supere a internet. Varios investigadores de la Universidad del País Vasco (UPV/EHU) utilizan la web como fuente inagotable para crear corpus en euskera. Esta utilización permite elaborar más fácilmente corpus de gran tamaño que haciéndolo de forma manual, pero deben utilizarse las herramientas adecuadas. El euskera ya dispone, en este momento, de estas herramientas.

A partir de la web se ha creado un corpus en euskera de 210 millones de palabras con un método de extracción

Cuando comenzó su investigación, el mayor corpus en euskera contaba con pocas palabras (25 millones). Ahora los corpus se han creado de forma manual. “En la década de los 90, otras lenguas ya habían superado la barrera de los 100 millones de palabras”, según el investigador Igor Leturia, quien recuerda que "nos marcamos como objetivo superar dicho límite cuando comenzamos a analizar si la web podría ser una fuente de abastecimiento adecuada para crear corpus en euskera”.

Las lenguas que superaron hace tiempo este límite no recurrieron a métodos manuales para crear gigantescas recopilaciones de palabras, sino a herramientas automáticas y a la "web como corpus". La principal limitación de los corpus tradicionales es su coste, ya que se necesita mucha mano de obra para recopilar y adaptar los textos (de formatos y fuentes muy diversas) y, posteriormente, extraer de estos recopilaciones de palabras referenciales de una lengua. La web, por el contrario, es inmensa, y contiene textos de cualquier género, dominio o lengua que, además, están disponibles en un formato estándar fácil de manejar: en HTML.

Una ventaja añadida es que la web se actualiza permanentemente. “Utilizando métodos automáticos para extraer textos de la web, es mucho más rápido y barato crear corpus variados, actualizados y de gran tamaño", señala Leturia, que ha llevado a cabo esta investigación en la unidad de Lengua y Tecnología de Elhuyar, bajo la dirección del grupo de investigación IXA de la Facultad de Informática de la UPV/EHU. La investigación tenía por objeto demostrar, por una parte, que la metodología "la web como corpus" sirve para crear, en euskera, recopilaciones de palabras con gran calidad, amplitud y diversidad; por otra, desarrollar las herramientas para lograr dicho objetivo.

“Es muy fácil extraer textos de la web en inglés –afirma Leturia–, pero como la presencia del euskera en la web es menor, no sabíamos si seríamos capaces de elaborar determinados tamaños o tipos de corpus”. Leturia ha utilizado los métodos automáticos que emplean otras lenguas para, posteriormente, elaborar los suyos propios, teniendo en cuenta las peculiaridades del euskera y buscando soluciones adaptadas a estas.

Cuatro ámbitos del estudio

El trabajo, cuyos resultados se han publicado en Language Resources and Evaluation y otras revistas, se ha desarrollado en cuatro ámbitos distintos. En el primero, el investigador ha demostrado que se puede consultar directamente la web como si fuera un corpus en euskera, utilizando para ello dos herramientas. Una de ellas sirve para superar el 'problema' de la declinación: “La herramienta crea las declinaciones y conjugaciones de la palabra que se quiere buscar, y se envían al buscador, dentro de una orden OR, para conseguir resultados reales en euskera”, explica Leturia. Otra de las herramientas utilizadas es el filtro, imprescindible para que el sistema traduzca solo textos que están en euskera. Fruto del citado trabajo es la herramienta de búsqueda CorpEus.

En el segundo de los ámbitos, el investigador ha creado, a partir de la web, un corpus general (en euskera) de 210 millones de palabras, utilizando el método de extracción automática denominado crawling. Puede consultarse dicho corpus en el portal de corpus de la web. Este corpus extraído de la web es mayor que los tradicionales, y ofrece más información sobre las palabras. Según Leturia, “más del 95 % de las palabras que contienen los corpus tradicionales también están en los nuestros, además de otras muchas que no están en aquellos”. Concretamente, su aportación de nuevas palabras a los corpus tradicionales es del 85 %.

Por otra parte, Leturia ha investigado también si la web sirve, además de para crear corpus genéricos, para elaborar corpus de determinadas disciplinas, tanto para recopilaciones de textos en euskera como para bilingües. En ambos casos, los corpus de dominio extraídos de la web eran equiparables a los elaborados 'a mano'. El investigador ha trabajado, entre otros, con corpus de informática, de física de partículas y de turismo.

“Partimos más tarde y con menos recursos que otras lenguas con más hablantes que la nuestra –reflexiona Leturia–, pero también hay que mirarlo desde este otro punto de vista: algunas lenguas de muchos hablantes (el inglés, por ejemplo) son morfológicamente más simples para ser tratadas automáticamente, contienen una gran masa de texto, y aplicando solamente la estadística obtienen muy buenos resultados.

El euskera, en cambio, al contar con una masa de texto menor y al ser más complejo para el tratamiento automático, nos ha situado ante problemas más complejos y nos ha obligado a elaborar herramientas que no existen en las lenguas con muchos hablantes. Hemos tenido, por tanto, la oportunidad de hacer aportaciones originales y novedosas al ámbito de las tecnologías del lenguaje”. Según Leturia, las herramientas desarrolladas sirven, además de al euskera, a otras lenguas con necesidades y características similares a aquella.

Referencias bibliográficas:

LETURIA, I., GURRUTXAGA, A., ARETA, N., ALEGRIA, I. eta EZEIZA, A. 2013. "Morphological query expansion and language-filtering words for improving Basque web retrieval". Language Resources and Evaluation, 47 (2), 425–448.

GURRUTXAGA, A., LETURIA, I., SAN VICENTE, I. eta SARALEGI, X. 2013. "Automatic comparable web corpora collection and bilingual terminology extraction for specialized dictionary making". BUCC - Building and Using Comparable Corpora, Sharoff, S., Rapp, R., Zweigenbaum, P. eta Fung, P. (arg.), 51–75. Springer, Dordrecht, The Netherlands.

Fuente: Universidad del País Vasco/Euskal Herriko Unibertsitatea

Derechos: Creative Commons

Claves