Una IA ‘open source’ que impulse la soberanía tecnológica en español frente a los gigantes tecnológicos

El lanzamiento de ALIA, una familia de modelos de inteligencia artificial públicos y abiertos diseñada para 35 lenguas de Europa, incluidas las cooficiales españolas, marca un avance clave hacia la autonomía tecnológica y la reducción de la dependencia de las grandes corporaciones.

Francisco Herrera Triguero

28/1/2025 08:00 CEST

Ilustración artística de la IA. Esta imagen representa modelos lingüísticos que generan texto. Fue creada por Wes Cockx en el marco del proyecto Visualising AI. Wes Cockx & Google DeepMind / Better Images of AI / AI large language models

El Gobierno español anunció el 20 de enero de 2025 la familia ALIA de modelos fundacionales de inteligencia artificial (IA) (los también llamados LLMs, large language models). Ha sido diseñada para 35 lenguas de Europa, incluyendo las cooficiales españolas: catalán, gallego, valenciano y euskera. El proyecto está coordinado por el Barcelona Supercomputing Center (BSC-CNS), bajo el liderazgo de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA).

El proyecto está coordinado por el Barcelona Supercomputing Center bajo el liderazgo de la Secretaría de Estado de Digitalización e Inteligencia Artificial

ALIA es el primer paso hacia la mejora y el uso de los LLMs en español. Pero, y quizá por encima de esto, supone un paso importante en el camino para la independencia tecnológica en lengua española de las grandes corporaciones Big Tech norteamericanas, entre ellas OpenAI, creadora de ChatGPT, con Sam Altman a la cabeza.

Los grandes modelos fundacionales de lenguaje que ya están en uso (GPT, LLaMA, Gemini, etc.) están entrenados en inglés, con un porcentaje pequeño en español. Esto puede suponer limitaciones en la calidad del lenguaje, no disponer de dichos, frases hechas, contexto del español, etc. ALIA es una familia de modelos de IA que abordará estas deficiencias y permite aprovechar el rico patrimonio lingüístico del español, idioma hablado por más de 600 millones de personas.

Dependencia

Los modelos propietarios como GPT alcanzan un buen nivel en el uso del español, pero no pueden ser ejecutados por los usuarios, empresas y administraciones en sus máquinas locales o centros de datos. El uso de estos modelos privados implica enviar la información a una nube de terceros (las grandes corporaciones). Si las grandes corporaciones 'apagaran' sus nubes, lo perderíamos todo. Además, se convierten en propietarios de todo lo que almacenamos, incluidos nuestros datos.

Desde el punto de vista práctico, las empresas que controlan estos modelos privados, como OpenAI, pueden actualizarlos o cambiar sus condiciones sin previo aviso. Los usuarios somos dependientes para cualquier servicio implementado sobre ellos.

ALIA es una iniciativa basada en modelos de IA públicos y abiertos, diseñados específicamente para funcionar en español, sin necesidad de enviar nuestros datos a la nube de terceros

Ya existen modelos abiertos, como LLaMA, que tienen alta calidad en inglés, pero sus prestaciones son bajas en otros idiomas, el español entre ellos.

Compartir el conocimiento y enriquecer el debate

Aquí es donde cobra importancia ALIA, una iniciativa basada en modelos de IA públicos y abiertos, diseñados específicamente para funcionar en español, sin necesidad de enviar nuestros datos a la nube de terceros.

Esto significa que instituciones, empresas y usuarios pueden utilizarlos de forma local, manteniendo el control sobre su información. Con ALIA se podrían manejar textos complejos, como informes médicos o legales, con total seguridad.

Los modelos de esta plataforma servirán como base para desarrollar herramientas específicas, como asistentes virtuales o aplicaciones adaptadas a distintas áreas mediante ajustes finos

Los modelos de ALIA servirán como base para desarrollar herramientas específicas, como asistentes virtuales o aplicaciones adaptadas a distintas áreas mediante ajustes finos. Esto es clave para que pequeñas y medianas empresas puedan integrar la IA en sus procesos sin depender de grandes corporaciones Big Tech.

La apuesta por modelos abiertos como ALIA mejoran la privacidad y la transparencia, e impulsan la autonomía tecnológica y la economía del idioma español.

Pruebas en dos sistemas piloto

El Gobierno ya ha anunciado dos pruebas piloto con ALIA: un asistente virtual para la Agencia Tributaria que agilice gestiones, y una herramienta para mejorar el diagnóstico precoz de las insuficiencias cardiacas en Atención Primaria, que ayude a mejorar los diagnósticos de manera más rápida y eficiente.

ALIA es una gran oportunidad para llevar la IA al siguiente nivel en español, con modelos más abiertos, accesibles y respetuosos con la privacidad.

Desde que el Gobierno hizo el anuncio, se han publicado críticas a la calidad de ALIA. Estas críticas nos conducen a un debate que puede enfocarse desde diferentes prismas: la inversión, la calidad con la que se comporta ALIA desde el inicio, los tiempos de desarrollo, si se alcanzará la calidad óptima de los modelos, su peso en el debate económico como país, etcétera.

Es importante tener en cuenta que hay muchos intereses económicos detrás de la IA. Si España tiene tecnología propia abierta, significará un avance en la innovación española en este ámbito

Es importante tener en cuenta que hay muchos intereses económicos detrás de la IA. Si España tiene tecnología propia abierta puede significar un avance importante en la innovación española en este ámbito. Además, puede impulsar la economía del idioma español. Su desarrollo facilita el uso de los LLMs en las PYMES con costes bajos y sus potenciales beneficios. Con ALIA se puede alcanzar un ahorro importante en la Administración Pública.

En respuesta a las críticas sobre la calidad

ALIA es una familia que cuenta con varios modelos: los modelos de generación de texto multilingües ALIA-40B, Salamandra-7B y Salamandra-2B. Adicionalmente, se diseña el modelo SalamandraTA-2B (basado en Salamandra-2B) para la traducción automática precisa en frases y párrafos para 30 idiomas diferentes.

Es normal que se disponga de varios modelos fundacionales de diferente tamaño.

La familia ALIA está compuesta por modelos pequeños, y aún se hallan lejos de alcanzar el comportamiento de los modelos de las Big Tech americanas

La familia ALIA está compuesta por modelos pequeños, y aún se hallan lejos de alcanzar el comportamiento de los modelos de las Big Tech americanas.

De ALIA 40B (40 000 millones de parámetros) se ha publicado una versión intermedia del modelo fundacional. Para Salamandra-7B está publicada la versión definitiva, que tiene un comportamiento correcto para su tamaño. Es el camino: se diseñarán modelos más grandes que irán ganando en capacidades.

La inversión para estos modelos ha sido pequeña en comparación con la inversión de las grandes tecnológicas y el gobierno de EE. UU. Por ello, no podemos plantear tener resultados similares ya en el presente, desde su lanzamiento. ALIA no se puede evaluar desde la competencia en resultados con otros modelos más maduros, que han requerido más inversión. Se debería evaluar como un primer paso en un camino para conseguir la soberanía tecnológica nacional en IA.

Además, los modelos fundacionales pequeños son esenciales.

Los SLM (siglas de small language models) son el futuro para el desarrollo de IA para las PYMES, para su aplicación en todos los sectores. Son más sostenibles, garantizan la privacidad de los datos y tienen muy buena adaptación a bajo coste para contextos concretos de conocimiento. Como indicaba en un artículo de predicciones para el 2025 en IA, son los pequeños ChatGPT que entrarán en el móvil.

Donald Trump y la IA ética y confiable

El presidente estadounidense ha anunciado una inversión de 500 000 millones de dólares en infraestructura de IA en EE UU El proyecto se denomina Stargate y construirá “la infraestructura física y virtual para impulsar la próxima generación de IA”.

Trump también revocó un decreto aprobado por el expresidente Joe Biden el 30 de octubre de 2023 que tenía como objetivo monitorizar y regular los riesgos de la IA. Esto marca un camino alejado del objetivo europeo de desarrollo de una inteligencia artificial responsable y confiable, basada en el respeto a los derechos fundamentales de los ciudadanos.

¿Hacia dónde avanza Europa si el poder y los beneficios de la IA siguen en manos de unas pocas grandes corporaciones tecnológicas ahora agrupadas en torno a Donald Trump?

El camino español hacia la soberanía en IA

El día 20 de enero se presentó un trabajo prospectivo ante los retos que supondrá la IA para la sociedad, denominado HISPANIA 2040, bajo el subtítulo “¿Cómo la IA mejorará nuestro futuro?”. Este análisis presenta doce acciones prioritarias, y la acción número 4 apuesta por esta soberanía e independencia tecnológica en IA como país:

“Impulsar la creación de una Red Público-Privada de Centros de Investigación en IA que nos dote de la capacidad para desarrollar modelos fundacionales propios”.

Hemos de trabajar alineados con los demás países europeos en el desarrollo de una IA confiable y humanista, que respete los principios éticos que queremos

Hemos de trabajar alineados con los demás países europeos en el desarrollo de una IA confiable y humanista, que respete los principios éticos que queremos.

¿Cómo hacer que la tecnología de IA sea responsable y piense en español? Este es el reto y el camino que se ha de seguir.

Francisco Herrera Triguero es catedrático de Ciencias de la Computación e Inteligencia Artificial, Director Instituto de Investigación DaSCI y miembro de la Real Academia de Ingeniería, Universidad de Granada. Ha escrito esta tribuna para The Conversation.

Fuente: The Conversation

Derechos: Creative Commons.

Claves