Investigadores de la compañía DeepMind, propiedad de Google, y varias universidades europeas han desarrollado Ithaca, una red neuronal profunda que rellena las palabras que faltan en textos de la Antigua Grecia, además de estimar su edad y origen geográfico. La herramienta consigue un 62 % de precisión por si sola, pero en manos de los historiadores este porcentaje se eleva a un 72 %.
Para comprender la historia de las civilizaciones antiguas, los historiadores estudian las inscripciones que nuestros antepasados escribieron en materiales como la piedra, la cerámica o el metal y que han sobrevivido hasta hoy en día.
Sin embargo, muchas de estas inscripciones se han dañado a lo largo de los siglos. Sus palabras son ilegibles y la fecha en la que se escribieron es incierta. Los especialistas en este campo, los epigrafistas, pueden reconstruir los textos desaparecidos, pero los métodos tradicionales son muy complejos y requieren mucho tiempo.
Ahora una nueva herramienta de inteligencia artificial (IA) puede facilitar el trabajo, ayudando a restaurar y atribuir inscripciones recién descubiertas o dudosas con mayor rapidez y precisión, todo un avance para entender mejor la historia antigua.
Para superar las limitaciones de los actuales métodos epigráficos, el investigador Yannis Assael de la empresa DeepMind de Google (que también creo AlphaFold para predecir la estructura de las proteínas) y Thea Sommerschield de la Universidad de Venecia (Italia), junto a otros colegas europeos, han desarrollado una red neuronal profunda llamada Ithaca. Se trata de un tipo de IA entrenada para restaurar, fechar y geolocalizar inscripciones griegas antiguas. Los resultados se publican en la revista Nature.
“Ithaca se entrena con el mayor conjunto de datos digitales de inscripciones griegas del Packard Humanities Institute (EE UU)”, explica a SINC Assael, que aclara: “Los modelos de procesamiento del lenguaje natural se suelen entrenar usando palabras, porque el orden en el que aparecen en las frases y las relaciones entre ellas proporcionan un contexto y un significado adicional. Por ejemplo, ‘había una vez’ tiene más significado que cada carácter o palabra por separado”.
“Sin embargo –añade–, muchas de las inscripciones que los historiadores están interesados en analizar con este programa a menudo están dañadas y faltan trozos de texto. Para asegurarnos de que nuestro modelo sigue funcionando en estos casos, lo entrenamos con inputs o entradas tanto de palabras como caracteres individuales. Un mecanismo de ‘autoatención’ considera las dos en paralelo, lo que permite al programa evaluar las inscripciones según sea necesario”.
Los resultados muestran que la red neuronal profunda Ithaca, utilizada sola, alcanza un 62 % de precisión a la hora de restaurar textos griegos dañados, pero si la emplea un historiador consigue un 72 % de precisión.
“Una de las prioridades de nuestro equipo interdisciplinar era hacer que los resultados de Ithaca fueran interpretables por los historiadores”, apunta Assael, “en lugar de proporcionar un único resultado, ofrecemos varias hipótesis de predicción y visualizamos la certeza del modelo en una distribución. Al mismo tiempo, presentamos qué palabras han contribuido más a una predicción concreta. Estas visualizaciones permiten a los expertos utilizar sus conocimientos contextuales para elegir el output o resultado más adecuado, pudiendo así arrojar luz sobre conocimientos históricos inexplorados”.
Además de adivinar palabras antiguas perdidas, Ithaca también puede ayudar a determinar el lugar y la fecha en la que se escribieron. Durante las pruebas, esta herramienta atribuyó las inscripciones a sus localizaciones originales con un 71 % de precisión y las dató a menos de 30 años de los rangos de fechas propuestos por los historiadores.
Se puede aplicar a cualquier lengua antigua, desde el latín hasta el maya, y a cualquier soporte escrito, desde papiros hasta manuscritos. Ithaca es de código abierto y está disponible online.
Respecto a si esta red neuronal podría aplicarse a textos no griegos y otras lenguas antiguas, Assael lo confirma: “La arquitectura de Ithaca la hace fácilmente aplicable a cualquier lengua antigua, desde el latín hasta el maya, y a cualquier soporte escrito, desde papiros hasta manuscritos. Estamos muy ilusionados por ver los nuevos rumbos que tomará, y por esta razón, es de código abierto y está disponible online”.
Los autores destacan que sus hallazgos liberan un potencial de cooperación entre la inteligencia artificial y los historiadores, con una nueva herramienta que permite mejorar nuestra comprensión de la historia humana.
Referencia:
Yannis Assael, Thea Sommerschield et al. “Restoring and attributing ancient texts using deep neural networks”. Nature, 2022.