Un equipo de investigadores de la Universidad de Havard (EE UU) ha usado libros digitalizados como 'genoma cultural' para cuantificar con precisión una amplia variedad de tendencias culturales e históricas. Los académicos han analizado el 4% de todos los libros publicados en la historia como ‘registro fósil’ digital de la cultura humana.
Los investigadores han realizado un seguimiento de la frecuencia con la que las palabras aparecen en los libros a lo largo del tiempo para comprender mejor asuntos tan diversos como la memoria colectiva de la humanidad, la adopción de la tecnología, la dinámica de la fama, y los efectos de la censura y la propaganda.
El proyecto de cuatro años de duración, que se publica esta semana en la revista Science, está dirigido por los investigadores Jean-Baptiste Michel y Erez Lieberman Aiden, de la Universidad de Harvard (EEUU).
“El interés por acercarse a las humanidades y las ciencias sociales desde el punto de vista de la informática data de los años cincuenta, pero los intentos por introducir los métodos cuantitativos en el estudio de la cultura se han visto dificultados por la falta de datos adecuados”, afirma Michel.
“Este conjunto de datos, que se puede descargar ahora a través de Internet, es miles de veces mayor que cualquier obra histórica anterior. Se basa en los textos completos de unos 5,2 millones de libros, con más de 500.000 millones de palabras en total”, apunta el estudio.
Análisis del 4% de todos los libros publicados en la historia
Los investigadores han estudiado las tendencias culturales de la humanidad a través del análisis de aproximadamente el 4% de todos los libros publicados en la historia como ‘registro fósil’ digital de la cultura humana.
“Ahora tenemos un conjunto de datos enorme, disponible a través de una interfaz que es fácil de usar y que está disponible para todos de forma gratuita”, añade el investigador.
El equipo cuenta además con la colaboración de Google, de la Enciclopedia Británica y el American Heritage Dictionary. La compañía Google lanzará una nueva herramienta de Internet para acompañar el artículo. “Una interfaz sencilla que permite a los usuarios escribir una palabra o frase y ver inmediatamente cómo ha cambiado su frecuencia de uso durante los últimos siglos”.
Una secuencia de letras mil veces más larga que el genoma humano
“Es la divulgación de datos más grande de la historia de las humanidades. Una secuencia de letras 1.000 veces más larga que el genoma humano. Si se escribiese en línea recta, podría hacer 10 veces el recorrido de ida y vuelta a la Luna”, señalan los autores.
“Ahora que una parte considerable de los libros del mundo se han digitalizado, el análisis con ayuda de ordenadores puede revelar tendencias desconocidas en la historia, la cultura, el lenguaje y el pensamiento”, afirma Jon Orwant, director de ingeniería de Google Books.
---------------------------------
Referencia bibliográfica:
Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, The Google Books
Team, Joseph P. Pickett, Joseph P. Pickett, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, Erez Lieberman Aiden. "Quantitative Analysis of Culture Using Millions of Digitized Books", Science, online 16 de Diciembre 2010.
Solo para medios:
Si eres periodista y quieres el contacto con los investigadores, regístrate en SINC como periodista.