Investigadores del centro CiTIUS y la Fundación Pública Galega de Medicina Xenómica han presentado BigBWA, una herramienta que reduce los tiempos de ejecución de un software de referencia en genómica. Los investigadores logran multiplicar por 12 la velocidad actual de cómputo con sólo 6 servidores.
La secuenciación del ADN es un proceso complejo y costoso, que ha de ser abordado a lo largo de fases sucesivas. Como ocurre al componer una panorámica con varias imágenes, los sistemas de secuenciación genética capturan cadenas o fragmentos de ADN a partir de una muestra, que más tarde se alinean con un genoma de referencia para su posterior estudio e interpretación.
De entre todas las fases implicadas en la secuenciación del genoma, el alineamiento es una de las más costosas a nivel computacional. Esta barrera se manifiesta de manera más acuciante según aumenta el número de cadenas de ADN que han de ser alineadas, pudiendo alcanzar cifras cercanas a millones, o incluso miles de millones. De hecho, las tecnologías de secuenciación más punteras hoy generan hasta 6.000 millones de lecturas de cadenas de ADN en cada ejecución-.
Procesar un volumen de información de esa magnitud en un servidor, usando la herramienta de referencia en genómica, conocida como Burrows-Wheeler Aligner (BWA) exige un tiempo de ejecución superior a cuatro días. Es una respuesta excesivamente lenta, que ha llevado a los profesionales a demandar soluciones para incrementar el rendimiento de los 'alineadores' con el objetivo de obtener resultados en un tiempo razonable.
Tratando de dar respuesta a este desafío científico, los investigadores del CiTIUS presentan ahora en la revista Bioinformatics la solución BigBWA, una nueva herramienta que permite aprovechar las ventajas de las tecnologías big data para incrementar el rendimiento de las operaciones de alineado acometidas por BWA.
Para ello se sirve de Hadoop, la implementación de código abierto más exitosa del modelo de programación MapReduce introducido por Google. De esta manera, el programador puede concentrar todos sus esfuerzos en el desarrollo del algoritmo llamado a resolver el problema científico que se plantea, ya que el propio Hadoop se encarga de distribuir la carga computacional entre los distintos procesadores o núcleos de computación, de forma totalmente automática y transparente al usuario.
Los resultados demuestran que el uso de BigBWA se traduce en un incremento espectacular de la eficiencia. Así, mediante la utilización de este software los investigadores lograron reducir el tiempo necesario para alinear los 6.000 millones de cadenas de ADN a tan sólo ocho horas usando un pequeño clúster de computación (6 servidores). En la práctica, esta mejora supone multiplicar por 12 la velocidad actual de cómputo, un salto cualitativo que puede aumentar mucho más en caso de disponer de un mayor número de servidores.
Rápida, robusta y sencilla
La principal ventaja de la herramienta es que consigue dividir la labor del alineamiento de secuencias de ADN en multitud de procesos independientes que pueden ejecutarse al mismo tiempo –tanto en distintos procesadores como en distintos servidores–. Sin embargo, el aspecto más singular del trabajo es que no sólo introduce el paralelismo a nivel de cómputo, sino que presenta también soluciones de almacenamiento distribuido. Se trata de una aproximación innovadora en el ámbito de la genómica, que junto a la paralelización del código, hace posible reducir drásticamente los tiempos de ejecución
Por otra parte, BigBWA es tolerante a fallos, lo que permite asegurar la correcta finalización de las tareas de alineamiento, incluso si se produjeran errores hardware en alguno de los servidores utilizados durante el proceso.
"Es una solución de software libre que ya está disponible para los profesionales, y puede ejecutarse tanto en pequeños servidores como en sistemas de computación de altas prestaciones", dice Juan Carlos Pichel, investigador principal del equipo responsable del trabajo.
"Y una ventaja sustancial es que el uso de BigBWA no implica ningún tipo de modificación en el código fuente de la herramienta original –añade–. Eso significa que cualquier futura actualización en los algoritmos BWA seguirá siendo compatible con nuestra solución".