En 2001 se publicaron dos artículos, en Science y en Nature, que marcaron un hito en la historia de la humanidad. En ellos se presentaba el primer borrador del código en el que están escritas las instrucciones de la vida. Su consecución revolucionó nuestra comprensión de la biología y ha permitido avances importantes en ámbitos de la medicina como el cáncer. El bioinformático Roderic Guigó y su entonces estudiante de doctorado Josep Abril fueron los únicos españoles que participaron en el proyecto.
“Estamos aprendiendo el lenguaje con el que Dios creó la vida”, afirmó el entonces presidente de los Estados Unidos, Bill Clinton, el 26 de junio de 2000 en la presentación del primer borrador del genoma humano. Aquel anuncio, “un hito para la historia de la ciencia y humana”, se hizo de forma conjunta y simultánea desde la Casa Blanca y Downing Street.
En aquella rueda de prensa también se encontraban Francis Collins, director de los Institutos Nacionales de Salud (NIH) de los Estados Unidos, la institución que había liderado la iniciativa pública internacional Proyecto Genoma Humano, en la que también participaron Reino Unido, Francia, Alemania, Japón y China. Y Craig Venter, el científico visionario al frente de Celera Genomics, la iniciativa privada que también había competido por descifrar el código genético humano.
Aquel anuncio fue anticipado y aún hubo que esperar unos meses, hasta el 15 de febrero de 2001, para que se publicara simultáneamente en dos artículos científicos en las revistas Nature y Science el primer borrador del genoma humano. Entonces aún contenía muchas regiones sin completar e incluso no todos los fragmentos de ADN secuenciados estaban situados correctamente.
Pero aquella primera secuenciación del genoma humano nos permitió saber que tenemos 20.000 genes y que entre tú, que lees este reportaje, y un inuit o un bosquimano hay apenas un 0,1 % de diferencia. Aquel hito ha revolucionado la biología y la medicina: ha permitido avances importantes, aunque de momento no tantos como se esperaba, en el estudio y tratamiento de enfermedades raras, del cáncer, de la medicina de precisión. Incluso ahora, en tiempos de pandemia, ha permitido explicar por qué algunas personas pasan la covid de forma asintomática y otras, en cambio, desarrollan la forma grave con peor pronóstico.
En esa hazaña, una de las más importantes de la humanidad, participó el bioinformático Roderic Guigó, coordinador del Programa de Bioinformática y Genómica del Centro de Regulación Genómica (CRG) de Barcelona, y profesor de la Universidad Pompeu Fabra (UPF).
¿Cómo entró a formar parte del proyecto?
A finales de los 80 y principios de los 90, fui a trabajar a el Instituto Dana Farber de cáncer, de la Escuela de Medicina de Harvard, en Boston, junto a Temple Smith, uno de los fundadores del campo de la bioinformática. Mi investigación estaba centrada en el desarrollo de métodos para el análisis computacional de secuencias de ADN, porque en aquel momento, no se sabía cómo encontrar genes en esas secuencias.
Para contextualizar un poco, el genoma es el conjunto de instrucciones que determinan los rasgos biológicos, desde el color de los ojos, de la piel, la altura, la predisposición a tener enfermedades; toda esa información está codificada estratégica y específicamente en unas regiones llamadas genes que ocupan cerca del 2 % del genoma. La mayor parte del genoma no codifica para genes y uno de los problemas que en aquellos momentos se planteaba era cómo identificar las regiones del genoma en que se hallaban los genes. Nosotros comenzamos a hacer programas computaciones para identificar precisamente los genes.
Luego me fui al Laboratorio Nacional de Los Álamos, en Nuevo México, famoso por el proyecto Manhattan y la bomba atómica, pero donde también se instalaron las primeras bases de datos de secuencias de ADN. Y allí, junto a un estudiante de doctorado, Josep Abril, comenzamos a trabajar con Celera Genomics con un software que permitía visualizar el genoma y que había desarrollado en Barcelona, en el IMIM.
¿En qué proyecto?
Nos llamaron para que secuenciásemos el genoma de Drosophila, la mosca de la fruta, que tienen unos 150 millones de nucleótidos o letras. Para comparar: los humanos tenemos 3.000 millones. Y aquello fue una especie de entrenamiento. Luego, cuando llegaron al final de la secuenciación del genoma humano nos llamaron de nuevo y nos propusieron producir el mapa visual del genoma humano. Fueron unas semanas muy intensas en las que los días pasaban sin que te dieras cuenta y deseabas que duraran el doble. Recuerdo irme a dormir deseando despertarme al día siguiente para poder seguir avanzando.
Nos propusieron producir el mapa visual del genoma humano. Fueron unas semanas muy intensas en las que los días pasaban sin que te dieras cuenta y deseabas que duraran el doble. Recuerdo irme a dormir deseando despertarme al día siguiente para poder seguir avanzando
¿Tenía la sensación de participar en un hito histórico?
Sí, porque entonces ya había un ruido mediático importante alrededor del proyecto, que ya llevaba muchos años desarrollándose y había traspasado el entorno meramente académico. Pero fíjate que, a pesar de tener conciencia de que era un momento importante, ¡ni se nos ocurrió hacer ni una foto!
¿Cuál era el principal reto hace 20 años para secuenciar el genoma humano?
Sobre todo, técnico. Las tecnologías de que disponíamos no nos permitían avanzar más. Un genoma tiene 3.000 millones de nucleótidos, de letras, que están en los cromosomas. En cada una de nuestras células hay 23 parejas de cromosomas, cada uno con una longitud distinta de nucleótidos, que se ordenan por tamaño; así, el cromosoma 1 es el más grande y el 22 el más pequeño. Cuando decimos secuenciar el genoma nos referimos a saber la secuencia de nucleótidos del genoma.
Y hace veinte años los instrumentos de que disponíamos solo nos permitían secuenciar moléculas de 300 o 400 bases. De manera que la única posibilidad para obtener la secuencia del genoma era partirla en trozos muy, muy pequeños y luego intentar ensamblarlos. Y aquello no podía funcionar de ninguna de las maneras porque el genoma humano es muy repetitivo, con regiones que son muy similares unas de otras. De alguna manera, estábamos intentando completar un puzle con piezas que son iguales en diferentes puntos.
La tecnología entonces no nos permitía hacer lo obvio, que era leerlo seguido, ni tampoco lo permite ahora, aunque sí podemos leer seguidas 100.000 bases o así. En su momento, Celera Genomics tenía uno de los ordenadores más potentes de la Tierra para, precisamente, enfrentarse al problema del ensamblado.
Una vez ensamblado ese puzle, ¿cómo identificaron las regiones donde estaban los genes?
Aquello fue lo complicado y es en donde nosotros contribuimos visualizando el mapa de los genes de forma observable para las personas. Tenemos 20.000 genes que no están situados de manera continua en el genoma, sino en trozos pequeños separados por regiones que no codifican. Nosotros teníamos que identificarlas, eliminarlas, e ir enganchando la parte de genes para poder ir dibujando este mapa. Era un desafío que no estábamos seguros de poder resolver.
Un día tuvimos una idea, utilizamos programación dinámica que nos permitió distribuir los genes y los exones y… ¡lo logramos! “Sois magos”, nos dijeron cuando mostramos por fin el mapa. Luego he visto el póster en muchos sitios e incluso he descubierto que se vende por internet aunque no sé por cuánto
Fueron días increíbles. Cada mañana nos reuníamos todo el equipo de análisis para revisar cómo íbamos avanzando, las nuevas predicciones de genes, su posible función, y trabajábamos hasta tarde cada noche. Y al final un día tuvimos una idea, utilizamos programación dinámica que nos permitió distribuir los genes y los exones y… ¡lo logramos! “Sois magos”, recuerdo que nos dijeron cuando mostramos por fin el mapa. Luego he visto el póster del mapa en muchos sitios e incluso he descubierto que se vende por internet aunque no sé por cuánto.
¿Qué hay del 98% del genoma que no mostraba vuestro mapa?
Aún no sabemos muy bien cómo funciona. La mayor parte del genoma no codifica para proteínas, no es funcional y al principio se le llamó ‘basura’, porque se pensaba que estaba allí sin función. Hoy sabemos que no es así. Todas nuestras células tienen el mismo genoma, los mismos genes, y en cambio son distintas unas de otras, las de la piel de las del corazón o las neuronas. Eso implica que, aunque tengan el mismo genoma, no se expresan todos los genes ni al mismo nivel. Así es que una parte de este ADN que no codifica para los genes se encarga de regular cómo se encienden.
Usted participó en la iniciativa privada de Celera Genomics, que competía con Proyecto Genoma Humano, la iniciativa pública, por obtener la secuencia del genoma humano, aunque al final ambas tuvieron que colaborar.
Así fue. El proyecto público para obtener la secuencia del genoma se preparó desde los Estados Unidos. Hubo un esfuerzo inicial para distribuir los cromosomas por distintos países y que cada uno secuenciara uno, pero eso no acabó de funcionar. Algunos países sí que hicieron una contribución importante, como Reino Unido y Alemania, pero a la práctica la mayor parte de la secuencia del genoma humano se hizo en cinco laboratorios de los Estados Unidos. Y es lógico que fuera así porque la tecnología usada en distintos centros tenía que ser compatible y cuantos más lugares participaran para obtener la secuencia, más variabilidad técnica y más difícil resultaría integrar los datos.
Aquel primer proyecto público estaba planificado para que durara 15 años y acabara en 2005. Pero entonces, en 1996, se celebró una reunión clave, que cambió el curso del proyecto y lo aceleró, de alguna manera. Y yo estaba en esa reunión. En Cold Spring Harbor, en Long Island, cerca de Nueva York cada año se muestran los avances más importantes en secuenciación genómica y allí Craig Venter presentó una estrategia alternativa que él llamaba de shotgun.
¿En qué consistía?
Todos los datos genómicos producidos con financiación pública tenían que ser públicos. La empresa Celera tenía acceso a los datos que arrojaba el consorcio público, pero el consorcio público no tenía acceso a los datos de Celera, que no tenía ninguna obligación de compartirlos. Fue una época de mucha tensión
En lugar de dividir el genoma en pedazos, secuenciar cada pedazo y luego ensamblarlos, Venter defendía que se tenía que hacer de golpe. Shotgun era como tirar perdigones, lo que para él era una forma más rápida y menos costosa para el contribuyente que la estrategia adoptada por la iniciativa pública. Venter creó una empresa para ello, Celera Genomics, contrató a científicos muy buenos y en 1999 secuenció el genoma de Drosophila de esta manera. Y presentó resultados en la reunión anual en Cold Spring Harbor.
Entonces se empezó a temer que la secuencia del genoma humano, que se consideraba algo tan importante para toda la humanidad, quedara en manos de una empresa privada. Y eso determinó que se cambiara el planteamiento del proyecto público y se adoptara una estrategia intermedia, asumiendo parte de lo que proponía Celera. Eso hizo que el proyecto se acelerara.
¿Por qué?
Todos los datos genómicos, al menos los producidos en EE UU y Reino Unido con financiación pública, tenían que ser públicos. Celera tenía acceso a los datos que arrojaba el consorcio público, pero el consorcio público no tenía acceso a los datos de Celera, que como empresa privada no tenía ninguna obligación de compartirlos. Fue una época de mucha tensión y al final llegaron a un acuerdo por el que se decidió que los dos artículos científicos describiendo la secuencia, el del consorcio público y el de Celera, se publicarían el mismo día, uno en Science y otro en Nature. Aunque habitualmente las dos revistas salen en días distintos, aquella vez se publicaron el mismo día de la semana.
Pasó una cosa curiosa. En biología, antes de publicar un artículo, los autores tienen que poner los datos accesibles para todo el mundo; en el caso del proyecto público, estaban en GenBank, la base de datos genómicos pública de los NIH, y en la base de datos europeos en el EMBL. En cambio, Celera se negó a compartirlos. Y al final optaron por una estrategia que no acabó de funcionarles: podías acceder a la secuencia de forma gratuita, pero te tenías que registrar en su web y si después querías información adicional sobre la secuencia, como la anotación o dónde estaban los genes, tenías que pagar una subscripción. Fue realmente muy mal negocio al final, porque la secuencia del genoma a corta plazo no aportó nada, excepto casos muy excepcionales. No fue para nada un negocio millonario como pensaron.
¿Qué supuso tener el genoma?
Al principio, muy, muy poco.
Creíamos que una vez tuviéramos las secuencias donde estaban escritas las instrucciones de la vida ya podríamos decir ‘esta persona es miope porque tiene esta mutación’. El problema es que las instrucciones eran mucho más complicadas de lo que nos esperábamos y no teníamos ni idea de cómo leerlas
Pero la promesa era que acabaría con las enfermedades raras, con el cáncer, que revolucionaría la medicina, la biología.
Había expectativas de que así fuera, porque la idea que teníamos los científicos entonces, fíjate, era que en la secuencia del genoma humano estaban escritas nuestras características biológicas, entre ellas las que nos confieren susceptibilidad a determinadas enfermedades o a responder o no a ciertos tratamientos. Y que una vez tuviéramos las secuencias donde estaban escritas las instrucciones de la vida ya podríamos decir ‘esta persona es miope porque tiene esta mutación’.
El problema es que las instrucciones eran mucho más complicadas de lo que nos esperábamos y no teníamos ni idea de cómo leerlas. Para empezar, no sabíamos ni dónde estaban los genes. Incluso meses antes de publicarse el genoma humano, hubo una serie de artículos que trataban de predecir la cantidad de genes que tendría y especulaban que serían entre 25.000 y 160.000. Íbamos bien perdidos.
Ahora sabemos que el número está sobre 20.000, que codifican para proteínas.
Pero seguimos sin saber cómo conectar, porque no tenemos el conocimiento suficiente, el cambio en una secuencia del genoma con un fenotipo determinado. Solo podemos hacerlo mediante asociaciones estadísticas y para ellos necesitamos tener millones de genomas para un carácter, por ejemplo. Y entonces solo teníamos un genoma sin ningún fenotipo asociado. Imagínate, la secuenciación del primer genoma humano costó 3.000 millones de dólares, por lo que era imposible hacer un segundo. En aquel momento los científicos sobrevaloramos el conocimiento que teníamos sobre los procesos biológicos.
¿Y ahora?
Ahora gracias a la revolución tecnológica, a disponer de algunos instrumentos de segunda y tercera generación, podemos obtener secuencias de ADN de forma mucho más fácil y económica. Además, tener un genoma de referencia ayuda. Porque no se reconstruye todo el genoma, sino que se compara un genoma con el de referencia y se mira en qué posiciones hay mutaciones, y eso se puede hacer mirando secuencias cortas. No obstante, a pesar de los estudios de asociación, muchos cambios genéticos asociados a enfermedades no ocurren en las regiones codificantes sino en las reguladoras. En resumen, que llevamos veinte años estudiando el genoma y aún no sabemos cómo funciona.
¿Qué avances ha permitido en medicina?
Tiene una importancia central en el caso de las enfermedades raras. En la mayoría de casos es fácil identificar las mutaciones causales, lo que permite desarrollar terapias específicas. En este sentido, son muy importantes las plataformas internacionales de compartición de datos, como la Global Alliance for Genomics and Health (GA4GH). Otra área en que la secuenciación ha sido muy importante es en el caso de los tumores y en el avance de programas de medicina personalizada.
Y obviamente, la edición del genoma. Hasta hace nada no se podía trasladar el impacto que tenía el conocimiento de la secuenciación del genoma a la práctica porque no había herramientas para ello. Pero ahora contamos con CRISPR-Cas9 y similares que permiten la posibilidad de alterarlo y eso lo podemos hacer porque sabemos cómo es el genoma y a qué posición queremos ir. Sin la secuencia sería imposible.
¿Qué avances permitirá en los próximos veinte años?
Tras la secuenciación del genoma humano, la investigación avanzó en tres áreas: la primera, secuenciar la variación humana con el foco puesto en la equidad. La mayoría de genomas secuenciados son de personas blancas europeas, cuando hay otras etnias que son susceptibles a determinadas enfermedades.
La segunda área es entender la función genómica, cómo la información está codificada en la secuencia del genoma humano. Quizás el proyecto más conocido es ENCODE, del que formo parte desde el inicio; en Japón tienen Riken y en Europa, BluePrint. Todos esos proyectos han evolucionado hacia el Atlas de las Células Humanas, un proyecto para caracterizar todos los tipos celulares del cuerpo humano.
Y, por último, se está avanzando en la secuenciación de otras especies. Los humanos somos solo uno de los 1,5 millones de especies eucariotas que hay en la Tierra. Tras secuenciar el genoma humano, se priorizó secuenciar organismos modelos, como el gusano, el pez cebra, el ratón y la rata. Nosotros tuvimos un rol de liderazgo en el proyecto de secuenciación del genoma del ratón.
En Reino Unido hay un proyecto en marcha para secuenciar el genoma de sus ciudadanos y, de hecho, ya llevan más de 100.000 genomas. Eso, que puede abrir las puertas a medicina de prevención y personalizada, pero también pone sobre la mesa cuestiones éticas, como de quién son los datos del genoma de los ciudadanos y quién tiene acceso a ellos.
La investigación en el genoma humano está financiada con los impuestos de los ciudadanos, por tanto, les pertenece a ellos y son ellos los que deberían poner los límites. En una sociedad ideal, se debería poder hacer mediante procesos participativos, aunque es fácil hacer demagogia en estos temas. ¿Quién tiene acceso?
Es muy difícil garantizar la confidencialidad de los datos y los poderosos siempre tienen acceso a ellos; de hecho, poner muchos controles solo los beneficia a ellos, porque los que no somos poderosos no podemos acceder. A mi juicio, debería haber un modelo más igualitario. Obviamente, tiene riesgos, pero estos se deben controlar mediante la legislación.
Si esos datos son públicos, ¿nos podrían discriminar por ellos, como ocurría en Gattaca?
No tiene sentido decir no a publicar la secuencia de un genoma porque se puede discriminar a una persona a partir de la información que contenga. Discriminación hay siempre. Es cuestión de establecer límites para que la biología no sea un motivo más para ello.