El proyecto ENCODE tiene como objetivo identificar las regiones del genoma humano que tienen funcionalidad. La segunda fase, con la participación de 442 científicos en 32 laboratorios en el Reino Unido, Estados Unidos, España, Singapur, Japón y Suiza ha llegado a su fin con la publicación simultánea de 30 artículos en las revistas Nature, Genome Research y Genome Biology. Roderic Guigó, del Centro de Regulación Genómica (CRG) ha participado en este consorcio desde su inicio.
¿Cuáles han sido los objetivos de esta fase de ENCODE?
ENCODE comenzó cuando terminó la secuenciación del genoma humano en el año 2002. Hasta 2007 se analizó el 1% del genoma humano para identificar las tecnologías más útiles para investigar el genoma humano completo. En 2008 comenzó la segunda fase donde se han cartografiado los lugares que tienen un significado especial.
¿Qué se ha encontrado?
Hemos visto que partes del genoma que considerábamos ADN basura, sin utilidad, son en realidad muy importantes. Identificamos en estas secuencias unos 4 millones de interruptores de genes, es decir, de regiones reguladoras, que determinan si un gen debe estar activo o no. También hemos encontrado sorpresas en el proceso de transcripción que va desde el ADN hasta el ARN. Se pensaba que esta actividad iba dirigida a fabricar proteínas según la información del ARN mensajero. Descubrimos que hay una gran actividad transcripcional que no va dirigida a la fabricación de proteínas y que las moléculas de ARN son muy abundantes y diversas.
¿Qué repercusión pueden tener estos hallazgos?
El ARN es muy importante porque es el primer fenotipo de la célula, significa la manifestación fisiológica del genoma. La interpretación de las instrucciones del genoma empieza por la transcripción del ADN del genoma, el genotipo, al ARN, ya que sólo las partes que pasan a ARN tienen algún impacto posterior. Entender mejor cómo se produce este proceso nos ayudará a comprender cómo es la relación entre el genotipo y el fenotipo.
Datos que están abiertos a todos...
Uno de los objetivos de ENCODE es producir datos que sean públicos. Nosotros hemos generado y analizado más de 15 terabits de datos en bruto, empleando cerca de 300 años en tiempo de computación, que son públicos desde hace meses. Normalmente entre que obtienes los datos y publicas un artículo se tarda tiempo. Esto perjudica a la ciencia, especialmente en el caso de proyectos con financiación pública, en los que debe producir el máximo retorno a la sociedad.
¿Cómo ha cambiado nuestra visión del genoma?
Teníamos una visión muy ingenua. Ahora vemos que hay una actividad transcripcional brutal, que el ADN se transcribe de muchas maneras y que la célula en sí misma es un universo donde no es igual el ARN del núcleo, del citoplasma o del ribosoma. Antes pensábamos que un gen daba lugar a una proteína y estaba muy bien definido en el genoma. Ahora cuando hablamos de un gen, hablamos de una población de transcritos (ARN mensajeros) más o menos asociados a una localización en el genoma, y que contribuye a un fenotipo común. Pero encontramos casos de transcritos originados en la misma localización genómica que contribuyen a fenotipos diferentes y que, por tanto, deberían ser considerados genes diferentes, y viceversa, transcritos en lugares muy distantes del genoma que contribuyen al mismo fenotipo (proteína), y que quizá deberíamos considerar parte del mismo gen.
Esto parece un cambio muy importante...
Vamos hacia una visión donde el concepto actual de gen es en cierto sentido un poco vago. Por otro lado, también hay una serie de datos muy sólidos que hacen que sea un concepto muy útil. Por ejemplo, cuando tienes una mutación en un determinado gen, sabemos que se produce una enfermedad. Por tanto, no es que el concepto de gen desaparezca del todo, pero sí que hay que redefinirlo un poco y es menos sólido y robusto de lo que pensábamos.