El proyecto NAGEN 1000 Navarra es un proyecto de secuenciación genómica completa con fines diagnósticos cuya envergadura y aplicación clínica son inéditos en el territorio nacional. El objetivo principal del proyecto es trasladar el uso de la tecnología de análisis de genoma humano completo (WGS) desde los Centros Tecnológicos y Grupos de Expertos a la red sanitaria pública de Navarra como herramienta clínica y de investigación e introducir un nuevo desarrollo tecnológico industrial asociado a la medicina de precisión en Navarra como es la supercomputación asociada a la inteligencia artificial.
En el caso concreto de NASERTIC y la Unidad de Bioinformática Traslacional de Navarrabiomed, el objetivo logrado ha sido el desarrollo de nuevas infraestructuras y sistemas de almacenamiento y análisis computacional de datos genómicos masivos que están permitiendo el estudio de cientos de genomas de pacientes del proyecto gracias al clúster de supercomputación, instalado desde enero de 2018 y alojado en el Centro de Proceso de Datos del Gobierno de Navarra (CPD) gestionado por NASERTIC. Se trata de una infraestructura que está pensada igualmente para su uso por parte de todos los Centros Tecnológicos de Navarra integrados en ADITECH y de las empresas públicas (Navarrabiomed, Tracasa, CPEN, etc.,) que lo soliciten.
La nueva infraestructura de HPC (High Performance Computing) ha sido diseñada específicamente para cargas de trabajo intensivas de inteligencia artificial y es capaz de mejorar x4 los tiempos de entrenamiento de los frameworks de Deep Learning (de días a horas), permitiendo construir aplicaciones de inteligencia artificial de forma más rápida.
Para hacernos una idea, es como si tuviéramos 100 ordenadores funcionando al mismo tiempo sobre una red 100 veces más rápida que la doméstica. La computación de altas prestaciones ayuda a diseñar nuevos productos, optimizar los procesos de fabricación y entrega, resolver los problemas de producción, extraer datos y simular procesos con el fin de ser más competitivos, rentables y sostenibles. Esto se logra aplicando ciclos de cálculo para resolver los problemas de la manera más rápida posible: un problema que puede tardar días en solucionarse en un ordenador portátil puede resolverse en unos pocos minutos en un supercomputador. Es, sin duda, un acelerador de la ciencia y la ingeniería.
Bioinformática + Súpercomutación
La bioinformática es la aplicación de tecnología computacional a la gestión y análisis para extraer información útil de los datos masivos producidos por técnicas biológicas de alta productividad, como la secuenciación del genoma. Sin el uso de la bioinformática es imposible a día de hoy la realización de estudios genómicos, y hasta el comienzo del proyecto NAGEN 1000 no existía en la Comunidad de Navarra ninguna infraestructura pública o privada con capacidad de asumir este reto.
En concreto en el proyecto NAGEN 1000, el sistema de supercomputación permite a los investigadores de Navarrabiomed ejecutar sus propios análisis sobre la información secuenciada del genoma permitiendo extraer del mismo la información de interés para la investigación de enfermedades raras de origen genético. Sin un sistema como este sería imposible analizar en tiempos y costes razonables la información del genoma completo. Actualmente las muestras del genoma de los pacientes participantes en el proyecto de investigación son secuenciadas en el CNAG de Barcelona, el centro de referencia de secuenciación de España. En el CNAG (Centro Nacional de Análisis Genómico) se secuencian una media de 20 genomas al día, cada uno de ellos con 3.300 millones de bases.
Sin embargo, la secuenciación es solo el primer paso, dado que en la búsqueda de mutaciones que pueda explicar el origen de las enfermedades de origen genético, es necesario analizar la ingente información del genoma secuenciada como 1 y 0 en tiempos razonables. Esto supone computar en algunos casos más de 30 terabytes de información al día lo que obliga al uso de sistemas con una capacidad de cómputo muy superior a la que puede ofrecer el mejor ordenador actual. Ahí es donde los sistemas de supercomputación se tornan en una herramienta fundamental en el análisis genómico, y disponer de uno de estos sistemas en Navarra permitirá introducir el análisis genómico dentro del sistema sanitario de salud de navarra.
La apuesta lograda del proyecto NAGEN 1000 ha sido optar por el desarrollo de un sistema de supercomputación en Navarra que permita aprovechar el potencial de estos sistemas para el desarrollo de la comunidad, creando no solo un sistema compartido para todos las entidades y organismos de investigación de Navarra, sino también permitiendo el desarrollo en Navarra del conocimiento en dos ámbitos tan pioneros como son la supercomputación y el análisis genómico.
NAGEN 1000 tiene entre sus principales objetivos transferir el “know-how” necesario para realizar el análisis bioinformático de secuencias de genoma humano completo desde los más avanzados centros tecnológicos y grupos de expertos del área a la Comunidad Foral de Navarra, no sólo para abordar el estudio de los pacientes del proyecto, sino también para cubrir las muy previsibles necesidades futuras que puedan surgir en este novedoso campo a nivel de investigación y asistencial. Sin esta funcionalidad no es imaginable la verdadera implantación de la genómica como herramienta de la nueva Medicina Personalizada.
La unidad de Bioinformática Traslacional de Navarrabiomed está liderando los procesos de identificación y priorización de variantes. Dado que este proceso se había realizado al inicio del proyecto a través de CNAG (identificación y priorización) y FPS (priorización) y existía un conjunto extenso de familias procesadas, la implementación en Navarra, se ha realizado comprobando que los resultados que se obtienen son similares.
El primer paso en todo análisis genético es la obtención del ADN y su procesado. Cada tipo de análisis genético necesita un procesado específico, de ahí que el camino desde el ADN a los datos no siempre sea el mismo y por tanto sea fundamental proveer de material adecuado a cada análisis.
Esto ha hecho que surjan diferentes scripts y pipelines para un análisis más eficiente de los datos, cuya complejidad no viene dada solo por el gran volumen de datos que se manipulan sino también por la complejidad que conllevan a la hora de dar una interpretación biológica.
Como resultado del proceso de secuenciación NGS, en la mayoría de los casos y por diferentes caminos dependiendo de la plataforma usada, se generan archivos con formato FASTQ. Estos archivos almacenan las lecturas junto con más información relevante de ésta. Cada lectura aquí está representada en cuatro líneas que contienen: la identificación de la secuencia, las bases de ésta, otro identificador de fin de secuencia y la calidad de cada base en esa lectura. Este fichero FASTQ es el input estándar que reconocen muchas herramientas de bioinformática. Los ficheros fastq generados por CNAG se descargan a la infraestructura de supercomputación de NASERTIC.
La Unidad de Bioinformática Traslacional junto a los profesionales de NASERTIC han desarrollado un pipeline que utiliza el gestor de colas Slurm para enviar los diferentes trabajos al clúster donde son ejecutados de manera paralela. Una vez procesadas las lecturas, uno de los análisis primarios de las secuencias es el alineamiento de las lecturas contra un genoma de referencia. Es muy importante la elección de un buen genoma con el que comparar las secuencias, por lo que es recomendable trabajar con aquellos genomas más actualizados, lo cual implica su búsqueda en las diferentes bases de datos. Entre las principales bases de datos están el NCBI (National Center for Biotechnology Information) que aloja la base de datos GenBank, el EBI (European Bioinformatics Institute) que aloja la Biblioteca de Datos del EMBL (European Molecular Biology Laboratory), y el DDBJ (DNA DataBase of Japan). En este caso usamos el ensamblado de EMBL/Ensembl Homo sapiens high coverage assembly GRCh38.
A nivel de cómputo, el clúster de supercomputación actual de NASERTIC es capaz de procesar la comparación de 20 genomas con sus respectivos genomas de referencia en menos de 25 horas, algo impensable hasta ahora en Navarra.
Modelo híbrido de súpercomputación
NASERTIC ha elegido el software libre en el clúster de HPC como el instrumento y apuesta estratégica para el desarrollo y crecimiento del servicio de supercomputación, utilizando además un modelo híbrido con tecnologías basadas en procesadores Intel, NVIDA e IBM Power9.
El software libre es una alternativa clara para sistemas de ficheros paralelos dado que muchos productos comerciales han fracasado en este área y las alternativas basadas en software libre predominan en la actualidad a nivel internacional. Las alternativas en software libre de sistemas de colas y planificadores son maduras, versátiles y eficientes. El software libre está muy presente además en soluciones científicas y en las más visionarias e innovadoras tendencias de los entornos cloud (nube) actuales.
Tras un profundo análisis de mercado a nivel mundial, NASERTIC entiende el modelo Open Source (GNU/GPL) como motor de revolución digital, así como un instrumento para el desarrollo y crecimiento de su entorno HPC. La infraestructura de HPC se caracteriza por el uso de una colección de recursos trabajando en paralelo para resolver problemas computacionalmente complejos, involucrando un gran número de datos y cálculos, como en el proyecto NAGEN 1000 o en el LiDAR de Tracasa ( proyecto revolucionario en cartografía que ha permitido obtener un modelo digital del terreno (MDT) y otro de superficie (MDS) con una definición hasta ahora desconocida, y que además ha permitido clasificar la ingente cantidad de puntos en menos de 100 horas).
El stack de software requerido para el funcionamiento óptimo y completo del cluster HPC lo trabaja NASERTIC con soluciones de software libre “Open HPC” que contemplan la capa de aplicaciones, bibliotecas paralelas, instalación y administración de nodos, monitorización, job scheduler, administración de red, sistema operativo, aprovisionamiento, FS paralelo y distribuido, logs, así como la gestión de accesos.
NASERTIC ha apostado por soluciones que aporten libertad, flexibilidad y costes bajos frente a sistemas propietarios, más simples y caros. Uno de los mayores retos a tener en cuenta en una infraestructura HPC es hacer frente a la complejidad que asume la gestión del almacenamiento compartido, donde un clúster de estas características no contempla soluciones sencillas (como NFS o CIFS), encontrando soluciones de software libre de altísimo rendimiento que garantizan dicha estabilidad. De esta manera Linux (sistema operativo libre tipo Unix; multiplataforma, multiusuario y multitarea), omnipresente en la lista de los 500 ordenadores más potentes del mundo, es la alternativa perfecta para este tipo de clúster HPC basándonos en su:
- Modularidad (Versatilidad de adaptación a entornos IOT, supercomputación, IA, BI, ...)
- Núcleo multidisciplinar (soporte genérico para todo tipo de tecnologías al compilar el núcleo el propio desarrollador)
- Escalabilidad (capacidad de adaptación a cargas intensivas con elevada eficiencia y prestaciones)
- Naturaleza open source (soporte en la comunidad y adaptación del SO a las necesidades propias a través de la simbiosis software/hardware que nos ofrece)
- Coste (altísimo en sistemas operativos convencionales y nulo para distribuciones y variantes linux).
*Artículo publicado en Negocios en Navarra el 4 de junio de 2019.