La tendance de la demande en termes de capacité de traitement (1.000 – 10.0000 – 100.000 cœurs) et de stockage (10 – 100 – 1.000 Po) impose le recours à des technologies différentes de celles des systèmes départementaux, même de taille significative :
- les serveurs de fichiers et le protocole NFS doivent laisser leurs places à des systèmes de fichiers distribués comme Lustre ou GPFS,
- l'interconnexion des nœuds de traitement doit faire appel à des technologies à faible temps de latence, comme Infiniband,
- l'alimentation électrique et les servitudes doivent être adaptées,
- la surface au sol doit permettre l'installation des calculateurs et de leurs évolutions.
Pour toutes ces raisons, nous avons été amenés à établir un partenariat avec le Très Grand Centre de Calcul du CEA à Bruyères-le-Chatel, le TGCC. Les équipes du TGCC maitrisent ces technologies, nous donnant ainsi accès à des configurations dont la taille est de plusieurs ordres de grandeur supérieure à un système départemental.
Le TGCC -Très Grand Centre de Calcul du CEA- est une infrastructure dédiée au calcul haute performance, capable d'héberger des supercalculateurs d'échelle petaflopique et conçue sur la base d'une architecture orientée vers les données. Au sein du TGCC, le CCRT disposera d'une extension qui sera dédiée aux utilisateurs du projet France Génomique.
Cette e-infrastructure de stockage et de traitement des données, mise en œuvre par les équipes CEA/DIF permettra aux utilisateurs de France Génomique de bénéficier d'un espace de stockage moyen terme (échelle : projets scientifiques de plusieurs années) de plusieurs petaoctets, connecté à plusieurs milliers de cœurs de calcul scalaires par une interconnexion à haute performance.
Mutualisée avec celle du CCRT, elle est également conçue pour être évolutive, avec l'objectif de relever demain l'ensemble des défis de la génomique.
Equipements et capacités
La configuration dédiée à France Génomique est composée de :
- 180 nœuds bi processeurs (Intel Sandy Bridge E5-2680, 2.7 GHz, 8 cœurs) avec 128 Go de mémoire par noeud, soit 2.880 cœurs (Bull),
- 2 systèmes très grande mémoire Bullx S6410 à 2 To de mémoire,
- 9 lames hybrides, équipées de GPU nvidia Kepler.
C'est une extension de la configuration Airain du CCRT, installée au TGCC. L'hébergement des données sera réalisé grâce à la configuration de stockage suivante :
- Stockage moyen terme présentant un système de fichiers global de 5 Po, dont 2 Po sur disque (système de stockage hiérarchique Lustre + IBM HPSS),
- Dispositif d'archivage des données initiales.
Principales réalisations :
Afin de caractériser un ensemble de 83 familles protéiques sans fonctions connues et regroupant quelques 60.000 séquences, les chercheurs de Genoscope ont mené une campagne de modélisation sur le supercalculateur Titane du du CCRT. Cette phase, qui aurait nécessité 280.000 heures de calcul, a pu être exécutée en seulement 70 heures sur 4.000 processeurs. A partir des résultats, les chercheurs ont créé un catalogue de signatures structurales spécifiques pour chacune des familles étudiées. Ce catalogue va apporter aux biochimistes des informations précieuses pour découvrir de nouvelles activités enzymatiques ;
Le Genoscope utilise les moyens de calculs du TGCC/CCRT depuis déjà plusieurs années, notamment via les appels à projets DARI. Dans ce cadre, le projet TARA OCÉANS a bénéficié de plus de 3,5 millions d'heures de calculs pour étudier la diversité des organismes marins. Pour ce faire, différents outils d'analyse de séquences ont été portés sur cette infrastructure : BLAST, BLAT, InterProScan & CDDsearch. Des codes spécifiques ont été conçus et déployés afin d'adapter ces outils aux contraintes techniques d'exploitation des machines du TGCC (parallélisation massive par les données, contrôle d'exécution, reprise sur erreur, jobs unitaires courts).
Labels/ Démarche qualité :
Les équipes du CEA/DIF ont développé une expertise et une compétence reconnue de façon internationale aussi bien dans le domaine de la gestion des très grands volumes de données (contribution à des développements Opensource, pilotage de EOFS …) que dans la définition et le management de très grands centres de calculs. Des équipes d'assistance et de support aux utilisateurs sont disponibles pour aider les utilisateurs à tirer le meilleur parti des moyens du centre.
Une équipe de support applicatif dédiée est mise en œuvre par l'Institut de Génomique (CEA), pour le compte de France Génomique
En savoir plus : http://www-hpc.cea.fr/, http://www-ccrt.cea.fr/