Le laboratoire d'informatique scientifique est constitué de 3 équipes qui interviennent sur l'ensemble du périmètre du Genoscope et du CNRGH.
Ses missions sont focalisées sur l'architecture système et réseau, le développement et l'opération de systèmes de gestion de production, et enfin la prise en charge des données massives de séquence. Plus de détails sur
le laboratoire d'informatique scientifique du Genoscope.
Les séquenceurs à haut-débit sont les éléments dimensionnant de l'informatique scientifique de l'institut. Ils sont utilisés par le Genoscope et le CNRGH pour leurs multiples applications. Chacun des 17 instruments, installés à Évry début 2015, a la capacité de générer 1,5 To chaque mois, soit plus de 25 To de données de séquence (après compression) pour l'ensemble des instruments.
Le système informatique doit donc être en mesure d'assurer le stockage de ces données avec le niveau de sureté requis, de les rendre mobilisables efficacement par les moyens de calcul, en lecture comme en écriture, tout en assurant la traçabilité adéquate d'objets dont le volume total atteint 1.000 To (1 Po).
Les traitements informatiques entrent majoritairement dans la catégorie des applications dites «data intensive» (à usage intensif de données, en français). Cette famille se caractérise par la mise en œuvre de grandes quantité de données qui sont lues, écrites et modifiées par des programmes qui vont les filtrer, en évaluer la qualité, les rapprocher (par comparaison ou par des méthodes statistiques (classification) supervisées ou non) de données déjà connues. Ces traitements entrent aussi dans la catégorie du «calcul intensif».
Dans tous les cas, les temps d'exécution sont longs, que ce soit du fait de la quantité de données à mettre en œuvre ou de la complexité des algorithmes. Les temps d'exécution sont par ailleurs souvent difficile à prédire (ils dépendent des données elles-mêmes, donc de l'inconnue de l'équation). Ceci ajoute une difficulté supplémentaire dans l'exploitation des clusters de calcul.
Les applications entrent principalement dans deux catégories :
- Des codes adaptés à un modèle de parallélisme massif sans besoin fort de synchronisation («embarrassingly parallel»). Il s'agit de tirer parti d'une propriété des données qui permet de diviser le flot de données en entrée, puis d'appliquer un algorithme sur chaque portion des données en entrées. Cela nécessite que le résultat du calcul soit indépendant du découpage initial (condition nécessaire) ;
- Des applications s'apparentant à un parcours de graphe ou à la constitution de répertoires de mots, nécessitant un très grand espace d'adressage (de quelques centaines de Go à quelques To) et un temps d'exécution pouvant dépasser le mois. Ces applications nécessitent des machines spécialisées, équipées d'une grande quantité de mémoire (RAM).
L'environnement informatique, calcul et stockage, est dimensionné pour prendre en charge les traitements primaires sur les données. Il héberge aussi un certain nombre d'outils d'exploration des génomes, permettant de valoriser les
données des projets. En outre, un partenariat stratégique a été noué avec le TGCC (Très Grand Centre de Calcul), centre de calcul du CEA à Bruyères-le-Chatel, où des capacités dédiées de stockage (5 Po) et de calcul (3.000 cœurs) ont été implantées dans le cadre de France-Génomique. Cette installation dédiée est une extension du calculateur Airain du CCRT (20.000 cœurs, 420 Tflops). Le TGCC héberge aussi le calculateur Curie (100.000 cœurs, 2 Pflops), utilisable notamment dans le cadre des appels à projets PRACE. L'intérêt de ce montage réside dans la position centrale des données, qui sont accessibles de façon transparentes aux deux calculateurs.
Le laboratoire apporte une attention particulière à la portabilité des codes et des pipelines sur les deux environnements, local et France-Génomique.
Les 3 groupes accueillent des stagiaires, des jeunes en contrat d'apprentissage, et offrent régulièrement des postes temporaires ou permanents.