Vous êtes ici : Accueil > Éditions & rapports > Préserver l'intégrité des données

Clefs CEA | Article | Technologies


Clefs CEA n°64 - Les voix de la recherche - Voyage au coeur du big data

Préserver l'intégrité des données


Version détaillée de l'article paru dans le numéro de Clefs CEA n°64 - Voyage au coeur du big data.  

Publié le 13 juin 2017

Le séquençage massif du génome, désormais possible, ouvre la voie à de nombreux champs de recherche dans toutes les disciplines : biologie, médecine, agronomie, biodiversité etc. (voir p. 34). Face à cette évolution qui transforme radicalement l'approche des sciences du vivant, le projet France Génomique a mis en place dès 2011 une infrastructure Big Data, capable de répondre à ses besoins. Cette infrastructure (voir illustration) opérationnelle de collecte et traitement est installée au Centre de calcul recherche et technologie (CCRT) au sein du Très grand centre de calcul du CEA (TGCC), sur le site DAM/Ile-de-France. 

Mis en œuvre dans le cadre des « infrastructures nationales en biologie/santé » des Investissements d'avenir, France Génomique s'inscrit aujourd'hui dans la stratégie santé e-2020 décidée en 2016 par le gouvernement. Le TGCC abrite le stockage des données expérimentales de France Génomique et les résultats des traitements numériques de ces données. Ces dernières proviennent des expériences menées par les chercheurs sur les séquenceurs ADN. Elles ne sont donc pas reproductibles simplement, contrairement aux simulations exécutées sur les supercalculateurs. Ces données doivent donc bénéficier d'un traitement spécial pour garantir leur préservation. 


Projet France génomique

Vue de l'infrastructure de stockage et de traitement des données du projet France Génomique. © P.Stroppa/CEA

Elles arrivent via Internet sur des machines de dépôt dédiées. Des tests permettent de certifier leur conformité et leur intégrité. Elles sont alors envoyées automatiquement dans un système d'archivage informatique afin de les « sanctuariser ». Au sein de celui-ci, elles sont référencées dans une base de données et conservées en double copie sur plusieurs bandes magnétiques. 

Les données sont recopiées simultanément sur l'un des systèmes de fichiers parallèles du TGCC, afin d'être accessibles depuis les supercalculateurs. Les fichiers du projet France Génomique sont, là encore, identifiés comme critiques et des copies multiples (disques et bandes) sont conservées dans ce second système. 

La conservation des résultats expérimentaux et la préservation de leur intégrité sont ici les maîtres mots de l'architecture informatique dédiée mise en place. Des pannes informatiques (corruption silencieuse du contenu d'un support informatique, panne matérielle sur un équipement informatique) ou des erreurs humaines (fausse manipulation) peuvent survenir. Il est ainsi toujours possible d'accéder à une copie de la version déposée initialement dans le système par les chercheurs. 


Réseau France génomique


Haut de page