Les laboratoires d'informatique et de bio-informatique du Genoscope et du CNRGH interviennent lors de la génération des données et de leurs traitements primaires et secondaires. Il s'agit, dans ces premières étapes, d'analyser les données générées par les séquenceurs afin d'estimer leur qualité, les filtrer, les interpréter, les annoter. Finalement, les informations calculées sont organisées et distribuées sous forme compréhensibles aux équipes de recherche en biologie.
Infrastructure système, calcul, stockage et réseau :
L'architecture informatique du Genoscope et du CNRGH est centrée sur les données. La capacité de stockage, basée sur des serveurs de fichiers attachés au réseau, est de l'ordre de 1 Po (Peta-octets). Les moyens de calculs en connexion directe avec ces serveurs de données sont majoritairement des serveurs biprocesseurs x86_64 (environ 500 cœurs, typiquement 8 Go/cœur).
Gestion de production
Le suivi de la gestion des échantillons et des opérations de séquençage est assuré par des LIMS (Laboratory Integrated Management system) développés en interne ou en sous-traitance. Ces outils permettent d'assurer le suivi quotidien des opérations, de tracer l'ensemble des processus depuis la réception des échantillons, l'extraction d'ADN jusqu'au séquençage et analyses informatiques, et de centraliser les métriques permettant le contrôle qualité des données produites.
Contrôle qualité de la production de données
Les données « brutes » générées par les séquenceurs sont prises en charge par un ensemble de procédures informatiques qui calculent un ensemble de « métriques qualité » destinées à vérifier que les opérations de séquençage se sont bien déroulées dans le respect des spécifications. Les résultats des différents calculs réalisés (par exemple calcul de « taux de couverture séquençage », taux de duplication, contamination,…) sont ensuite examinés et validés par l'équipe qualité pour pouvoir être mis à disposition des équipes scientifiques.
Pipelines Bio-informatiques
L'interprétation des données est réalisée par un ensemble de logiciels informatiques, les pipelines bio-informatiques. Ces logiciels scientifiques sont développés par nos équipes et par une large communauté scientifique qui proposent aux équipes de biologistes de nombreux outils. Au CNRGH, nous supportons des pipelines dans différents domaines, dont :
- Détection et annotation de variants : Le pipeline varscope permet de détecter et d'annoter automatiquement les polymorphismes présents dans un génome à partir des reads obtenus par séquençage illumina. Les données peuvent avoir été obtenues par séquençage ciblé, « exome » sequencing, ou encore whole genome sequencing. Le pipeline permet de détecter les polymorphismes de différents types : polymorphismes ponctuels, les SNPs (Single Nucleotide Polymorphism), les petites insertions et délétions, les CNVs (Copy Numbre Variation)…
- Analyse de génomes tumoraux : Une extension spécifique du pipeline permet de dresser la liste des mutations apparaissant dans le génome de cellules tumorales (mutations somatiques) par comparaison avec le génome de tissus sains (génome germinal).
- Analyse de RNAseq : Le pipeline d'analyse de données RNAseq (données obtenues par séquençage d'ARN messager) permet d'estimer le taux d'expression des gènes dans les échantillons, de cartographier les altérations génétiques (mutations) et les évènements de splicing modifiant ou altérant éventuellement la fonction associée au gène.
- Epigénétique : Ce pipeline permet de mapper les données générées par séquençage bisulfite et de calculer les positions méthylées dans le génome. Il permet aux chercheurs d'analyser les taux de méthylation de leur échantillon.