La génomique comparée en microbiologie pour des études fonctionnelles, évolutives et environnementales analyse le contenu en gènes d'une ou plusieurs espèces d'intérêt. Introduit au début des années 2000, le concept de pangénome vise à compiler toute la diversité génomique d'une espèce. Au sein d'un pangénome, on distingue généralement le cœur, la part qui regroupe l'ensemble des gènes conservés dans l'espèce et la part accessoire ou variable qui correspond à des gènes spécifiques à certaines souches. Cette partie variable qui représente entre 5% et 40% du contenu en gènes d'un génome est de toute importance car elle confère un ensemble de facteurs nécessaires, par exemple, à l'adaptation à l'environnement, à la résistance aux phages ou à la pathogénie.
Face au déluge de nouvelles séquences génomiques, l'analyse de cette masse de données exige le développement de méthodes bioinformatiques passant à l'échelle. Ainsi, des chercheurs du LABGeM (Genoscope), en collaboration avec le LaMME (unité mixte du CNRS et de l'Université d'Evry Val d'Essonne) et l'Institut Pasteur, ont développé une nouvelle méthode, nommée PPanGGOLiN (Gautreau et al. 2020), permettant d'analyser le pangénome d'espèces procaryotes pour lesquelles plusieurs milliers de génomes sont disponibles. Une des originalités de PPanGGOLiN réside dans l'utilisation d'un modèle de graphe capturant non seulement l'intégralité des familles de gènes observées dans une espèce mais également leur information de co-localisation sur les génomes. De plus, une méthode d'apprentissage automatique reposant sur la structure du graphe réalise une classification des familles de gènes en génome persistent (familles présentes dans la majorité des génomes), shell (présentes dans un sous-ensemble des génomes) et cloud (présentes uniquement dans quelques génomes). Ce modèle statistique s'est avéré plus efficace que les méthodes basées sur un simple seuil de fréquence de présence des familles et offre ainsi la possibilité de travailler sur des données de faible qualité telles que les génomes assemblés à partir de données de séquençage métagénomique1 (MAGs).
A partir de ces graphes de pangénome, une seconde méthode, nommée panRGP, a été développée par le LABGeM pour prédire les régions de plasticité génomique (RGP) et leur site d'intégration (spot) (Bazin et al. 2020). La plupart de ces régions résultent de transferts horizontaux de gènes2 et correspondent à des îlots génomiques. En comparaison avec les autres méthodes à la disposition des chercheurs, panRGP semble l'outil le plus performant et rapide actuellement pour les études massives de génomique comparée.
Ces deux méthodes sont librement disponibles dans la suite logicielle PPanGGOLiN qui permet de créer et manipuler des pangénomes procaryotes à partir d'un ensemble de séquences génomiques ou d'annotations fournies. Ces outils sont également intégrés à la plateforme MicroScope avec une page Web dédiée à l'analyse et à l'exploration des résultats.
1 : La métagénomique est une méthode d'étude du contenu génétique d'échantillons issus d'environnements complexes (ex : intestin, océan, sols, air, etc.) directement à la source (par opposition à des échantillons de laboratoire). Cette approche, via le séquençage direct de l'ADN présent dans l'échantillon, permet une description génomique du contenu de l'échantillon, mais aussi un aperçu du potentiel fonctionnel d'un environnement.
2 : Processus dans lequel un organisme intègre du matériel génétique provenant d'un autre organisme sans en être le descendant. Par opposition, le transfert vertical se produit lorsque l'organisme reçoit du matériel génétique à partir de son ancêtre.