La mise à disposition de
données multi-omiques combinées constituerait, pour la communauté scientifique, une opportunité unique de mieux comprendre, à une échelle intégrée, le développement et la progression de mécanismes physiopathologiques. L'analyse de telles données permettrait de définir des signatures et d'identifier des
biomarqueurs spécifiques de telle ou telle pathologie ou dysfonctionnement. Or, à ce jour, très peu de données globales sur de grandes cohortes sont disponibles et accessibles aux chercheurs.
DU GÈNE AU PHÉNOTYPE
L'analyse à grande échelle de la fonction des gènes menée au sein du consortium
International Mouse Phenotyping (IMPC) a confirmé la nature pléiotropique des gènes chez les mammifères, c'est-à-dire qu'un gène unique peut être responsable de plusieurs caractères phénotypiques apparemment éloignés. Ainsi, la
phénogénomique ne peut expliquer à elle seule la fonction des gènes et de leurs mutants et des approches omiques complémentaires sont nécessaires. L'étude globale des produits des gènes, les protéines (protéomique) et des métabolites (métabolomique), combinée aux approches phénogénomiques, devrait permettre de comprendre le rôle d'un ou plusieurs gènes et de là, l'ensemble des fonctions biologiques et métaboliques, dans des conditions normales ou pathologiques.
LE CONSORTIUM ProMetIS
Dans cette étude, publiée dans la revue de référence pour les données ouvertes
Scientific Data, les
quatre Infrastructures Nationales en Biologie et Santé (INBS) en phénogénomique de la souris (www.phenomin.fr), protéomique (www.profiproteomics.fr), métabolomique (www.metabohub.fr) et bioinformatique (www.france-bioinformatique.fr) se sont associées pour développer et mettre à disposition les données et le mode opératoire pour la caractérisation de
lignées murines mutantes par des approches combinées de protéomique et de métabolomique. Les chercheurs ont choisi de produire ces données multi-niveaux à partir d'échantillons plasmatiques et hépatiques de deux lignées mutantes de souris, générées à l'Institut clinique de la souris (Illkirch, France) dans le cadre de
l'IMPC*. Les 2 lignées sont dépourvues des gènes
Lat (linker for activation of T cells) et
Mx2 (MX dynamin-like GTPase 2), respectivement. L'ensemble des 9 jeux de données brutes (1 préclinique, 2 protéomique et 6 métabolomique), correspondant à l'étude des 2 lignées de souris, est dorénavant disponible dans les
bases de données de référence (IMPC,
PRIDE et
MetaboLights). Par ailleurs, les données prétraitées ainsi que le
pipeline d'analyse bioinformatique et biostatistique sont également mis à disposition sous la forme d'un package en langage R en libre accès (github.com/IFB-ElixirFr/ProMetIS).
BONNES PRATIQUES
Les données font l'objet d'un
contrôle-qualité, détaillé dans l'article, pour chacune des modalités, qui s'appuie sur le
savoir-faire des plateformes du CEA et des infrastructures nationales. Un effort particulier a porté sur l'homogénéisation des
workflows de normalisation et des formats et sur leur mise à disposition pour la communauté, afin de faciliter les travaux ultérieurs d'intégration des données (une étude est en cours au CEA) et de comparaison des méthodologies.
L'étude pilote
ProMetIS représente une avancée significative vers le
phénotypage moléculaire de grandes cohortes. Ici, les données fournissent des informations inédites sur la caractérisation fonctionnelle des gènes
Lat et
Mx2. Elles ont par ailleurs vocation à devenir une référence d'accessibilité, de reproductibilité et d'interopérabilité (critères
FAIR) dans le domaine des études multi-omiques. Ces données seront notamment précieuses pour développer de nouvelles approches d'intégration bioinformatique et biostatistique.
Contact :
etienne.thevenot@cea.fr
- On entend par
phénomique l'étude systématique des phénotypes, c'est-à-dire l'ensemble des caractères physiques et biochimiques d'un organisme, qui dépendent de la génétique, de l'environnement et de leur interaction.
- Un gène
pléiotropique (gène pléiotrope) est un gène unique responsable de plusieurs caractères phénotypiques apparemment éloignés.
-
R est un
langage de programmation et un logiciel libre destiné aux statistiques et à la science des données.
- Un
pipeline (ou workflow) d'analyse est une succession d'étapes expérimentales ou informatiques pour traiter les échantillons ou les données.
*Dans le cadre de la caractérisation phénogénomique à grande échelle de modèles de souris, l'IMPC désactive ou "éteint" individuellement chacun des gènes qui composent le génome de la souris. Les souris mutantes subissent des tests physiologiques standardisés (marqueurs biochimiques cliniques, anatomie, comportement) dans une série de systèmes biologiques afin de déduire la fonction des gènes, et les données sont ensuite mises librement à la disposition des chercheurs sur le site web de l'IMPC.