Vous êtes ici : Accueil > Actualités > La bibliothèque des protéines est mal rangée !

Résultat scientifique | Biologie à grande échelle

La bibliothèque des protéines est mal rangée !


​Le classement des gènes dans les bases de données internationales est mis à mal. Comment faire une correspondance exacte entre un gène et la fonction de la protéine correspondante sans la tester ? Des chercheurs de l’Institut François-Jacob du CEA ont trouvé la solution. 

Publié le 2 août 2017
Le génome de l’Homme contient environ 25 000 gènes, ce qui est considérable mais pourtant inférieur à celui de la souris (30 000), plus encore  à celui de la paramécie (40 000 !), mais supérieur aux nombre de gènes des bactéries (autour de 4000 gènes). Les nouvelles technologies de séquençages ont permis un bond dans l’inventaire des génomes des différentes espèces vivantes et des gènes qui les composent. Chaque gène a une fonction bien précise via la protéine qu’il produit. Mais qui fait quoi ? Pour le savoir, impossible de tester un à un les 88 millions de gènes répertoriés dans les bases de données. 

« Les scientifiques s’appuient sur des ressemblances entre les protéines pour extrapoler la fonction d’une protéine à une autre, explique Véronique de Berardinis, chercheuse à l’Institut de biologie François-Jacob. Mais quel seuil de similarité adopter pour dire que deux protéines ont la même fonction ? » Les rapprochements, souvent faits automatiquement par des programmes informatiques, sont parfois hasardeux dus au manque de données expérimentales. Cette pénurie de données ne permet pas de refléter la complexité des familles de protéines, dont la fonction peut changer grâce à seulement quelques acides aminés différents. Ainsi, certaines protéines humaines sont annotées dans les bases de données de la même façon que des protéines de la bactérie Escherichia coli et « une fraction importante des protéines ont ainsi une fonction prédite douteuse », affirme la biologiste. A contrario, des protéines différentes peuvent avoir in fine la même activité, c’est ce que l’on appelle la convergence de fonction. « C’est le cas pour deux familles de protéines, MetA et MetX, impliquées dans la fabrication de la méthionine, acide aminé essentiel pour les organismes vivants, souligne-t-elle. Ces deux familles, connues depuis près de 40 ans, assurent différemment une étape de cette voie métabolique. Pour avoir une vision complète de la complexité de ces familles, nous avons sélectionné et testé l’activité d’une centaine de protéines représentatives. » Résultat : beaucoup de protéines dans les deux familles ont la même fonction, contrairement à ce qui était connu. Ici, faire une concordance entre la fonction et la séquence des protéines n’est donc pas suffisant. C’est finalement l’étude fine des structures tridimensionnelles de ces enzymes et notamment de leur site actif (lieu de la réaction chimique), qui a donné la solution.

« Nos études, dit Véronique de Berardinis, ont révélé que les fonctions sont dépendantes de la topologie des sites actifs ». Ces résultats ont une répercussion mondiale car la base de données européenne  UniProt, qui rassemble les 88 millions de protéines connues, se basera dorénavant sur les règles d’annotation de fonction proposée par les chercheurs du CEA. « Les 10 000 annotations des protéines MetA et MetX repertoriées dans UniProt ont été mises à jour, se félicite la biologiste. Et tout nouveau génome sera annoté correctement pour ces deux familles essentielles. » De plus, cette exploration fonctionnelle a révélé que 10% des MetX sont en réalité impliqués dans la biosynthèse de la cystéine, un acide aminé essentiel, via une molécule (l’O-succinyl-L-serine) jamais décrite auparavant dans la nature.

Autre débouché de cette étude : un résultat inattendu sur l’évolution des familles MetA et MetX. Les scientifiques ont montré comment ces deux groupes ont, par deux fois, subi une pression évolutive pour converger vers la même fonction.


Haut de page