Afin d’améliorer la caractérisation des protéines contenues dans des échantillons cliniques analysés par spectrométrie de masse, la
protéogénomique ambitionne de compléter les bases de données canoniques de l’espèce avec des
données plus spécifiques. Pour autant, il est important d’éviter la multiplication des variants de séquences dans ces bases de données, faute de quoi celles-ci deviendraient beaucoup trop grandes, conduisant alors inévitablement à des résultats ambigus. Les chercheurs ont donc commencé à réduire la taille de ces bases en les restreignant uniquement aux
transcripts exprimés dans l'échantillon biologique analysé. Cependant, il apparaît que cette réduction de la taille des bases de données augmente artificiellement la fiabilité d'identification des peptides. Dès lors, quelle méthode biostatistique peut être envisagée pour fiabiliser ces résultats ?
Les bases de données de référence sont essentielles à l'identification par spectrométrie de masse. En effet, à partir de celles-ci, des logiciels dédiés sont capables de générer des spectres de masse théoriques afin de proposer une liste d’identités possibles, des séquences d’acides aminés, et leurs probabilités de correspondances avec les spectres de masses expérimentaux. Ensuite, pour valider les identifications ainsi réalisées, il est nécessaire d’estimer les proportions de vrais positifs (correspondances entre séquence et spectre) et de faux positifs (correspondances issues du hasard). Pour cela, la méthode la plus classique consiste à inclure dans la base de données utilisée des spectres « leurres » résultants de séquences n’ayant aucune réalité biologique, puis de compter le nombre de correspondances trouvées entre ces leurres et les spectres expérimentaux.
Des chercheurs de l’Irig ont démontré que cet usage de « leurres » sous-estime d’autant plus la proportion de faux positifs que la base de données a été réduite. Ils expliquent que l’augmentation de sensibilité de l’identification sur une base réduite aux transcripts exprimés est en fait un artefact statistique : avec une base de données plus petite, moins de leurres sont générés, ce qui réduit d’autant la probabilité qu’ils puissent suffisamment ressembler à des vraies séquences pour mimer les erreurs d’identification. Comme le taux de faux positifs est déterminant pour la fiabilité des résultats d’identification, les chercheurs de l’Irig proposent des méthodes statistiques alternatives de contrôle des faux positifs qui sont moins sensibles à la taille de la base de données utilisée.
Ces résultats remettent en cause le gain de sensibilité induit par les bases de données réduites aux transcripts. Celles-ci restent malgré tout intéressantes dans la mesure où elles facilitent l’identification de protéines ambiguës en réduisant la proportion d’homologies de séquences dans la base de données, entre les différentes identifications protéiques possibles. Ces résultats, implémentés dans des routines de traitement de données contribuent à la protéogénomique computationnelle d’avenir, et montre un bel exemple de coopération interdisciplinaire.
Protéogénomique : combinaison des approches protéomique (identification et quantification de l’ensemble des protéines d’un échantillon) et génomique/transcriptomique. Alors que la génomique étudie les séquences d'ADN des êtres vivants, la transcriptomique identifie et quantifie quant à elle les transcripts, c’est-à-dire les ARN issus de la transcription de l’ADN. La transcriptomique permet d’estimer le niveau d’expression des gènes alors que la génomique ne le permet pas.
Données spécifiques : issues de connaissances génomiques et/ou transcriptomiques propres à la pathologie étudiée, voire directement dérivées du génome et/ou du transcriptome de chaque patient.
Variants de séquences : la séquence d’un gène change d’un individu à un autre.