Les données génomiques publiques connaissent une croissance exponentielle ces dernières années. Ce fonds inestimable pour la recherche (santé, agronomie, écologie) est cependant sous-exploité faute d'outil efficace pour y retrouver des séquences d'intérêt.
Dans ce contexte, des chercheurs de l'Inria, en collaboration avec le Genoscope (Jacob) et l'Institut méditerranéen d'océanologie, ont développé une nouvelle approche permettant d'indexer des milliers de métagénomes et de retrouver rapidement une séquence dans l'ensemble des données. L'outil informatique (kmindex) recense les sous-séquences génomiques de longueur k (k-mers), extraites des séquences plus longues d'ADN ou d'ARN à indexer, puis comptabilise les k-mers communs aux échantillons indexés et à la séquence qui fait l'objet d'une requête.
En particulier, kmindex a indexé avec succès 1 393 échantillons de métagénome d'eau de mer, recueillis par le consortium Tara Oceans entre 2009 et 2013. Il est désormais possible d'interroger en temps réel ces dizaines de téraoctets via le serveur web ORA (Ocean Read Atlas), en libre accès.
Résultat : la construction de l'index est dix fois plus rapide qu'auparavant et les temps de recherche sont divisés par cent. Avec des taux de faux positifs négligeables inférieurs à 0,01 %, kmindex surpasse en précision les techniques existantes de quatre ordres de grandeur.
Il est désormais possible de cartographier la présence de séquences identiques et de la croiser avec l'environnement des stations de prélèvements (température, salinité, oxygène, etc.) à l'aide de graphiques interactifs. Il est également possible d'identifier les contraintes environnementales favorisant l'apparition de tel ou tel variant de gènes.
Lire l'actualité du CNRS.