Alors que l'on sait que les virus à ADN sont abondants, diversifiés et jouent des rôles majeurs dans les écosystèmes, les virus à ARN sont insuffisamment étudiés en dehors des contextes pathologiques. Des chercheurs du Genoscope (CEA-Jacob) et du département de microbiologie de l'Université de l'Ohio ont analysé les séquences provenant de 35 000 échantillons d'eau prélevés dans le monde entier par le consortium Tara Ocean, une étude internationale en cours sur l'impact du changement climatique sur les océans.
Dans ces échantillons, les scientifiques ont extrait des séquences de gènes exprimés dans des organismes flottant sans les océans et ont analysé de façon systématique les séquences d'ARN contenant un gène appelé RdRp, un gène obligatoire chez les virus à ARN et absent des autres virus et cellules. L'existence de RdRp remontant à l'époque où la vie a été détectée pour la première fois, sa séquence a évolué et sa position a divergé de nombreuses fois au cours du temps. Afin de prendre en compte ces évolutions et gérer des milliards d'années de divergences de séquences, l'équipe s'est appuyée sur l'apprentissage automatique (machine learning) d'alignement de séquences à partir d'arbres phylogénétiques traditionnels, et validé par une classification précise de séquences de virus à ARN déjà identifiés. Cette méthode, reproductible, garantit que l'alignement des positions et séquences reflète fidèlement l'évolution.
L'organisation de 44 000 nouvelles séquences a permis d'identifier 5 500 espèces de virus jusque-là inconnues qui appartiennent, pour certaines seulement, aux 5 branches phylogénétiques (ou phylums) existantes dans le royaume Orthornavirae qui regroupent principalement les virus pathogènes à ARN. Pour classer les autres nouvelles espèces, il est nécessaire d'imaginer au moins 5 phylums supplémentaires et 11 nouvelles classes, qui seront proposés pour officialisation au Comité International de la Taxonomie des Virus. Les chercheurs ont montré que 2 de ces phylums, et un en particulier nommé Taraviricota en clin d'œil au consortium Tara Oceans, regroupent la collection la plus abondante des espèces nouvellement identifiées.
Les chercheurs du Genoscope ont alors retracé la provenance des espèces des 2 phylums dont Taraviricota, et ont pu montrer qu'ils étaient répandus dans la totalité des océans de la planète, notamment dans les eaux de l'océan Arctique, une région du monde où le réchauffement climatique fait le plus de ravages.
Selon les chercheurs, une meilleure connaissance de la diversité et de l'abondance des virus dans les océans du monde permettra d'expliquer le rôle des microbes marins dans l'adaptation des océans au changement climatique. Les océans absorbent la moitié du dioxyde de carbone de l'atmosphère, et des recherches antérieures ont suggéré que les virus marins sont le "bouton" d'une pompe biologique qui affecte la façon dont le carbone est stocké dans l'océan. Cette étude fournit ainsi des connaissances fondamentales essentielles à l'intégration des virus à ARN dans les modèles écologiques et épidémiologiques.