Si les programmes de séquençage se développent de manière soutenue, force est de constater que la masse des données accumulée reste difficilement exploitable pour la communauté scientifique. L'explosion de cette production, couplée à la spécificité du domaine, empêche les technologies classiques de base de données d'opérer de manière efficace. Paradoxalement, la masse de connaissance accumulée sur les myriades de projets nationaux ou internationaux génère le propre frein à son exploitation. Ainsi, il n'existe pas de système capable d'exploiter finement et/ou de croiser massivement des données de variants de séquences. Ces variants sont des mutations pouvant contribuer au développement d'une pathologie. Repérer les variants d'un génome, recouper à grande échelle des séquences pour déceler des profils de variants communs constitue un outil de recherche puissant, ainsi qu'une aide au diagnostic et à la prise en charge des patients.
Face aux limites vites atteintes des systèmes actuels, le CEA et Biofacet ont développé les spécifications d'un système de gestion de base de données capable de stocker et d'interroger à très grande échelle des banques de données nationales ou internationales de variants provenant de séquençage d'exomes ou de génomes complets (WGS : Whole genome Sequencing),. La technologie résultante, implantée dans le logiciel Biofacet™, permet d'agréger et d'interroger des études sur des milliers d'échantillons. Par un couplage optimisé entre données numériques et symboliques, la technologie développée permet plus précisément :
- l'interrogation « profonde » des données, i.e. la possibilité d'établir des requêtes sur la totalité des valeurs produites par les SNP-callers - « read-depths, genotype quality, allele-frequency», etc. - et ce pour chaque position du génome (3 milliards de nucléotides pour le génome humain) ;
- l'interrogation « sémantique » génotype-phénotype;
- l'ajout incrémental d'échantillons.
Ce projet a fait l'objet d'un communiqué de presse.