Le Big Data est considéré comme l'un des plus grands challenges et aussi comme une magnifique opportunité dans de nombreux domaines scientifiques, technologiques, et industriels. En cosmologie, il pourrait aider à résoudre les mystères de l'Univers voire mettre en défaut la théorie de la relativité d'Einstein. Mais le volume des données acquises pose de sérieux problèmes de calibration, d'archivage et d'accès comme d'exploitation scientifique des produits obtenus (images, spectres, catalogues...). Les données archivées de la future mission spatiale Euclid contiendront 150 pétaoctets de données et le projet Square Kilometre Array (SKA) générera 2 téraoctets de données par seconde, avec 1 pétaoctet par jour archivé.
Les défis algorithmiques et computationnels
Tout l'enjeu est d'analyser ces jeux de données avec des algorithmes capables de mettre en évidence des signaux à très faible rapport sur bruit et intégrant les méthodologies les plus avancées : techniques d'apprentissage, outils statistiques ou concepts provenant de l'analyse harmonique, récemment mise en honneur avec l'attribution du prix Abel à Yves Meyer (le père de la théorie des ondelettes).
Disposer de tels algorithmes est un véritable challenge pour les équipes dans les années à venir : leur capacité à y parvenir conditionne le retour scientifique de leur engagement dans les grandes missions internationales.
De nouveaux domaines scientifiques
Ces défis ont permis de faire émerger une communauté de scientifiques issus de différents domaines (astrophysique, statistique, informatique, traitement du signal etc.). Objectif : promouvoir des méthodologies, développer de nouveaux algorithmes, diffuser les codes, les utiliser pour l'exploitation scientifique des données et former de jeunes chercheurs à l'interface entre plusieurs disciplines. Deux organisations ont été récemment créées, l'IAA (International Astrostatistics Association) et la commission 5 de l'IAU (International Astronomical Union) pour promouvoir l'astro-statistique et l'astro-informatique. Des laboratoires d'astro-statistique ont vu le jour aux Etats-Unis, en Grande-Bretagne (à l'Imperial College à Londres) et en France au CEA (le laboratoire CosmoStat au sein du Service d'astrophysique), ainsi qu'un centre d'astrophysique computationnel en 2016 à New York.
Le défi théorique
Pour comprendre la nature de l'énergie sombre et de la matière noire, et pour tester la relativité générale d'Einstein, il faut mesurer avec précision les paramètres du modèle standard de cosmologie, que l'on obtient à partir de données mesurées avec des télescopes spatiaux ou au sol.
Pendant longtemps, les erreurs sur l'estimation des paramètres cosmologiques provenaient d'effets stochastiques comme le bruit instrumental ou la variance cosmique liée à une couverture très partielle du ciel. D'où l'utilisation de détecteurs de plus en plus sensibles et l'observation de champs du ciel de plus en plus grands. Ces erreurs stochastiques diminuant, les erreurs systématiques sont devenues de plus en plus importantes.
L'illustration la plus marquante de ce phénomène a certainement été l'annonce de la découverte des ondes gravitationnelles primordiales en mars 2014 par l'équipe américaine BICEP. Il s'est avéré par la suite que le signal était bien réel, mais qu'il provenait en réalité de la poussière de notre galaxie. Une erreur de modélisation de l'émission de cette poussière avait laissé un signal résiduel dans les données.
En plus des erreurs stochastiques et systématiques, le Big Data génère un nouveau type d'erreur, les erreurs d'approximations. L'estimation de certaines valeurs étant difficile avec la technologie actuelle, des approximations sont introduites dans les équations, pour accélérer le temps de calcul ou obtenir une solution analytique. Maîtriser ces erreurs est donc essentiel pour dériver des résultats corrects mais nécessite un effort théorique significatif.
Le défi de la recherche reproductible
Avec d'énormes volumes de données et des algorithmes très complexes, il devient souvent impossible pour un chercheur de reproduire les figures publiées dans un article. Or, la reproductibilité des résultats est au cœur de la démarche scientifique et constitue un des problèmes majeurs de la science moderne. D'où le principe qui consiste à publier, en plus des résultats, les codes sources qui ont servi à analyser les données et les scripts utilisés pour traiter les données et générer les figures. Ce principe, désormais crucial, est rigoureusement appliqué par le laboratoire CosmoStat du CEA.