L'Univers est composé d'une multitude d'objets (planètes, étoiles, milieu interstellaire, galaxies…) au comportement dynamique souvent non linéaire, associé à une large gamme d'échelles spatiales, énergétiques et temporelles. La simulation numérique haute performance (HPC) est un outil idéal pour comprendre le fonctionnement de ces objets, en résolvant par approximations numériques les équations complexes de la dynamique des plasmas couplées à des processus tels que la compressibilité, le magnétisme, le rayonnement, la gravitation... Pour améliorer le réalisme de ces simulations, de plus en plus de résolutions spatiales ou spectrales (en énergie ou longueurs d'ondes) et de processus physiques doivent être pris simultanément en compte, générant de vastes jeux de données à explorer et analyser.
Data mining et exploitation efficace des données
Ainsi les astrophysiciens sont-ils confrontés à des problématiques de data mining et d'exploitation efficace des données (data analytics), communes aux communautés Big Data et High Throughput Computing (HTC). Aujourd'hui, pour comprendre le Soleil comme l'évolution des galaxies ou encore la formation des étoiles, la discrétisation spatiale des objets simulés nécessite de plus en plus de résolution (cellules) en 3 dimensions, les calculs les plus ambitieux sur les calculateurs pétaflopiques actuels atteignant même 4 000 cellules par dimension, soit 64 milliards au total. Dans chaque cellule, plusieurs champs ou variables physiques (leur nombre augmentant d'autant plus qu'il y a de contenu physique) sont suivies au cours du temps et sont représentés numériquement par des nombres réels dits « double précision » (stockés sur 8 octets). Par conséquent, les 64 milliards de cellules sont stockées sur plus de (64 109 x 8) ~ 500 Go dans lesquelles chaque variable d'intérêt est calculée. Ceci se traduit par exemple pour 8 variables physiques classiquement utilisées en astrophysique comme la densité, la température, les 3 composantes de la vitesse et du champ magnétique par ~4 To par instantané temporel. Afin de former des moyennes temporelles statistiquement significatives, plusieurs milliers de ces « pas de temps/instantanés » sont nécessaires, ce qui amène - pour une réalisation donnée de la dynamique d'un objet céleste - à gérer des jeux de données au niveau du petaoctet. Comme les études paramétriques sont souvent nécessaires, on voit très vite l'ampleur de la tâche s'il faut multiplier par 10, 20 ou plus cette volumétrie pour parcourir l'espace des paramètres. Et ce d'autant plus que l'arrivée de l'exaflop/s va renforcer voire rendre critique cette tendance, en permettant d'exécuter des simulations comportant plus de mille milliards de cellules.
Corrélation n'est pas raison
Pour clarifier encore plus la problématique de data analytics dans les simulations HPC en astrophysique, précisons également que corrélation n'est pas raison. En physique comme en astrophysique, si un lien physique clair n'est pas établi entre telle ou telle variable, une corrélation n'a que très peu d'intérêt. En outre, les quantités physiques considérées ont souvent une dynamique non locale ou sont des champs vectoriels ; dès lors, leur structure et évolution temporelle impliquent une dynamique complexe et non trivialement reconstruite par des processus de data mining traditionnels.
Repenser les outils techniques actuels
Pour mettre en œuvre ces analyses spécifiques à l'astrophysique, il faut, par ailleurs, repenser complètement les outils techniques actuels voire les structures des données produites par les codes de simulation. L'objectif : optimiser les performances des I/O et des algorithmes d'analyse, réduire l'empreinte mémoire des structures de données et, enfin, améliorer l'efficacité énergétique liée au traitement des données à très forte volumétrie d'aujourd'hui et de demain. Par ailleurs, afin d'exploiter au mieux les données issues des simulations astrophysiques, de plus en plus d'initiatives émergent dans la communauté internationale, visant à publier en ligne sous forme de bases de données ouvertes (Open Data) non seulement les résultats scientifiques mais aussi les données brutes issues des calculs, pour qu'elles soient accessibles au plus grand nombre (astrophysiciens, autres communautés scientifiques voire grand public) et favoriser ainsi leur réutilisation en développant des interfaces augmentées permettant de sonder et extraire des informations pertinentes. Le CEA est, lui aussi, sur le point de lancer sa propre base de données dédiée aux simulations astrophysiques, dans le cadre du projet COAST (COmputational ASTrophysics at Saclay).
Il y a donc bien une problématique Big Data en simulations HPC astrophysiques mais elle requiert une approche spécifique, basée sur des modèles physiques pour extraire la subtilité des processus non linéaires et non locaux, présents dans les objets célestes et ne peut se limiter à de simples corrélations multipoints.