L'accroissement de la quantité de données produites par les entreprises, les particuliers et les scientifiques est exponentiel. Deux chiffres permettent de s'en rendre compte :
90 % des données existantes ont été créés il y a moins de deux ans.
chaque semaine, la quantité de données générée est supérieure à celle produite lors du millénaire précédent [1].
La maîtrise de ces données et leur utilisation ont des implications profondes et représentent des enjeux majeurs tant pour la société que pour l'économie ou la science.
La science vit ainsi une révolution épistémologique avec la mise en œuvre depuis une dizaine d'années seulement d'un « quatrième paradigme » de la découverte scientifique [2], à partir de l'analyse et de l'exploitation intensive des données, sans nécessité a priori d'un modèle décrivant le réel. Cette révolution touche tous les secteurs scientifiques, tout particulièrement les domaines de la biologie-santé et des sciences humaines et sociales.
L'économie est également profondément affectée, l'omniprésence et l'imprégnation de la donnée rebattent profondément les cartes dans la plupart des chaînes de valeur. L'émergence des GAFA [3] en est directement la manifestation, mais les grands industriels ont désormais identifié la maîtrise des données comme un élément clé de leur compétitivité, et l'englobent dans la transformation numérique de leurs entreprises.
Outre les conséquences des évolutions économiques et du progrès scientifique liées à la maîtrise des données, la société en général se transforme sur divers plans en lien avec ce phénomène : évolution des services aux usagers, des méthodes éducatives, des emplois et des méthodes de recherches d'emploi, des systèmes énergétiques ; le tout sur fond de protection des données privées et d'ouverture des données publiques.
Une prise de conscience générale
L'accès généralisé à Internet, en une quinzaine d'année seulement, la migration des activités économiques et sociales vers ce même Internet, le développement de l'Internet des objets (IoT) ont coïncidé avec la réduction des coûts de production, de traitement et de stockage des données, et une explosion de la puissance de calcul disponible. S'en est suivie une prise de conscience générale que l'analyse des données est de plus en plus un facteur déterminant d'innovation et de croissance.
Les Etats-Unis, par exemple, se sont dotés en 2012 d'une initiative Big Data Research and Development puis en 2016 d'un plan fédéral stratégique sur le domaine [4]. Le gouvernement américain ouvre également largement ses données. Enfin, il est notable que l'ordre présidentiel de 2015 créant une initiative stratégique nationale pour le calcul identifie sur le même plan les besoins en calcul haute performance (HPC) et en analyse de données haute performance (HPDA).
L'Europe a également une politique dynamique. L'établissement d'un marché unique numérique européen figure en bonne place (n°2) dans les priorités du Président Juncker [5]. Les annonces associées au cours des deux dernières années visent à doter l'Europe des politiques, infrastructures et cadres règlementaires nécessaires à sa compétitivité. Sur le plan scientifique, on notera en particulier l'annonce d'une initiative de cloud européen qui regroupe une Infrastructure de calcul et de données européenne (European Data Infrastructure) incluant l'exascale [6], et une politique d'ouverture et d'interopérabilité des données scientifiques (European Open Science Cloud) [7].
Les atouts objectifs de la France
La France dispose d'atouts objectifs dans la compétition mondiale :
une école de mathématiques en pointe ;
une politique soutenue depuis 2002 pour maîtriser les technologies du calcul intensif ;
un réseau de recherche national regroupé au sein de l'alliance Allistene, au 5e rang mondial par sa production scientifique en 2012 ;
des infrastructures de bon niveau avec Renater et Genci ;
un tissu industriel et de services de grande technicité, avec des groupes majeurs comme Alcatel-Lucent, Atos-Bull, Cap Gemini, Dassault Systèmes, Orange, OVH et de nombreuses PME dynamiques.
Toutefois, lors de l'établissement de la Stratégie Nationale de Recherche (SNR), il a été souligné que sa principale faiblesse était le manque d'experts de la donnée et de l'extraction de connaissances [8].
Outre sa participation aux actions européennes, la France a mis en place plusieurs initiatives visant directement ou indirectement à dynamiser le champ de la recherche et de l'innovation dans les données massives :
définition d'un programme prioritaire de recherche dans la SNR et plan de Modernisation des infrastructures et services numériques par le CODORNUM [9], pilotés par le ministère de l'Enseignement supérieur et de la recherche ;
mise en place d'une solution industrielle Economie des données au sein de la Nouvelle France Industrielle pilotée par le ministère de l'Economie et des finances, qui identifie notamment la maîtrise des technologies de l'exascale ;
loi pour une "République numérique" adoptée en 2016 qui autorise notamment la fouille de textes et données à des fins de recherche publique et dote la communauté de recherche nationale d'un cadre très favorable au niveau mondial.
Les deux piliers de la stratégie du CEA
Le CEA prend toute sa place dans cette dynamique scientifique et en appui à l'industrie nationale avec une stratégie qui repose sur deux piliers :
d'une part, une politique intégrée du calcul intensif appliqué à la simulation numérique et au traitement massif de données
d'autre part, une offre pour la transformation numérique de l'industrie qui regroupe data intelligence, capteurs et IoT, manufacturing avancé, cybersécurité.
Le calcul intensif et la modélisation/simulation ont historiquement tiré les technologies et les usages du numérique, en donnant une place de plus en plus centrale aux données (l'architecture des grands calculateurs et de toute leur infrastructure, ainsi que leurs évolutions de plus en plus orientées données, en témoignent).
Ces outils, que le CEA a dû pleinement s'approprier à l'arrêt des essais nucléaires en 1996, sont aujourd'hui indispensables à l'accomplissement de l'ensemble de ses missions. La politique intégrée du CEA dans ce domaine va des technologies matérielles et logicielles, aux infrastructures de calcul et de données et aux applications dans une boucle de « co-design » [10] qui permet d'optimiser conjointement les architectures des calculateurs et les codes applicatifs. Le CEA a reçu de l'Etat la mission nationale de développer les technologies du calcul intensif [11] et a établi pour cela un partenariat de R&D mené avec l'entreprise ATOS/Bull. La maîtrise de la donnée est au cœur de la stratégie à plusieurs titres, conditionnant, du fait du volume croissant de données à traiter :
l'architecture même des calculateurs (ratio bande passante mémoire / flops élevé, hybridation des processeurs, généralistes vs. GPU ou autres unités spécialisées d'accélération) ;
l'organisation des infrastructures de calcul (stockage sur disques par petaoctets ou dizaines de petaoctets ; archivage sur bandes pour des volumes encore plus importants ; réseau local à plusieurs centaines de Gbit/s de débit…) ;
les solutions logicielles développées (Lustre…) pour administrer les calculateurs et l'infrastructure ;
mais aussi l'architecture des codes applicatifs.
Tous les développements correspondants ne sont envisageables que dans un réseau dense de collaborations nationales (Ter@tec, UVSQ, Inria, Genci…), européennes (ETP4HPC, PRACE, grands centres de calcul et de recherche homologues tels que Forschung Zentrum Jülich en Allemagne, Barcelona Supercomputing Center en Espagne…) et internationales (Riken au Japon, DOE aux Etats-Unis).
Trois défis prioritaires pour la transformation numérique de l'industrie
Par ailleurs, les calculateurs et les grands instruments de la science ne sont plus les seuls producteurs de grandes masses de données. D'autres sources ont émergé, se généralisent ou croissent considérablement en volume : réseaux sociaux, administration (pouvoir public) au sens le plus large, objets nomades et connectés... Les technologies d'instrumentation miniaturisée et de communication généralisée (avec ou sans fil) ont ainsi ouvert des perspectives inédites de production et d'exploitation des données, qui sont au centre de la transformation numérique de l'industrie. Dans le cadre de ses missions d'appui à l'industrie, le CEA développe, principalement au List, des solutions pour cette transformation en s'appuyant sur une tradition forte de traitement du signal, et de couplage entre matériel et logiciel.
Dans ce domaine, il émerge trois défis prioritaires :
l'intégration de données hétérogènes et multivariées ;
la disponibilité de traitements pertinents largement orientés prise de décision et souvent sous contrainte « temps réel » ; ce qui requiert de développer sans cesse de nouveaux algorithmes de traitement – data mining, apprentissage (machine learning), intelligence distribuée, intelligence artificielle ;
le coût de la solution.
Pour s'attaquer à ces défis, le CEA a structuré son activité autour de sept thèmes principaux :
traitement des données brutes ;
analyse de scènes ;
systèmes auto-adaptatifs distribués ;
modélisation et visualisation des données ;
architectures proches des capteurs pour la vision ;
architectures et solutions neuromorphiques ;
conception temps réel critique.
Là encore, les développements sont menés dans de très nombreux partenariats académiques et industriels aux plans national, européen et international. Digitec, le pôle de recherche sur les systèmes numériques créé sur le campus Paris-Saclay - associant le CEA-List, l'Inria, Telecom-Paristech, Systematic, l'IRT SystemX et l'Université Paris-Saclay - est l'emblème de cette dynamique de collaboration.
L'enjeu de la formation
Enfin la formation aux métiers nouveaux requis par ces domaines en évolution permanente et rapide est un élément auquel le CEA prête une attention particulière. Avec, au premier rang, la formation par la recherche, mais aussi la participation à des Masters de l'Université Paris-Saclay, la formation aux techniques de pointe en matière de programmation (labels Cuda Center, Prace Advanced Training Centre de la Maison de la Simulation), ou encore la mise en place de chaires, comme la chaire ATOS-ENS Paris-Saclay-CEA, destinée notamment à la formation de « data scientists ».
En conclusion, par les défis qu'il impose de relever, et les opportunités qu'il procure, aussi bien pour la compréhension des phénomènes physiques que comme accélérateur de croissance économique, le Big Data est un domaine essentiel pour le CEA qui s'y implique très fortement.