Sylvain Lespinats, ingénieur-chercheur du CEA à l'INES ayant reçu récemment l'Habilitation à Diriger des Recherches, est un spécialiste des méthodes d'exploration de données :
« Dès mon irruption dans le monde de la recherche en 2002, j'ai été hypnotisé par tout ce que l'on pouvait voir à partir de données. L'observation minutieuse révèle parfois des phénomènes inattendus. C'est à mon avis une étape critique pour bien avancer par la suite. »
Il s'intéresse aux méthodes d'exploration de données, et en particulier aux méthodes dites de « projection » non-linéaire.
Les méthodes d’exploration de données s’appuient sur un ensemble de données plongées dans un espace métrique, où l’on peut calculer les distances entre elles. Les données sont souvent des points dans un espace multidimensionnel muni d’une distance classique (euclidienne), mais pas uniquement : par exemple des courbes courant-tension de systèmes photovoltaïques sont des courbes paramétriques et répondent à cette définition. Les méthodes de projection non-linéaire s’appuient sur l’ensemble des distances entre les données pour en produire une représentation synthétique en faible dimension afin que l’on puisse visualiser les structures importantes du jeu de données. Les représentations prennent alors la forme de nuages de points, des « cartes » présentant la « géographie » des données.
Sans détailler ici les différents modèles et méthodes, voici simplement trois illustrations de ce que l'on peut obtenir pour mieux voir et comprendre les phénomènes ou le comportement de systèmes complexes.
|
Appliqué au domaine de l'étude du génome, l'ensemble du matériel génétique d'un individu ou d'une espèce, encodé dans son ADN, cela peut donner par exemple cette illustration. Vous pouvez observer une représentation des différences et ressemblances de signatures génomiques de 15 espèces par utilisation d'algorithme baptisé CGR acronyme de « Chaos Game Representation ».
|
Appliquées au secteur du bâtiment et aux défauts d'un système de chauffage, les méthodes de projection offrent un moyen intuitif de voir les ressemblances et différences entre des situations rencontrées avec celles passées. Il devient aisé de s'appuyer sur une carte pour interpréter la situation courante et y réagir.
| La carte est obtenue ici par la méthode ASKI à partir de données hétérogènes comme les températures ou les consommations électriques. Chaque cercle est un diagramme camembert représentant un moment de la vie du bâtiment par la part des défauts observés et leur gravité.
|
Appliqué aux systèmes photovoltaÏques : les courbes courant-tension informent sur le bon fonctionnement des systèmes photovoltaïques. La méthode classique pour produire un diagnostic à partir de ces données passe par la modélisation en s’appuyant sur le modèle à une diode, très couteux en calcul. Les projections non-linéaires proposent une alternative quasiment instantanée et montrent une organisation des données cohérente avec les caractéristiques principales du modèle à une diode permettant le diagnostic.
|
Ces méthodes d'exploration de données viennent en soutien de nos laboratoires dans tous les domaines, nous les utilisons pour affiner des algorithmes de prévision de production photovoltaïque, pour explorer les compostions et pollutions à la surface des cellules photovoltaïques, pour comprendre les comportements des batteries en fonction des signaux acoustiques qu'elles émettent, pour élaborer des outils de diagnostic de défauts des centrales photovoltaïques…
Un support précieux pour comprendre rapidement et efficacement la problématique et pour appuyer les chercheurs qui y rencontrent une vision nouvelle et intuitive de leurs objets d'étude.
Article tiré du manuscrit HDR de Sylvain Lespinats
Crédit CEA