En machine learning, la construction de modèles statistiques fondés sur des données collectées auprès de différents acteurs est de plus en plus délicate pour des raisons de confidentialité et de protection des données. L'apprentissage fédéré est une solution puissante à ce problème, et est de plus en plus utilisé. Il permet à plusieurs participants d'entrainer un modèle de façon collaborative sous la supervision d'un serveur central, mais sans partager leurs données. Seuls les paramètres des modèles appris localement sont transmis au serveur afin d'être « agrégés » pour donner naissance au modèle final.
Dans ce contexte, le CEA-List aide à garantir que les performances issues de l'apprentissage fédéré soient au moins aussi bonnes que si les données avaient été centralisées. La plateforme intègre ainsi des algorithmes qui permettent de traiter l'hétérogénéité des données lorsque la distribution de celles-ci n'est pas homogène d'un contributeur à l'autre. Les solutions disponibles sont inspirées de l'apprentissage incrémental pour réduire le risque « d'oubli catastrophique » et de l'apprentissage par transfert pour personnaliser le modèle fédéré par contributeur.
En outre, pour assurer la robustesse du modèle face aux attaques par « empoisonnement », c'est-à-dire dans le cas où des acteurs malveillants transmettent volontairement des paramètres erronés afin de dégrader les performances du modèle fédéré, la plateforme intègre plusieurs algorithmes d'agrégation (comme par exemple la médiane) qui garantissent la fiabilité du modèle s'il y a moins de 50% de clients malveillants.
La plateforme développée par le CEA-List s'adresse d'une part acteurs économiques qui souhaitent déployer une solution d'apprentissage fédéré dans le domaine de la santé, de la mobilité ou de l'IoT lorsque les données sont trop sensibles ou volumineuses pour être centralisées ; d'autre part aux académiques qui souhaitent évaluer leurs propres algorithmes face aux solutions intégrées dans la plateforme.