La phase d’apprentissage de réseaux de neurones nécessite de disposer de grandes quantités de données, parfois dispersées. Or, la confidentialité de ces informations, souvent sensibles (comme les données de santé), peut être menacée lors de la phase d’apprentissage et en phase d’exploitation du réseau (dite d’inférence).
Afin d’éviter ce double écueil, les chercheurs du CEA-List ont développé une méthode d’apprentissage avec confidentialité-par-construction, appelée SPEED (Secure, PrivatE, and Efficient Deep learning). Celle-ci repose sur trois principes :
« Partager le minimum de données ». Il s’agit ici de protéger les données durant l’apprentissage distribué entre les diverses entités contributrices. Avec SPEED, l’apprentissage distribué entre les entités se fait en échangeant uniquement des étiquettes chiffrées.
« Empêcher la rétro-ingénierie du réseau ». Lorsque le réseau construit est mis à disposition des utilisateurs finaux, il faut garantir qu’ils ne peuvent pas reconstruire les données d’origines par rétro-ingénierie, en observant le réseau. SPEED intègre donc un procédé de confidentialité différentielle, qui minimise les risques d’identification des données pour un coût de calcul négligeable.
Enfin, « Se prémunir des menaces sur l’intégrité du serveur ». Pour minimiser l’exposition des données, il est important de réduire les risques au niveau du serveur, voire de se passer d’un tiers de confiance. Grâce au chiffrement homomorphe (HE), le serveur d’agrégation fonctionne « en aveugle », uniquement sur des étiquettes chiffrées.
Ce travail a donné lieu à une publication dans le prestigieux journal Machine Learning. Il sera également présenté lors de la conférence phare sur l’apprentissage machine « European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases » (ECML-PKDD’21).