L'apprentissage profond est à la base de nombreuses applications d'intelligence artificielle comme la reconnaissance d'images. Ainsi, si votre véhicule sait reconnaître un piéton en toutes circonstances, c'est grâce à l'apprentissage profond. Or, les performances de ce dernier reposent sur la disponibilité d'un volume important de « données étiquetées », dans le cas ci-dessus, des images de piétons identifiés comme tels. Et cela a un coût, souvent rédhibitoire pour l'industriel. Le CEA-List vient de mettre au point un processus d'apprentissage semi-supervisé permettant d'améliorer les performances du système sans nécessiter plus d'images étiquetées.
L'apprentissage semi-supervisé se fonde sur le principe de l'apprentissage humain, qui est capable de noter les ressemblances entre les objets pour extrapoler ses connaissances. Le défi est donc de donner aux réseaux de neurones la capacité à apprendre à partir d'un grand nombre de données dont une petite partie seulement est étiquetée. Cela est rendu possible grâce à une organisation « géométrique » des données, de manière à faciliter l'extrapolation en permettant à l'algorithme de retrouver facilement, pour chaque exemple non annoté, un objet identifié qui lui ressemble.
Finalement, avec une banque de données où seules 25% des données sont étiquetés, on parvient à une précision du réseau de neurones de 89%. Cette performance place ce processus en bonne place parmi les diverses méthodes d'apprentissage semi-supervisé.
Prochaine étape : améliorer l'ergonomie et l'efficacité calculatoire de la technique, afin d'en faciliter la valorisation dans le cadre de projets industriels.