Vous êtes ici : Accueil > Transfer learning: le deep learning accessible aux non-experts

Transfer learning: le deep learning accessible aux non-experts


​Comment programmer un réseau de neurones de classification sans disposer de compétences sur le sujet ni d'un volume de données suffisant pour l'entraîner ? En réutilisant un réseau opérationnel, sélectionné grâce à un critère spécifiquement établi par le CEA-List, et en l'adaptant à l'application ciblée.

Publié le 18 octobre 2022

Les applications de classification par réseaux de neurones foisonnent, mais elles requièrent des compétences "expertes" alors même que les talents sont rares et que les besoins en intelligence artificielle croissent. Pour faciliter le développement de nouveaux usages de l'IA par les non-experts et pallier le manque fréquent de jeux de données suffisants pour la programmation des réseaux, le Transfer Learning peut être une solution de choix. Il permet d'adapter à l'application visée un réseau de neurones existant et déjà entraîné sur un grand nombre de données, en personnalisant uniquement la dernière couche (dite Softmax, car elle indique à quelle classe la donnée a la plus grande probabilité d'appartenir).

Largement répandue, cette approche est cependant coûteuse en temps, car elle nécessite d'adapter plusieurs réseaux de neurones issus généralement d'une librairie en open source puis de les tester afin de déterminer le modèle le plus pertinent pour l'application visée. Le travail consiste, pour chaque réseau de neurones candidat, à apprendre notamment les poids de la dernière couche liée au problème de classification.

Le CEA-List a ainsi mis au point une solution innovante pour évaluer l'adéquation des modèles à l'application ciblée sans avoir besoin d'apprendre la dernière couche, en utilisant un jeu de paramètres directement issu des données disponibles. Au cœur de cette innovation, une analyse théorique du comportement statistique de la couche Softmax a permis aux chercheurs de réaliser facilement et rapidement une approximation des paramètres de cette couche. Ils ont montré sur des cas concrets que cette démarche fournit un bon indicateur de la compatibilité d'un réseau avec une application donnée, et qu'elle fait gagner un temps très significatif dans l'étape du choix du réseau de départ. La méthode a donné lieu à un dépôt de brevet.

A court-terme, les chercheurs travaillent sur le déploiement de cette approche à l'échelle industrielle (jeux de données plus grands, en lien avec des problématiques industrielles concrètes), et, à moyen-terme, à la généraliser à d'autres problématiques que la classification, la détection ou la segmentation, par exemple.

Haut de page