L’annotation manuelle des contenus audiovisuels aboutit à un résultat partiel et de qualité hétérogène, ne permettant pas de pleinement les valoriser. A la demande de France Télévisions, le List a mis en œuvre ses compétences en reconnaissance d’images par réseaux de neurones (Deep Learning) pour développer un outil capable d’identifier automatiquement et en temps réel près de 15000 personnalités et une vingtaine d’activités sportives. Une démonstration d’analyse sémantique de vidéos a été mise en place lors de l’édition 2016 de Roland-Garros.
Les chercheurs sont partis d’un « réseau de neurones » déjà capable de distinguer 2000 visages, auquel ils ont ajouté une couche d’apprentissage pour amener le nombre de personnalités reconnues au niveau requis. « Pour cela, nous avons cherché sur le web des photos des 15000 personnes listées par notre partenaire, et les avons intégrées au dispositif, explique un chercheur du List. On arrive ainsi à un taux de reconnaissance de 95%, et à un modèle que l’on peut enrichir à la demande. » De la même façon, ils ont développé un outil d’identification d’une vingtaine de sports pendant la diffusion des images.
Les principaux groupes audiovisuels français ayant exprimé leur intérêt pour des technologies d’analyse sémantique, les perspectives de développement de ces travaux sont très prometteuses