Comment le cerveau humain apprend-il à lire ? L'acquisition de la lecture repose sur la création et le développement d'une interface entre la vision et le langage parlé, chargée de l'analyse orthographique. Au cours des 20 dernières années, certaines caractéristiques fondamentales de cette interface ont été mises en lumière. En particulier, des données soutiennent l'émergence, au cours de l'apprentissage de la lecture, d'une région spécifique qui sous-tend le codage orthographique. Cette région, l'aire spécialisée dans la reconnaissance visuelle de la forme des mots (Visual Word Form Area - VWFA), a une localisation fixe dans le cortex visuel ventral gauche. Elle répond sélectivement aux mots écrits plus qu'aux autres stimuli visuels. Cependant, la manière dont les circuits neuronaux de cette aire mettent en œuvre une reconnaissance invariante des mots écrits reste inconnue.
D'une part, cette région pourrait provenir de la réaffectation d'une sous-partie de la voie visuelle ventrale initialement impliquée dans la reconnaissance des visages et des objets à la reconnaissance des lettres (selon l'hypothèse du recyclage neuronal). D'autre part, sa localisation reproductible pourrait être due à des connexions préexistantes depuis cette sous-région vers des zones impliquées dans le traitement du langage parlé (selon l'hypothèse de la connectivité biaisée).
Dans une étude récente menée par Stanislas Dehaene, des chercheurs d'UNICOG/NeuroSpin en collaboration avec l'Institut du cerveau de Paris (ICM) ont évalué dans quelle mesure un modèle computationnel minimal de ces deux hypothèses peut suffire à rendre compte de l'émergence de la VWFA au cours de l'acquisition de la lecture. Les chercheurs se sont concentrés sur l'apprentissage des mots et la représentation de leurs combinaisons de lettres. Ils ont conçu des réseaux neuronaux profonds artificiels biologiquement plausibles inspirés de celui du cortex visuel ventral (réseaux neuronaux convolutifs ou convolutional neural networks - CNN) et dont l'architecture n'a pas été conçue pour la lecture. Comme cela se produit chez les enfants, un CNN standard a d'abord été entraîné à identifier des images de divers objets et scènes, puis un ensemble de 1000 mots écrits de différentes longueurs avec des variations d'emplacement, de taille, de police et de casse. Ils ont testé l'hypothèse d'une connectivité biaisée en comparant des réseaux dont la couche dense était soit entièrement soit partiellement (seulement un sous-ensemble de ses unités) connectée à toutes les unités « mots » de la couche de sortie.
Ils montrent que leurs modèles peuvent rendre compte de nombreuses propriétés du VWFA, en particulier lorsque la connectivité est biaisée entre la couche dense et la couche de sortie. Le réseau développe une représentation éparse et invariante des mots écrits, basée sur un ensemble restreint d'unités sélectives de la lecture. Leur activation imite plusieurs propriétés du VWFA et leur lésion entraîne un déficit spécifique à la lecture. Le modèle prédit que, dans les cerveaux lettrés, les mots écrits sont codés par un code neuronal compositionnel avec des neurones réglés soit sur des lettres individuelles et leur position ordinale par rapport au début ou à la fin du mot, soit sur des paires de lettres (bigrammes).
Ces prédictions pourront bientôt être testées par IRM fonctionnelle à très haute résolution et à haut champ, ou par des enregistrements intracrâniens à haute densité. En outre, elles constituent une première étape de modélisation. En effet, on sait que d'autres représentations (notamment les représentations phonologiques) ont un impact sur les représentations visuelles ventrales chez l'Homme. Une architecture récurrente plus complexe, combinant les entrées visuelles et phonologiques, serait nécessaire pour rendre compte précisément de ces observations.