Les réseaux de neurones


Un neurone biologique photographié sur une puce Inventer des machines reproduisant les performances du cerveau humain est un vieux rêve	Aux confins de la biologie et de la physique, l’idée de doter des machines de certaines des capacités du cerveau humain quitte aujourd’hui le domaine du mythe. Les recherches sur les réseaux de neurones artificiels dont le fonctionnement s’inspire de celui des réseaux neuraux naturels aboutissent à des résultats encourageants.
	PAR ISABELLE GUYON (JEON PERSONNAZ ET GERARD DREYFUS)

Il est rare que les grandes conquêtes technologiques s’inspirent du vivant. La nature n’est pourtant pas avare de réalisations qui nous étonnent ou tiennent en échec notre curiosité. Parmi elles, le cerveau occupe évidemment une place de choix. Cette "machine" surprenante est en effet composée de plus de 10 milliards d’unités élémentaires, les neurones, reliés entre eux par une multitude de connexions (en moyenne 10 000 par neurone), qui travaillent de façon concertée à l’élaboration des tâches les plus complexes.

L’idée de s’inspirer du cerveau pour construire une machine intelligente, douée de propriétés cognitives et capable d’apprentissage, est un vieux et ambitieux projet humain. Ce projet, s’il n’est pas encore en passe de se réaliser, s’est en tous cas précisé au cours des cinquante dernières années, grâce aux progrès de nos connaissances en neurosciences et à l’apport de théories mathématiques et physiques.

Quelques étapes les premières tentatives pour "copier" des fonctions simples du cerveau apparaissent dans les années 60. Elles aboutissent notamment à l’élaboration de mécanismes d’apprentissage s’appliquant à un neurone ou à des petits réseaux de quelques neurones. Les recherches se ralentissent ensuite à cause de la difficulté à concevoir des outils permettant d’étudier des réseaux de neurones de plus grandes dimensions.

Un changement de perspective intervient dans les années 80, quand plusieurs physiciens, et en particulier le professeur californien John Hopfield, suggèrent d’étudier le cerveau comme un système complexe pouvant relever des méthodes de la physique statistique. Dans le même temps, les chercheurs peuvent simuler le fonctionnement de modèles de réseaux à plusieurs centaines de neurones grâce à des calculateurs extrêmement puissants.

Ces travaux aboutissent à des résultats encourageants, démontrant, sur le plan théorique, que des réseaux de neurones artificiels seraient à même de réaliser des tâches que des moyens plus conventionnels n’effectueraient que difficilement. Enfin, sur le plan industriel, ils suscitent un intérêt croissant ; pour deux raisons.

La première est la limite des ordinateurs existants. Si ces derniers sont extrêmement efficaces pour effectuer à grande vitesse des calculs et, d’une manière générale, des tâches mécaniques, ils sont beaucoup moins adaptés que le cerveau pour résoudre certains types de problèmes. Voici quelques exemples de ce qu’il leur est difficile de faire reconnaître un visage sous différents angles, même si une partie en est masquée ; suivre une conversation au milieu du brouhaha d’une réunion de famille ; choisir rapidement un itinéraire touristique permettant de ne pas manquer un seul site intéressant tout en économisant l’essence ; prévoir eu sortant s’il convient ou non de prendre son parapluie ; réduire un texte en le résumant, etc.

Toutes ces tâches, apparemment si différentes, ont en fait une caractéristique commune il s’agit de trouver une "bonne" solution parmi un très grand ensemble de solutions possibles.

Il démêle la situation en extrayant les traits saillants et en procédant par analogie avec des exemples typiques connus. C’est ce type de comportement que reproduisent, encore bien imparfaitement, les réseaux de neurones artificiels.

Il se trouve aussi, et c’est la seconde raison de l’intérêt des industriels, que ces systèmes encore expérimentaux s’inscrivent admirablement dans le contexte actuel de mutations technologiques. Aujourd’hui, l’une des principales orientations en matière de conception d’ordinateurs est en effet d’abandonner progressivement l’architecture classique — comportant un processeur central qui effectue les opérations et une mémoire qui contient les instructions du programme —, au profit d’un nouveau concept celui d’architectures parallèles. Ce type d’architecture comporte un grand nombre de petits processeurs indépendants travaillant simultanément. La structure des réseaux de neurones étant elle-même parallèle, leur fonctionnement présente de nombreux avantages une vitesse de calcul accrue, la résistance aux pannes locales, enfin la régularité de la structure, qui permet des réalisations en électronique intégrée à très grande échelle.

La conception de modèles de réseaux capables d’apprentissage a pour origine les travaux du neurophysiologiste DO. Hebb (1949).

Partons de cette chose simple et connue de tous que les neurones sont reliés les uns aux autres par des synapses. Hebb fit l’hypothèse que la force d’une synapse augmente lorsque les neurones qu’elle relie agissent de la même façon en même temps. A l’inverse, elle diminue lorsque les neurones ont des activités différentes en même temps. L’intensité de cette force varie donc, en plus ou en moins, selon l’activité simultanée de chacun des neurones interconnectés. Globalement, une forme apprise correspondra à un état du réseau dans lequel certains neurones seront actifs tandis que d’autres ne le seront pas.

C’est le même principe qui est appliqué à des neurones artificiels. Ces neurones, tous reliés entre eux, constituent un réseau. Lorsqu’on présente au réseau une forme à apprendre, les neurones entrent simultanément dans un état d’activité qui provoque une légère modification des forces synaptiques. Il s’ensuit une "reconfiguration" quantitative de l’ensemble des synapses — certaines devenant "très fortes", d’autres s’affaiblissant. La forme apprise n’est donc pas directement mémorisée à un endroit précis elle correspond à un état énergétique particulier du réseau, une configuration particulière d’activité de chacun des neurones, dans un ensemble très grand de configurations possibles. Cette configuration est favorisée par les valeurs des forces des synapses.

Dans un tel réseau, et à la différence de ce qui se passe dans un ordinateur, aucune instruction de programme n’est mémorisée localement à une adresse donnée. L’information est répartie sur l’ensemble du réseau, distribuée sur les connexions entre les neurones (les synapses). La notion même de programme n’existe pas. Le réseau s’auto-organise à partir d’exemples qui lui sont présentés.

Un neurone artificiel de McCulloch-Pitts Le neurone est défini par ses forces synaptiques qui ont été calculées pendant l’apprentissage. Il réévalue sans arrêt son état de la façon suivante;

il multiplie l’état de chacune de ses entrées par la force synaptique correspondante
il effectue la somme de toutes ces contributions (le potentiel);
si le potentiel est positif le neurone devient actif (état +1), sinon devient inactif (état –1).

Intéressons-nous maintenant à la phase d’utilisation et non plus à celle d’apprentissage. Ce que nous voulons savoir, c’est, une fois l’apprentissage acquis, quelle décision prendra le réseau face à une information nouvelle.

Nous l’avons vu, dans un réseau de neurones biologiques, un neurone individuel n’intervient que pour une faible part dans la décision globale. Entre les neurones récepteurs et les neurones moteurs, de multiples couches de traitement contiennent des neurones non directement reliés à l’extérieur. Les bouclages internes assurent une "re-circulation" des informations. Dans la vie courante, nos hésitations avant de prendre une décision définitive témoignent d’ailleurs de ce processus dynamique mis en jeu dans le fonctionnement de notre cerveau.

Les réseaux de neurones artificiels peuvent reproduire ce comportement. Demandons, par exemple, au réseau de reconnaître une forme apprise à partir d’une version voisine de celle-ci, cas illustré sur la figure ci-contre. On présente donc au réseau une nouvelle image constituée d’une succession, inconnue pour lui, de points noirs et blancs. A chacun des points de l’image correspondra un neurone qui, selon la couleur, sera actif ou inactif. Le réseau dans son ensemble va donc se retrouver dans un état nouveau, instable, et on va le laisser évoluer de lui-même. Chacun des neurones va réévaluer son état en fonction des informations transmises par les autres neurones. Il va ensuite évoluer tout seul d’état intermédiaire en état intermédiaire pour se fixer dans un état final (représentant ou non une forme apprise), et dont il ne bougera qu’avec l’action d’un autre stimulus c’est sa réponse, sa décision.

On désigne ce type de comportement sous le nom de mémoire associative. Le réseau associe un état (une image mentale) à un autre état et il retrouve les informations mémorisées par une suite d’associations.

De façon imagée, on peut comparer l’évolution libre du réseau au parcours d’une bille sur une surface accidentée (voir figure p. 156). Placée au fond d’un trou, la bille reste immobile. Si au contraire la bille démarre sur le flanc d’un creux, elle sera attirée vers le fond. Mémoriser des informations revient donc à "creuser des trous" dans cette surface à des emplacements qui représentent ces informations.

RECONNAISSANCE DE CARACTÈRES MANUSCRITS.

Les images, fournies par une camera, sont composées de 20 x 30 =600 éléments noirs ou blancs, chacun correspondant à l’état d’un neurone -1 ou +1. L’apprentissage a consisté à mémoriser les 44 chiffres présentés en haut de la figure, c’est-à-dire à "creuser" autant de "trous" à ces endroits adéquats La figure du bas est une représentation imagée d’une partie du paysage ainsi constitué; nous y voyons en particulier les trous correspondant au deuxième "1" et au quatrième "4" de l’ensemble d’apprentissage. Lorsqu’on utilise le réseau pour effectuer une reconnaissance, l’évolution de l’état du réseau peut être comparée au parcours d’une bille dans le paysage. Imaginons par exemple que l’on soumette au réseau un chiffre manuscrit inconnu pour lui : sur la figure, il s’agit de l’image la plus haute sur le bord du trou du "4"; le réseau évolue d’état en état vers le fond du trou où il se stabilise. Le réseau a donc pris une décision il a reconnu le quatrième "4" de l’ensemble d’apprentissage à partir d’une version déformée de ce prototype.

Les réseaux de neurones dont nous allons parler dans ce qui suit n’existent généralement pas encore en tant que tels il s’agit de simulations sur des ordinateurs conventionnels ou sur des machines plus spécialement adaptées à cette tâche. Très peu de véritables réseaux de neurones artificiels ont en fait été réalisés, à l’heure actuelle.

Les applications potentielles apparaissent pourtant d’ores et déjà nombreuses. La faculté d’apprentissage "par l’exemple" est un atout majeur. Aujourd’hui, en dépit d’une maîtrise encore toute relative de l’outil, les performances affichées par ces réseaux sont parfois comparables à celles de systèmes spécialisés, type système-expert, dont la mise au point est extrêmement longue.

Le réseau qui se souvient d’un poème. Dans la première colonne se trouve l’un des trois poèmes mémorisés. La deuxième colonne présente un exemple de rappel de ce poème à partir de deux vers qui ne sont pas absolument exacts. Le réseau retrouve le fil du texte après cinq itérations.
1 Dame souris trotte, 2 Noire dans le gris du soir, 1 Dame souris trotte, 3 Grise dans le noir. 4 On sonne la cloche : 5 Dormez, les bons prisonnier 4 On sonne la cloche : 6 Faut que vous dormiez. 7 Pas de mauvais rêve : 8 Ne pensez qu’a vos amours, 7 Pas de mauvais rêve : 9 Les belles toujours ! 10 Le grand clair de lune ! 11 On ronfle ferme à côté. 10 Le grand clair de lune ! 12 En réalité. 13 Un nuage passe, 14 Il fait noir comme en un four, 13 Un nuage passe, 15 Tiens, le petit jour ! 1 Dame souris trotte, 16 Rose dans les rayons bleus, 1 Dame souris trotte, 17 Debout paresseux !
	On sonne la cloche Faut que lu chantes P, pon,mI qubtfvos!clomrs, Pasnde mypsais dhvpU QasAre matv,is qeve : Qeslbellps tosjouks ! Le grand clair de lune ! On ronfle ferme à côté. Le grand clair de lune ! En réalité. Un nuage passe, Il fait noir comme on un four, Un nuage passe, Tiens, le petit jour ! Dame souris trotte, Rose dans les rayons bleus, Dame souris trotte, Debout paresseux !

Un premier groupe d’applications met à profit les propriétés de mémoire associative. Elles permettent de faire de la correction d’erreurs, de la reconnaissance de formes, de la classification, des associations entre deux informations de nature différente, de la mémorisation de séquences, etc.

De toutes, l’application la plus simple et la plus directe est la correction d’erreurs. A titre d’exemple, nous avons mémorisé dans un réseau complètement connecté de 180 neurones formels (simulé sur ordinateur), une série de 60 titres de journaux scientifiques (chaque lettre étant codée sur 6 bits). Si, au cours de la phase d’utilisation, on présente au réseau l’un de ces titres mal rédigé, il s’avère capable en très peu de temps et d’opérations de retrouver le titre exact.

Sur le même principe, le laboratoire d’électronique de l’ESPCI (¹) a proposé un agenda automatique chaque état mémorisé contient le nom, l’adresse et le numéro de téléphone d’une personne. La donnée d’une partie de ces informations permet de retrouver les autres.

Le réseau complètement connecté peut aussi être utilisé pour faire des associations. Reprenons l’exemple des titres d’ouvrages scientifiques. Durant la phase d’apprentissage, chacun de ces titres a été associé à son éditeur. Puis, en phase d’utilisation, on a demandé au réseau de retrouver le nom de l’éditeur à partir de la seule présentation d’un titre, ce qu’il a pu faire même si ce titre était incomplet ou déformé. D’une façon très similaire, J.A. Anderson (Brown University) a utilisé les réseaux de neurones pour faire du diagnostic médical.

Beaucoup de problèmes pratiques et de processus biologiques peuvent se formuler en termes de séquences d’informations système de base de données, commande de la locomotion ou de la mastication chez les animaux, séquences musicales…

La mémorisation de séquences dans un réseau de neurones formels est facile puisqu’une séquence n’est pas autre chose qu’une chaîne d’associations. L’équipe de l’ESPCI a ainsi montré, en simulation, qu’un réseau de neurones peut apprendre des poèmes sous la forme d’une séquence de vers puis les restituer si on lui fournit seulement un ou deux vers même incomplets.

Un autre type de réseau, le réseau à couches, a été utilisé par T. Sejnowski, de l’Université John Hopkins (Maryland), pour son système de lecture NetTalk. Ici se sont des lettres qui sont associées à leur prononciation. Le réseau comporte une couche de récepteurs d’entrée au nombre de 203, répartis en sept groupes de 29 unités, une couche intermédiaire de 80 neurones et une couche de 26 neurones de sortie pour les 26 phonèmes possibles. Le système parcourt un texte en déplaçant une fenêtre de sept caractères, et trouve le phonème correspondant à la prononciation du caractère central, les six autres servant à indiquer le contexte. Après une nuit d’apprentissage d’un texte de mille mots sur un ordinateur VAX 780, cette étonnante machine atteignait les performances d’un enfant débutant qui semblait suivre les règles de prononciation des mots. Un réseau du même type a été utilisé par la même équipe pour apprendre à jouer au Backgammon.

Autres applications: la reconnaissance de formes. Citons tout d’abord le réseau de neurones optiques de N. Farhat de l’Université de Pennsylvanie, qui intervient dans la reconnaissance d’images radar. Des applications en reconnaissance de la parole ont été simulées sur le système Mark III de la firme américaine TRW. Enfin, exemple évoqué plus haut, les réseaux de neurones formels permettent d’obtenir d’assez bons résultats dans la reconnaissance de caractères manuscrits.

Cette brève présentation est suffisante pour nous donner quelques idées sur les performances des réseaux de neurones artificiels qui seront construits dans l’avenir. Certains, chercheurs et ingénieurs de diverses origines, doutent cependant que de telles performances puissent être atteintes et reprochent fréquemment à ceux qui travaillent sur les réseaux de neurones artificiels de ne pas introduire assez de contraintes a priori dans leurs modèles. Selon les uns, de tels systèmes différeraient considérablement des réseaux biologiques. Selon d’autres, un écart dans les performances pourrait se manifester entre la simulation et la réalité des réseaux. Sans plus entrer dans les détails de cette discussion technique, on peut affirmer que l’introduction de contraintes dans les modèles de base simulés sur ordinateurs, a montré que les propriétés fondamentales sont généralement conservées, et, fait amusant, que le type de contraintes technologiques pris en compte coïncide souvent avec des contraintes biologiques. Un exemple de cette constatation est analysé dans l’encadré ci-dessus.

Faut-il enfin redouter que les réseaux de neurones artificiels deviennent de puissantes machines intelligentes qui pourraient servir de cerveau à des robots ? Pour couper court à ce genre de dérapage vers la science-fiction, il suffit de rappeler le pas de géant qui reste à franchir entre le produit des recherches actuelles et le système nerveux humain.

Conscients que le cerveau est une "machine" dont la construction a nécessité des milliards d’années, et dont le fonctionnement est encore très difficile à appréhender, les chercheurs qui travaillent sur les réseaux de neurones formels font une sorte de pari : la complexité du cerveau cache quelques principes de base très simples qu’il s’agit de dégager.

AUX LIMITES DE LA PHYSIQUE ET DE LA BIOLOGIE :

"LE RÉSEAU AUTODIDACTE"

Comment un réseau de neurones artificiels apprend-il à lire ?

Les neurones sont les cellules oblongues en avant du réseau : ils sont tous connectés les uns aux autres par l’intermédiaire des synapses interconnexions dont les couleurs représentent des forces différentes.

Le réseau est ici utilise comme élément d’un système de reconnaissance de chiffres manuscrits : l’image d’un chiffre est acquise et numérisée par une caméra.

Elle fournit une suite de valeurs -1 ou +1 chacune étant associe à un élément d’image (-1 si l’élément d’image est blanc. ou 1 s’il est noir) : cet ensemble de valeurs binaires est transmis au réseaux de neurones qui effectue son. traitement, dont le résultat s’affiche sur un écran vidéo.

Pendant l’apprentissage le réseau de neurones calcule ses forces synaptiques à partir d’un ensemble n’exemptes des dix chiffres manuscrits bien choisis.

Lorsque l’apprentissage est termine le réseau effectue la reconnaissance d’un chiffre mémorise de la façon suivante : l’image numérise d’une forme inconnue (c’est-à-dire d’un chiffre manuscrit ne faisant pas partie de ceux utilisés lors de l’apprentissage) est envoyée sur le réseau : à partir de cette initialisation, le réseau évolue rapidement vers un état stable qui représente l’un des chiffres de l’ensemble d’apprentissage : il a ainsi retrouvé (reconnu) une information mémorisée à partir d’une version déformée de celle-ci.

LE PROBLÈME DU VOYAGEUR DE COMMERCE

Un autre type d’applications, concerne l’optimisation combinatoire. L’exemple modèle qui a été initialement proposé par le professeur J. Hopfield du CalTech et D. Tank des laboratoires Bell est celui du célèbre problème du voyageur de commerce: comment choisir le plus court itinéraire d’un voyageur qui doit visiter plusieurs villes ? Le nombre de tournées possibles augmentant exponentiellement avec te nombre de villes, il est impossible de procéder à une recherche exhaustive dès que le nombre de villes dépasse une dizaine. La méthode qui utilise des réseaux de neurones consiste à calculer les coefficients synaptiques de façon à ce que la surface associée à l’énergie (qui nous a déjà servi d’image pour comprendre le fonctionnement des réseaux) possède des trous aux endroits correspondant aux meilleures solutions. En initialisant le réseau dans un état quelconque, celui-ci va évoluer spontanément vers l’une des meilleures solutions.

La capacité de stockage d’un réseau de neurones formels se mesure par le nombre maximum d’informations qu’il est possible de mémoriser tout en conservant de bonnes propriétés de mémoire associative. Selon la règle d’apprentissage employée, différents comportements peuvent être observés lorsqu’on augmente le nombre d’informations présentées. Après avoir dépassé une capacité limite, certains réseaux s’embrouillent et oublient tout (état de confusion) d’autres refusent d’apprendre de nouvelles informations sans pour autant oublier les précédentes. Un comportement plus intéressant est celui de palimpseste (1) : le réseau, qui ne peut mémoriser qu’un nombre limité d’informations, privilégie les plus récemment apprises au détriment des plus anciennes qui sont progressivement oubliées.

Ces différents comportements, mis en évidence avec des réseaux de neurones artificiels simulés sur ordinateur, dépendent, en particulier, des contraintes introduites dans te modèle (forces synaptiques de signe constant, limitation du nombre de connexions par neurone, précision des valeurs des forces synaptiques, introduction d’un bruit dans la transmission des informations...).

Les raisons qui amènent certains chercheurs à introduire de nouvelles contraintes peuvent répondre à deux exigences différentes: celle de rendre le modèle plausible du point de vue biologique, ou bien celle de tenir compte des limitations technologiques, pour que les résultats des simulations sur ordinateurs puissent être utilisés en vue de construire un "véritable" réseau de neurones artificiels (en électronique intégrée ou en opto-électronique par exemple).

Il existe donc des contraintes de type biologique et d’autres de type technologique. Mais on constate que, dans de nombreux cas, les préoccupations des uns et des autres se rejoignent. Par exemple, G. Toulouse et J.P. Nadal de ‘ENS ont imposé aux coefficients synaptiques des valeurs minimum et maximum. Les synapses biologiques ont obligatoirement cette contrainte, mais les synapses électroniques ne peuvent pas s’en affranchir non plus. Cette étude a montré que, pour certaines valeurs du maximum et du minimum, le réseau avait un comportement de palimpseste.

(1) Palimpseste: au Moyen Âge, manuscrit sur parchemin que l’on grattait pour pouvoir écrire dessus de nouveau. En grattant, on n’effaçait pas totalement ce qui était préalablement inscrit : les textes tes plus anciens finissaient par disparaître tandis que les plus récents étaient conservés et lisibles. De façon imagée, la "mémoire à court terme" se comporte comme un palimpseste, car les souvenirs on s’empilant font progressivement disparaître les plus anciens.