Explained: Neural networks | MIT News | Massachusetts Institute of Technology

Au cours des 10 dernières années, les systèmes d’intelligence artificielle les plus performants-tels que les reconnaissance vocale sur les smartphones ou le dernier traducteur automatique de Google — ont résulté d’une technique appelée « deep learning. »

L’apprentissage en profondeur est en fait un nouveau nom pour une approche de l’intelligence artificielle appelée réseaux de neurones, qui sont à la mode depuis plus de 70 ans., Les réseaux neuronaux ont été proposés pour la première fois en 1944 par Warren McCullough et Walter Pitts, deux chercheurs de l’Université de Chicago qui ont déménagé au MIT en 1952 en tant que membres fondateurs de ce qu’on appelle parfois le premier département de sciences cognitives.

Les réseaux neuronaux étaient un domaine de recherche majeur en neurosciences et en informatique jusqu’en 1969, lorsque, selon la tradition informatique, ils ont été tués par les mathématiciens du MIT Marvin Minsky et Seymour Papert, qui un an plus tard deviendraient co-directeurs du nouveau Laboratoire d’intelligence artificielle du MIT.,

La technique a ensuite connu une résurgence dans les années 1980, est retombée dans eclipse dans la première décennie du nouveau siècle, et est revenue comme gangbusters dans la seconde, alimentée en grande partie par la puissance de traitement accrue des puces graphiques.

« Il y a cette idée que les idées en science sont un peu comme des épidémies de virus”, explique Tomaso Poggio, professeur Eugene McDermott de Sciences cérébrales et cognitives au MIT, chercheur au McGovern Institute for Brain Research du MIT et directeur du Center for Brains, Minds, and Machines du MIT., « Il y a apparemment cinq ou six souches de base de virus de la grippe, et apparemment chacune revient avec une période d’environ 25 ans. Les gens sont infectés, et ils développent une réponse immunitaire, et donc ils ne sont pas infectés pour les 25 prochaines années. Et puis il y a une nouvelle génération qui est prête à être infectée par la même souche de virus. En science, les gens tombent amoureux d’une idée, s’en enthousiasment, la martèlent à mort, puis se font vacciner — ils en ont assez. Les idées devraient donc avoir le même type de périodicité!, »

Weighty matters

Les réseaux neuronaux sont un moyen d’apprentissage automatique, dans lequel un ordinateur apprend à effectuer une tâche en analysant des exemples d’entraînement. Habituellement, les exemples ont été étiquetés à la main à l’avance. Un système de reconnaissance d’objet, par exemple, pourrait être alimenté par des milliers d’images étiquetées de voitures, de maisons, de tasses à café, etc., et il trouverait des motifs visuels dans les images qui sont constamment en corrélation avec des étiquettes particulières.

Modelé vaguement sur le cerveau humain, un réseau neuronal se compose de milliers, voire de millions de nœuds de traitement simples qui sont densément interconnectés., La plupart des réseaux neuronaux actuels sont organisés en couches de nœuds, et ils sont « feed-forward”, ce qui signifie que les données les traversent dans une seule direction. Un nœud individuel peut être connecté à plusieurs nœuds de la couche située en dessous, à partir de laquelle il reçoit des données, et à plusieurs nœuds de la couche située au-dessus, à laquelle il envoie des données.

À chacune de ses connexions entrantes, un nœud attribuera un nombre appelé « poids. »Lorsque le réseau est actif, le nœud reçoit un élément de données différent — un nombre différent — sur chacune de ses connexions et le multiplie par le poids associé., Il ajoute ensuite les produits résultants ensemble, donnant un seul nombre. Si ce nombre est inférieur à une valeur seuil, le nœud ne transmet aucune donnée à la couche suivante. Si le nombre dépasse la valeur seuil, le nœud « se déclenche”, ce qui dans les réseaux neuronaux actuels signifie généralement envoyer le nombre — la somme des entrées pondérées — le long de toutes ses connexions sortantes.

Lorsqu’un réseau neuronal est entraîné, tous ses poids et seuils sont initialement définis sur des valeurs aléatoires., Les données d’entraînement sont introduites dans la couche inférieure — la couche d’entrée — et passent à travers les couches suivantes, se multipliant et s’additionnant de manière complexe, jusqu’à ce qu’elles arrivent finalement, radicalement transformées, à la couche de sortie. Pendant l’entraînement, les poids et les seuils sont continuellement ajustés jusqu’à ce que les données d’entraînement avec les mêmes étiquettes donnent systématiquement des résultats similaires.

Esprits et machines

Les réseaux neuronaux décrits par McCullough et Pitts dans 1944 avaient des seuils et des poids, mais ils n’étaient pas disposés en couches, et les chercheurs n’ont spécifié aucun mécanisme d’entraînement., Ce que McCullough et Pitts ont montré, c’est qu’un réseau neuronal pouvait, en principe, calculer n’importe quelle fonction qu’un ordinateur numérique pouvait. Le résultat était plus la neuroscience que l’informatique: le but était de suggérer que le cerveau humain pourrait être considéré comme un dispositif informatique.

Les réseaux neuronaux continuent d’être un outil précieux pour la recherche neuroscientifique. Par exemple, des dispositions de réseau particulières ou des règles d’ajustement des poids et des seuils ont reproduit les caractéristiques observées de la neuroanatomie et de la cognition humaines, ce qui indique qu’elles capturent quelque chose sur la façon dont le cerveau traite l’information.,

Le premier réseau neuronal entraînable, le Perceptron, a été démontré par le psychologue de l’Université Cornell Frank Rosenblatt en 1957. La conception du Perceptron ressemblait beaucoup à celle du réseau neuronal moderne, sauf qu’il n’avait qu’une seule couche avec des poids et des seuils réglables, pris en sandwich entre les couches d’entrée et de sortie.,

Les perceptrons ont été un domaine de recherche actif à la fois en psychologie et dans la discipline naissante de l’informatique jusqu’en 1959, lorsque Minsky et Papert ont publié un livre intitulé « Perceptrons”, qui a démontré que l’exécution de certains calculs assez courants sur les Perceptrons prendrait peu de temps.

« Bien sûr, toutes ces limitations disparaissent si vous prenez des machines un peu plus compliquées — comme deux couches”, explique Poggio. Mais à l’époque, le livre a eu un effet dissuasif sur la recherche sur les réseaux neuronaux.,

« Il faut replacer ces choses dans un contexte historique”, dit Poggio. « Ils plaidaient pour la programmation-pour des langages comme Lisp. Peu d’années auparavant, les gens utilisaient encore des ordinateurs analogiques. Il n’est pas très clair à l’époque que la programmation était la voie à suivre. Je pense qu’ils sont allés un peu par-dessus bord, mais comme d’habitude, ce n’est pas noir et blanc. Si vous considérez cela comme une compétition entre l’informatique analogique et l’informatique numérique, ils se sont battus pour ce qui était à l’époque la bonne chose., »

Périodicité

Dans les années 1980, cependant, les chercheurs avaient développé des algorithmes pour modifier les poids et les seuils des réseaux neuronaux qui étaient suffisamment efficaces pour les réseaux avec plus d’une couche, supprimant de nombreuses limitations identifiées par Minsky et Papert. Le domaine a connu une renaissance.

Mais intellectuellement, il y a quelque chose d’insatisfaisant dans les réseaux neuronaux. Une formation suffisante peut réviser les paramètres d’un réseau au point qu’il peut classifier utilement les données, mais que signifient ces paramètres?, Quelles caractéristiques d’image un outil de reconnaissance d’objets regarde-t-il, et comment les rassemble-t-il pour former les signatures visuelles distinctives des voitures, des maisons et des tasses à café? Regarder les poids des connexions individuelles ne répondra pas à cette question.

Ces dernières années, les informaticiens ont commencé à trouver des méthodes ingénieuses pour déduire les stratégies analytiques adoptées par les réseaux neuronaux. Mais dans les années 1980, les stratégies des réseaux étaient indéchiffrables., Ainsi, au tournant du siècle, les réseaux de neurones ont été supplantés par les machines à vecteurs de support, une approche alternative à l’apprentissage automatique basée sur des mathématiques très propres et élégantes.

La récente résurgence des réseaux de neurones — la révolution de l’apprentissage en profondeur-vient de l’industrie du jeu vidéo. L’imagerie complexe et le rythme rapide des jeux vidéo d’aujourd’hui nécessitent un matériel capable de suivre, et le résultat a été l’unité de traitement graphique (GPU), qui emballe des milliers de cœurs de traitement relativement simples sur une seule puce., Il n’a pas fallu longtemps pour que les chercheurs réalisent que l’architecture d’un GPU ressemble remarquablement à celle d’un réseau neuronal.

Les GPU modernes ont permis aux réseaux à une couche des années 1960 et aux réseaux à deux ou trois couches des années 1980 de s’épanouir dans les réseaux à 10, 15, voire 50 couches d’aujourd’hui. C’est ce à quoi se réfère le « deep” dans « deep learning” — la profondeur des couches du réseau. Et actuellement, l’apprentissage profond est responsable des systèmes les plus performants dans presque tous les domaines de la recherche en intelligence artificielle.,

Sous le capot

L’opacité des réseaux est toujours troublante pour les théoriciens, mais il y a aussi des progrès sur ce front. En plus de diriger le Centre pour les Cerveaux, les Esprits et les Machines (CBMM), Poggio dirige le programme de recherche du centre sur les Cadres théoriques de l’Intelligence. Récemment, Poggio et ses collègues du CBMM ont publié une étude théorique en trois parties sur les réseaux de neurones.,

La première partie, publiée le mois dernier dans l’International Journal of Automation and Computing, aborde la gamme de calculs que les réseaux d’apprentissage profond peuvent exécuter et lorsque les réseaux profonds offrent des avantages par rapport aux réseaux moins profonds., Les parties deux et trois, qui ont été publiées sous la forme de rapports techniques CBMM, abordent les problèmes d’optimisation globale, ou de garantie qu’un réseau a trouvé les paramètres qui correspondent le mieux à ses données de formation, et de sur-ajustement, ou les cas dans lesquels le réseau devient tellement à l’écoute des spécificités de ses données de formation,

Il y a encore beaucoup de questions théoriques à répondre, mais le travail des chercheurs de CBMM pourrait aider à faire en sorte que les réseaux de neurones brisent enfin le cycle générationnel qui les a mis en place et en défaveur pendant sept décennies.

Explained: Neural networks (Français)

Laisser un commentaire Annuler la réponse