Erklärt: Neuronale Netze | MIT News/Massachusetts Institute of Technology

In den letzten 10 Jahren haben die leistungsstärksten künstlichen Intelligenzsysteme-wie die Spracherkennung auf Smartphones oder Googles neuesten automatischen Übersetzer-aus einer Technik namens „Deep Learning“ resultiert.“

Deep Learning ist in der Tat ein neuer Name für einen Ansatz für künstliche Intelligenz namens neuronale Netze, der seit mehr als 70 Jahren in Mode ist., Neuronale Netze wurden erstmals 1944 von Warren McCullough und Walter Pitts vorgeschlagen, zwei Forschern der University of Chicago, die 1952 als Gründungsmitglieder der sogenannten ersten Abteilung für Kognitionswissenschaften zum MIT wechselten.

Neuronale Netze waren ein wichtiges Forschungsgebiet sowohl in den Neurowissenschaften als auch in der Informatik, bis 1969, als sie nach Angaben von Computer Science Lore von den MIT-Mathematikern Marvin Minsky und Seymour Papert getötet wurden, die ein Jahr später Co-Direktoren des neuen MIT Artificial Intelligence Laboratory werden sollten.,

Die Technik erlebte dann in den 1980er Jahren ein Wiederaufleben, fiel im ersten Jahrzehnt des neuen Jahrhunderts wieder in die Sonnenfinsternis und ist im zweiten Jahrzehnt wie Gangbuster zurückgekehrt, was hauptsächlich durch die erhöhte Verarbeitungsleistung von Grafikchips angetrieben wird.

„Es gibt diese Idee, dass Ideen in der Wissenschaft ein bisschen wie Epidemien von Viren sind“, sagt Tomaso Poggio, Eugene McDermott Professor für Gehirn – und Kognitionswissenschaften am MIT, Forscher am McGovern Institute for Brain Research des MIT und Direktor des MIT Center for Brains, Minds und Machines., „Es gibt anscheinend fünf oder sechs Grundstämme von Grippeviren, und anscheinend kommt jeder mit einem Zeitraum von etwa 25 Jahren zurück. Menschen infizieren sich, und sie entwickeln eine Immunantwort, und so werden sie für die nächsten 25 Jahre nicht infiziert. Und dann gibt es eine neue Generation, die bereit ist, sich mit demselben Virusstamm zu infizieren. In der Wissenschaft verlieben sich die Menschen in eine Idee, begeistern sich dafür, hämmern sie zu Tode und werden dann immunisiert — sie werden es satt. Ideen sollten also die gleiche Periodizität haben!,“

Gewichtige Angelegenheiten

Neuronale Netze sind ein Mittel zum maschinellen Lernen, bei dem ein Computer lernt, eine Aufgabe auszuführen, indem er Trainingsbeispiele analysiert. In der Regel wurden die Beispiele vorab von Hand beschriftet. Ein Objekterkennungssystem, zum Beispiel, könnte Tausende von beschrifteten Bildern von Autos zugeführt werden, Häuser, Kaffeetassen, und so weiter, und es würde visuelle Muster in den Bildern finden, die konsequent mit bestimmten Etiketten korrelieren.

Ein neuronales Netz, das lose dem menschlichen Gehirn nachempfunden ist, besteht aus Tausenden oder sogar Millionen einfacher Verarbeitungsknoten, die dicht miteinander verbunden sind., Die meisten der heutigen neuronalen Netze sind in Schichten von Knoten organisiert, und sie sind „Feed-Forward“, was bedeutet, dass sich Daten nur in eine Richtung durch sie bewegen. Ein einzelner Knoten kann mit mehreren Knoten in der darunter liegenden Ebene verbunden sein, von denen er Daten empfängt, und mit mehreren Knoten in der darüber liegenden Ebene, an die er Daten sendet.

Jeder seiner eingehenden Verbindungen weist ein Knoten eine Nummer zu, die als „Gewicht“ bezeichnet wird.“Wenn das Netzwerk aktiv ist, erhält der Knoten über jede seiner Verbindungen ein anderes Datenelement — eine andere Nummer-und multipliziert es mit dem zugehörigen Gewicht., Es addiert dann die resultierenden Produkte zusammen und ergibt eine einzelne Zahl. Wenn diese Zahl unter einem Schwellenwert liegt, übergibt der Knoten keine Daten an die nächste Ebene. Wenn die Zahl den Schwellenwert überschreitet, wird der Knoten „ausgelöst“, was in den heutigen neuronalen Netzen im Allgemeinen bedeutet, dass die Zahl — die Summe der gewichteten Eingaben — entlang aller ausgehenden Verbindungen gesendet wird.

Wenn ein neuronales Netz trainiert wird, werden zunächst alle seine Gewichte und Schwellenwerte auf zufällige Werte gesetzt., Trainingsdaten werden der unteren Schicht — der Eingabeschicht-zugeführt und durchlaufen die nachfolgenden Schichten, wobei sie auf komplexe Weise multipliziert und addiert werden, bis sie schließlich radikal transformiert auf der Ausgabeschicht ankommen. Während des Trainings werden die Gewichte und Schwellenwerte kontinuierlich angepasst, bis Trainingsdaten mit denselben Labels konsistent ähnliche Ergebnisse liefern.

Minds and machines

Die 1944 von McCullough und Pitts beschriebenen neuronalen Netze hatten Schwellen und Gewichte, waren aber nicht in Schichten angeordnet, und die Forscher spezifizierten keinen Trainingsmechanismus., Was McCullough und Pitts zeigten, war, dass ein neuronales Netz im Prinzip jede Funktion berechnen konnte, die ein digitaler Computer konnte. Das Ergebnis war mehr Neurowissenschaften als Informatik: Es ging darum, darauf hinzuweisen, dass das menschliche Gehirn als Computergerät betrachtet werden könnte.

Neuronale Netze sind nach wie vor ein wertvolles Werkzeug für die neurowissenschaftliche Forschung. Zum Beispiel haben bestimmte Netzwerklayouts oder Regeln zum Anpassen von Gewichten und Schwellenwerten beobachtete Merkmale der menschlichen Neuroanatomie und Kognition reproduziert, ein Hinweis darauf, dass sie etwas darüber erfassen, wie das Gehirn Informationen verarbeitet.,

Das erste trainierbare neuronale Netzwerk, das Perceptron, wurde 1957 vom Psychologen der Cornell University, Frank Rosenblatt, demonstriert. Das Design des Perzeptrons ähnelte dem des modernen neuronalen Netzes, mit der Ausnahme, dass es nur eine Schicht mit einstellbaren Gewichten und Schwellenwerten hatte, die zwischen Eingabe-und Ausgabeschichten angeordnet waren.,

Perzeptronen waren ein aktives Forschungsgebiet sowohl in der Psychologie als auch in der jungen Disziplin der Informatik bis 1959, als Minsky und Papert ein Buch mit dem Titel „Perzeptrons“ veröffentlichten, das zeigte, dass die Ausführung bestimmter ziemlich üblicher Berechnungen an Perzeptronen unpraktisch zeitaufwendig wäre.

„Natürlich verschwinden all diese Einschränkungen, wenn Sie Maschinen nehmen, die etwas komplizierter sind — wie zwei Schichten“, sagt Poggio. Aber zu der Zeit hatte das Buch eine abschreckende Wirkung auf die neuronale Netzforschung.,

„Man muss diese Dinge in einen historischen Kontext stellen“, sagt Poggio. „Sie argumentierten für die Programmierung — für Sprachen wie Lisp. Nicht viele Jahre zuvor benutzten die Leute noch analoge Computer. Es war zu der Zeit überhaupt nicht klar, dass Programmierung der richtige Weg war. Ich denke, sie sind ein bisschen über Bord gegangen, aber wie immer ist es nicht schwarz und weiß. Wenn Sie dies als diesen Wettbewerb zwischen analogem Computing und digitalem Computing betrachten, kämpften sie für das, was zu der Zeit das Richtige war.,“

Periodizität

In den 1980er Jahren hatten die Forscher jedoch Algorithmen zum Modifizieren der Gewichte und Schwellenwerte neuronaler Netze entwickelt, die für Netzwerke mit mehr als einer Schicht effizient genug waren und viele der von Minsky und Papert identifizierten Einschränkungen beseitigten. Das Feld erlebte eine Renaissance.

Aber intellektuell gibt es etwas Unbefriedigendes an neuronalen Netzen. Genug Training kann die Einstellungen eines Netzwerks so überarbeiten, dass es Daten sinnvoll klassifizieren kann, aber was bedeuten diese Einstellungen?, Welche Bildmerkmale betrachtet ein Objekterkenner und wie fügt er sie zu den charakteristischen visuellen Signaturen von Autos, Häusern und Kaffeetassen zusammen? Ein Blick auf die Gewichte einzelner Verbindungen beantwortet diese Frage nicht.

In den letzten Jahren haben Informatiker begonnen, ausgeklügelte Methoden zur Ableitung der analytischen Strategien neuronaler Netze zu entwickeln. In den 1980er Jahren waren die Strategien der Netzwerke jedoch nicht zu entziffern., Um die Jahrhundertwende wurden neuronale Netze durch Unterstützungsvektormaschinen ersetzt, einen alternativen Ansatz für maschinelles Lernen, der auf einer sehr sauberen und eleganten Mathematik basiert.

Das jüngste Wiederaufleben neuronaler Netzwerke — die Deep-Learning-Revolution-kommt mit freundlicher Genehmigung der Computerspiel-Industrie. Die komplexen Bilder und das schnelle Tempo der heutigen Videospiele erfordern Hardware, die mithalten kann, und das Ergebnis war die Grafikverarbeitungseinheit (GPU), die Tausende relativ einfacher Prozessorkerne auf einem einzigen Chip vereint., Es dauerte nicht lange, bis die Forscher erkannten, dass die Architektur einer GPU bemerkenswert der eines neuronalen Netzes ähnelt.

Moderne GPUs ermöglichten es, die einschichtigen Netzwerke der 1960er Jahre und die zwei – bis dreischichtigen Netzwerke der 1980er Jahre in die 10 -, 15 -, sogar 50-schichtigen Netzwerke von heute zu integrieren. Darauf bezieht sich das „Tief“ in „Deep Learning“ — die Tiefe der Netzwerkebenen. Und derzeit ist Deep Learning für die leistungsstärksten Systeme in fast allen Bereichen der künstlichen Intelligenzforschung verantwortlich.,

Unter der Haube

Die Deckkraft der Netzwerke ist für Theoretiker immer noch beunruhigend, aber auch an dieser Front geht es voran. Neben der Leitung des Zentrums für Gehirn, Geist und Maschinen (CBMM) leitet Poggio das Forschungsprogramm des Zentrums für theoretische Rahmenbedingungen für Intelligenz. Kürzlich haben Poggio und seine CBMM-Kollegen eine dreiteilige theoretische Studie über neuronale Netze veröffentlicht.,

Der erste Teil, der letzten Monat im International Journal of Automation and Computing veröffentlicht wurde, befasst sich mit der Bandbreite der Berechnungen, die Deep-Learning-Netzwerke ausführen können und wenn tiefe Netzwerke Vorteile gegenüber flacheren bieten., Die Teile zwei und drei, die als CBMM Technical Reports veröffentlicht wurden, befassen sich mit den Problemen der globalen Optimierung oder garantieren, dass ein Netzwerk die Einstellungen gefunden hat, die am besten mit seinen Trainingsdaten übereinstimmen, und Überanpassungen oder Fällen, in denen das Netzwerk so auf die Besonderheiten seiner Trainingsdaten abgestimmt ist, dass es nicht auf andere Instanzen derselben Kategorien verallgemeinert werden kann.,

Es gibt noch viele theoretische Fragen zu beantworten, aber die Arbeit der CBMM-Forscher könnte dazu beitragen, dass neuronale Netze endlich den Generationszyklus durchbrechen, der sie seit sieben Jahrzehnten in Ungnade zieht.

Schreibe einen Kommentar Antworten abbrechen