uitgelegd: Neural networks

geplaatst in: Articles | 0

in de afgelopen 10 jaar zijn de best presterende kunstmatige-intelligentiesystemen-zoals de spraakherkenners op smartphones of Google ‘ s nieuwste automatische vertaler — het resultaat van een techniek genaamd “deep learning.”

Deep learning is in feite een nieuwe naam voor een benadering van kunstmatige intelligentie genaamd neurale netwerken, die in en uit de mode voor meer dan 70 jaar., Neurale netwerken werden voor het eerst voorgesteld in 1944 door Warren McCullough en Walter Pitts, twee onderzoekers van de Universiteit van Chicago die in 1952 naar het MIT verhuisden als stichtende leden van wat soms de eerste afdeling cognitieve wetenschappen wordt genoemd.neurale netten waren een belangrijk onderzoeksgebied in zowel de neurowetenschappen als de informatica tot 1969, toen ze volgens de informaticawetenschappers Marvin Minsky en Seymour Papert, die een jaar later co-directeurs zouden worden van het nieuwe mit Artificial Intelligence Laboratory.,

de techniek genoot toen een opleving in de jaren 1980, viel weer in eclipse in het eerste decennium van de nieuwe eeuw, en is teruggekeerd als gangbusters in de tweede, gevoed grotendeels door de toegenomen rekenkracht van grafische chips.”er is dit idee dat ideeën in de wetenschap een beetje lijken op epidemieën van virussen,” zegt Tomaso Poggio, de Eugene McDermott Professor in de hersenen en cognitieve wetenschappen aan het MIT, een onderzoeker aan het mit McGovern Institute for Brain Research, en directeur van het MIT Center for Brains, Minds, and Machines., “Er zijn blijkbaar vijf of zes basisstammen van griepvirussen, en blijkbaar elk komt terug met een periode van ongeveer 25 jaar. Mensen raken geïnfecteerd en ontwikkelen een immuunrespons, zodat ze de komende 25 jaar niet geïnfecteerd raken. En dan is er een nieuwe generatie die klaar is om te worden geïnfecteerd door dezelfde virusstam. In de wetenschap worden mensen verliefd op een idee, worden er enthousiast over, hameren het dood, en worden dan geïmmuniseerd — ze worden er moe van. Dus ideeën moeten dezelfde periodiciteit hebben!,”

gewichtige zaken

neurale netten zijn een middel om machine learning te doen, waarbij een computer leert een taak uit te voeren door het analyseren van trainingsvoorbeelden. Meestal zijn de voorbeelden van tevoren met de hand gelabeld. Een objectherkenningssysteem, bijvoorbeeld, zou duizenden gelabelde beelden van auto ‘ s, huizen, koffiebekers enzovoort kunnen krijgen.het zou visuele patronen in de beelden vinden die consistent correleren met bepaalde labels.

losjes gemodelleerd op het menselijk brein, bestaat een neuraal net uit duizenden of zelfs miljoenen eenvoudige verwerkingsknooppunten die dicht met elkaar verbonden zijn., De meeste van de huidige neurale netten zijn georganiseerd in lagen van knooppunten, en ze zijn “feed-forward”, wat betekent dat gegevens er slechts in één richting doorheen gaan. Een individueel knooppunt kan worden verbonden met verschillende knooppunten in de laag eronder, van waaruit het gegevens ontvangt, en verschillende knooppunten in de laag erboven, waarnaar Het gegevens verzendt.

aan elk van zijn binnenkomende verbindingen zal een knooppunt een getal toewijzen dat bekend staat als een “gewicht.”Wanneer het netwerk actief is, ontvangt het knooppunt een ander gegevensitem — een ander nummer — over elk van zijn verbindingen en vermenigvuldigt het met het bijbehorende gewicht., Het voegt dan de resulterende producten bij elkaar, wat resulteert in een enkel nummer. Als dat getal onder een drempelwaarde ligt, geeft het knooppunt geen gegevens door aan de volgende laag. Als het getal de drempelwaarde overschrijdt, “vuurt het knooppunt”, wat in de huidige neurale netten over het algemeen betekent dat het nummer — de som van de gewogen ingangen — langs alle uitgaande verbindingen wordt verzonden.

wanneer een neuraal net wordt getraind, worden alle gewichten en drempels in eerste instantie ingesteld op willekeurige waarden., Trainingsgegevens worden ingevoerd naar de onderste laag — de invoerlaag — en het gaat door de volgende lagen, wordt vermenigvuldigd en samengeteld op complexe manieren, totdat het uiteindelijk aankomt, radicaal getransformeerd, op de uitvoerlaag. Tijdens de training worden de gewichten en drempels voortdurend aangepast totdat trainingsgegevens met dezelfde labels consistent vergelijkbare resultaten opleveren.

Minds and machines

de neurale netten beschreven door McCullough en Pitts in 1944 hadden drempels en gewichten, maar ze waren niet gerangschikt in lagen, en de onderzoekers specificeerden geen trainingsmechanisme., McCullough en Pitts toonden aan dat een neuraal net in principe elke functie kon berekenen die een digitale computer zou kunnen. Het resultaat was meer neurowetenschap dan computerwetenschap: het punt was om te suggereren dat het menselijk brein als een rekenapparaat kon worden gezien.

neurale netten blijven een waardevol hulpmiddel voor neurowetenschappelijk onderzoek. Bijvoorbeeld, bepaalde netwerk lay-outs of regels voor het aanpassen van gewichten en drempels hebben waargenomen kenmerken van menselijke neuroanatomie en cognitie gereproduceerd, een indicatie dat ze iets vastleggen over hoe de hersenen informatie verwerken.,het eerste trainbare neurale netwerk, de Perceptron, werd gedemonstreerd door de Cornell University psycholoog Frank Rosenblatt in 1957. Het ontwerp van de Perceptron leek veel op dat van het moderne neurale net, behalve dat het slechts één laag had met instelbare gewichten en drempels, ingeklemd tussen invoer-en uitvoerlagen.,Perceptrons waren een actief onderzoeksgebied in zowel de psychologie als de beginnende discipline van de informatica tot 1959, toen Minsky en Papert een boek publiceerden met de titel “Percepttrons”, dat aantoonde dat het uitvoeren van bepaalde vrij gangbare berekeningen op Percepttrons onpraktisch tijdrovend zou zijn.

” natuurlijk verdwijnen al deze beperkingen als je Machines neemt die iets ingewikkelder zijn — twee lagen,” zegt Poggio. Maar op dat moment had het boek een huiveringwekkend effect op neuraal-net onderzoek.,

” je moet deze dingen in een historische context plaatsen, ” zegt Poggio. “Ze pleitten voor programmeren — voor talen als Lisp. Niet veel jaren daarvoor gebruikten mensen nog steeds analoge computers. Het was toen helemaal niet duidelijk dat programmeren de juiste weg was. Ik denk dat ze een beetje te ver gingen, maar zoals gewoonlijk is het niet zwart-wit. Als je dit ziet als de concurrentie tussen analoge en digitale computers, vochten ze voor wat op dat moment het juiste was.,”

periodiciteit

tegen de jaren 1980 hadden onderzoekers echter algoritmen ontwikkeld voor het wijzigen van neurale netten’ gewichten en drempels die efficiënt genoeg waren voor netwerken met meer dan één laag, waardoor veel van de beperkingen die door Minsky en Papert werden geïdentificeerd, werden verwijderd. Het veld genoot een renaissance.

maar intellectueel gezien is er iets onbevredigends aan neurale netten. Voldoende training kan de instellingen van een netwerk zodanig herzien dat het nuttig gegevens kan classificeren, maar wat betekenen die Instellingen?, Naar welke afbeeldingseigenschappen kijkt een objectherkenner, en hoe deelt hij ze samen in de kenmerkende visuele handtekeningen van auto ‘ s, huizen en koffiekopjes? Kijken naar de gewichten van individuele verbindingen zal die vraag niet beantwoorden.in de afgelopen jaren zijn computerwetenschappers begonnen met ingenieuze methoden om de analytische strategieën van neurale netten af te leiden. Maar in de jaren tachtig waren de strategieën van de netwerken niet te ontcijferen., Rond de eeuwwisseling werden neurale netwerken verdrongen door ondersteuningsvectormachines, een alternatieve benadering van machine learning die gebaseerd is op zeer zuivere en elegante wiskunde.

de recente heropleving in neurale netwerken — de deep-learning revolutie — komt met dank aan de computerspelindustrie. De complexe beelden en het snelle tempo van de huidige videogames vereisen hardware die kan bijhouden, en het resultaat is de graphics processing unit (GPU), die duizenden relatief eenvoudige verwerkingskernen op een enkele chip packs., Het duurde niet lang voordat onderzoekers zich realiseerden dat de architectuur van een GPU Opmerkelijk lijkt op die van een neuraal net.

moderne GPU ‘ s maakten het mogelijk dat de eenlaagse netwerken van de jaren zestig en de twee-tot drielaagse netwerken van de jaren tachtig uitgroeiden tot de 10 -, 15 -, zelfs 50-lagennetwerken van vandaag. Dat is waar het” diep “in” diep leren ” naar verwijst-de diepte van de lagen van het netwerk. En op dit moment is deep learning verantwoordelijk voor de best presterende systemen op bijna elk gebied van kunstmatige intelligentie onderzoek.,

onder de motorkap

de ondoorzichtigheid van de netwerken is nog steeds verontrustend voor theoretici, maar er is ook vooruitgang op dat front. Naast het leiden van het Center for Brains, Minds, and Machines (CBMM), leidt Poggio het onderzoeksprogramma van het center in Theoretical Frameworks for Intelligence. Onlangs hebben Poggio en zijn CBMM collega ‘ s een driedelige theoretische studie van neurale netwerken uitgebracht.,

het eerste deel, dat vorige maand werd gepubliceerd in het International Journal of Automation and Computing, behandelt de reeks berekeningen die deep-learning netwerken kunnen uitvoeren en wanneer deep netwerken voordelen bieden ten opzichte van ondiepere., Delen twee en drie, die zijn uitgebracht als CBMM technical reports, gaan in op de problemen van globale optimalisatie, of het garanderen dat een netwerk de instellingen heeft gevonden die het beste aansluiten bij zijn trainingsgegevens, en overfitting, of gevallen waarin het netwerk zo wordt afgestemd op de specifieke kenmerken van zijn trainingsgegevens dat het niet generaliseert naar andere gevallen van dezelfde categorieën.,

Er zijn nog tal van theoretische vragen te beantwoorden, maar het werk van CBMM-onderzoekers zou kunnen helpen ervoor te zorgen dat neurale netwerken eindelijk de generatiecyclus doorbreken die hen zeven decennia lang in en uit de gunst heeft gebracht.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *