Förklarade: neurala nätverk

under de senaste 10 åren har de bäst presterande artificiella intelligenssystemen-som taligenkännare på smartphones eller Googles senaste automatiska översättare-resulterat i en teknik som heter ”deep learning.”

djupt lärande är faktiskt ett nytt namn för ett tillvägagångssätt för artificiell intelligens som kallas neurala nätverk, som har gått in och ut ur mode i mer än 70 år., Neurala nätverk föreslogs först 1944 av Warren McCullough och Walter Pitts, två forskare vid University of Chicago som flyttade till MIT 1952 som grundande medlemmar av vad som ibland kallas den första kognitionsvetenskapsavdelningen.

neurala nät var ett stort forskningsområde inom både neurovetenskap och datavetenskap fram till 1969, då de enligt datavetenskap lore dödades av MIT-matematikerna Marvin Minsky och Seymour Papert, som ett år senare skulle bli medledare för det nya mit Artificial Intelligence Laboratory.,

tekniken sedan haft ett uppsving på 1980-talet, föll i förmörkelse igen under det första decenniet av det nya århundradet, och har återvänt som gangbusters i den andra, drivs till stor del av den ökade processorkraft grafikchips.

”det finns denna idé att idéer i vetenskapen är lite som virusepidemier”, säger Tomaso Poggio, Eugene McDermott Professor i hjärna och kognitiva vetenskaper vid MIT, en utredare vid MIT: s McGovern Institute for Brain Research och chef för MIT: s Center för hjärnor, sinnen och maskiner., ”Det finns tydligen fem eller sex grundläggande stammar av influensavirus, och tydligen kommer var och en tillbaka med en period på cirka 25 år. Människor blir smittade, och de utvecklar ett immunsvar, och så blir de inte smittade de närmaste 25 åren. Och då finns det en ny generation som är redo att smittas av samma virusstam. I vetenskapen blir människor kär i en idé, blir glada över det, hammar det till döds och blir sedan immuniserade — de blir trött på det. Så idéer borde ha samma typ av periodicitet!,”

viktiga frågor

neurala nät är ett sätt att göra maskininlärning, där en dator lär sig att utföra en viss uppgift genom att analysera träningsexempel. Vanligtvis har exemplen handmärkt i förväg. Ett objektigenkänningssystem kan till exempel matas tusentals märkta bilder av bilar, hus, kaffekoppar och så vidare, och det skulle hitta visuella mönster i bilderna som konsekvent korrelerar med vissa etiketter.

modelleras löst på den mänskliga hjärnan, ett neuralt nät består av tusentals eller till och med miljontals enkla bearbetningsnoder som är tätt sammankopplade., De flesta av dagens neurala nät är organiserade i lager av noder, och de är ”feed-forward”, vilket innebär att data rör sig genom dem i bara en riktning. En enskild nod kan anslutas till flera noder i skiktet under det, från vilket det tar emot data och flera noder i skiktet ovanför det, till vilket det skickar data.

till var och en av dess inkommande anslutningar kommer en nod att tilldela ett nummer som kallas ”vikt”.”När nätverket är aktivt mottar noden ett annat dataobjekt — ett annat nummer-över var och en av dess anslutningar och multiplicerar det med den associerade vikten., Det lägger sedan till de resulterande produkterna tillsammans, vilket ger ett enda nummer. Om det numret ligger under ett tröskelvärde skickar noden Inga data till nästa lager. Om antalet överstiger tröskelvärdet betyder noden ”bränder”, vilket i dagens neurala nät i allmänhet innebär att man skickar numret — summan av de viktade ingångarna — längs alla dess utgående anslutningar.

När ett neuralt nät utbildas ställs alla dess vikter och tröskelvärden initialt till slumpmässiga värden., Träningsdata matas till bottenskiktet-inmatningsskiktet-och det passerar genom de efterföljande skikten, multipliceras och läggs ihop på komplexa sätt tills det äntligen kommer, radikalt omvandlas, vid utgångsskiktet. Under träningen justeras vikterna och tröskelvärdena kontinuerligt tills träningsdata med samma etiketter konsekvent ger liknande resultat.

sinnen och maskiner

de neurala nät som beskrivs av McCullough och Pitts 1944 hade trösklar och vikter, men de var inte ordnade i lager, och forskarna specificerade inte någon träningsmekanism., Vad McCullough och Pitts visade var att ett neuralt nät i princip kunde beräkna vilken funktion som en digital dator kunde. Resultatet var mer neurovetenskap än datavetenskap: poängen var att föreslå att den mänskliga hjärnan kunde ses som en datoranordning.

neurala nät fortsätter att vara ett värdefullt verktyg för neurovetenskaplig forskning. Till exempel har särskilda nätverkslayouter eller regler för justering av vikter och trösklar reproducerat observerade egenskaper hos mänsklig neuroanatomi och kognition, en indikation på att de fångar något om hur hjärnan behandlar information.,

det första trainable neurala nätverket, Perceptron, visades av Cornell University psykolog Frank Rosenblatt 1957. Perceptronens design var ungefär som det moderna neurala nätet, förutom att det bara hade ett lager med justerbara vikter och trösklar, inklämt mellan ingångs-och utgångsskikt.,

Perceptroner var ett aktivt forskningsområde inom både Psykologi och den spirande disciplinen för datavetenskap fram till 1959, när Minsky och Papert publicerade en bok med titeln ”Perceptroner”, vilket visade att det skulle vara opraktiskt tidskrävande att utföra vissa ganska vanliga beräkningar på Perceptroner.

”naturligtvis försvinner alla dessa begränsningar om du tar maskiner som är lite mer komplicerade-som två lager, säger Poggio. Men på den tiden hade boken en chillande effekt på neural-net-forskning.,

”Du måste sätta dessa saker i historiskt sammanhang”, säger Poggio. ”De argumenterade för programmering — för språk som Lisp. Inte många år tidigare använde folk fortfarande analoga datorer. Det var inte klart alls vid den tiden att programmering var rätt väg att gå. Jag tror att de gick lite överbord, men som vanligt är det inte svart och vitt. Om du tänker på detta som denna konkurrens mellan analog databehandling och digital databehandling, kämpade de för vad som då var det rätta.,”

periodicitet

på 1980-talet hade dock forskare utvecklat algoritmer för att modifiera neurala nätvikter och tröskelvärden som var effektiva nog för nätverk med mer än ett lager, vilket tog bort många av de begränsningar som identifierats av Minsky och Papert. Fältet njöt av en renässans.

men intellektuellt finns det något otillfredsställande med neurala nät. Tillräckligt med träning kan revidera ett nätverks inställningar till den grad att det med fördel kan klassificera data,men vad betyder dessa inställningar?, Vilka bildegenskaper är en objektigenkännare som tittar på, och hur delar den dem ihop i de distinkta visuella signaturerna av bilar, hus och kaffekoppar? Att titta på vikten av enskilda anslutningar kommer inte att svara på den frågan.

under de senaste åren har Dataforskare börjat komma med geniala metoder för att härleda de analytiska strategier som antagits av neurala nät. Men på 1980-talet var nätverkens strategier otänkbara., Så runt sekelskiftet ersattes neurala nätverk av stödvektormaskiner, ett alternativt tillvägagångssätt för maskininlärning som bygger på en mycket ren och elegant matematik.

den senaste återuppkomsten i neurala nätverk — den djupt lärande revolutionen-kommer artighet av dataspelsindustrin. Den komplexa bilder och snabb takt i dagens videospel kräver hårdvara som kan hänga med, och resultatet har varit grafikbehandlingsenheten (GPU), som packar tusentals relativt enkla processorkärnor på ett enda chip., Det tog inte lång tid för forskare att inse att arkitekturen hos en GPU är anmärkningsvärt som ett neuralt nät.

moderna GPU-enheter gjorde det möjligt för 1960-talets ettlagsnät och 1980-talets två-till trelagsnät att blomma in i dagens 10-, 15 -, till och med 50-lagers nätverk. Det är vad den” djupa ”i” deep learning ” hänvisar till-djupet av nätverkets lager. Och för närvarande är deep learning ansvarig för de bäst presterande systemen inom nästan alla områden av artificiell intelligensforskning.,

under huven

nätverkets opacitet är fortfarande oroande för teoretikerna, men det finns också framsteg på den fronten. Förutom att styra centret för hjärnor, sinnen och maskiner (CBMM) leder Poggio centrumets forskningsprogram inom teoretiska ramar för intelligens. Nyligen har Poggio och hans CBMM-kollegor släppt en tredelad teoretisk studie av neurala nätverk.,

den första delen, som publicerades förra månaden i International Journal of Automation and Computing, behandlar det antal beräkningar som djupinlärningsnätverk kan utföra och när djupa nätverk erbjuder fördelar jämfört med grundare., Delar två och tre, som har släppts som CBMM tekniska rapporter, ta itu med problemen med global optimering, eller garantera att ett nätverk har hittat de inställningar som bäst överensstämmer med dess utbildningsdata, och overfitting, eller fall där nätverket blir så anpassad till detaljerna i dess utbildningsdata att det inte generaliserar till andra fall av samma kategorier.,

det finns fortfarande gott om teoretiska frågor som ska besvaras, men CBMM-forskares arbete kan bidra till att neurala nätverk slutligen bryter generationscykeln som har fört dem in och ut av favör i sju decennier.

Lämna ett svar Avbryt svar