Spiegato: Reti neurali

postato in: Articles | 0

Negli ultimi 10 anni, i sistemi di intelligenza artificiale più performanti – come i riconoscitori vocali su smartphone o l’ultimo traduttore automatico di Google – sono il risultato di una tecnica chiamata “deep learning.”

Deep learning è infatti un nuovo nome per un approccio all’intelligenza artificiale chiamato reti neurali, che sono state andando dentro e fuori moda per più di 70 anni., Le reti neurali furono proposte per la prima volta nel 1944 da Warren McCullough e Walter Pitts, due ricercatori dell’Università di Chicago che si trasferirono al MIT nel 1952 come membri fondatori di quello che a volte viene chiamato il primo dipartimento di scienze cognitive.

Le reti neurali erano una delle principali aree di ricerca sia nelle neuroscienze che nell’informatica fino al 1969, quando, secondo la tradizione informatica, furono uccise dai matematici del MIT Marvin Minsky e Seymour Papert, che un anno dopo sarebbero diventati co-direttori del nuovo Laboratorio di intelligenza artificiale del MIT.,

La tecnica ha poi goduto di una rinascita nel 1980, è caduto in eclipse di nuovo nel primo decennio del nuovo secolo, ed è tornato come gangbusters nel secondo, alimentato in gran parte dalla maggiore potenza di elaborazione dei chip grafici.

“C’è questa idea che le idee nella scienza sono un po’ come epidemie di virus,” dice Tomaso Poggio, il professore Eugene McDermott di Cervello e Scienze cognitive al MIT, un investigatore presso il MIT McGovern Institute for Brain Research, e direttore del Centro del MIT per il cervello, menti, e macchine., “Ci sono apparentemente cinque o sei ceppi base di virus influenzali, e apparentemente ognuno torna con un periodo di circa 25 anni. Le persone si infettano, e sviluppano una risposta immunitaria, e quindi non si infettano per i prossimi 25 anni. E poi c’è una nuova generazione che è pronta per essere infettata dallo stesso ceppo di virus. Nella scienza, le persone si innamorano di un’idea, ne si entusiasmano, la martellano a morte e poi si immunizzano — si stancano di essa. Quindi le idee dovrebbero avere lo stesso tipo di periodicità!,”

Weighty matters

Le reti neurali sono un mezzo per fare apprendimento automatico, in cui un computer impara a svolgere alcune attività analizzando esempi di allenamento. Di solito, gli esempi sono stati etichettati a mano in anticipo. Un sistema di riconoscimento degli oggetti, per esempio, potrebbe essere alimentato migliaia di immagini etichettate di automobili, case, tazze di caffè, e così via, e sarebbe trovare modelli visivi nelle immagini che correlano costantemente con particolari etichette.

Modellato liberamente sul cervello umano, una rete neurale è costituita da migliaia o addirittura milioni di nodi di elaborazione semplici che sono densamente interconnessi., La maggior parte delle reti neurali di oggi sono organizzate in strati di nodi e sono “feed-forward”, il che significa che i dati si muovono attraverso di essi in una sola direzione. Un singolo nodo potrebbe essere collegato a diversi nodi nel livello sottostante, da cui riceve i dati, e diversi nodi nel livello sopra di esso, a cui invia i dati.

A ciascuna delle sue connessioni in entrata, un nodo assegnerà un numero noto come “peso.”Quando la rete è attiva, il nodo riceve un elemento di dati diverso — un numero diverso — su ciascuna delle sue connessioni e lo moltiplica per il peso associato., Quindi aggiunge i prodotti risultanti insieme, producendo un singolo numero. Se tale numero è inferiore a un valore di soglia, il nodo non passa dati al livello successivo. Se il numero supera il valore di soglia, il nodo “spara”, che nelle reti neurali odierne significa generalmente inviare il numero — la somma degli input ponderati — lungo tutte le sue connessioni in uscita.

Quando una rete neurale viene addestrata, tutti i suoi pesi e soglie sono inizialmente impostati su valori casuali., I dati di allenamento vengono inviati al livello inferiore – il livello di input-e passano attraverso i livelli successivi, moltiplicandosi e sommandosi in modi complessi, fino ad arrivare infine, radicalmente trasformati, al livello di output. Durante l’allenamento, i pesi e le soglie vengono continuamente regolati fino a quando i dati di allenamento con le stesse etichette producono costantemente risultati simili.

Menti e macchine

Le reti neurali descritte da McCullough e Pitts nel 1944 avevano soglie e pesi, ma non erano disposte in strati e i ricercatori non specificavano alcun meccanismo di allenamento., Ciò che McCullough e Pitts hanno mostrato è che una rete neurale potrebbe, in linea di principio, calcolare qualsiasi funzione che un computer digitale potrebbe. Il risultato è stato più neuroscienze che informatica: Il punto era quello di suggerire che il cervello umano potrebbe essere pensato come un dispositivo informatico.

Le reti neurali continuano ad essere uno strumento prezioso per la ricerca neuroscientifica. Ad esempio, particolari layout di rete o regole per la regolazione di pesi e soglie hanno riprodotto le caratteristiche osservate della neuroanatomia e della cognizione umana, un’indicazione che catturano qualcosa su come il cervello elabora le informazioni.,

La prima rete neurale addestrabile, il Perceptron, fu dimostrata dallo psicologo della Cornell University Frank Rosenblatt nel 1957. Il design del Perceptron era molto simile a quello della moderna rete neurale, tranne per il fatto che aveva un solo strato con pesi e soglie regolabili, inserito tra i livelli di input e output.,

I Percettori erano un’area attiva di ricerca sia in psicologia che nella nascente disciplina dell’informatica fino al 1959, quando Minsky e Papert pubblicarono un libro intitolato “Percettori”, che dimostrò che eseguire determinati calcoli abbastanza comuni sui Percettori sarebbe stato poco pratico in termini di tempo.

“Naturalmente, tutte queste limitazioni scompaiono se si prendono macchinari un po’ più complicati, come due strati”, dice Poggio. Ma al momento, il libro ha avuto un effetto agghiacciante sulla ricerca neurale-net.,

“Devi mettere queste cose in un contesto storico”, dice Poggio. “Stavano discutendo per la programmazione-per linguaggi come Lisp. Non molti anni prima, le persone stavano ancora usando computer analogici. Non era chiaro a tutti al momento che la programmazione era la strada da percorrere. Penso che siano andati un po ‘ in mare, ma come al solito, non è in bianco e nero. Se pensate a questo come a questa competizione tra calcolo analogico e calcolo digitale, hanno combattuto per quella che all’epoca era la cosa giusta.,”

Periodicità

Dagli anni 1980, tuttavia, i ricercatori avevano sviluppato algoritmi per modificare i pesi e le soglie delle reti neurali che erano abbastanza efficienti per le reti con più di uno strato, rimuovendo molte delle limitazioni identificate da Minsky e Papert. Il campo ha goduto di una rinascita.

Ma intellettualmente, c’è qualcosa di insoddisfacente nelle reti neurali. Una formazione sufficiente può rivedere le impostazioni di una rete al punto che può classificare utilmente i dati, ma cosa significano queste impostazioni?, Quali caratteristiche dell’immagine sta guardando un riconoscitore di oggetti e come li unisce nelle firme visive distintive di automobili, case e tazze di caffè? Guardare i pesi delle singole connessioni non risponderà a questa domanda.

Negli ultimi anni, gli informatici hanno iniziato a venire con metodi ingegnosi per dedurre le strategie analitiche adottate dalle reti neurali. Ma nel 1980, le strategie delle reti erano indecifrabili., Quindi verso la fine del secolo, le reti neurali furono soppiantate dalle macchine vettoriali di supporto, un approccio alternativo all’apprendimento automatico basato su una matematica molto pulita ed elegante.

La recente rinascita nelle reti neurali — la rivoluzione dell’apprendimento profondo-viene gentilmente concessa dall’industria dei giochi per computer. Le immagini complesse e il ritmo rapido dei videogiochi di oggi richiedono hardware in grado di tenere il passo, e il risultato è stata la graphics Processing unit (GPU), che racchiude migliaia di core di elaborazione relativamente semplici su un singolo chip., Non ci è voluto molto perché i ricercatori si rendessero conto che l’architettura di una GPU è notevolmente simile a quella di una rete neurale.

Le GPU moderne hanno permesso alle reti a uno strato degli anni ’60 e alle reti a due o tre strati degli anni’ 80 di sbocciare nelle reti a 10, 15 e persino 50 strati di oggi. Questo è ciò a cui si riferisce il “deep” in “deep learning”: la profondità degli strati della rete. E attualmente, il deep learning è responsabile dei sistemi più performanti in quasi ogni area della ricerca sull’intelligenza artificiale.,

Sotto il cofano

L’opacità delle reti è ancora inquietante per i teorici, ma ci sono progressi anche su questo fronte. Oltre a dirigere il Centro per cervelli, menti e macchine (CBMM), Poggio guida il programma di ricerca del centro in Quadri teorici per l’intelligenza. Recentemente, Poggio ei suoi colleghi CBMM hanno rilasciato uno studio teorico in tre parti delle reti neurali.,

La prima parte, che è stata pubblicata il mese scorso sull’International Journal of Automation and Computing, affronta la gamma di calcoli che le reti di apprendimento profondo possono eseguire e quando le reti profonde offrono vantaggi rispetto a quelle meno profonde., Le parti due e tre, che sono state rilasciate come rapporti tecnici CBMM, affrontano i problemi dell’ottimizzazione globale, o garantiscono che una rete abbia trovato le impostazioni che meglio si accordano con i suoi dati di allenamento e l’overfitting, o casi in cui la rete diventa così in sintonia con le specifiche dei suoi dati di allenamento che non riesce a generalizzare ad altre istanze delle stesse categorie.,

Ci sono ancora un sacco di domande teoriche a cui rispondere, ma il lavoro dei ricercatori CBMM potrebbe contribuire a garantire che le reti neurali finalmente rompere il ciclo generazionale che li ha portati dentro e fuori favore per sette decenni.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *